1. Inledning
2. Vad är semantik? 3. Den semantiska webben 4. Folksonomier och taggonomier 5. Andra försök att skapa metadata Länkar, se min särskilda sida » 1. InledningDe första tre sidorna i den här sektionen har handlat om den andra webben, Web 2.0, och den diskussion som förts kring den. På den här sidan tänker jag diskutera uttrycket "den semantiska webben", som tidigare kopplades samman med "Web 2.0", men som numera används mer självständigt och avser ett något annat område. Historiken är något otydlig, men man kan säga att begreppet "den semantiska webben" funnits sedan slutet av 90-talet. Sedan 2002 har det haft en egen och självständig tolkning, som jag här diskuterar. Mina länkar hittar du som vanligt på en särskild sida. Gå dit » 2. Vad är semantik?Norstedts Svenska Ordbok säger så här om ordet "semantik": "Semantik [är] läran om betydelsen hos språkliga uttryck. (...) även utvidgat om läran om förhållandet mellan tecken och det betecknade över huvud taget" Semantik verkar alltså handla om det som finns mellan det vi säger och det vi menar. Men begreppet är vagt och svårt att precisera, i och med att det har en utvidgad betydelse. När jag läste filosofi fick jag lära mig att syntax och semantik är två sidor av samma mynt. Syntaxen kan med ett annat ord kallas "språkregler" och säger hur ord kan bildas av bokstäver och sättas samman till meningar. Semantiken är då det som dessa meningar beskriver. Exempelvis går det att sätta samman orden "webben", "jag" och "gillar" på flera olika sätt. Syntaxen bestämmer vilka sätt som är möjliga, t.ex:
Syntaxen säger också att några sätt inte följer de språkliga reglerna lika väl:
Däremot säger syntaxen inget om vad de olika uttrycken faktiskt betyder. Det hör i stället till semantiken. Då man studerar meningarna utifrån den semantiska innebörden ser man t.ex att (1) och (3) är påståenden och (2) en fråga. Semantiska studier bedriver man inom olika discipliner. Inom lingvistiken eller språkvetenskapen studerar man hur språket används, t.ex vad vi menar med det vi säger och när vi säger det. Detta är ofta ganska pragmatiska studier där man undersöker hur folk faktiskt pratar. Inom filosofin finns flera olika semantiska discipliner. Inom den del som kallas logik studerar man språket på ett väldigt abstrakt sätt. Meningsteorin diskuterar bl.a hur, när och varför språkliga satser kan uttrycka meningsfulla påståenden. Semiotiken försöker se språket som en social produkt där teckensystemet blott utgör en liten del av hela vårt språk. På senare år har man inom datavetenskapen (ibland kallad datalogi) börjat intressera sig för förhållandet mellan olika programspråks syntax och det man kan uttrycka genom det, dvs semantiken. Man pratar där ofta om "computer-processable meaning", som jag skall prata mer om i nästa avsnitt. 3. Den semantiska webbenSom jag skrev i inledningen använde många tidigare uttrycket "den semantiska webben" ("the semantic web" på engelska) synonymt med "Web 2.0". Den främsta anledningen var kanske att båda uttrycken i början var ganska suddiga i sina konturer. Båda handlar om något som skulle kunna kallas för "ett semantiskt sammanhang". Läser man artiklar från sutet av 90-talet och början av 00-talet, ser man många visioner kring vad detta egentligen är. I "The Semantic Web" av Tim Berners-Lee, James Hendler och Ora Lassilai från Scientific American i maj 2001 kan man läsa om hur hemelektroniken i det framtida hemmet kommunicerar. När telefonen ringer skickar den en signal till stereon, som automatiskt sänker ljudet. När man behöver specialistvård letar webbläsaren upp den läkare som har rätt specialistkompetens och en tid som passar. De sammanfattar visionen så här: "The Semantic Web will bring structure to the meaningful content of Web pages, creating an environment where software agents roaming from page to page can readily carry out sophisticated tasks for users." Men att skapa så sofistikerade system ligger ganska långt in i framtiden. Sedan 2004 har diskussionerna kring "den semantiska webben" därför nästan uteslutande handlat om hur man kan göra sökningen efter information på olika söktjänster enklare. Så här står det t.ex i Computer Swedens ordlista: "Semantiska webben - (the semantic web) - satsning på att förse webbsidor med beskrivningar av innehållet, så att sökningar på webben kan bli enklare och mer intuitiva. Beskrivningarna ska vara maskinläsbara och användas av sökmotorer. Syftet är att komma bort från begränsningarna i sökmotorer som Google, som hittar sidor bara om de innehåller de ord som användaren frågar efter. Med den semantiska webben ska man också kunna söka med ord som beskriver innehållet." Ett problem med att nå dit är begränsningarna i nuvarande webb. Det är nämligen inte byggt för datorer utan för människor. Richard MacManus och Joshua Porter skriver om detta i "Web 2.0 for Designers", där de kallar den första webben, Web 1.0, för "a web of documents" och den framtida webben för "a web of data". Det vi ser just nu, menar de, är ett första steg mot den nya webben: "The Web of documents has morphed into a Web of data. We are no longer just looking to the same old sources for information. Now we’re looking to a new set of tools to aggregate and remix microcontent in new and useful ways." Utmaningen för olika sajter bestod tidigare att skapa en stor uppsättning dokument som täckte upp det besökaren ville ha. På den nya webben kommer besökarna i högre utsträckning att bidra med data. Det är denna data som utgör det semantiska, meningsfulla innehållet. McManus och Porter skriver att den stora utmaningen nu blir att försöka skapa en webbsajt där detta semantiska innehåll kan fångas och utnyttjas på ett mer effektivt sätt. För att förstå problematiken måste man titta på dagens begränsningar. Det är dels alla bilder och ljudfiler som kräver ögon och öron för att kunna tolkas. Sådant saknar maskinerna. Dels är det alla de datafiler som finns, som är skapade i program som inte är webbkompatibla. Här handlar det om alltifrån kalkyler till diagram och kalendrar till olika databasformat. Listan kan göras lång över sådana filer. Men sedan handlar det också om metainformation, som vem som skapat det, äger rättigheterna till det, vilken typ av ämnesområde som avhandlas, osv. Sådant måste också kunna läggas till. Sedan länge har vissa företag försökt bryta ny mark och ta tillvara det semantiska innehållet och göra det maskinvänligt. McManus och Porter nämner bl.a Amazon.com, som gjort sina databaser öppna för alla. Ett annat exempel är de många webbkataloger som finns. En webbkatalog är en söktjänst med länkar till webbsidor som är sorterade efter innehållet. Yahoos internationella webbkatalog brukar nämnas som en av de största och bästa. Ett annat och mer Web 2.0-inspirerat är Dublin Core Metadata Initiative, som jag återkommer till nedan. Båda påminner lite om hur böcker är sorterade i ett bibliotek. Problemet med dagens webbkataloger är att de måste skapas manuellt, eftersom det inte finns något effektivt sätt att automatisera arbetet. Men hur skall man då gå ifrån dagens dokumentsystem till den nya webbens semantiska innehåll? 4. Folksonomier, taggonomierEtt sätt är att låta alla som bidrar med material på en webbsida själva ange all den information som behövs. Ett exempel på det är fotodelningssajten Flickr, där folk "taggar" bilderna dem med lämpliga sökord. En annan sajt som ofta nämns är del.icio.us. Likadant går allt oftare att göra när man skriver inlägg på forum, gör kortare recensioner av en bok man köpt, gör sökningar på söktjänsterna, osv. Folksonomier (folksonomy på engelska, ibland även "collaborative tagging") och taggonomier (tagsonomy) är namn på sådana metoder eller klassificeringssystem. "Folk+onomi" och "taggonomi" anspelar på orden "folk" och "taxonomi". En taxonomi är en professionell och ofta kommersiell kategorisering av data. Fördelen med folksonomier framför professionella klassificeringar är att de uppdateras enklare och snabbare. Dessutom skapas de av användarna, som ofta har en större förståelse för det semantiska innehållet. Engelska Wikipedia skriver: "After all, folksonomies are generated by people who have spent a great deal of time interacting with the content they tag. (...) a folksonomic category arises from an individual's engagement with the tagged conten (...) Folksonomies therefore convey information on multiple levels, including information about the people who create them, and they therefore invite human engagement." Ibland används "folksonomi" för att beteckna klassificering för allmänt bruk - för "folk i allmnhet". Taggonomi blir då ett personligt (eller privat) klassificeringssystem.
Bilden till höger skulle kunna taggas med "hund", "ligga", "beredd", "brun", "grön", "gräs", "blågult" och sedan en rad andra taggar, efter hur man uppfattar den. Antingen skrivs taggarna in av den som lägger upp bilden (taggonomi) eller så kan besökarna skapa egna taggar för eget bruk (taggonomi) eller för allas bruk (folksonomi). Dessa sökord används sedan för att söka efter bilder på sajten. Söker man på "hund" så kommer bilden upp. Sökmotorn använder taggarna för att "förstå" sammanhanget - det semantiska innehållet. Man kan t.ex få reda på liknande taggar för att på så vis hitta liknande bilder. Man kan se taggar från en viss person för att få reda på vad den personen tyckt eller tänkt. Man kan få alla taggar för en viss bild för att se hur man själv skall tagga sina bilder. Folksonomier och taggonomier är alltså sätt att skapa metadata, dvs data som beskriver annan data. Det finns några problem med folksonomier, som brukar kallas "metabrus". Det kan vara felstavade eller irrelevanta taggar. Jag återkommer till problemen på en särskild sida. Läs mer » På shoppingsajter tillämpar bl.a Amazon ett folksonomi-liknande system, där man får tips på liknande produkter. När detta skrevs, i juli 2006, har varje produktsida en rad olika sådana förslag. Bland dem med "semantiskt innehåll", kan följande nämnas: Customers who bought this item also bought Customer Reviews Customer Discussions ProductWiki: Product Information from Our Customers Customers interested in this title may also be interested in What do customers ultimately buy after viewing items like this? Poängen med dessa olika rubriker är alltså att hjälpa kunden hitta liknande produkter. Självklart vinner Amazon på denna merförsäljning, men kunden blir också mer nöjd genom att ha enklare att hitta det som är intressant. 5. Andra försök att skapa metadataJag har nämnt Flickr, Amazon och Wikipedia som intressanta försök att skapa folksonomistyrda system med metadata. Här skall jag nämna ett par andra försök. The Dublin CoreEtt försök till standardisering av metadata-hantering går under namnet "The Dublin Core Metadata Initiative" (DCMI) eller ibland bara "The Dublin Core". Det härstammar ur "The Online Computer Library Center" (OCLC), som ligger i Dublin, i Ohio, USA, och har alltså ingenting med Irland att göra. Det är en löst sammanhållen "mötesplats" där man diskuterar informationshantering, i synnerhet metadata. Man har ett forum, anordnar seminarier, osv. Man har tagit fram några olika system för att beskriva information. "The Simple Dublin Core Metadata Element Set" (DCMES) använder 15 metadataelement, som liknar metataggarna i Html. De anger titel, vem som skapat sidan, vilket ämne som behandlas, publiceringsdatum, osv. Utifrån detta "set" har man sedan skapat olika kompletteringar. Allt utgår ifrån XML-standarden och dess förgreningar, t.ex RDF. Jag berättar mer om RDF på en separat sida. L äs mer i innehållsförteckningen. (») Metamemetik och mikroformatEtt lite annat försök bedrivs av The Global Multimedia Protocols Group (GMPG). De sysslar enligt dem själva med "metamemetik". Om jag förstår saken rätt är de intresserade av att skapa sätt att hantera kommunikationen mellan människor, t.ex på forum och i webbloggar. Memetik var för mig ett okänt begrepp då jag började skriva den här sidan. Det finns inte med i mina ord- och uppslagsböcker och gav blott ett fåtal träffar på Google. På Wikipedia läste jag mig till att ordet mem kommer från grekiskans ord för minne. Ordet lär ha introducerats 1976 av Richard Dawkins i boken "Den själviska genen" och har sedan dess fått flera olika tolkningar. Ett mem är ett slags tankemönster som "överförs" från person till person i en kultur och gör att ett samhälle utvecklas kulturellt. Exempel på en sådan utveckling skulle t.ex kunna vara våra begrepp: de utvecklas och får olika innebörder i olika kulturer och tidsepoker. Metamemetik skulle på det här viset kunna vara beskrivningar av dessa mem (eller begrepp), där man klargör hur memen är uppbyggda, utvecklas och liknande. Så tolkar jag i alla fall GMPGs text på sin hemsida: "The first aim of Metamemetics is to create a structure of principles that foster the construction and propagation of elemental ideas." Deras tekniker heter "XHTML Friends Network" (XFN) och "XHTML Meta Data Profiles" (XMDP). Ibland kallar man sådana tekniker för mikroformat (microformat) eftersom man "utökar" Xhtml med lite nya sätt att märka upp innehåll. Man använder sig inte av nya element utan av nya attribut inne i de befintliga elementen, framförallt class, rel och rev. Ytterligare en teknik för mikroformat går under kortformen FOAF eller "Friend of a Friend". Det är ett projekt och en mjukvara som analyserar sociala nätverk på Internet. När man skriver om andra så namnger man ju dem ofta och pratar om dem på vissa sätt. Projektet syftar till att söka efter sådana kopplingar och organisera dem. Jag skriver möjligen mer om dessa tekniker på en kommande sida. Titta i innehållsförteckningen om det finns något. Gå dit » Den här sidan är en del av Jonas Webresurs - www.jonasweb.nu - copyright © 1998-2007
|