Lenka data utan semantikk?

Utviklinga av den semantiske web-en har gått frå ei ekstrem retning (overfokus på ontologiar) til den stikk motsette: lenka data nesten utan semantisk informasjon.

Ontologiar er svaret

Etter introduksjonen av den semantiske web-en for vel 15 år sidan følgde det ein periode der nesten alt handla om ontologiar og nesten ingen ting om underliggjande data. I ti år såg utviklinga av den semantiske web-en ut til å vera berre for spesielt interesserte, og desse var stort sett interesserte i ontologi-utvikling.

Data er svaret!

Så tok utviklinga ei endring til den motsette sida ved introduksjonen av lenka data (Linked Data). Søkjelyset vart sett på data meir enn ontologi, og resultatet er kanskje at me har kasta barnet ut med badevatnet. Den store interessa for opne data kombinert med teknologien lenka data gir grunn til å spørja om me har gått frå ei veggrøft til ei anna?

Forskarane Pascal Hitzler (Wright State University, USA) og Frank van Harmelen (Vrije Universiteit Amsterdam) problematiserer dette i den interessante artikkelen ”A reasonable Semantic Web”.

Dagens lenka data manglar semantikk

Dei argumenterer der for behovet for meir semantisk informasjon i lenka data. Dagens lenka data-sky er problematisk sett frå eit datagjenfinnings-synspunkt. Det hjelper ikkje å ha alle data i maskinlesbare triplar (RDF-format) når den semantiske informasjonen nesten er fråverande.  Sjølv grunnleggjande RDF-konstruksjonar som rdfs:subClassOf og rdfs:domain manglar og me står stort sett tilbake med OWL-konstruksjonen owl:sameAs, som i tillegg svært ofte er feil brukt!

Semantisk web som delt grensesnitt

Hitzler og van Harmelen meiner me må sjå på den semantiske web-en som eit delt grensesnitt (”shared interface”). Dei meiner vidare at me må sjå på den semantiske web-en som ein ”gull-standard”; dvs. som ei ideell rettesnor som vanskeleg kan oppnåast i praksis, men som ein bør målast mot. Dei brukar fagfeltet Informations Retrieval som eksempel og viser korleis idealparametrane precision og recall er ideelle størrelsar som ikkje let seg oppnå 100 % og som er innbyrdes motstridande. Like fullt fungerer desse parametrane godt for å måla effektivitet og kvalitet ved nye tekstsøkesystem.

Feiltolerante system

Dei argumenterer vidare for at den storskala web-en i sin natur er full av manglar og feil og at semantiske system må handtera det på ein god måte. Fram til no har semantiske web-system teke som utgangspunkt eit ordna univers der alle reglar blir følgde. Web-en, med sin ”bottom-up”-tilnærming, fungerer ikkje slik, og det må storskala-system ta høgde for skal dei ha ein sjanse.

Formell logikk ikkje einaste vegen

Ein konsekvens at denne tankegangen er at dei resonneringssystema baserte på formell logikk (deskriptiv logikk) ikkje kan fungera som det einaste systemet. Det blir for mykje ”enten eller”, og det trengst ei meir fleksibel tilnærming med større grad av feiltoleranse.

For å oppnå digital samhandling (interoperabilitet) gjennom den semantiske web-en, meiner dei følgjande må vera på plass:

1. ein delt ontologi som byggjer på formell semantikk

2. den formelle semantikken bør sjåast på som ein gull-standard, men treng ikkje vera feilfri eller komplett

3. systema må kunna handtera feil og støy, ulike perspektiv og usikkerheit

Alternative resonneringsmåtar

For å få til dette, peiker dei på alternativ, tilnærminga resonnering (”approximate algorithms”), maskinlæring, natur-inspirert databehandling eller metodar brukte i ”data mining” eller informasjons¬¬gjenfinning (Information Retrieval).

Det viktigaste å ta med seg frå artikkelen er likevel åtvaringa mot å la lenka data (for-)bli ein metode strippa for semantikk.