RDF
Le Ressource Description Framework (RDF) est un standard du W3C1 pour représenter de la connaissance sous forme de graphe.
- Multigraphe signifie qu’il peut comporter des boucles et des arêtes multiples.
- Orienté signifie que les signifie que les arêtes ont un sens.
- Étiqueté signifie que les arêtes ainsi que les sommets portent une étiquette
Un Multigraphe orienté étiqueté
Triple RDF
Les graphes RDF sont représentés avec des triples RDF au format Sujet - Prédicat - Objet, ou plutôt « S ; P ; O » (sujet pour le nœud de départ, prédicat pour l’arête et objet pour le nœud de destination).
Un triple RDF
Le sujet représente la ressource à décrire (cela peut être un document, une personne, un objet physique ou un concept abstrait).
L’objet représente la valeur de la propriété, cela peut être une ressource ou bien un littéral2.
Format
Les ressources sont identifiées par des URI3 de façon unique et pérenne. Les sujets eux peuvent aussi être des nœuds anonymes.
Il existe de nombreux formats4 pour représenter les graphe RDF. Le meilleur compromis entre la lisibilité par les humains et l’empreinte mémoire est le format Turtle (.ttl) normalisé par le W3C.
@prefix ex: <http://example.org/> .
@prefix dbo: <http://dbpedia.org/ontology/> .
@prefix geo: <http://www.w3.org/2003/01/geo/wgs84_pos#> .
@prefix xsd: <http://www.w3.org/2001/XMLSchema#> .
ex:Palaiseau a dbo:City ;
dbo:name "Palaiseau"@fr .
ex:TelecomParis a dbo:EducationalInstitution ;
dbo:name "Télécom Paris"@fr ;
dbo:location ex:Palaiseau ;
geo:lat "48.7132"^^xsd:decimal ;
geo:long "2.2002"^^xsd:decimal .
ex:IpParis a dbo:EducationalInstitution.
ex:Telecomparis dbo:Member ex:IpParis.
Un graphe RDF sous format Turtle
Le W3C a créé la norme SPARQL5, un langage de requête qui permet d’accéder, modifier ou supprimer des données RDF.
Web Sémantique
Le Web Sémantique est une extension du Web standardisé par le W3C, il encourage l’utilisation de format de données et de protocoles sur le modèle RDF. Il permet le partage et la réutilisation de données entre plusieurs applications, entreprises et groupes d’utilisateurs.
L’objectif est de créer une toile de données qui peut être traitée directement et indirectement par des machines pour aider leurs utilisateurs à créer de nouvelles connaissances.
Le Web Sémantique vise à lier et structurer l’information sur Internet pour accéder simplement à la connaissance qu’elle contient déjà.
Un exemple
Une ontologie est un modèle de données contenant des concepts et relations permettant de modéliser un ensemble de connaissances dans un domaine donné.
Un magasin en ligne peut utiliser une ontologie pour structurer les produits qu’il a dans son magasin, avec des concepts comme des téléphones, ordinateurs etc…
L’utilisation d’une ontologie permet d’utiliser les relations sémantiques pour pouvoir améliorer son moteur de recherche, si un client cherche smartphone, le moteur comprend que cela inclue les termes comme téléphone, iPhone et peut aussi recommander tous les accessoires compatibles avec des smartphones.
WikiData
est une base de connaissance libre, conçue pour centraliser les données du mouvement Wikimédia6.
On y retrouve des données structurées liées par exemples au pages Wikipédia. On peut interroger cette base de donnée avec SPARQL. On peut chercher, par exemple, les cent villes les plus peuplées du monde, ou bien les dix villes les plus peuplées en Essonne…
Requète SPARQL sur Wikidata donnant les 10 villes les plus peuplés en Essonnes
Le dataset de Wikidata utilise des identifiants pour représenter les relations ou les objets. Ces identifiants ne sont pas bien lisibles par les humains.
Par exemple, ici wdt:P131 correspond à la relation localisation administrative et wd:Q3368 correspond à l’objet Essonne.
Cette requête sur Wikidata nous donne les résultats suivants :
Résultat des 10 villes les plus peuplées en Essonne
World Wide Web Consortium(organisme de standardisation du Web responsable des normes HTML, CSS, PNG, SVG…) Plus précisément, dans des multigraphes orientés étiquetés. ↩︎
une chaîne de caractère, un nombre, une date Le prédicat est une propriété associé a au sujet avec pour valeur l’objet, Il est lui même une ressource. ↩︎
Universal Ressource Identifier Les littéraux peuvent être ordinaires (non typés) ou bien typés pour exprimer la nature de la valeur. Par exemple la date de naissance de quelqu’un sera typée
xsd:date, qui est une façon concise d’écrire<http://www.w3.org/2001/XMLSchema\#date>avec l’utilisation de préfixe. ↩︎XML, N3, N-Triples… ↩︎
SPARQL Protocol and RDF Query Language ↩︎
Par exemple Wikipédia, Wikisource… ↩︎