WikiDeNovantura

WebSemantique

PagePrincipale :: DerniersChangements :: DerniersCommentaires :: ParametresUtilisateur :: Vous êtes ec2-18-212-90-230.compute-1.amazonaws.com

WEB SÉMANTIQUE



Sémantique, du grec semantikos, définit ce qui est relatif au sens, à la signification des unités linguistiques (Larousse).

Le web sémantique est une évolution du web ayant pour objectif de rendre le contenu de ses ressources (images, textes, vidéos …) accessible et interprétable non seulement par les internautes, comme c'est le cas actuellement, mais également par les machines.

Sommaire
1. Du web de document au web de données
2. Les applications
   2.1 Les applications actuelles
   2.2 Les applications futures
   2.3 Les applications au domaine de la formation
3. Les moyens techniques
   3.1 Les couches inférieures, déjà opérationnelles
   3.2 Les couches médianes, en cours de développement
   3.3 Les couches supérieures, à venir
4. Exemple de code “sémantique”
5. Les objections
   5.1 Les enjeux marketing
   5.2 Les enjeux sécuritaires
   5.3 L’impasse de la modélisation automatique des connaissances
6. Pour aller plus loin


1. Du web de document au web de données (1)



Quelques années après avoir inventé le World Wide Web, Tim Berners-Lee, fondateur et directeur du W3C (World Wide Web Consortium) en envisageait déjà, dans un document fondateur, son évolution naturelle : développer des langages qui permettront aux machines de consulter et d'interpréter les ressources disponibles sur le web. Il s’agit de passer du web de document au web de données. En 2001, Tim Berners-Lee explicite cette évolution, officialisant ainsi le terme « web sémantique ».

Sur le web, il existe deux façons d’échanger des informations :
• sous forme de document : l’utilisateur dispose d’informations préparées par l'auteur du document, qui propose un enchaînement logique entre les différents éléments. Le traitement de l’information est effectué à priori par l’auteur du document, c’est la rédaction.
• sous forme de données : les informations sont stockées dans des bases de données dans lesquelles sont définies les structures de données, les propriétés et les relations. L’information est élaborée à posteriori, c’est le résultat du traitement de la requête.

Le web sémantique tente d’allier les avantages des documents, intelligibles par l’homme et des bases de données, interrogeables par la machine.

En effet, contrairement aux humains, les machines ne comprennent pas le langage naturel (français, anglais, espagnol..). Les moteurs de recherche comme Google n’interprètent pas les informations qui se trouvent sur les pages web : ils indexent les milliards de pages du web selon les mots qu’elles contiennent et s’appuient sur la popularité des pages - le ranking - pour fournir à l’internaute les résultats les plus pertinents d’une requête. Pour qu’une machine analyse la signification des documents du web, il est nécessaire qu’elle puisse faire la distinction entre leurs différentes composantes : le contenu, la structure logique, le contexte et la présentation.

A cet effet, le web sémantique propose une technologie standardisée de représentation des informations contenues dans un document. Elle se calque par couches successives sur les différentes composantes des documents, allant de la présentation jusqu’à la connaissance contenue dans le document. Au niveau le plus élevé se trouve une représentation informatisée des connaissances, appelée une ontologie, qui est basée sur les concepts et les relations entre ces concepts. L’objectif est de permettre aux machines des raisonnements automatisés sur les connaissances.
Prenons comme exemple une ontologie du domaine de la pédagogie : les experts définissent déjà deux concepts : “devoir “ et “contrôle”. Ils spécifient ensuite que ces deux concepts sont liés : ils ont des attributs essentiels, c’est à dire des caractéristiques en commun et appartiennent au même réseau conceptuel.
Ces représentations vont servir à annoter sémantiquement les documents. Le résultat d’une requête pourra croiser plusieurs documents, plusieurs “silos” de données pour fournir le résultat approprié.
Ainsi, le moteur de recherche, en s’appuyant sur cette ontologie, déduira que si un utilisateur recherche “devoir”, il peut alors être utile de lui fournir aussi les documents indexés par “contrôle”.
La machine sera capable d’interpréter les informations contenues dans un document grâce à des attributs qui en déterminent le sens dans un contexte précis.
Retour au sommaire

2. Les applications (2)




Différentes applications du web actuel utilisent déjà les outils du web sémantique pour :

la recherche d’informations :
la recherche et le classement bibliographique et documentaire :
l’industrie et la recherche et développement par la création d’ontologies notamment dans les domaines de pointe comme la médecine avec OBO Foundry.
les réseaux sociaux, blogs et plateformes documentaires en agrégeant des données entre elles afin d’enrichir les possibilités de recherches d’informations et de connexion entre les membres (Open Graph Protocol de Facebook s’appuyant sur la syntaxe RDFa offre la possibilité de “liker” des pages et d’intégrer ces informations au profil : “j’aime” le site de tel artiste, son nom est ajouté automatiquement à mes artistes préférés).
la veille grâce au développement de flux RSS catégorisés et filtrés permettant ainsi une personnalisation des recherches. Exemple : Zone, un agrégateur de flux RSS sémantique.
le commerce au travers l’ontologie “Good Relations” qui permet de décrire de manière structurée les produits, les prix, et les informations relatives à l'entreprise facilitant ainsi son exploitation par les moteurs de recherche. (BestBuy).


Dès l’origine, les concepteurs du web sémantique en avaient cependant une vision plus large : favoriser l’extension de la connaissance humaine en rendant facilement accessibles toutes les données du web déjà connues. Pour cela, ces dernières seraient standardisées, (lisibles par tous), ouvertes (donc partagées) et reliées entre elles.

Cela devrait permettre une automatisation et une personnalisation des recherches et des traitements des données et des informations contenues sur le web, ainsi qu’à terme son extension aux objets matériels.


Ces applications apparaissent comme particulièrement adaptées à la formation :

• un accès facilité à l’information déjà présente sur le web : l’apprentissage peut alors se concentrer sur le traitement de ces informations et complexifier progressivement le niveau cognitif des tâches proposées.
• une indexation sémantique des contenus de formation favorisant la recherche, l’échange, l'agrégation et la combinaison des ressources pédagogiques à l’échelle du web. Dans leur forme actuelle, les normes SCORM (Sharable Content Object Reference Model) et LOM (Learning Object Metadata) ne sont pas compatibles avec les représentations structurées de l’information car elles n’intègrent pas de représentations enrichies des connaissances (liens, ontologies...). Les recherches sur les contenus pédagogiques adaptatifs, c’est-à-dire fournissant aux apprenants des parcours individualisables, cherchent néanmoins à faire converger les deux technologies.
• à terme, l’étude d’un domaine pourrait être complétée et formalisée par la création d’ontologies sur le sujet grâce aux outils du web sémantique, ceux-ci étant ouverts et partagés.
Retour au sommaire

3. Les moyens techniques (3)



Le World Wide Web Consortium (W3C) a donc défini un ensemble de standards qui permettent de conserver dans un format pérenne le contenu, la structure et le contexte de l’information selon un modèle en couches.
Chaque composant se sert des précédents pour fonctionner.


Les couches inférieures concernent les aspects syntaxiques, c'est-à-dire les formats à utiliser pour écrire, nommer et échanger des données de manière commune:

Le RDF (Resource Description Framework) : modèle de graphe permettant de décrire de façon formelle les ressources web et leurs métadonnées grâce à son triplet :
Exemple : soit la requête « Bernard Dutilleul » « habite » « ?x » ou « ?x » est la variable. Le système répondrait « Paris » si l'on suppose l'existence du triplet « Bernard Dutilleul » « habite » « Paris ».

Ce modèle permet de définir les formats des URI (Uniform Resource Identifier) : courte chaîne de caractères identifiant une ressource sur un réseau (par exemple une ressource web) physique ou abstraite, et dont la syntaxe respecte une norme d'Internet mise en place pour le World Wide Web (voir RFC 3986).


Actuellement, les efforts de développement portent sur les couches médianes (SPARQL, OWL et RIF/SWRL), qui doivent gérer la représentation des connaissances par les ontologies.
• L’OWL (Web Ontology Language) : langage de représentation des connaissances construit sur le modèle de données de RDF. C’est une couche supérieure pouvant caractériser des propriétés, séparer les propriétés “donnée” et “objet” et spécifier les liens entre elles. Il fournit les moyens pour définir des ontologies web structurées.
• Le SPARQL (SPARQL Protocol And RDF Query Language) est un langage de requête et un protocole qui permettra de rechercher, d'ajouter, de modifier ou de supprimer des données RDF disponibles à travers Internet.
• Enfin, le RIF (Rule Interchange Format) : règle de langage qui peut être utilisée pour échanger les règles entre les nombreux “langages de règle”.


Enfin, les couches supérieures à venir porteront sur l’amélioration des raisonnements en s’attachant à la validité des connaissances, à ce qu’elles soient démontrables, ainsi qu’à la possibilité de connaitre leur origine. Ces travaux visent à déterminer en quoi certaines connaissances sont vraies dans un lieu, une époque ou pour certaines personnes, mais pas dans un autre contexte.
Retour au sommaire

4. Exemple de code “sémantique”



Les standards de représentation des “couches inférieures” du web sémantique sont opérationnels et déjà couramment utilisés.
L’utilisation de ces technologies permet par exemple d’extraire des données de contact de type carte de visite, les fournir à d'autres sites web ou à un outil de cartographie, de les indexer, d’effectuer des recherches, ou encore de les charger dans un programme de gestion de carnet d'adresses,

Voici l’affichage sur une page web d’une fiche de contact :

Jean Lebon
La Société Exemple
604-555-1234
http://exemple.com/

Considérez le code HTML (langage de balisage actuellement utilisé pour le web) :

<div>
<div>Jean Lebon</div>
<div>La Société Exemple</div>
<div> 604-555-1234 </div>
<a href="http://exemple.com/">http://exemple.com/</a>
</div>

Dans cet exemple, les données sont présentes dans le document, mais elles ne sont pas structurées. Le lecteur humain reconnaît, par convenance, que le nom est placé en premier, puis la société et ainsi de suite. En revanche, avec ce système de balisage, rien ne permet à la machine d'identifier la nature et le sens de ces informations. Pour qu’une machine puisse attacher un sens à ces données, il est nécessaire de les représenter selon un format structuré.

C’est ce que fait le hCard (4) ou “Html Vcard”: Il s'agit d'un microformat, c’est à dire un formatage standard de publication des détails de contact des personnes, organisations et lieux, en différents langage de balisage et format de données ((X)HTML, Atom, RSS, ou XML).

Avec un balisage microformat, pour le même affichage final, le code de la page devient :

<div class="vcard">

<div class="fn">Jean Lebon</div>
<div class="org">La Société Exemple</div>
<div class="tel">604-555-1234 </div>
<a class="url" href="http://exemple.com/">http://exemple.com/</a>
</div>
Les caractéristiques d’une personne sont regroupées dans la classe “vcard” du microformat, qui est une représentation structurée et standardisée des données (standard vCard (RFC 2426).
Le nom formel, l'organisation, le numéro de téléphone et l'adresse web sont associés à des classes spécifiques (“fn”, “org”, “tel”, “url” ) qui sont elles-mêmes “emballées” dans la classe ="vcard". D’autres classes optionnelles existent dans le format hcard (ex: la date de naissance, l’URL de la photographie) .
Cette description étant standardisée, il est désormais possible pour les logiciels, comme les extensions des navigateurs, d’attacher un sens à l’information, de l’extraire et de la transférer vers d'autres applications, telles que l'extension de Firefox Operator ou les carnets d’adresses des logiciels de messagerie comme Outlook, Thunderbird ou Apple.
Retour au sommaire

5. Les objections (5)



Le web sémantique soulève de nombreuses objections: utopique et irréalisable pour les sémanticiens, dangereux pour ceux qui craignent que son usage serve avant tout des intérêts financiers et sécuritaires. Il remet également en question la sérendipité, c'est à dire le fait de trouver par hasard une information utile mais qu’on ne cherchait pas, par la diminution du surf aléatoire du fait de “la” réponse pertinente à une question.


Le marché portant un grand intérêt aux “big data” et à l’analyse des masses de données d’un point de vue commercial, les débouchés majeurs du web sémantique pourraient résider essentiellement dans le marketing.


Une autre crainte est que le web sémantique soit utilisé par les gouvernements pour en finir avec le “web caché”. Toute donnée étant postée avec ses métadonnées associées, elle deviendrait ainsi plus aisément contrôlable. Ainsi, depuis 2001 le Départements US de la Défense investit dans le web sémantique en vue d’améliorer son système d’information.


Enfin, le web sémantique sera-t-il capable de franchir l’étape ultérieure, c’est-à-dire à la modélisation automatique de la connaissance ? Des sémanticiens en doutent, estimant qu’il s’agit d’une vision simpliste de la complexité de la représentation des connaissances. Au delà de la difficulté technique, est-il pertinent de vouloir créer des ontologies “universelles”?

• Pour François Rastier, sémanticien au CNRS, les travaux sur le web sémantique éludent le problème pourtant crucial de la pertinence de cette représentation des connaissances. Il pointe notamment l’impossibilité de formaliser de façon décontextualisée le savoir. En effet, pour chaque assertion, il faudrait un mécanisme capable de distinguer s‘il ne s’agit pas d’une généralisation ("les Irlandais sont courageux") ou une approximation ("Il fait froid à l'extérieur"), et donc de la contextualiser, voire d’établir des combinatoires de contextes. Cette surenchère de métadonnées rendrait le marquage sémantique plus long et plus ardu que la création des ressources elles-mêmes.
• Pour Clay Shirky, journaliste américain et chercheur en NTIC, on ne peut réduire une prise de décision à une suite d’inférences (opérations de logique, syllogisme). Parmi l’ensemble des situations de la vie dans lesquelles nous prenons des décisions, rares sont celles purement basées sur des inférences logiques, mais bien plus fréquemment sur l’intuition, l’expérience, la confiance en autrui (prophètes, amis,…) et l’imagination. Ainsi le cerveau humain est capable de s’appuyer sur des données le plus souvent incomplètes, ce qui le rend infiniment plus performant que n’importe quel moteur d’ontologies.
• Florian Cramer, chercheur et enseignant en littérature comparée, rappelle dans sa “Critique du web sémantique” que si on tente de modéliser avec précision et sans ambiguïté une information, par essence floue et incomplète, on l’appauvrit plus qu’on ne l’enrichit car on perd le point de vue du concepteur. Comme la cosmologie géocentrée du Moyen-Age, toute tentative de description du monde à partir d’arbres complexes se base sur le prédicat d’une seule vision partagée du monde et l’appauvrit. Cette “vision globale” ignore la richesse des échanges humains qui provient de la capacité à échanger des données alors même que les points de vue sont différents.
Retour au sommaire

6. Pour aller plus loin




Comme le soulignent les chercheurs responsables de son développement, ce projet, qui concerne plus particulièrement les modules de formation en e-learning, se situe au carrefour de l’ingénierie des connaissances, de l’ingénierie éducative, et du web sémantique : les ressources ne sont pas indexées automatiquement à partir de leur seul contenu, c’est le responsable pédagogique qui fait le choix d’indexer ou non certains documents en fonction de l’intérêt de ce document pour l’apprentissage visé, de l’objectif pédagogique et des compétences visées par la formation.


Attacher du sens aux informations du web est une volonté qui n’appartient pas qu’au W3C. Google travaille à la sémantisation de son moteur et à la création de sa propre base d’ontologies et d’un graphe des connaissances. Mêmes ambitions, mais technologies différentes du standard du W3C.
Si Google ou un autre opérateur parvient à créer une gigantesque base d’ontologies privée et fournit le moteur qui les interroge selon des technologies fermées, quel serait alors le prix à payer pour accéder aux documents du web ? Quelle vision du monde nous serait proposée ? Il est cependant possible que le W3C parvienne à imposer ses normes du web sémantique, comme il est parvenu à affirmer XML en tant que standard d’interopérabilité face aux formats propriétaires.


Si le web sémantique et l’intelligence artificielle se rejoignent sur leur objectif : rendre les données accessibles par l’homme et la machine et automatiser leur traitement, les moyens préconisés diffèrent sensiblement. En effet, l’intelligence artificielle tend à adapter les méthodes cognitives humaines à la machine, la machine traitant l’information comme un cerveau humain, voir, par exemple, le projet Neucod (pour Neural coding). Le web sémantique peut alors être vu comme un ensemble de solutions transitoires, l’indexation sémantique des données étant effectué par l’homme.
Retour au sommaire


Notes :

(1) Le web sémantique — traduction par Élisabeth Lacombe et Jo Link-Pezet de l'article de Tim Berners-Lee, James Hendler, Ora Lassila, in Scientific American Magazin, mai 2001, p. 29-37 : http://goo.gl/Bd0f7
Internet Les technologies de demain p 92 - 93 Jean-Michel Cornu http://www.cornu.eu.org/files/cahiers1.pdf
Thèse de Benjamin Huynh-Kim-Bang “Indexation de documents pédagogiques : fusionner les approches du Web Sémantique et du Web Participatif”
http://tel.archives-ouvertes.fr/docs/00/45/22/59/PDF/theseBenjaminHKB-numeriqueFinale-v3.pdf
(2) « Web sémantique : quelles applications aujourd'hui ? » http://www.commentcamarche.net/faq/29732-web-semantique-quelles-applications-aujourd-hui
Le web sémantique — traduction par Élisabeth Lacombe et Jo Link-Pezet de l'article de Tim Berners-Lee, James Hendler, Ora Lassila, in Scientific American Magazin, mai 2001, p. 29-37 : http://goo.gl/Bd0f7
(3) Partie "moyens techniques"
Introduction to the Semantic Web (tutorial) Johnson - W3C
http://fr.wikipedia.org/wiki/HCard
(4) Hcard http://fr.wikipedia.org/wiki/HCard
(5) La partie "objections" est une compilation des objections exposées par les personnes suivantes :
François Rastier : “la sémantique du web” http://www.revue-texto.net/docannexe/file/1729/rastier_web_semantique.pdf
Florian Cramer : http://www.nettime.org/Lists-Archives/nettime-l-0712/msg00043.html
Clay Shirky : http://www.shirky.com/writings/semantic_syllogism.html
US departement of defense (DOD):
http://fcw.com/articles/2011/11/25/dod-rfi-semantic-web-data-sharing.aspx
http://semanticweb.com/semtechbiz-keynote-department-of-defense-mandates-use-of-semantic-technology_b21133

Retour au sommaire


Version du : 12 novembre 2012
Équipe de rédaction : Sophie Hardy, Azouz Manai, Nathalie Percheron, Anne-Céline Ternois
Il y a 45 commentaires sur cette page. [Afficher commentaires/formulaire]