Les métadonnées : où en est-on ?
  L'essentiel 


 

L'essentiel

Préconisations du SCÉRÉN
  Langage, nomenclatures
  Schéma simplifié
  Schéma complet

Pour aller plus loin
  Pourquoi standardiser ?
  Les standards
  Les formats
 
 
Il se publie de très nombreux documents sur le Web. Malheureusement, la recherche d'informations sur Internet est difficile et n'aboutit pas toujours aux documents les plus pertinents. Les moteurs de recherche, en effet, ne peuvent se fonder que sur les informations accessibles sur le Web, ce qui se résume le plus souvent à la liste des mots figurant dans les pages des documents.
Une des méthodes proposées pour améliorer la recherche sur le Web consiste à accompagner les documents publiés d'un ensemble d'informations destinées à mieux les identifier : mention de l'auteur et de l'éditeur, date de publication, résumé du contenu... Même si peu de moteurs de recherche s'appuient dès à présent sur ce type d'information, cette méthode présente un réel intérêt : l'ajout de contenu de nature sémantique aux documents publiés augmente fortement la qualité de l'information disponible pour les outils de recherche. Cela devrait déboucher, à terme, sur une amélioration des outils de recherche, en particulier pour les documents comportant ce type d'information.
Les métadonnées, qu'est-ce que c'est ?
Le terme de métadonnées est utilisé pour définir l'ensemble des informations techniques et descriptives ajoutées aux documents pour mieux les qualifier. Pour que ces données soient utilisables par d'autres, elles doivent s'inscrire dans des modèles largement reconnus par les acteurs du Web. Plusieurs organismes de standardisation ont donc proposé et publié des schémas de métadonnées susceptibles d'être utilisés par le plus grand nombre.
Le schéma de métadonnées le plus utilisé est proposé par l'organisation Dublin Core Metadata Initiative (DCMI) ; on l'appelle le plus souvent le Dublin Core. Il standardise l'utilisation d'une quinzaine de champs descriptifs : Titre du document - Auteur(s) - Editeur - Date de publication - Description...
Sans tenir compte de la forme standardisée que l'information doit prendre, on peut donner un exemple de métadonnées conformes à Dublin Core (pour un document fictif proposant des photographies de champignons) 

Titre
Champignons d'automne en Bourgogne
Auteur
Paul Amanite - Sophie Lactaire
Editeur
CRDP de Bourgogne
Description
Document présentant les principaux champignons comestibles et dangereux poussant dans la région en automne. 150 photographies accompagnées d'une légende détaillée.
Mots clés
Champignon - Bourgogne
Date de publication
15 octobre 2002
Type
Images
Droits
Les photographies peuvent être librement utilisées dans le cadre de la classe. Réutilisation par d'autres sites soumise à conditions (écrire à lactaire@coldmail.com)
Identification
http://crdp.ac-dijon.fr/svt/champi/


Diverses propositions de schémas concernant plus particulièrement des documents pédagogiques sont publiées. On peut citer en particulier le Learning Object Mode (LOM)l, issu de l'organisme de standardisation IEEE, ainsi que le document issu d'un groupe de travail du CRDP du Languedoc-Roussillon et présentant des extensions de Dublin Core pour le système éducatif français. Les outils mis en oeuvre par le SCÉRÉN sur ce site s'appuient très fortement sur ces propositions.

Qui produit des métadonnées ?
C'est bien sûr le créateur de chaque document mis en ligne sur le Web qui est le mieux placé pour ajouter les informations constituant les métadonnées. Le producteur ou l'éditeur du site est également concerné, en particulier pour veiller à la cohérence des métadonnées accompagnant les différents documents publiés sur le site. Les métadonnées sont mises en ligne sous une forme standardisée, au sein même des documents du site ou dans des fichiers spéciaux eux-mêmes accessibles sur le site, à côté des documents qu'ils décrivent.

Comment utilise-t-on les métadonnées ?
La conception de métadonnées pour accompagner les documents du Web n'a de sens que si des outils de repérage savent se servir de ces informations. On attend donc en particulier des moteurs de recherche qu'ils prennent en compte les métadonnées, pour aider les internautes à mieux trouver les documents correspondant à leurs demandes.
Actuellement, les principaux moteurs fondent leurs méthodes de recherche sur les éléments qu'ils peuvent extraire des pages Web : la liste des mots qui les compose, le titre de la page et parfois son URL. Il s'agit d'une approche très réductrice, assez éloignée du contenu et du sens réel du document. Mais comment pourrait-on imaginer qu'un moteur arrive à reconstituer du sens à partir de la liste des mots d'une page ? Certains ont tenté de le faire ou affirment qu'ils sont des moteurs « sémantiques », mais les résultats ne sont pas convaincants. Les méthodes mises en œuvre par les moteurs pour améliorer la pertinence des recherches se fondent en général sur d'autres critères : statistiques, occurrences des mots, notoriété des documents, fréquences des liens...
Les métadonnées, par leur définition même, apportent des informations de nature sémantique sur les documents qu'elles décrivent. En les prenant en compte, les moteurs peuvent améliorer leurs méthodes de recherche et donner des réponses plus pertinentes, dans certains cas. Par exemple, ils peuvent juger qu'un document répond particulièrement bien à une requête si le mot recherché se trouve dans le résumé ou dans la liste des mots-clés figurant dans les métadonnées. Dans une recherche portant sur un niveau scolaire ou sur une discipline particulière, la présence de cette information dans les métadonnées d'un document assure que le document correspond bien à la requête, alors que la simple présence du mot correspondant dans le corps du texte fournit beaucoup moins de garanties (en particulier pour des mots comme « Histoire » ou « Seconde »). Enfin, le moteur peut se servir du résumé proposé dans les métadonnées pour afficher les résultats d'une recherche plutôt que de tenter de faire un « résumé automatique » ou de reconstituer un extrait « pertinent » comme il le fait habituellement.

Spinoo et les métadonnées
Les moteurs de recherche courants ne se servent pas des métadonnées, ou du moins ne s'en servent que très partiellement. C'est pour cette raison que le SCÉRÉN fera évoluer le moteur de recherche Spinoo pour qu'il puisse prendre en compte des métadonnées. Ainsi, les documents pédagogiques qui comporteront des métadonnées générales (compatibles avec Dublin Core) ou des métadonnées plus spécialement adaptées aux contenus éducatifs (compatibles avec les schémas proposés) seront traités en respectant l'information portée par les métadonnées.


© CNDP - Métadonnées
Novembre 2002 - Tous droits réservés. Limitation à l'usage non commercial, privé ou scolaire.