Le projet ModRef (Modélisation, Référentiels et Culture Numérique) fédère un ensemble
de projets du laboratoire Labex Les Passés dans le Présent :
histoire, patrimoine, mémoires (Voir http://passes-present.eu/)
de l'université de Paris Nanterre et implique divers organismes, parmi lesquels :
- MoDyCo (UMR 7114 - Modèles, Dynamiques, Corpus) : http://www.modyco.fr/fr/
- BDIC (Bibliothèque de la Documentation Internationale Contemporaine) : http://www.bdic.fr/
- MAE (Maison de L'Archéologie et de L'Ethnologie) : http://www.mae.u-paris10.fr/
- ArScAn (UMR 7041 - Archéologie et Sciences de l'Antiquité) : http://www.mae.u-paris10.fr/arscan/
ModRef a pour objectif d'apporter une expertise numérique aux différents projets du Labex qu'il fédère en son sein
ainsi que de proposer une Preuve Conceptuelle (Proof of Concept ou POC)
autour des questions du "linked open data" et de la modélisation via des référentiels,
afin d'encourager les débats sur ces problématiques
de migration de données vers le web sémantique via la création et l'exploitation de
"triplestores" (collections ou entrepôts de fichiers RDF). La norme CIDOC-CRM
(cf. http://www.cidoc-crm.org/) a été choisie car elle est actuellement la norme de
référence pour la description sémantique de données muséographiques ou d'héritage culturel.
Une implémentation OWL du CIDOC-CRM par l'Université de
Erlangen-Nuremberg est disponible à l'adresse suivante : http://www.erlangen-crm.org/.
Trois projets ont été sélectionnés pour la phase de Preuve Conceptuelle de ModRef :
- CDLI (Cuneiform Digital Library Initiative) :
Conservatoire numérique ("musée virtuel") de l'ensemble des documents antiques rédigés
en écriture cunéiforme (cf. http://www.cdli.ucla.edu)
- ObjMythArcheo : Objets antiques archéologiques à iconographie mythologique (cf. http://www.limc-france.fr et http://medaillesetantiques.bnf.fr)
- BiblioNum : Bibliothèque numérique sur l'histoire de France du 20ième siècle (cf. http://www.argonnaute-u.paris10.fr)
Table. Comparaison des données des projets de la Preuve Conceptuelle de ModRef
|
CDLI |
ObjMythArcheo-LIMC |
BiblioNum-BDIC |
Langues |
Anglais |
Français-Anglais |
Français |
Taille (Textes) |
300 Mo |
100 Mo |
100 Mo |
Nombre de données |
313 332 objets - 105 000 exposés |
17 424 objets - 8250 exposés |
77 collections - 62 392 fichiers |
Structure logique |
Base de données de type tableur |
Base de données relationnelles |
XML-EAD |
Nombre d'éléments de structure logique |
1 table de 61 attributs |
59 tables |
146 éléments XML-EAD |
La migration de données vers des triplestores est un processus qui passe par différentes
étapes :
- préparation des données (étude et description structurelle des données),
- modélisation sémantique et alignement des données,
- création des triplestores - migration des données vers des triplestores,
- exposition et visualisation des triplestores,
- exploration et interrogation des triplestores notamment via des
formulaires généraux et des "end point sparql"
(interface de saisie et d'exécution de requêtes sparql).
Ainsi, il s'agit principalement (1) de passer de données non structurées ou semi structurées
(notes, livres, html) vers des données structurées
(tableur, base de données relationnelles, fichiers XML)
et ensuite, (2) de transformer ces données structurées en données sémantiques (fichiers RDF)
afin d'améliorer le partage, l'échange et la découverte de nouvelles connaissances.
D'autre part, plusieurs projets dans le monde s'intéressent à la migration de données vers des
triplestores (CIDOC-CRM ou non), parmi lesquels :
- Le British Museum (cf. http://collection.britishmuseum.org/)
qui est un musée sur l'histoire et la culture humaine situé à Londres au Royaume-Uni
et qui utilise le CIDOC-CRM
- Le Yale Center for British Art qui utilise le CIDOC-CRM.
Voir https://britishart.yale.edu/collections/using-collections/technology/linked-open-data
- Arches
(cf. http://www.getty.edu/conservation/our_projects/field_projects/arches/)
qui est une collaboration entre le Getty Conservation Institute (GCI)
et le World Monuments Fund (WMF) sur l'héritage culturel immobilier (monuments, ponts)
et qui utilise le CIDOC-CRM
- Biblissima (cf. http://www.biblissima-condorcet.fr/)
qui traite du Patrimoine écrit français du Moyen Âge et de la Renaissance
et qui utilise le CIDOC-CRM
-
- DBPedia (cf. http://www.dbpedia.org/sparql) qui est une encyclopédie en ligne
et qui n'utilise pas le CIDOC-CRM mais différents langages de métadonnées comme:
dbpedia, foaf, umbel, schema.org, dublin core, geo
- Nakala (cf. http://www.nakala.fr/sparql) qui est un service pour déposer,
documenter et diffuser des données
et qui n'utilise pas le CIDOC-CRM mais différents langages de métadonnées comme:
foaf, skos, dublin core, vcard
- Symogih (cf. http://www.symogih.org/sparql) pour la gestion
de l'information historique
et qui n'utilise pas le CIDOC-CRM mais différents langages de métadonnées comme:
symogih, example.org, geo