
Les principes FAIR : optimiser la gestion des données
On utilise chaque jour les ressources numériques. Pour simplifier les choses, il peut s’avérer utile d’employer des lignes directrices ou principes FAIR. Ces principes ont pour principal objectif de permettre aux machines de trouver et utiliser les données facilement. Il est donc indispensable de bien comprendre ces principes et de comprendre leurs enjeux. Ils sont en effet très utiles pour bien gérer les données. Quels en sont les 4 piliers et dans quel cas les appliquer ? Nous allons voir tout cela.
Principes FAIR : définition et enjeux
Les principes FAIR sont considérés comme des guides pour améliorer l’utilisation et la réutilisation des données issues du Big Data. Bref, améliorer la gestion des données.
Ceux-ci doivent donc être faciles à trouver (Findable). Pour cela, il est conseillé de :
Déposer les données dans un lieu unique (tel qu’un entrepôt),
Attribuer un identifiant unique aux jeux de données (comme un DOI, par exemple),
Décrire les données via des métadonnées complètes.
Ils doivent également être accessibles. Après avoir trouvé les données utilisables, il est important de savoir précisément comment y accéder. Pour que celles-ci soient accessibles, on pourra définir des conditions d’accès. Celles-ci devront être faciles d’accès mais présenter un accès restreint. Elles ne seront pas en libre accès mais resteront utilisables.
Ces données doivent encore pouvoir être lues et modifiées. Elles doivent donc être Interopérables. Pour cela, il est important de :
Privilégier des formats de fichiers très utilisés,
Fournir le code source du logiciel exploitable pour traiter et analyser ces données,
Privilégier les métadonnées et vocabulaires standards,
Fournir des liens vers d’autres ressources utiles.
Ces données doivent être utilisées facilement, combinées et enrichies. Elles doivent donc être réutilisables (ou Reusable). Pour cela, il est nécessaire de :
Associer une licence de diffusion aux données,
Associer de la documentation pour contextualiser les données.
Ces pratiques sont facilitées par l’utilisation d’un entrepôt de données. Certaines pratiques peuvent également être appliquées sans dépôt. Il est important de prendre en compte que les datas sont capitales pour les entreprises.
Origine et objectifs des principes FAIR
Les premiers principes FAIR ont été publiés pour la première fois dans la revue Scientific Data en 2016. C’est dans l’article The FAIR Guiding Principles for scientific data management and stewardship que ces principes FAIR sont apparus. Leur principe de base est de faciliter le réparage, l’accessibilité et l’utilisation des données.
Les chercheurs se sont appuyés sur les connaissances scientifiques plus anciennes telles que la reproductibilité des résultats et leur croisement. Ces données auront néanmoins besoin de données originelles et des conditions d’obtention de celles-ci. Les chercheurs ont donc tenté de faciliter l’accès aux publications en rapport et aux données de recherches. De nombreuses ont permis de rendre les mesures plus accessibles et découvrables.
Pourquoi ces principes sont essentiels pour la gestion des données ?
Ces principes sont essentiels pour les mises en œuvre des normes et caractéristiques utiles pour la gestion des données.
Les 4 piliers des principes FAIR
Revenons plus en détail sur ces principes.
Trouvable (Findable) : comment organiser les données pour qu'elles soient accessibles ?
Les métadonnées doivent être facilement trouvables par les utilisateurs humains et machines.
Il est toutefois indispensable qu’elles soient dotées d’un identifiant unique qui est utilisable à l’échelle mondiale. Elles doivent également, comme nous l’avons déjà indiqué, être décrites à l’aide de riches métadonnées. Celles-ci doivent indiquer clairement l’identifiant des données décrites et doivent être enregistrées ou indexées dans une ressource ouverte.
Accessible : garantir un accès ouvert et contrôlé aux données
L’accès aux données doit être aisé, avec ou sans authentification ou autorisation.
Il est donc nécessaire que les métadonnées soient récupérables facilement via leur identifiant et un protocole de communication normalisé. Celui-ci doit être ouvert, gratuit et implémentable mondialement. Il doit également prévoir une procédure d’authentification. Les métadonnées doivent donc être accessibles, même si les données ne le sont plus.
Interopérable : favoriser l'échange et la compatibilité des données
L’interopérabilité des données va permettre la réutilisation et l’échange des données entre utilisateurs. Les données doivent donc pouvoir être intégrées à d’autres données et s’interopérer avec des flux de travail ou des applications. On pourra ainsi les analyser, les stocker et les traiter.
Réutilisable : rendre les données exploitables pour de nouveaux usages
Il est indispensable de pouvoir réutiliser les données. Elles doivent pour cela être bien documentées et décrites. Il sera alors nécessaire de mettre en place une licence accessible et très claire qui va définir les conditions de réutilisation. Il est donc incontournable que les métadonnées soient décrites avec une pluralité d’attributs pertinents et particulièrement précis. Elles doivent être associées à une provenance détaillée et répondre à des normes communautaires à leur domaine.
Cas d'application des principes FAIR
Les principes FAIR ne sont pas des règles que l’on applique de manière rigide. Ils correspondent à des lignes directrices relatives aux données de recherche. Ces principes peuvent donc appliqués dans différents domaines que cela soit les entreprises, la gestion, la data science ou encore les sciences ou les lettres classiques.
Adoption des principes FAIR dans les entreprises et la gestion des données
Les principes FAIR ont pour objectif d’améliorer la réutilisation des données. Cette gestion des données est particulièrement importante pour les entreprises. Il sera ainsi possible d’améliorer la précision du reporting d’information mais aussi de repérer les tendances. Les entreprises pourront ainsi prendre de meilleures décisions. Elles pourront également dynamiser leur transformation digitale et les nouvelles technologies. Une excellente gestion des données permet aussi de garantir la sécurité et l’exactitude des données.
Rôle des principes FAIR dans la recherche scientifique et la data science
Les principes FAIR sont utilisés par des agences gouvernementales, des établissements universitaires, des organismes de financement, des sociétés savantes, des maisons d’édition…
Dans le domaine de la recherche scientifique, par exemple, les principes FAIR ont permis la création de différents projets. C’est ainsi le cas de ARTE MODE ARCHIVE. Celui-ci-ci développe une archive d’images relatives aux peintures du début du XIVème à la fin du XIXème siècle. Chaque œuvre sera alors traitée comme un document historique. En regroupant les différentes informations possédées, on pourra réaliser des études spécifiques, comme, par exemple, les transformations de la robe au fil du temps.
Mise en œuvre et défis des principes FAIR
Ces principes sont donc importants pour faciliter le travail et faire avancer le partage des données. Ils peuvent être utilisés par tous ceux qui utilisent des données de recherche. Différents défis peuvent être trouvés. C’est ainsi le cas de l’idée même de données. On considère que ces données sont une représentation quantitative d’informations qui est liée au domaine des sciences. Celles-ci sont un assemblage d’informations préexistantes et de nature hétérogène qui demande un processus d’interprétation. La science a publié ces informations sous forme de documents PDF et cela est souvent caché. Et ces données scientifiques sont en nombre incroyable. L’approche FAIR encapsule ce que les données doivent être pour être utilisées. On utilise alors l’Intelligence Artificielle pour identifier des modèles et identifier des résultats. Il sera alors utile d’interagir avec le code de ces données pour l’interpréter.
Défis techniques et organisationnels
Il est important pour avoir une organisation optimale des données et les gérer au mieux, ce qui est le but premier des principes FAIR, de les organiser au mieux. Il sera donc nécessaire de mettre en place des outils d’évaluation :
Des connaissances de principes FAIR,
De la FAIRness des données.
Il sera ainsi beaucoup plus facile de retrouver les données recherchées. Différents outils peuvent être employés pour cela (DoRANum, F-UJI, par exemple).
Il est aussi important que ces données stockées soient organisées au mieux. Cela sera plus rapide pour les trouver. Nous avons déjà dit que les fichiers doivent être décrits via des métadonnées riches et identifiées à un identifiant unique et pérenne. Elles doivent être particulièrement bien indexées.
Bonnes pratiques pour une gestion FAIR des données
Pour rendre ses données FAIR, il est important au préalable de rédiger un plan de gestion des données (PGD). On y décrira les méthodologies et les stratégies utilisées en s’appuyant sur les principes FAIR. Il peut aussi être utile de négocier des licences pour le partage de ces données.
Si vous souhaitez comprendre au mieux les principes FAIR, différents outils pour vous aider. Cela vous permettra ainsi de mieux gérer les données. Vous pouvez ainsi consulter une liste de contrôle de type How FAIR Are Your Data ? Il est aussi possible d’utiliser FAIR Data Self Assessment Tool qui est un outil avec lequel vous devrez répondre à des questions pour évaluer la conformité. Il existe aujourd’hui de nombreux outils pour vérifier si vos données sont gérées de façon FAIR. Ils peuvent être généraux ou destinés à des disciplines particulières. C’est ainsi le cas de :
How to make your data FAIR ?,
How to FAIR,
Top 10 FAIR Data & Software Things,
Sustainable and FAIR Data Sharing in the Humanities.
Il sera ainsi plus facile de piloter une stratégie date-driven via des principes FAIR.
Conclusion
Les données sont aujourd’hui un point particulièrement utilisé dans les entreprises. Données relatives aux clients, aux produits, aux commandes… Pour les utiliser facilement et pouvoir les analyser, disposer de principes s’avère être une bonne idée. Et ces principes sont les principes FAIR, mis en place en 2014, lors d’une conférence qui se tenait aux Pays-Bas. Cela correspond à 4 principes distincts : faciles à trouver, accessibles, interopérables et réutilisables. Leur mécanisme de base, ce sont les métadonnées.
Ces principes FAIR permettent le partage de données mais aussi l’utilisation de celles-ci. Il s’agit donc d’un outil particulièrement utile pour les entreprises mais aussi la science (science ouverte), l’enseignement…