Carnet de recherche de Samuel Goëta, doctorant à Télécom ParisTech. Sociologie de la production et de la libération de données publiques, enjeux politiques d'Internet et bien d'autres choses.

Ouvrir la boîte noire de l’open data : quelques premières pistes issues des coulisses

Ce billet résume la communication que nous avons présentée avec mon directeur de thèse, Jérôme Denis, lors de la journée d’étude du projet SACRED «Penser l’écosystème des données : les enjeux scientifiques et politiques des données numériques»  le 14 février à l’ISCC. Elle pourrait faire l’objet d’une publication dans un numéro spécial de la revue Questions de Communication. C’est une version simplifiée de ce travail que nous vous présentons ici.

Ouvrir la boîte noire de l’open data

Les discours sur l’open data ont pour point commun de s’accorder sur l’existence de données et même de données brutes dans les administrations et dans les entreprises, qui constitueraient un gisement, une mine d’or ou un nouveau pétrole. Une évidence qui est rarement discutée tout comme les modalités de la production des données publiques et les usages avant libération qui restent dans l’ombre des réflexions sur l’Open Data.

En parlant de « libération », de « transparence » ou plus encore de donnée « brute », le discours médiatique et politique sur l’open data présente l’universalité des données comme une évidence et efface leurs conditions de production. Il s’agit ici de remettre en cause cet effacement pour montrer l’intérêt qu’il y a à ouvrir la boîte noire des données ouvertes.

En documentant les coulisses de l’open data, il s’agit de lutter contre un risque de néo-positivisme qui peut avoir des conséquences politiques, économiques et organisationnelles importantes mais aussi parce que les acteurs de l’open data eux-mêmes ont tout à gagner à reconnaître et analyser les processus complexes qui se jouent en amont de la libération des données.
Les STS à la rescousse : quatre enseignements utiles pour comprendre l’open data

La question de l’effacement des conditions de production des données est en fait un grand classique en sciences sociales, puisqu’elle a été au cœur des premiers travaux en Science and Technology Studies (STS). Puis, la question de la fabrication des données et de leur rôle dans l’organisation de la science a ensuite été largement discutée, notamment avec l’avènement des grands projets scientifiques internationaux et interdisciplinaires qui ont précisément été les sites de l’invention en quelque sorte de l’Open Data : astronomie, sciences biomédicales, cristallographie, etc. [voir à ce sujet l'article sur ce blog sur l'ouverture de données en sciences du vivant] Les STS, qui se sont aussi penchées sur le rôle des données dans les pratiques comptables et gestionnaires, s’inscrivent dans le  Practice Turn (le tournant pratique) en sciences sociales qui consiste  à observer les activités qui assurent l’existence de certaines choses qui étaient jusque là considérées comme évidentes et non problématiques.

Si on confronte ces travaux à notre enquête sur les pratiques d’ouverture de données, les STS nous proposent quatre principaux apports :

[#1] les données travaillent l’organisation : la fabrique des données répond à un travail collectif dans lequel les tâches sont divisées répondant à une division morale du travail. On a ainsi pu voir l’importance des « petites mains » qui se chargeait du sale boulot de la recherche (Hugues) et, qui plus est, étaient invisibilisées au moment de la publication, c’est-à-dire de la vie officielle des résultats.

[#2] les données font l’objet d’un travail, elles ne tombent pas du ciel. Les STS décrivent le bricolage des scientifiques, à l’opposée même de la distinction de Lévi Strauss entre science et bricolage. qui n’hésitent pas à avoir recours à des chiffres intermédiaires, souvent incohérents avant leur fixation dans ce qu’on appelle une «donnée».

[#3] les données sont ancrées, elles sont prises dans des écologies pratiques spécifiques, c’est-à-dire qu’elles sont adressées à certaines personnes et orientées vers certains problèmes. Précisément, elles sont indexicales : leur sens, leur intelligibilité sont intrinsèquement liés au contexte local de leur usage.
[#4] Les données sont politiques. Elles font exister des entités, créent des exclusions et peuvent masquer facilement la multiplicité du réel. Par exemple, la constitution de bases de données géographiques a nécessité de délimiter des frontières à des pays qui n’étaient pas stabilisés dans la diplomatie (les territoires palestiniens, les frontières entre la Chine et l’Inde).

Ces quatre principaux apports nous offrent des pistes pour explorer les coulisses de l’open data, mais aussi pour comprendre les spécificités des données publiques. Les premiers résultats qui suivent s’appuient sur une trentaine d’entretiens conduits notamment au sein de plusieurs entreprises françaises qui travaillent sur l’open data, Etalab la mission en charge de la mise à disposition de données de l’Etat, plusieurs collectivités territoriales ayant libéré des données et une organisation internationale réfléchissant à l’ouverture de ses données.  Les résultats sont anonymisés tant au niveau de l’organisation que des personnes interrogées pour des raisons de confidentialité du travail des agents et le fait que les projets sont en cours. Les entretiens ont eu lieu avec les personnes en charge du projet, les producteurs de données et les techniciens qui ont mis en place les outils de l’ouverture des données.
[#1] Des données qui travaillent l’organisation

L’ouverture de données a un cout pour l’organisation et implique des répercussions sur son fonctionnement à ne pas négliger.
L’annuaire du service public : un outil détourné de son objectif initial qui a servi à constituer un schéma de fonctionnement de l’Etat

L’annuaire du service public : un outil détourné de son objectif initial qui a servi à constituer un schéma de fonctionnement de l’Etat

Le déploiement de data.gouv.fr nécessitait d’identifier les producteurs de données et leurs relations afin de rattacher une donnée à la structure qui l’a produite. Cela implique de produire un organigramme de l’Etat alors que c’est une structure sans cesse mouvante. En témoigne la mission Etalab elle-même rattachée au Secrétariat Général du Gouvernement puis au Secrétariat Général de la Modernisation de l’Action Publique (SGMAP), qui lui-même fait suite à la Direction générale de la modernisation de l’Etat (DGME) et au rattachement d’autres structures. La constitution d’un portail qui relie les données à une entité productrice nécessite de figer la structure dans une ontologie. L’outil qui a permis de constituer ce référentiel est l’annuaire du service public http://lannuaire.service-public.fr/ qu’il faut en permanence consolider et maintenir car, servant initialement à contacter les agents du service public, il est détourné de son usage initial.

L’open data implique aussi une transformation des métiers. La DSI n’est plus uniquement une fonction support avec l’open data, un service pour l’interne, mais elle voit sa prérogative s’étendre aux métiers de la communication. C’est une transformation du travail des agents qui doivent découvrir de nouveaux métiers : animer la réutilisation des données, rencontrer associations/développeurs, organiser des hackathons.

A l’échelle de l’organisation, il s’agit de repenser sa place dans son environnement. Par exemple, on a pu observer une organisation internationale qui a conscience que ce projet transformera son métier et sa fonction : pour elle, l’open data n’est pas un programme mais une transformation.
[#2] Rebrutifier et mettre en qualité : la donnée se travaille

L’open data se trouve en tension entre le besoin de stabiliser les données pour limiter le travail de maintenance et accepter leur caractère dynamique. En ouvrant des données, on admet que la donnée est une denrée périssable qui nécessite une logistique et un travail de maintenance. Au delà de la question de la simple obsolescence des données, se pose le besoin de transformations nécessaires à l’ouverture de données ?

Au niveau des données elles-mêmes, l’opération qui consiste à «rebrutifier» joue un rôle

” Raw data is an oxymoron” paraitra en mars 2013. Une note de lecture de ce livre très attendu sera bien sur publiée sur ce blog.

prédominant. Ce néologisme dont m’a fait part une personne en charge de la maintenance d’un portail open data questionne directement l’idée même de donnée brute. Parmi les opérations qu’on peut regrouper dans le terme «rebrutifier», l’action d’harmoniser revient fréquemment. Il s’agit de s’accorder sur un identifiant unique pour permettre les croisements de données. Par exemple, dans une collectivité locale qui a publié des données sur le transport public, il a été nécessaire de s’accorder sur un seul nom aux arrêts de bus qui variaient entre la fiche horaire ou le plan pour une simple raison de place disponible. «Rebrutifier» implique aussi d’enlever les traces d’usage (les commentaires, les couleurs dans un document, les graphiques) qui laissent apparaitre le travail de l’agent. Toutes ces opérations témoignent du fait que le brut se fabrique.

Au niveau de l’organisation, les opérations qu’on recoupe sous l’appellation «mettre en qualité» impliquent la mise en place de processus d’automatisation ou de pratiques pour assurer la maintenance des données. Il s’agit d’intégrer l’open data dans le travail ; Henri Verdier, le directeur de la mission Etalab, parle dans une interview récente de «routiniser» l’ouverture des données publiques. Pour un agent en charge de la maintenance des bases de données dans un organisme de transport public, l’open data implique de ne plus produire les données «en vase clos». Auparavant une incohérence se réglait par des relations informelles entre producteurs de données, un simple coup de fil suffisait. Désormais, pour cet agent, une incohérence peut potentiellement toucher jusqu’à 300 000 personnes.
[#3] Rendre la donnée intelligible et universelle

Au niveau des données elle-même, l’ouverture de données implique de fabriquer une universalité qui permettra aux données d’être utilisées par d’autres.  Cette opération consiste à désindexicaliser les données, c’est-à-dire effacer des références qui n’ont pas de sens hors du contexte de production de la donnée. Dans le cas des données de transport évoquées précédemment, la base de données indique des bus qui passent à 26h30 afin de rester dans le cadre de la même journée de travail. Pour publier ces données, l’agent a développé des «moulinettes», des outils qui servent à transformer la donnée en quelque chose d’intelligible. Désindexicaliser consiste à alors à créer un contexte «universel» pour la réutilisation des données. Cela nécessite d’effacer les abérations qui n’en sont pas dans le contexte de production de ces données métiers qui servent au travail quotidien des agents.

Une autre opération consiste à «délocaliser» la donnée. L’application Handimap à
Réutiliser des données provenant de deux villes différentes nécessite souvent un retravail important pour s’adapter aux spécificités locales des données.

Réutiliser des données provenant de deux villes différentes nécessite souvent un retravail important pour s’adapter aux spécificités locales des données.

Rennes implantée à la suite à Montpellier qui permet de calculer des itinéraires pour personnes à mobilité réduite révèle que les données sont fortement liées à leur contexte de production. Pour implanter un tel service dans une nouvelle ville,  il serait nécessaire de s’accorder sur des formats communs de données entre les villes.  Sans une standardisation des données, des fonctionnalités de l’application sont à redévelopper pour un nouveau déploiement. L’aide d’Handimap indique même que les critères d’un itinéraire accessible diffèrent entre les deux villes.  On touche ici aux limites des données issues du travail des agents administratifs qui sont des données métiers qui ne sont pas conçues pour être publiées. Alain Desrosières expliquait dans “Décrire l’Etat ou explorer la société : les deux sources de la statistique publique” que les sources administratives sont territorialisées. Leur format et leur contenu diffèrent selon l’administration en charge de sa production ce qui rend difficile les comparaisons et les réutilisations à l’inverse des enquêtes statistiques.

Notre étude montre que les producteurs de données et les services en charge de l’open data se préfigurent les usages avant d’ouvrir les données ce qui a un rôle déterminant dans la sélection des données publiées. Le discours sur l’open data est porteur d’une utopie dans laquelle la donnée brute concerne tout le monde puisqu’on ne peut pas et ne doit pas prévoir les réutilisations. Pourtant, mes observations montrent que le producteur de donnée se pose très fréquemment la question de savoir qui est intéressé par le jeu de donnée. Par exemple, lors d’une réunion entre des militants de l’open data et une collectivité territoriale, un élu disposait d’une liste des données publiables. Chaque jeu de donnée à publier faisait l’objet d’un commentaire «c’est intéressant» pour les données à publier. L’élu se faisait alors une représentation mentale des usages possibles du jeu de données basée sur ses représentations des réutilisateurs. Mais qui représente alors les utilisateurs ?
[#4] Montrer un réel multiple et sensible

Enfin, les STS nous rappellent que les données et leur libération fixent des choses du réel et produisent des distinctions par les catégories.

L’opération de mise en place d’ontologies nécessite de définir des limites aux objets désignés par un jeu de donnée. Par exemple, il apparait dans plusieurs institutions étudiées que la définition d’un square ou d’une gare varie selon le périmètre d’action du producteur de la donnée. A travers les données, le réel est multiple dépendant en grande partie du contexte de production de données peuvent le réduire ou l’aplatir.

Les portails open data intègrent cette dimension en permettant une navigation par facettes, c’est-à-dire de critères uniques associés à chaque jeu de données comme le nom de l’entité qui a produit la donnée ou son périmètre. Cette fonctionnalité implique d’admettre qu’une réalité peut être décrite différemment selon le producteur de la donnée.

Si l’ouverture de données fixe les choses, elle donne à voir des entités jugées trop

Les réseaux d’eau potable : une infrastructure sensible dont on imagine les pires usages avant d’ouvrir les données.

sensibles. Le cas des données qui sont exclues de la publication pose la aussi la question des préfigurations des réutilisations. Dans le cas des réseaux d’infrastructures, peu de données sont publiées par crainte d’usagers très particuliers possiblement malveillants, comme un terroriste. Par exemple, beaucoup de municipalités disposent d’une cartographie précise du réseau d’eau mais aucune à ma connaissance ne publie ces données. La crainte d’une contamination du réseau d’eau dont la structure serait rendue visible avec l’open data explique que ces données ne sont pas exportées des systèmes d’information géographique des municipalités. Signe que la préfiguration des usages, même les plus radicaux et exceptionnels, guide l’ouverture de données.

La présentation s’est conclue par un questionnement sur un éventuel changement de paradigme dans l’open data, c’est à dire d’une théorie et d’exemples associés. Les communicants n’hésitent plus à expliquer la “cuisine interne” qui a conduit à l’ouverture des données tout en expliquant que ce projet sera un vecteur important de modernisation du service public. Nous postulions qu’il s’agit d’un abandon de la posture “utopique” adoptée dans les premiers temps de l’open data : les promoteurs de l’open data n’hésitaient pas à annoncer la grande ère de la transparence dans laquelle que les données ouvertes pourraient résoudre le changement climatique ou la crise financière. Henri Verdier, le directeur de la mission Etalab, présent ce jour, a pu apporter des précisions intéressantes sur ce point. Selon lui,  la promesse de changer le monde par l’ouverture des données n’est pas abandonnée. En se focalisant sur les implications du projet pour le fonctionnement de l’Etat, on adopte une posture pragmatique qui permet de débloquer certains verrous et ainsi de rendre possible le projet politique initial de l’open data.

About the Author

About the Author: .

Subscribe

If you enjoyed this article, subscribe now to receive more just like it.

Comments are closed.

Top