Carnet de recherche de Samuel Goëta, doctorant à Télécom ParisTech. Sociologie de la production et de la libération de données publiques, enjeux politiques d'Internet et bien d'autres choses.

“Raw data is an Oxymoron” : les données brutes sont-elles une fiction ?

La recension qui suit sera publiée dans le prochain numéro de la revue Réseaux qui portera sur les bases de données.

Lisa GITELMAN (dir.), Raw Data is An Oxymoron, Cambridge, MIT Press, 2013, 182p.

Màj : je publie moi-aussi mes “données brutes” (en tout cas primaires au sens de la Sunlight Foundation) avec mes notes sur l’ouvrage (format .mm lisible avec FreeMind)

Capture d’écran 2013-04-30 à 11.21.29

Lors d’une conférence TED en 2008, le « père du web » Tim Berners-Lee demandait à la salle de s’exclamer « nous voulons des données brutes. » Depuis, cette revendication ne cesse de se propager sans qu’un accord ne se dessine sur la définition d’une donnée « brute ». Telle une photographie toujours cadrée et sélectionnée pour relayer un message, les données sont produites et « imaginées » selon des objectifs qui guident leur production et leur transformation, nous rappelle en introduction Lisa Gitelman, l’éditrice de cet ouvrage collectif d’étude des sciences.

Data in Lingua Britanica DictionaryL’ouvrage s’ouvre sur une réflexion sur les origines et la circulation du terme « donnée » (chapitre 1). Pour Daniel Rosenberg, « donnée » sert une fonction rhétorique : alors qu’un fait ou une preuve perdent leur qualité lorsqu’ils s’avèrent faux, une donnée reste une donnée même lorsqu’elle est contredite. En 1646, data entre dans l’Oxford English Dictionary dans sa forme plurielle après des apparitions en mathématiques et en théologie. A l’issue d’un codage manuel des occurrences du terme data dans une base de données sur les publications en anglais au 18e siècle, Rosenberg conclut que sa signification s’enrichit du sens « d’information disponible sous forme chiffrée ». Pour autant, les deux sens se mélangent encore aujourd’hui et font la force sémantique de ce terme.

Tout comme les données « brutes » sont souvent présumées objectives, la supposée universalité et intemporalité des mathématiques font l’objet du chapitre 2. Son auteur, Travis D.Williams, s’intéresse aux premiers problèmes mathématiques et à la lecture qui peut en être faite de nos jours. Il y questionne l’idée que les chiffres ne mentent jamais et que notre subjectivité n’affecte pas la lecture que nous pouvons avoir d’un problème mathématique qui date du 16e siècle : « ne redéfinissez pas nos mathématiques comme leurs mathématiques simplement parce que leurs détails ne sont pas pleinement lisibles selon nos conventions. » (p.48)

Les deux chapitres qui suivent s’attachent à reconstituer l’émergence de l’idée de données « brutes » au sein de divers environnements scientifiques. Dans « From Measuring Desire to Quantifying Expectations » (chapitre 3), Brine et Poovey reviennent sur les premiers travaux de l’économiste Irving Fisher. Pour eux, relire les débuts de l’analyse quantitative de l’économie doit nous rappeler que « les données économiques ne sont jamais brutes, au sens de non interprétées. » (p.61) Afin que Fisher parvienne à utiliser les données disponibles, il a dû avoir recours à une multitude d’opérations qu’on nomme de nos jours le nettoyage des données (data scrubbing). En fabriquant une donnée « nettoyée », l’économiste efface l’histoire de la donnée pour asseoir l’objectivité de son analyse.

Capture d’écran 2013-04-30 à 11.09.25Dans « Where Is That Moon, Anyway ? » (chapitre 4), Matthew Stanley déconstruit la présumée simplicité et objectivité de l’astronomie de positions. Alors qu’il semblerait que les paires d’angles seraient la forme la plus brute de données scientifiques,  l’article montre que les observations ne deviennent des données astronomiques qu’après une analyse littéraire, historique et psychologique de textes anciens. Pour disposer du coefficient de variation séculaire de la lune, les astronomes ont dû parcourir les chroniques antiques grecques, chinoises et assyriennes à la recherche de récits d’éclipses. Dans un bel exemple de data friction selon l’expression de Paul Edwards[1], des astronomes au 20e siècle ont réévalué le coefficient et les récits originaux des éclipses qui ont servi à son élaboration : « le texte n’a pu devenir une donnée qu’avec une connaissance précise de la grammaire latine. » (p.84)

Capture d’écran 2013-04-30 à 11.11.13La paire d’articles qui suit s’attèle à décrire une archéologie de la notion de bases de données. Dans « facts and FACTS”: Abolitionists’s Database Innovations » (chapitre 5), Ellen Gruber Garvey revient sur l’histoire d’American Slavery As It Is: Testimony of a Thousand Witness, un ouvrage essentiel de la cause abolitionniste constitué en grande partie par les annonces de fuites d’esclaves publiées dans les journaux du sud des Etats-Unis. American Slavery As It Is publié en 1839 a recours à un index détaillé et à des catégories pour un accès rapide à l’information. Base de données, ses auteurs ont eux aussi nettoyé les annonces pour éviter qu’elles servent à capturer les fugitifs. L’article décrit le travail accompli pour enrichir les matériaux pour en constituer une base de données et non une « collection d’anecdotes. »

Le chapitre 6 s’intéresse à la matérialité de la production du savoir à travers les pratiques d’indexation du sociologue allemand des systèmes Niklas Luhmann. Ce dernier a passé sa vie à remplir des boites entières remplies de fiches synthétisant ses lectures et les idées. Par un jeu d’indexation et de mise en relation des cartes, Luhmann est parvenu à créer un « couplage génératif de l’homme et de la machine » (p.105). Dans ce système, chaque carte représente une unité d’information distincte, indexée et reliée, une datum au sens original du terme. Les cartes indexées formeraient une « réduction » nécessaire à la construction de la théorie de la complexité de Luhmann.

IMG_1094L’ouvrage se termine sur une perspective actuelle étudiant l’omniprésence de la collecte de données et la complexité de la maintenance des données scientifiques. Dans le chapitre 7, Rita Raley s’intéresse au concept de dataveillance conçu comme une pratique disciplinaire de contrôle, d’agrégation et de tri des données. La collecte systématisée et quasi invisible des traces rend possible des pratiques prédictives de conjecture et prescriptives d’incitation. Face à cette nouvelle ère de la surveillance, Raley affirme l’importance de la counterveillance, un ensemble de pratiques artistiques, politiques et technologiques qui répondent à la dataveillance. Ces dispositifs exploitent des vulnérabilités ou mettent en scène la capture de données pour mieux prendre conscience de son omniprésence.

Image : Baltimore Ecosystem Study

Le dernier chapitre « Data Bite Man: The Work of Sustaining a Long-Term Study » décrit les données comme des « créatures éphémères » (p .147) menacées par la disparition ou la dégradation sans intervention humaine. Ses auteurs suivent les pratiques scientifiques d’une équipe de biologistes à Baltimore qui réalise des relevés dans une rivière. Leur objectif est de constituer une base de données dite longitudinale qui permette la comparaison au fil des années. En décrivant étape par étape la chaine qui mène à la publication de la donnée, ils invitent à une lecture qui dépasse « la fiction de la commodité des données » (p.147) qui les résume à une matière première qu’on pourrait extraire sans les travailler. La « chorégraphie ontologique » (p.148) des chercheurs vise à préserver la capacité des données à décrire le même phénomène au fil des années dans une écologie changeante. Les métadonnées jouent un rôle essentiel dans la préservation de l’archive : sans elles, les flacons remplis d’eau de la rivière ne correspondent plus aux lignes des bases de données qui les quantifient. L’article se conclut sur une réflexion perplexe sur la notion ici étudiée : à aucun moment de son cycle de vie, une forme « brute » n’apparaît selon Ribes et Jackson.

La richesse des domaines étudiés fait assurément la valeur de cet ouvrage collectif et illustre la pertinence de l’étude des sciences pour comprendre les pratiques anciennes et maintenant répandues de production et de diffusion de données. Néanmoins, les chapitres 2 et 6 égarent quelque peu le lecteur en ne s’intéressant à la notion de données « brutes » qu’en marge de leur réflexion. L’étude des pratiques scientifiques nous rappelle aussi que la notion d’objectivité souvent associée aux données dites « brutes » doit être relativisée face à l’émergence d’un nouveau positivisme de la donnée prônant l’evidence-based decision making     .

Il ressort de Raw Data is An Oxymoron que la notion de données brutes reste empreinte d’un flou. Les auteurs peinent à distinguer une temporalité ou une forme qu’on pourrait qualifier de « brute » dans le cycle de vie des données. Pourtant, les acteurs qui produisent et diffusent des données ont recours à cette notion  et évoquent des pratiques de “rebrutification” ce qui témoigne de son utilité, un aspect négligé par l’idée même d’une fiction des données « brutes » en filigrane tout au long de l’ouvrage. La postface de Geoffrey Bowker se termine par une réflexion sur l’impact social de l’émergence des bases de données orientées objets à la structure évanescente à la place des structures figées dans un schéma qui caractérisent les bases de données relationnelles. Si comme Ribes et Jackson l’affirment, nous avons domestiqué les données autant qu’elles nous ont domestiquées, cette évolution technique ouvre des perspectives passionnantes pour l’étude des organisations.

[1] EDWARDS Paul, A Vast Machine : Computer Models, Climate Data, and the Politics of Global Warming, Cambridge, MIT Press, 2010.

About the Author

About the Author: .

Subscribe

If you enjoyed this article, subscribe now to receive more just like it.

Comments are closed.

Top