Carnet de recherche de Samuel Goëta, doctorant à Télécom ParisTech. Sociologie de la production et de la libération de données publiques, enjeux politiques d'Internet et bien d'autres choses.

Evenements

“Have computer, give me data” : une petite histoire de l’open data dans les sciences du vivant

By on in Evenements

Ce billet fait suite au séminaire du projet SACRED (Approche communicationnelle des recherches sur les données) du 20 décembre pendant lequel Bruno J. Strasser du département de biologie de l’université de Genève est venu présenté ses travaux sur l’histoire des données dans les sciences.

En étudiant l’histoire des bases de données dans la science (datadriven science), Bruno J.Strasser rappelle que les pratiques et les métiers de l’ouverture des données recoupent des usages anciens de collection et de classification qui avaient cours dès le XVIème siècle dans les sciences naturalistes. Retour sur la lente émergence de nouvelles manières de produire de la connaissance.
Tous aux abris : les météorologues de la donnée annonçent le déluge

Que ce soit Wired, The Economist ou encore Science, tous s’accordent pour annoncer un déluge de données qui mettrait à défaut notre capacité d’analyse tout en offrant un potentiel formidable d’innovation pour la science. Les métaphores font florès comme celle de la tempête de données, du tsunami de données ou l’inondation de données avec l’idée sous-jacente que nous serions démunis comme face à une catastrophe naturelle.

Dans le domaine de la science, la croissance exponentielle du volume de donnée est parfois considérée comme la fin de la science telle que nous la connaissons. Un des principaux artisans de cette vision est le magazine Wired qui n’a pas hésité à titrer en 2008 sur la “fin de la science”. Annonçant triomphalement l’arrivée d’un nouveau paradigme, Wired prétend que l’analyse de “pétabytes” de données” et la recherche de corrélations va remplacer la méthode hypothético-déductive. La recherche se réduit alors à collecter des données puis à analyser les corrélations qui sortent du traitement statistique. Cette vision rejoint les efforts insensés de Sergey Brin, co-fondateur de Google, dans la recherche en génétique d’un éventuel traitement à la maladie de Parkinson—Brin estimant avoir de très fortes probabilités d’être atteint de cette maladie à cause d’un test ADN.

De ces discours ambivalents, à la fois menaçants et porteurs d’espoir, deux prémisses semblent mettre tout le monde d’accord selon Bruno J. Strasser :

ce “déluge de données” est un phénomène nouveau : Strasser rappelle que ce sentiment de surcharge informationnelle (information overload) apparait dès la Renaissance et qu’à chaque fois, des techniques et des usages ont été crées pour y faire face ;
ce sont les transformations technologiques qui vont permettre de donner naissance à une nouvelle ère de la science : l’histoire de la data-driven science montre bien que les facteurs humains jouent un rôle tout aussi déterminant dans l’émergence de nouvelles pratiques scientifiques.

Collectionner des données ou expérimenter : une querelle des Anciens et des Modernes ?

Cabinet de curiosité à ParisL’essor des sciences du vivant a été accompagné par l’apparition à la Rennaissance des cabinets de curiosité où étaient entreposées, classifiées et exposées des espèces hétéroclites. Amasser des plantes et des espèces naturelles était alors un divertissement commun pour la haute société de l’époque. Collectionner et montrer sa collection était un marqueur social d’érudition. Cette tradition de collection relevait principalement d’une science amateur et d’une tradition naturaliste qui aboutit au XIXe siècle aux muséums de sciences naturelles et leurs immenses collections d’espèces. Au début du XXème siècle, cette longue tradition déclina sous l’assaut de la science expérimentaliste qui consacre le laboratoire comme le seul lieu de la recherche scientifique.

Deux méthodes scientifiques et deux traditions épistémologiques divisent au milieu du XXème siècle les sciences du vivant :

les méthodes comparatives : collectionner, classifier, comparer, corréler ;
les méthodes expérimentales : observer, analyser, généraliser à partir du cas particulier.

Pour Bruno J. Strasser, la datadriven science trouve ses sources dans la tradition comparative dont les pratiques et les métiers sont similaires à celle de cette “nouvelle” manière de faire de la science.
Codifier le génome : une histoire de base de données  et d’individus

Dans une période où l’expérimentation triomphe comme la seule manière de faire de la “vraie” science, le projet de codifier et de numériser l’ADN dans les années 60 marque le retour à la tradition comparative. Enregistrer une base de données, classifier et comparer des séquences de protéines ne diffère pas des pratiques de collection et de comparaison des espèces dans la science comparative. Pour Strasser, le musée et le serveur sont deux objets standardisés qui servent à produire du savoir.

Le premier projet de constitution d’une base de données massive en génétique, l’Atlas of protein sequence, dirigé par Margaret Dayhoff fut un échec du fait de la difficulté à collecter les données venant de chaque laboratoire. Dayhoff ne parvenait pas à convaincre ses collèques de diffuser les données du génome dans sa base de données en raison d’un régime de propriété intellectuelle qui malgré un système d’accès par modem, ne permet pas la redistribution des données. Les données expérimentales sont alors un objet privé qui appartient à celui qui les a produit. Appliquant des techniques de cristallographie issues de la chimie, une discipline proche de l’industrie qui n’a pas pour habitude de diffuser ses données, le projet Protein DataBank lancé en 1969 ne parvient pas non plus à obtenir suffisamment de données et menace de fermer. Ce n’est finalement qu’à la fin des années 70 dans le Nouveau Mexique à l’Université de Los Alamos qu’un projet de base de données génétiques ne parvient à décoller. Il s’agit du projet GenBank conduit par Walter Goad, un scientifique au parcours tumultueux qui a participé sur la bombe H avant de concevoir ce projet qui comporte aujourd’hui les séquences de nucléotides de près de 300 000 espèces.  Quelles ont été les raisons du succès de ce projet ?
La recette de l’open science : échange de capitaux symboliques et apparence d’ouverture

Dès son lancement, GenBank est présenté comme un projet dans lequel l’usager est aussi contributeur. Dans les années 80, ce projet réussit le tour de force de l’open access à une époque où le partage des données des recherches n’a rien d’une évidence. Walter Goad met un place un système vertueux dans lequel il est indispensable de partager des données pour accéder aux publications. Selon Bruno J. Strasser, le succès de GenBank vient de son inspiration de la philosophie des économies morales, un système dans lequel les contributions s’équilibrent pour éviter le problème du passager clandestin (free rider)—en théorie économique, celui qui ne profite d’un système sans contribuer le mettant en péril.

Capture d’écran 2013-01-11 à 17.07.09

L’autre aspect du succès de GenBank sur lequel insiste Strasser, c’est l’apparence d’ouverture du système. “Une force importante de votre projet est son ouverture”, écrit un ami de Goad dans une lettre. Pour obtenir le contrat qui a financé le lancement du projet en 1982, son concepteur ne cesse de donner des signes d’ouverture y compris en insistant sur la connexion du service au réseau Arpanet qui commence à relier les universités américaines.

Pour Strasser, le succès de GenBank réside finalement dans le registre symbolique et la communication plutôt que dans la technologie du service.
Nouvelles pratiques, nouveaux métiers

Capture d’écran 2013-01-11 à 17.13.26Avec la disponibilité de données génétiques de plus en plus importantes, de nouveaux métiers émergent, certains parlent même d’une “nouvelle espèce” de scientifiques” (“a new bride of scientists”). Les computational scientist font partie de cette nouvelle manière de faire de la science, ni vraiment expérimentale ni vraiment comparative, qui s’emploie à analyser les données que produisent d’autres. Ils revendiquent rapidement leur statut d’auteur scientifique en proposant des publications aux revues scientifiques, qui voient d’un mauvais oeil ces scientifiques qui abandonnent le microscope pour l’ordinateur en réutilisant les données mises à disposition. En 1987, le journal American Statistics réduit leur travail à cette expresion “Have computer, give me data”, signe d’un malaise de la communauté scientifique devant ces chercheurs qui publient en leur nom avec les données des autres.

Autre métier déconsidéré : celui de “database curator”, en charge d’enrichir les métadonnées et de nettoyer les données pour les rendre réutilisables. Strasser raconte le témoignage d’un database curator qui se plaignait que personne ne comprenait son travail à un cocktail lors d’une conférence et laissait entendre qu’il n’était pas perçu comme un collègue par ses pairs. On retrouve là une réaction commune devant le travail souvent déconsidéré des “petites mains de la société de l’information” souvent jugés comme des grattes papiers ainsi que l’expliquent Jérôme Denis et David Pontille dans leur article “Travailleurs de l’écrit, matières de l’information”.

Le projet fold.it

Aujourd’hui, l’open access est la norme pour les publications scientifiques bien que les régimes de licence et les coûts de publication dans les principales revues forment un méli-mélo incompréhensible. Les pratiques de réutilisation de données scientifiques sont désormais courantes dans la recherche ; selon Strasser, un des prochains prix Nobel de médecine pourrait même ne “jamais avoir tenu une pipette de sa vie”. Enfin, l’open science questionne le rôle du chercheur : son monopole remis en cause,  le modèle qui émerge rappelle celui des cabinets de curiosité à la Renaissance. En rompant avec l’emprise de la science expérimentale, il est possible d’envisager des formes de science ouvertes à tous. Par exemple, le projet Fold.it se présente sous la forme d’un jeu qui permet à chacun de contribuer à l’étude de la structure des protéines en résolvant des puzzle.

Open Knowledge Festival 2012 : l’ouverture à toutes les sauces

By on in Evenements

Pour inaugurer ce blog qui sera mon carnet de recherche tout au long des trois ans de ma thèse, je reviens sur l’Open Knowledge Festival (OKFest) qui se tenait du 17 au 22 septembre à Helsinki. Le choix de la Finlande par l’Open Knowledge Foundation n’est pas anodin : comme beaucoup de pays nordiques (les Finlandais ne sont pas scandinaves), la Finlande se distingue par une culture de l’ouverture qui fait qu’un tel événement coïncide bien avec la culture du pays.

Les organisateurs ont pu bloquer pendant une semaine l’impressionnante école du design de l’université Aalto qui s’est avérée être le lieu idéal pour un tel événement : immenses studios de cinéma pour le hackspace, un Fab Lab dans l’université et des dizaines de salles de conférence. Avec cette logistique, l’Open Knowledge Foundation a pu voir grand : le programme s’étale sur pas moins de 13 sujets qui se sont déclinés toute la semaine.

Inspire, hack, make+meet at Open Knowledge Festival L’Open Knowledge Foundation a inscrit tous les événements sous la bannière d’un thème : “open knowledge in action”. Pour dépasser les éternelles discussions sur les vertus de l’ouverture, des verbes d’action rythmaient chacune des séquences du programme : INSPIRE, HACK, MAKE, MEET. Tour d’horizon de quelques moments forts de l’Open Knowledge Festival.
Les “makers” à l’honneur

Badge Open knowledge Festival gravé en 3D

Pour nous en mettre plein les yeux, les organisateurs ont eu l’idée de graver au laser 700 badges nominatifs sur des planches de bois. L’ “open hardware” et les “makers” ont ainsi rythmé la semaine : fabrication d’un graveur laser en quelques heures, découvertes de toutes les variétés possibles d’imprimantes 3D, visite d’un makerspace (Made in Kallio) où l’on conçoit des vêtements, on imprime des objets en 3D et on fabrique des appareils qui automatisent les cultures hydroponiques.

Pour l’instant, l’impression 3D relève du gadget mais on peut voir émerger des applications concrètes. Par exemple, cette figure de Yoda préfigure une des premières victimes des imprimantes 3D qui pourraient être l’industrie du merchandising. Bien que l’impression 3D ne produisent pas encore d’objets lisses, jusqu’à quand les détenteurs de droits d’auteurs vont-ils pouvoir vendre à prix d’or qui peuvent être facilement reproduits avec ce genre d’appareils ?
Les sciences humaines se penchent sur l’open data et son impact

La session sur la recherche sur l’open data a permis de mettre en avant des projets en sciences humaines portant sur les données publiques.

Antti Halonen, chercheur au Finnish Institute of London, nous a présenté son pasionnant papier “Being open about open data” pour lequel il a interrogé une centaine de représentants de communes britanniques ayant entrepris une démarche d’open data. Un article à remettre un perspective avec le contexte britannique où les données financières des communes sont publiques et réutilisables par défaut (voir l’excellent site OpenlyLocal).

Ses conclusions soulèvent d’intéressantes pistes à creuser pour les recherches à venir :

– l’open data a été jugé comme remplissant un objectif politique ;

– l’autorité nationale en charge de l’ouverture des données a été jugée avec défiance car les communes ont perçu cette initiative comme une manière de restreindre leurs dépenses ;

– l’intérêt général autour des données libérées était plus faible qu’attendu ;

– le terme “open” a été perçu différemment entre la communauté open data et les personnes en charge de la mise à disposition des données.

Plus largement, son papier invite à ne pas négliger la dimension politique de l’open data et l’incompréhension que peuvent susciter une démarche d’open data imposée par le haut sans concertation.

Allotment data on the Guardian

Farida Vis, chercheuse à l’Université de Leicester, présentait son travail sur les données liées aux allotments, des terrains publics qui, en Grande Bretagne, sont réservés aux citoyens pour y faire pousser des légumes. Elle a constaté que l’allocation de ces terrains faisait l’objet d’une “loterie” aux critères obscurs. Les données concernant l’allocation de ces terrains sont fragmentées, propriété à la fois des associations en charge de la gestion des terrains, des communes. Elle est alors partie à la chasse aux données, en revendiquant leur disponibilité du fait du Freedom of Information Act qui en Grande-Bretagne permet de demander l’accès et la réutilisation des données. Le site Allotment Data  regroupe des données concernant la liste d’attente, les coûts de location et d’entretien du terrain et surtout leurs conditions d’attribution. Pour Farida, ce sont des données “vraiment utiles” qui servent la population de manière très concrète. Après avoir rendu publiques les données en 2006, les tabloids se sont saisis de l’affaire et ont dénoncé les conditions opaques d’attribution des terrains. Dans ces médias grand public, Farida explique que la question de l’open data a été complètement éludée car seul comptait le scandale de l’attribution des terrains. “Drop a bit of open data”, clame-t-elle, il s’agit avant tout de parler des conditions sociales de l’accès à l’alimentation.
Simon Rogers (Guardian) : une visualisation ne suffit pas à faire du datajournalisme

L’intervention de Simon Rogers, en charge du Datablog du Guardian, a marqué le départ de la session sur le datajournalisme. Selon lui, la disponibilité des données dans des portails open data n’est pas suffisante : “Bahrein et l’Arabie Saoudite ont des portails open data, cela n’en fait pas des sociétés transparentes”. Il estime que les visualisations ne suffisent pas à donner du sens à un phénomène. Il faut raconter une histoire avec des données en s’appuyant  sur les méthodes du récit journalistique ou en utilisant les données pour raccrocher à l’histoire personnelle du lecteur. Il donne l’exemple de cet outil  qui permet à chacun d’identifier où ses revenus se situent par rapport au reste de la population britannique.

Cartes des émeutes de Londres en fonction de la pauvreté des émeutiersLes données peuvent aussi servir à questionner les préjugés qui sont communiqués dans les médias. Lors des émeutes à Londres, le Datablog a utilisé les données disponibles sur les personnes condamnées pour remettre en cause l’affirmation de David Cameron pour qui “les émeutes n’ont rien à voir avec la pauvreté”. Les datajournalistes ont choisi de se baser sur l’adresse du condamné, plutôt que sur le lieu du délit, pour montrer une corrélation entre la pauvreté et la participation aux émeutes.
Etendre l’open data à l’économie
Le hackspace de l’open knowledge festival à Helsinki

Le hackspace de l’open knowledge festival

L’OKFest a aussi permis de révéler les projets d’entreprises qui se lancent dans l’open data. Simon Redfern, qui a créé Tesobe, a présenté Open Bank qui développe une API faisant l’interface entre le système d’information d’une banque et des applications pouvant réutiliser les données des clients qui ont choisi de les libérer. Open Bank vise en premier lieu les organisations caritatives qui, du fait des dons qu’elles reçoivent, pourraient se voir exiger de donner accès aux transactions qui s’effectuent sur leurs comptes. Les particuliers pourraient aussi avoir recours à un tel service pour utiliser des applications tierces comme Fairnopoly ou MoneyGarden pour gérer leurs finances. Un projet qui s’inscrit dans la lignée de l’API du Crédit Agricole (qui a consulté Tesobe) ou de l’ambitieux projet Midata soutenu par le gouvernement britannique (dont la FING travaille sur une adaptation en France).

En guise de démo, Simon a tenu à nous présenter son application qui émet un bruit différent selon si l’argent entre ou sort du compte de sa société, et selon le montant. C’est inaudible mais ça explique le titre de sa présentation “pourquoi votre banque devrait chanter”.

Plus concrètement, Open Bank est un projet open source qui vise à créer un standard dans la diffusion des données bancaires. Il serait intéressant d’assister aux discussions musclées entre les DSI des banques qui ont la sécurité des données pour priorité et cet acteur de l’ouverture.

Dans la même veine, le barcelonais Javi Creus a résumé les avantages de l’ouverture pour des entreprises. Il revient sur quelques exemples bien connus d’entreprises ayant eu recours à l’open data ou à l’open source pour développer leurs activités : IBM qui a failli disparaitre s’il n’avait pas soutenu Linux, Google qui a envahi le marché des téléphones en quelques années avec Android… Plus surprenant, le restaurant El Bulli, réputé comme le “meilleur restaurant du monde”, qui fait l’objet d’un long article dans Wired ce mois-ci,  entreprend la constitution de la Bullipedia. La elBulli Foundation, qui a remplacé le restaurant fermé en 2010, chapeautera la Bullipedia qui contiendra les recettes du restaurant, ses techniques et même les plans de certains moules utilisés dans le restaurant spécialiste de la cuisine moléculaire. Javi cite aussi l’exemple d’Arduino, le circuit imprimé qui sert à bon nombre de projets Do It Yourself actuels, dont toutes les spécifications sont ouvertes et réutilisables. Seule la marque Arduino fait l’objet d’une licence qui oblige de les entreprises à reverser 10% des revenus des ventes du circuit imprimé.
Le débat sur l’open science continue

Le mouvement open data trouve ses sources dans l’open science qui postule que les publications scientifiques et les données de recherche sous financement public doivent être publiées sous licence ouverte (Creative Commons) et réutilisables. Cette revendication a mené à la création de nombreuses revues scientifiques dites “open access”. Mais derrière cette bannière, les licences et les coûts de publication varient énormément comme le montre ce graphique de Ross Mounce qui positionne les revues selon ces deux facteurs :

Open science revues graph

L’hétérogénéité des régimes s’explique par le cout qui peut provenir de la publication et du travail de relecture par les pairs (les relecteurs sont toutefois rarement payés). Se pose alors la question du coût du gratuit : qui doit soutenir l’existence et la pérennité des revues en open access ?

Au delà de la question de l’accès ouvert aux publications, les scientifiques présents à l’OKFest sont revenus sur l’accès libre aux données de la recherche. Venu spécialement de Sidney, Mat Todd présentait un cas intéressant d’application de l’open source à la recherche pharmaceutique. Il dépeint un tableau noir de l’avenir de la recherche pharma : découvrir un médicament prend beaucoup de temps, les maladies deviennent de plus en plus difficiles à traiter et les laboratoires ne découvrent pas assez de nouveaux traitements pour rester rentables.

S’appuyant sur la métaphore bien connue de la cathédrale et du bazar, Mat Todd prône l’application des principes de l’open source à la recherche pharmaceutique. Dans le cadre du traitement de la schistosomiasis qui affecte 400 millions de personnes dans le monde contaminées par l’eau qu’elles consomment, il a expérimenté une méthode où chaque étape de sa recherche était publique, discutable et revue par des pairs sur le site The synaptic leap. Il y publie régulièrement les données de son laboratoire et l’avancée de ses recherches. Cette démarche a attiré rapidement des spécialistes qui ont déposé des micro-contributions qui ont fait avancer rapidement le projet. Les discussions avaient lieu sur le site mais aussi sur la page Google+ informelle du projet. Au terme du projet, ils sont arrivés à obtenir une manière de synthétiser le traitement de la schistomastis bien moins couteuse que les médicaments existants. Mat Tood plaide pour une science dans laquelle la publication de chacune des étapes du cycle de la recherche permettrait de disposer continument de l’avis et des remarques des spécialistes d’un champ particulier. Il appelle cela continually peer-reviewed research.
La statistique : vedette de l’OK Fest

Le rapport des Ponts sur l’open data “Pour une politique ambitieuse des données” commence par cette citation de Hal Varian, économiste en Chef chez Google “Je répète sans cesse que la profession sexy dans les dix prochaines années, ce sera statisticien. Et ce n’est pas de l’humour”. Quelques projets présentés par les grands organismes statistiques donnent, dans une certaine mesure, raison à cette prédiction.

Lors de la session sur les données du développement, l’institut national Statistics Finland a présenté son projet Findicator qui vise à faciliter l’usage des données statistiques publiques par les politiciens, leurs assistants, les journalistes et les journalistes. Le site est le fruit d’une enquête de plusieurs mois/années sur les usages de la statistique par leurs acteurs du débat public. Il permet de présenter de manière simple les données disponibles sur la Finlande, de les visualiser et renvoie vers les équivalents internationaux. L’Insee devrait s’en inspirer tant le site est simple et facilite l’accès à la statistique.

L’OCDE est venue présenter son projet Better Life Index  dans lequel chacun peut définir son indicateur de bien-être en fonction de ses critères : sécurité, éducation, économie… Ils ont recours aux services d’un data-journaliste, Moritz Stefaner, qui a eu l’idée d’une visualisation en pétale de chaque critère.

Dans la même veine, le projet Yourtopia permet à chacun de créer son propre indicateur de développement à l’échelle internationale et à l’échelle d’un pays.
Hans Rosling Open Knowledge Festival

Hans Rosling expliquait l’évolution de la population dans le monde avec des rouleaux de papier de toilettes (image : cc OKFN)

Pour conclure cet aperçu de l’Open Knowledge Festival, je voulais revenir sur l’intervention du charismatique scientifique suédois Hans Rosling qui dirige la fondation Gapminder. Le médecin suédois adepte de la data-visualisation est revenu sur la difficulté d’obtenir des données au début de son projet. Arborant une canne à pêche pour pointer les chiffres qu’ils présentent, ses visualisations et son récit pointent du doigt nos préjugés sur l’évolution des populations dans le monde et de la santé de ses habitants. Un des points les plus intéressants de son intervention, que vous pouvez retrouver dans le compte-rendu du blog du Monde “J’ai du bon data”, est sa réflexion sur le rôle des données dans la manière de raconter des histoires : “Vous ne faites pas grand chose avec l’open data, vous ne faites pas grand chose avec la visualisation de données, mais ce sont deux outils formidables pour raconter des histoires.” Ramener les données à un outil pour raconter des histoires, un bon résumé du thème de ce festival : open knowledge in action.

Top