Depuis quand l'Inria travaille-t-il sur les données massives, les fameux big data ?
Nous travaillons dessus depuis toujours. Le terme, inventé à la fin des années 1990, a explosé vers 2009-2010. La communauté scientifique n'est pas très à l'aise avec cette expression, car celle-ci n'est pas bien définie.
De quoi sont composées ces données de la recherche ?
On distingue les données primaires et les données secondaires. Les primaires – issues des laboratoires, des entreprises, de l'open data, etc. – sont composées des données d'expérimentation, des cahiers de laboratoires, de la simulation numérique, de la production scientifique (articles de conférences ou de revues, photos, vidéos, sons). Les secondaires, dites "d'usage", sont en quelque sorte des données sur les données : les requêtes sur les moteurs de recherche, les résultats de mise en relation des données primaires, etc.
Que représentent les big data pour les chercheurs ?
C'est d'abord une superbe opportunité de partage entre scientifiques. On parle même de quatrième paradigme scientifique : les paradigmes d'élaboration, de théorie et d'expérimentation sont complétés, voire remplacés, par ceux de simulation numérique et d'exploration numérique de données.
Dans certains domaines, il n'y a plus besoin de théoriser pour obtenir des modèles, car nous avons suffisamment de données pour maîtriser un phénomène. Il est donc essentiel que les scientifiques puissent conserver l'accès à leurs données.
Les paradigmes d'élaboration, de théorie et d'expérimentation sont complétés, voire remplacés, par ceux de simulation numérique et d'exploration numérique de données.
Cela n'est pas le cas actuellement ?
De nombreuses plates-formes d'éditeurs permettent aux scientifiques de déverser leurs données. Mais qui les possède ensuite ? Juridiquement, cela n'est pas clair. Et la tendance actuelle risque d'empêcher la communauté scientifique de contrôler ses données.
Nous avons contribué à la préparation de la loi "pour une République numérique", que les sénateurs ont modifiée dans le mauvais sens à nos yeux. Ils préconisent que l'on passe à un mode contractuel, avec abonnement auprès des éditeurs. Nous avons insisté sur l'importance de l'open access pour les chercheurs, c'est-à-dire la possibilité d'accéder librement à leur propre production.
Parallèlement, le ministère de l'Éducation nationale, de l'Enseignement supérieur et de la Recherche travaille à la création d'un système de partage des données "dormant" sur les disques durs des laboratoires.
Les sénateurs préconisent un mode contractuel, avec abonnement auprès des éditeurs. Nous avons insisté sur l'importance de l'open access pour les chercheurs.
S'ils existent depuis toujours dans la recherche, pourquoi les big data prennent-ils cette importance aujourd'hui ?
Partout, nous avons besoin de comprendre comment acquérir des données, les présenter, les exploiter. Derrière, il y a de lourdes applications sociétales, économiques, industrielles.
Historiquement, il y avait les bases de données. Aujourd'hui, les problématiques sont d'une autre ampleur : il faut savoir gérer des jeux de données très volumineux et de formats très différents.
Le Cern, l'Organisation européenne pour la recherche nucléaire, gère des quantités de données énormes, tout comme les spécialistes de l'analyse du génome, ainsi que les chercheurs en recherche informatique.
Les données de la recherche sont-elles concernées par les applications économiques et industrielles ?
Oui. Des entreprises nous demandent souvent de les aider à gérer leur big data. Par exemple, les constructeurs de moteurs d'avion, qui étaient auparavant dans une optique industrielle traditionnelle, peuvent désormais récupérer toutes les données de fonctionnement du moteur chez le client. Cette possibilité modifie leur modèle économique, en proposant des opérations de maintenance ciblées et préventives.
Le flux de données a un impact très fort sur le monde économique. De fait, notre approche, jusqu'ici uniquement axée sur des problématiques scientifiques – comment accéder à ces données, les mettre en relation, faire des corrélations –, s'est doublée de ces demandes d'entreprises. La difficulté est que celle-ci n'est pas toujours précise. Les entreprises génèrent beaucoup de données... mais les "faire parler" n'est pas aisé.
François Sillion : "Nous recrutons sur des postes temporaires pour des missions pouvant durer jusqu'à six ans"
Le directeur général délégué à la science de l'Inria détaille la politique RH de l'Institut."Nous fonctionnons par équipes projet. Celles-ci rassemblent entre 10 et 25 chercheurs, qui partagent un projet. Les sujets sont interdisciplinaires et ne se cantonnent pas aux sciences du numérique. Nous travaillons beaucoup sur les questions éthiques de responsabilité des outils numériques, sur la sécurité... Ces sujets transverses requièrent des mathématiciens, des experts du numérique et des experts en logiciels et hardware. Leurs compétences sont ensuite combinées à des partenaires extérieurs comme le CEA, qui ont des problématiques équivalentes.
Côté RH, nous avons 2.700 collaborateurs, dont 700 chercheurs permanents, 1.200 doctorants et 250 post-doctorants. En plus des postes de chercheurs 'permanents', nous recrutons des scientifiques sur des postes temporaires, sur des missions qui peuvent durer jusqu'à six ans. Cela permet d'apporter des idées nouvelles ou d'embarquer des chercheurs dans des recherches pluridisciplinaires autres que le numérique ou l'informatique."
Le programme