A chaque instant, nous produisons des données. De Paris à Dakar, de Jakarta à New York, nos activités quotidiennes (consommer, communiquer, se déplacer…) génèrent des données, des «miettes numériques» que nous laissons derrière nous. Ces informations sont potentiellement utiles pour le développement. Comment ? Entretien avec Thomas Roca, économiste à l’AFD.

ESRI User Conference 2013 © kris krüg
ESRI User Conference 2013 © kris krüg

Qu’est-ce que le « big data » ?

La notion de «big data» recouvre un ensemble de données hétérogènes – pour ne pas dire hétéroclites. Il est d’usage de les décrire par les « 3V » de « Vélocité » (fréquence d’actualisation élevée), « Variété » (images, données de téléphonie mobile, données issues de capteurs, textes, etc.) et « Volume », la masse d’informations qui en résulte étant considérable. Cependant, cette description laisse de côté l’humain derrière la donnée, elle évacue leur impact sur l’organisation de nos sociétés.

 

Quels sont les défis soulevés par ces nouveaux types de données ?

Les défis soulevés par la mise en données du monde ne doivent pas être considérés comme des questions purement techniques. Ces défis sont également politiques et éthiques. A qui appartiennent les données issues de nos téléphones mobiles ou de notre activité sur les réseaux sociaux ? Comment protéger la vie privée des citoyens ? Comment réguler leurs utilisations ?

Le fait que nous ne pouvons pas, à l’avance, connaître l’usage qui sera fait de nos données privées, pose un problème éthique. Si elles sont vendues à un service de sécurité étranger, sommes-nous informés ? Pouvons-nous refuser ? Aujourd’hui, la réponse est non car pour utiliser les réseaux sociaux, chaque utilisateur donne son « consentement éclairé » à la réutilisation de ses données personnelles, sans savoir quel usage en serait fait dans le futur. En effet, très souvent l’opérateur ne le sait pas lui-même ! A sa création, Facebook était loin d’imaginer l’intérêt commercial que représenteraient un jour les informations qu’il allait collecter. Ainsi, sans que ce soit son objectif initial, il a pourtant créé un nouveau business-model.

A l’image de la bioéthique, il faut définir des règles, au niveau international, pour définir une éthique des données, une « data-éthique ». De par leur diversité, le quasi-monopole du secteur privé dans leur collecte mais aussi de par leur importance stratégique dans une économie dématérialisée, la mise en place d’un « consensus global des données » est complexe.

Jusqu’ici les régulations nationales – ou européennes – définissent certaines règles qui protègent les citoyens, plus ou moins efficacement. Toutefois, des règles trop strictes peuvent finir par entraver l’innovation et l’utilisation de ces données pour les politiques publiques. Où placer le curseur ?

A ce jour, il n’existe pas de réponse institutionnelle qui permettrait la mise en place d’une plateforme de données privées, ouvertes mais protégées (anonymisées, à accès restreint, etc.) qui pourrait servir à l’élaboration de politiques publiques. De tels projets sont néanmoins discutés à l’ONU et à la Banque mondiale. Côté entreprises, Orange est un acteur extrêmement actif dans ces discussions. Suite au succès des challenges Data for Development[1], Orange souhaite poursuivre ses efforts et encourager d’autres entreprises privées à le rejoindre dans une « mise à disposition contrôlée » de certaines données utiles pour le développement. Le projet Data for Climate Action pourrait être de ceux qui changent la donne, si un nombre suffisant d’entreprises parviennent à se mobiliser pour mettre à disposition, de nouvelles données pour mieux comprendre l’impact du changement climatique et des modifications environnementales sur les populations.

 

Quel rôle peuvent jouer les  «big data» dans les sciences sociales?

Ces nouveaux types de données apportent une vision différente du monde, complémentaire de celle apportée par les statistiques existantes. Jusqu’à présent, les données utilisées en sciences sociales étaient « construites » à la suite d’un processus de collecte issue d’observations ou de questionnaires. Dans l’ère des « big data», les données sont principalement « émises ».

L’utilisation de ces données en sciences sociales n’est pas si simple, ni toujours judicieuse. Elle soulève un certain nombre de questions. Premièrement, celle de leur validité. Les données traditionnellement utilisées sont le fruit d’une construction théorique: que souhaitons-nous mesurer ? Comment capturer l’information ? Avec les « big data », le problème se pose en sens inverse : de quelles données disposons-nous ? Que peut-on en faire ?

Dans la pratique, la distinction est plus ténue. En réalité, seule une minorité de chercheurs en sciences sociales peut se permettre de constituer une base de données spécifique. La majeure partie des chercheurs se posent grosso modo les mêmes questions: de quelles données disposons-nous? Que peut-on en faire? Comment les traiter de manière adéquate?

Certaines données massives souffrent de problèmes spécifiques : elles peuvent être en réalité partielles – car tout n’est pas quantifiable – et parfois partiales. Elles ne reflètent pas nécessairement les activités de la part de la population la moins connectée, et les plus pauvres sont souvent sous-représentés. Ce peut être le cas des données issues des NTICs (téléphonie mobiles, réseaux sociaux, etc.).

 

Quel avenir pour l’utilisation de ces données pour le développement ?

Nous vivons une phase de recherche et d’expérimentation et la généralisation de l’usage des « big data » pour la statistique officielle prendra encore du temps. Deux cultures, deux générations se font face : les statisticiens et les « data-scientists ». Ils utilisent un langage et des outils parfois différents. Les premiers ont été formés à la statistique et aux probabilités. Les seconds viennent du monde de l’informatique et traitent d’ensembles de données parfois si grands que la statistique inférentielle[2] et la notion d’échantillonnage leur semble dépassées. Les premiers vivent dans le « temps long » de la comptabilité nationale, les seconds dans l’instantanéité de l’internet… Les débats autour de la mesure des Objectifs du Développement Durable voient s’opposer, mais aussi s’articuler ces deux visions de la mise en données du monde.

Les «big data» ne sont évidemment pas une réponse miracle aux manques de capacités, financières et humaines, auxquels sont confrontés les Instituts Nationaux de la Statistique dans les pays les plus pauvres. Néanmoins, certaines de ces données peuvent être utiles pour répondre à des problèmes spécifiques. Prenons l’exemple des données de téléphonie mobiles. Celles-ci sont particulièrement pertinentes lorsqu’il s’agit d’appréhender la mobilité et de suivre les déplacements des populations. Leur analyse permet alors d’optimiser les trajets de transports publics, de réguler le trafic routier, de faciliter la planification urbaine, etc. On peut également penser à la consommation d’eau et d’électricité, les fameux « smart grid ou réseaux intelligents» qui peuvent, grâces aux capteurs présents sur le réseau, améliorer la gestion des flux électriques (puissance délivrée, répartition etc.).

Si le secteur privé tire déjà partie de ces données, c’est qu’il en maîtrise le processus de production. Dans le cas des politiques publiques se posent les questions de protection de la vie privée et de l’intérêt stratégique que représentent certaines de ces données pour le secteur privé, notamment quand celles-ci touchent au cœur de métier de ces entreprises. Néanmoins toutes les données ne sont pas stratégiques. Orange évoquait récemment le cas des capteurs météorologiques présents sur ses antennes relais, utilisés pour analyser la qualité de l’air et donc sa capacité à conduire les signaux. La mise à disposition de ce type de d’informations est tout à fait envisageable.

Aujourd’hui, nous espérons  la mise en place de nouveaux types de partenariats, des Partenariats-Public-Privé-Personnes qui pourront faire avancer l’utilisation de ces données au service des populations les plus pauvres. Comme le rappelait Amina Mohammed, conseillère spéciale du Secrétaire général des Nations unies, chaque jour des vies disparaissent fautes d’avoir été comptées.

 

 

[1] qui défient des équipes de chercheurs autour de l’utilisation des données de téléphonie mobile pour la formulation de politiques publiques en Côte d’Ivoire (2013) et au Sénégal (2014) .
[2] L’inférence statistique, c’est appliquer à une population toute entière, des caractéristiques observées au sein d’un échantillon représentatif – à une marge d’erreur près.

Je m'inscris à la newsletter ID4D

Une fois par mois, je suis informé(e) des nouvelles parutions sur ID4D.

Agenda