Le paradigme du Big Data et son application au domaine de la santé
Quand les données occupent un volume trop important pour être traitées avec les outils classiques, quand ces données se présentent dans un format trop peu structuré, comme les sons et les vidéos, pour être gérées dans une base de données relationnelle, quand les données bougent trop vite et s’accumulent, les technologies du Big Data s’imposent.
Mais qu’est-ce qu’une donnée ?
Définissons d’abord ce qu’on entend ici par « une donnée ». Une donnée est une information, sans structure particulière, mais porteuse d’un sens. Par exemple « 25 » n’est pas une donnée, ce n’est qu’un chiffre. « 25 euros », chiffre enrichi de son unité, n’est toujours pas une donnée, c’est un prix mais de quoi ? « Cette consultation médicale coûte 25 euros » est une donnée car autour de cette donnée gravitent beaucoup d’informations, non contenues dans les mots qui décrivent directement la donnée, mais qui ne demandent qu’à être précisées pour lui donner plus de poids et plus d’utilité. Cette consultation est faite par tel médecin, à tel endroit, dans telle circonstance et a duré telles minutes … Toutes les données qui s’ajoutent à la donnée initiale pour l’enrichir sont ses métadonnées, qui sont très utiles quand on les associe dans son traitement et donc il ne faut pas les dissocier de la donnée qu’ils précisent.
Voyons maintenant le changement introduit par le Big Data.
Le quatrième paradigme : la corrélation des données et métadonnées
Dans son livre « le quatrième paradigme », Tony Hey décrit quatre innovations qui ont fait avancer la science. Il y eut d’abord l’observation des phénomènes qui nous permettent, en comprenant leurs causes, de prévoir leurs effets. Sont arrivées plus tard les sciences « dures », mathématiques, physique, qui ont permis de modéliser ces phénomènes et le principe de causalité acquiert ainsi une base théorique. Troisième paradigme, qui tire parti des deux précédents, la simulation sur ordinateur. À partir d’un échantillon de données en entrée, traité par des algorithmes, la simulation permet de vérifier une hypothèse ou de découvrir les conséquences d’un comportement.
Enfin arrive le quatrième paradigme : Le Big Data qui introduit une innovation de rupture. La simulation d’un phénomène ne part plus que d’un échantillon en entrée, forcément petit car limité par la disponibilité des données, les tailles mémoire et les puissances de traitement mais de l’ensemble des données disponibles dans ce qu’on appelle un « data lake », un lac de données pouvant contenir non seulement des informations structurées mais aussi des informations de tout type, sons, vidéos etc... On traite les données par des calculs massivement parallèles, sans limitation ni du nombre de données, ni de la taille mémoire ou disque, ni de la puissance de calcul. Des algorithmes corrèlent les données entre elles et en sortent des résultats parfois surprenants, souvent imprévus.
Leurs conclusions basées sur les données et leurs métadonnées, sur les relations les reliant, qui peuvent provenir de mondes parfois très hétérogènes mènent à des conclusions qui nous aident à comprendre ou à prévoir des phénomènes parfois inexpliqués jusqu’alors. Au principe de causalité emmené par les trois premiers paradigmes se superpose le principe de corrélation induit par le Big Data.
Le quoi plutôt que le pourquoi
On ne s’attache plus au « pourquoi » telle cause entraine tel effet (principe de causalité) ; on se concentre sur le « quoi », qu’apporte les données en entrées, corrélées par les calculs qui les traitent, et les conclusions que visualisent les ordinateurs. Connaître le quoi permet de prendre des décisions rapides, connaître le pourquoi devient secondaire et peut être remis à plus tard. Par exemple si la corrélation d’immenses quantités de données médicales montre que telle pathologie est liée à tel parasite, dans telle région du globe, et affecte surtout telle population, il conviendra d’investir en urgence dans la prévention pour protéger les populations locales quand les conditions climatiques identifiées se présentent. Savoir pourquoi tel parasite peut propager tel virus sans être lui-même affecté est certes très intéressant mais peut être traité dans un second temps. Comprendre pourquoi telle population est plus exposée que d’autres n’est pas ce qui est le plus important quand le péril est en la demeure et qu’il faut agir sans tarder. Les données ont parlé et … « In Data Veritas ».
Le Big Data offre la possibilité de corréler des données et leurs métadonnées avec de très nombreuses autres données et métadonnées associées, à travers des algorithmes de traitements mathématiques et statistiques. Le but est de faire parler l’ensemble de ces données qui peut occuper un grand volume de stockage, données de tous formats, puis de visualiser les résultats de manière à faire émerger une tendance, une constatation, peut être une prédiction, en tout cas une information utile à celui qui en a besoin pour prendre une bonne décision. Même si ces résultats ne sont pas ceux qu’on attendait, ce n’est pas un réel problème. Les résultats sont là et on les exploite, quitte à comprendre plus tard la cause qui a produit l’effet.
Les données de santé et de bien-être, une matière première inestimable
Le Big Data s’est imposé récemment avec le Big Bang numérique lié à l'explosion des réseaux sociaux. Il est porté par la vague des smartphones et des tablettes, se poursuit avec l'Open Data et va passer à la vitesse supérieure grâce à l'Internet des Objets, et les multiples capteurs qui vont dans un avenir proche nous entourer, faire partie de nos vêtements, de nos corps et de beaucoup d’autres éléments familiers. En 2011, le volume de données générées s'est élevé à 1800 milliards de giga octets. Dans huit ans il devrait être cinquante fois supérieur.
Ces données brutes et complexes représentent une matière première naturelle de grande valeur. Les organisations, et parmi elles les établissements hospitaliers et les chercheurs dans les domaines de la santé qui en ont pris conscience, découvrent qu’ils n’exploitent pourtant aujourd’hui qu’une infime partie de leurs données, alors qu’elles représentent une mine d’or qui va conditionner leur compétitivité. Cet avantage offre aux organisations une connaissance plus fine de leurs environnements, de leurs patients ou parfois une prédiction de ce que pourraient être la progression d’une épidémie … pour qui sait exploiter ces données bien entendu. Une donnée peut conserver une vie propre et être indépendante des traitements qu'on peut lui faire subir. Le croisement d’une donnée avec d'autres données augmente leur valeur.
S’agissant de la valeur des données, on parle souvent d’or noir du 21eme siècle. Si l’image est évocatrice, elle est fausse car contrairement au pétrole et à d’autres énergies fossiles, qui sont des ressources épuisables, les données sont en prolifération extrêmement rapide et les données engendrent d’autres données, rien ne semblent pouvoir empêcher l’explosion de leur nombre. Autre différence bien sûr, alors que le pétrole est produit par la nature, les données sont produites par l’être humain, ou à partir de l’être humain par des capteurs, ce qui peut poser le problème de leur qualité (véracité et valeur). Mais ajoutons tout de même que comme pour le pétrole brut, les données brutes ont besoin d’être raffinées pour être utiles.
Déjà les recueils et l'exploitation des données ont des retombées dans bien des domaines et en particulier dans ceux de la médecine, de l'énergie, des transports, de la finance, de l’assurance, de la cybersécurité.
Les données seules n’apportent généralement rien d’exploitable. Les millions, ou plus, de lignes contenues dans les thèses de recherche en médecine, les rapports cliniques d’un établissement hospitalier ne sont pas facilement utilisables en l’état, bien qu’ils contiennent des informations parfois indispensables. Ces données sont déjà plus intéressantes si on les lie avec les métadonnées qui les caractérisent et qu’on les corrèle avec d’autres données, et ainsi de suite, de manière incrémentale. Le résultat obtenu est parfois inattendu, voire incroyable, mais les données ont parlé, et les données ont généralement raison quand elles sont de qualité (voici encore les critères de véracité et de valeur) et quand elles sont traitées par des algorithmes adaptés.
Le Big Data pour prévoir les épidémies
En pierre de voute de cette révolution, on trouve des algorithmes mathématiques puissants et des statistiques pour faire parler la masse des données disponibles. Aucune industrie, aucune organisation n’y échappera dans un avenir proche.
La matière première la plus précieuse, pour les grands ténors actuels du Big Data que sont Google, Yahoo, Facebook, Amazon, Microsoft, et d’autres, n’est pas tant dans les données brutes qu’ils détiennent que dans les algorithmes qui les traitent.
Le résultat obtenu est alors parfois inattendu, voire incroyable, mais les données ont parlé, et les données ont généralement raison quand elles sont de qualité et quand elles sont traitées par des algorithmes adaptés. Prenons un exemple dans le domaine de la prévention des épidémies, un des domaines avancés où le Big Data fait progresser l’innovation.
En partant de l’analyse de dizaines de millions de requêtes entrées chaque semaine sur le moteur de recherche de Google, sur plusieurs années, des Data Scientists ont conçu des algorithmes qui semblent, à l’usage, pouvoir prédire le nombre de personnes, dans une population donnée, qui ira consulter un médecin à très court terme, pensant qu’elles ont la grippe. Les requêtes analysées par le moteur de recherche sont beaucoup plus complexes que l’entrée de simples mots clés tels que « grippe » ou « influenza » ou « fièvre et courbatures ». À partir du contenu de ces requêtes, les Data Scientists ont conçu un algorithme qui donne le pourcentage d’habitants, dans une région donnée qui va aller consulter un médecin parce qu’il semble, à ces patients, qu’ils présentent les symptômes de la grippe. Si vous souhaitez avoir des explications plus techniques, téléchargez par exemple l’article de Vanja Duki, Hedibert Lopes and Nicholas Polson, Tracking Epidemics with State-space SEIR and Google Flu Trends.
Ainsi Google, après avoir peaufiné ses algorithmes, a pu en quasi temps réel, après analyse des requêtes faites sur son moteur de recherche, et en corrélant entre elles les données de la gigantesque base ainsi constituée, avec les outils du Big Data que Google a d’ailleurs contribués à créer, donner les évolutions de la pandémie H1N1 sur plusieurs régions du globe. En France, la courbe de propagation de la grippe, mise à jour très fréquemment par Google est recouverte avec une précision parfois étonnante par celle mise à jour toutes les semaines, par le réseau officiel Sentinelle auquel contribuent les médecins. Ces résultats parus il y a quelques années dans la revue Nature ont fortement marqué les esprits. Il est vrai que certains des résultats de Google s’écartaient de cette courbe en surestimant l’épidémie et ont donc été contestés. Google ne publie plus ces courbes. Mais si dans certaines régions on peut en effet constater un manque de précision dans les courbes de Google, n’est-ce pas simplement une question de données brutes consultées et dont on peut améliorer la qualité et une question d’algorithmes qu’on peut encore optimiser ? C’était alors l’enfance du Big Data.
Autre exemple dont la presse a parlé, deux chercheurs de Microsoft et du Technion ont analysé, par des algorithmes adaptés, une quantité phénoménale de données climatiques, tempêtes, sécheresse, données hydrologiques, thermales, de marées corrélées avec d’autres données sur le choléra et en ont déduit que sur l’île de Cuba, à telle date, toutes les conditions se trouveraient réunies pour l’apparition de cette maladie. Le vibrion cholérique n’avait pas été décelé sur l’île depuis une cinquantaine d’années. Cette prédiction a fait beaucoup rire dans les milieux autorisés. A la date prévue, en 2012, l’épidémie de choléra débuta, surprenant la communauté médicale. Les données avaient parlé et les données avaient eu raison. Le Big Data avait su prévoir l’avenir.
Des modèles de Markov aux réseaux bayésiens, du calcul distribué au machine learning et à l’analyse fine du contenu des réseaux sociaux et autres gisements de données, le Big Data ouvre les portes d’un monde incroyable. Le domaine de la santé fortement impliqué ne sera plus comme avant avec ce quatrième paradigme.