jeudi 28 février 2013

Course aux algorithmes ?

Les données doivent devenir le pétrole du 21ie siècles. À travers de nombreux cours et de concours de modélisation une communauté de data scientist est en train de se constituer. Le big data est un terme à la mode alors que déjà les statisticiens font du big data depuis un certain temps.

Pourquoi une telle effervescence ?

  • des outils libres ont fait leurs apparitions et ainsi ont permis de diffuser le data mining, alors qu'auparavant seuls des outils onéreux étaient disponibles.
  • il est possible de louer de la puissance de calcul en faisant appel à des services de cloud comme Azure ou Amazon EC2 pour quelques euros

La contrepartie à ce développement est de mettre de coté l'importance des statistiques pour la réalisation et la compréhension des modèles.



Je ferais une analogie avec le monde du jeu d'échec.
En 1988, Gary Kasparov a perdu une partie face à Deep Blue qui était capable de calculer 300 millions de coups par seconde. Pour caricaturer le statisticien comme le jour d'échec connait les raccourcis pour trouver le meilleur modèle en limitant les calculs, tandis que l'informaticien alias Deep Blue connait la puissance brute pour trouver le meilleur modèle hors pour devenir un bon data scientist il faut combiner ces deux aspects, il faut être à la fois un bon statisticien et un bon informaticien.

Or aujourd'hui, il n'y a de moins en moins une analyse en amont des données, du travail d'enquêtes pour comprendre ces dernières. J'ai vu de nombreux concours de modélisations où la connaissance des données n'était pas un préalable obligatoire :

  • la KDD Cup 2009 sponsorisée par Orange pour expliquer le comportement du consommateur avait la majorité des variables non expliquées
  • le concours Kaggle pour prévoir la durée d'hospitalisation avec un ensemble de prix s'élevant à 3 millions de dollars a un certain nombre de variables dont l'articulation est obscure pour l'ensemble des participants

Cette méconnaissance des données risque de transformer le travail de modélisation en un simple concours d'algorithme et de puissance de calcul. Il faut utiliser la puissance de calcul à bon escient, et ne pas négliger le travail d'études statistiques des données en amont.