Big Data : désir ou réalité ?

Vous l’avez sûrement remarqué : depuis une bonne année le Big Data est la nouvelle tarte à la crème.
Tout le monde en parle, (presque) tout le monde en fait.
Je vous propose une séquence de décryptage et de mise en perspective.
Nous allons débuter par la mise en perspective, grâce au cycle du « hype » de Gartner.
Cette représentation graphique des effets de mode dans les nouvelles technologies est certainement critiquable. Mais elle permet de réfléchir, de prendre de la distance face aux effets d’annonce et aux « coups » médiatiques.

Nous voyons que le Big Data se trouve pratiquement à l’apogée du pic des attentes.
Cela signifie que la technologie n’a pas encore fait ses preuves mais que tout le monde en attend beaucoup, que des sociétés lèvent des capitaux, que la presse en parle et que la promesse d’un monde merveilleux est à son summum.
Maintenant que nous avons vu qu’il est tout à fait normal que tout le monde en parle, voyons de quoi il retourne.

Séquence décryptage.

Tout d’abord  le Big Data mériterait bien une définition…
« Collecte, exploration et analyse de grandes masses de données » semble être celle qui est le plus généralement admise.
Mais que signifie « grand » ?
Pour les géants du Web tels que Google ou Facebook nous imaginons bien que cela représente des millions de To mais beaucoup de petits malins maquillent en « big » ce qui est en réalité du « small ».
Du coup ils vendent doublement du rêve : d’une part celui du fantasme lié à l’espionnage du type NSA et d’autre part celui des consultants qui ont convaincu bien des entreprises que grâce au Big Data leurs données seraient enfin pleinement exploitées.
Mais en ce cas il ne s’agit que d’un coup de Ripolin sur un objet qui n’a rien de bien neuf.
Et comme les USA avec leur programme « Recherche et développement Big Data » ou la France qui en a fait sur les conseils de la Commission « Innovation 2030 » l’un des sept défis d’avenir, celui du Big Data semble assuré et son attractivité est toujours au zénith.
Mais, comme le montre si bien le graphe de Gartner nous sommes encore dans la phase d’admiration béate. Car le Big Data ne s’est pas encore confronté à la réalité du business (si l’on ne prend pas en compte son effet de médiatisation).
Voyons ce qu’il en est.
Car pour « traiter » ces informations il ne faut pas que de la puissance de calcul… il faut savoir comment traiter ces vastes listes de données.
Et c’est là que cela devient compliqué.
En effet il faut prendre en compte trois types de dimensions pour traiter ces données : le volume, la vitesse et la variété.

Le Big Data, ce n’est uniquement beaucoup d’information (la collecte des mouvements de souris sur une page web) mais également de l’information qui change ou s’accumule très vite (toujours ces fameux mouvements de souris pour l’ensemble des visiteurs de votre site) et surtout de l’information hétérogène (données spatiales des mouvements de souris, pages vues, sites visités, formulaires remplis, commandes passées…).
Pour les volumes Google a montré la voie : quand il y a trop de données à manipuler on les découpe en petits morceaux pour les traiter puis ensuite on les ré-assemble. La méthode MapReduce est née. Puis sont venus des outils tels que Hadoop pour le faire.
Pour gérer une telle masse de données il a également fallu abandonner le système utilisé depuis les années 60, c’est-à-dire celui des bases de données relationnelles, au profit d’un système moins rigoureux mais qui a le mérite d’être plus rapide, connu sous le nom générique de Nosql.
Encore faut-il avoir réellement beaucoup de données à traiter pour justifier l’emploi de telles  techniques.
Si on aborde la question du Big Data sous l’angle de la vitesse de la variation et/ou de la création des données là aussi on ne peut rester dans les schémas « classiques » du fait des volumes à traiter. On ne peut, en effet, recommencer les calculs à chaque fois, d’où la nécessité d’utiliser de nouvelles méthodes telles que celles pré-citées;
Enfin vient la dimension de l’hétérogénéité des données. Leur variété, par exemple liée aux capteurs ou aux émetteurs, tels smartphones, détecteurs de passage… nécessite une approche spécifique car centraliser et homogénéiser ces informations prendrait trop de temps, trop de capacités. Or l’échantillonnage statistique basé sur la loi normale ne fonctionne pas forcément en univers numérique. Et là c’est compliqué. C’est pourquoi Jean-Michel LOUBES, professeur à l’Institut de Mathématiques de Toulouse souligne dans un interview donné au Monde que pour le Big Data « Il n’y a pas de solution presse-bouton ».
Et Stéphane Clémençon, responsable de la chaire Big Data à l’Institut Mines-Télécom de renchérir, toujours cité par le Monde : « L’espace considéré apparaît immense et les choses intéressantes y sont rares ».
Enfin le Big Data promet un nouveau paradigme : celui de la fin du cartésianisme et de la pensée scientifique –  et donc de la pensée marketing – telle que nous la connaissons.

Parmi les promesses du Big Data se trouve celle de l’abduction : les données vont « parler » d’elles-même sans qu’il soit besoin d’avoir de modèles préconçus pour les analyser. Adieu les notions d’induction et de déduction ? Rien n’est moins certain et les débats font rage. Notamment parce que les outils utilisés intègrent, de par leur construction, leurs propres biais. 
C’est bien pour cela que dans le cycle du « hype » de Gartner le Big Data n’est positionné sur le « plateau de productivité » du cycle que dans 5 à 10 ans.
Alors, le Big Data, désir ou réalité ?
Retrouvons nous dans 5 à 10 ans pour le savoir.
Et si vous raisonnez en entrepreneur et donc en termes de niveau de prise de risque…. passez votre chemin.

    %d blogueurs aiment cette page :