Big data management : le présent et l’avenir des entreprises

Le Big data management est une expression que l’on entend fréquemment dans le langage quotidien des affaires. Comme le dit l’adage : « savoir, c’est pouvoir ». Toutefois, les informations ne nous servent pas à grand-chose sans une gestion appropriée. La grande masse d’informations générée quotidiennement dans le monde entier constitue maintenant un défi pour les entreprises. Toutes ces informations doivent en effet être extraites, stockées, et mises à la disposition des utilisateurs.

Les trois « v » du big data management

La gestion du big data repose sur plusieurs facteurs importants dont les entreprises doivent tenir compte. On peut les classer selon trois grandes catégories :

La variété

Un des problèmes récurrents du big data management est l’hétérogénéité des données existantes. Un peu partout, on utilise des formats différents pour le traitement des photos, ou pour compresser des vidéos ou de la musique. C’est la raison pour laquelle on tend maintenant à standardiser les formats des données brutes. Par exemple, pour les formats précédemment mentionnés, on utilisera le MP3 pour compresser des fichiers audio, le PDF pour les documents, et le JPEG pour les images.

Le volume

Ceux qui ont connu le développement des premiers ordinateurs personnels se rappelleront sûrement que l’on n’imaginait pas pouvoir disposer un jour chez soi d’un ordinateur avec un espace de stockage supérieur à un giga. À cette époque, seul existait le « méga ». L’informatique et la nécessité de stocker des informations se sont tellement développées depuis qu’il est aujourd’hui difficile de trouver un ordinateur personnel d’une capacité inférieure à un téraoctet.

L’un des problèmes majeurs du big data management est le volume des informations. Dans l’histoire de l’informatique les processeurs ont évolué de façon parallèle à l’augmentation des besoins de stockage. Le fait est que plus la vitesse de fonctionnement des processeurs est importante, plus l’obtention des informations est rapide.

Par conséquent, l’un des plus grands défis des personnes chargées de gérer le big data est l’amélioration des tâches de traitement des données, car le volume des informations augmente désormais plus vite que les possibilités de calcul et la vitesse des UCT (unités centrales de traitement).

La vélocité

Nous ne parlons pas ici de la vitesse de recherche des données évoquée précédemment, mais de la vitesse de génération et de traitement relative à leur stockage.

Le big data management est confronté à la réception continuelle de grandes quantités de données d’origines très diverses. Cela produit un résultat comparable à celui que l’on obtient en versant de grandes quantités d’eau sur un trop-plein de petite taille : l’eau finit toujours par déborder.

C’est ici qu’intervient la notion de traitement des flux. Lorsque les données arrivent trop vite pour pouvoir être interprétées et stockées, une partie de celles-ci est conservée pour pouvoir être analysée ultérieurement en suivant des processus qui permettront de réagir de manière appropriée lors de l’arrivée de données similaires.

La connaissance du cycle de vie : un des aspects du big data management

  • Recueil de données. La majorité d’entre elles sont dépourvues d’intérêt. Elles sont filtrées et compressées. Attention à bien définir les filtres pour ne pas rejeter d’informations utiles.
  • Propreté. Les données sont extrêmement hétérogènes. Il faut donc les standardiser avant de les hiérarchiser et de les stocker.
  • Prospection et analyse de données. Les données sont brutes, hétérogènes et « bruyantes »… mais surtout intéressantes. Elles doivent donc être interprétées pour déterminer celles qui sont susceptibles de présenter un intérêt pour les processus de l’entreprise.
  • L’application du big data. Un cadre doit être créé pour permettre son utilisation. Les informations mises à disposition doivent être de bonne qualité, nouvelles, valides et utiles.