Comme Microsoft et quelques spécialistes, EMC le « roi du stockage » ne pouvait pas ignorer le nouveau concept marketing à la mode des « lacs de données » ou « data lake ».

Nous avons déjà exprimé notre scepticisme sur le sujet et ce n’est pas parce que c’est EMC (Dell) qui se trouve derrière, que cela crédibilise l’idée et que cela nous fera changer d’avis.

Car on a plus l’impression que les prestataires se doivent d’être présents, au moins sur les principes, sur ces sujets, même s’il n’y a pas grand-chose de concret derrière le rideau. Mais ce n’est sans doute qu’une impression…

On laisse tout en place

L’idée du « data lake » est de regrouper physiquement toutes les sources de données jugées utiles, que l’on laisse dans leur état natif, en laissant la charge à des interfaces (comme une fonction de raffinage) ou aux applications, de requêter les données là où elles sont et de la manière dont elles s’attendre à l’être.

Dans le cas d’EMC, la nouvelle offre porte le nom de « Federation Business Data Lake » et regroupe plusieurs technologies, issues de son propre savoir-faire et de celui de ses acquisitions : VMWare et Pivotal. Il s’agit d’ « EMC Information Infrastructure », de « VMWare vCloud Suite », de « Pivotal Big Data Suite » et de « Pivotal Cloud Foundry ».

Autant de technologies, dont on voit bien qu’elles ont surtout pour but de cacher les caractéristiques physiques de stockage des sources et de laisser l’usager se confronter uniquement aux problématiques logiques d’accès aux données.

EMC estime qu’il faut une semaine environ pour personnaliser un lac de données en fonction des besoins exprimés. Avec cependant une petite contrainte : le fait de ne pouvoir, dans un premier temps, puiser que dans des structures physiques EMC, en attendant que d’autres fournisseurs puissent s’intégrer aussi, via l’architecture maison ViPR.

On s’attend donc à ce que les clients puissent installer des structures Hadoop HDFS, d’origine Cloudera ou Hortonworks, ainsi que toutes les couches d’attaque que des tiers pourront suggérer, comme celle de Tableau, voire d’autres structures logiques de bases de données, surtout NoSQL.

Un montage à 3 niveaux

Tout cela devrait déboucher sur une architecture à 3 niveaux :

  • une couche physique, prise en charge par la « Federation Business Data Lake »
  • une couche logique dans laquelle viendront se « plugger » des structures de fichiers, NoSQL, HDFS, etc, qui constituera une sorte de métamodèle logique
  • une couche applicative, avec des outils comme Tableau et des  applications écrites à la demande.

L’objectif final étant que malgré la diversité des sources, l’utilisateur n’ait plus à se préoccuper de ce qui ne concerne pas, à savoir les descriptions physiques des données, pour se consacrer aux données au sens Merise du terme : les entités clients, produits, nomenclatures, etc. Ce qui constitue son cœur de métier.