Selon le cabinet d’études 451 Research, qui vient de publier une étude commandée par le prestataire Blazent, agrégateur de données dans le Cloud, portant sur la qualité des données et la nécessité d’introniser la fonction de CDO (Chief Data Officer), c’est la coupure entre les services métiers et le TI, qui explique la dégradation des données dans l’entreprise.

De plus, mais ça on le sait depuis longtemps, 94% des responsables IT considèrent qu’une faible qualité des données « affecte les résultats de l’activité en entraînant de mauvaises prises de décision stratégiques et une perte de chiffre d’affaires ».

On ne saurait être plus clair.

Le problème est que les dirigeants de ces entreprises refusent en général d’engager une véritable stratégie en faveur de la qualité des données, stratégie, coûteuse il est vrai, mais payante en termes de ROI. Et que l’obstacle n°1 des équipes qui se lancent « ad minimum » sur un POC, est de les convaincre…

Selon Carl Lehmann, auteur de l’étude 451 Research, 8,5 % des 200 entreprises sondées, reconnaissent qu’elles n’ont aucune stratégie en la matière et espèrent que « tout ira pour le mieux ».

Nous pourrions aussi leur suggérer de faire un vœu à leur saint préféré ou commander une prestation à une « voyante » sur Internet, le résultat ne serait pas meilleur.

Les raisons de cette situation

Toujours selon ces mêmes sondés, la raison n°1 invoquée pour expliquer la mauvaise qualité des données, ce sont les erreurs des employés (57 %), suivie par les conséquences des migrations diverses et conversions de données, dans le cadre d’un nouveau projet (47 %).

Le premier chiffre nous paraît trop élevé et on ne peut pas impunément accuser les employés de tous les maux, même s’ils sont responsables d’une partie de la gabegie.

451 Research fait aussi remonter l’idée qu’à 44 %, les erreurs de données viennent des interventions multiples sur une même donnée.

Ca c’est très intéressant et pointe effectivement une faiblesse du système. Car il ne faut pas oublier qu’une donnée, au sens Merise du terme, c’est un ensemble d’attributs qui peuvent être mis à jour par des sources multiples, chacune contribuant à renseigner l’entité donnée (on parle aussi souvent d’ « objet donnée »).

Or la qualité d’une donnée s’exprime non pas globalement sur cette entité ou objet, mais sur tout ou partie de ses attributs. La qualité n’étant donc pas manichéenne, bonne ou mauvaise, mais « à peu près » bonne, en partie bonne, à condition d’avoir statué sur les attributs les plus importants de l’entité.

L’autre intérêt de l’étude 451 Research, est qu’elle  « pointe du doigt » les critères de qualité qui posent le plus de problèmes et nécessitent une surveillance approfondie.

C’est l’intégrité des données qui pose le plus de souci, autrement dit le fait qu’une donnée puisse être altérée par un tiers ou un process inadéquat (75 %). Viennent ensuite la précision (« accuracy ») à 68 %, la « consistance » (58 %) et la validité (53,5 %).

La consistance étant le critère selon lequel une donnée reste dans un état consistant après un traitement ou une intervention humaine. La consistance étant elle-même définie par plusieurs sous-critères. Ce critère est d’autant plus intéressant que l’on sent bien à travers l’étude, que ce sont les Big Data qui sont en point de mire et avec eux des données textuelles et non relationnelles. Or, les systèmes de bases NoSQL présentent un gros défaut de ce point de vue, qui ne garantissent pas la consistance, sans passer par des artefacts externes (de type « commit » et « rollback »).

Très curieusement les sondés ne placent le critère « timeliness », autrement dit l’opportunité, qu’en 5 ème position (46,5 %), devant le critère « completeness » ou complétude, qui nous semble pourtant le plus important de tous.

Il en manque d’ailleurs un, la représentativité, qui n’est pas prise en compte, qui est pourtant essentielle, puisqu’elle mesure l’adéquation d’une donnée à représenter un fait donné : l’année de naissance d’un client, par exemple, qui peut s’avérer insuffisante si on veut lui souhaiter son anniversaire (il faut alors le jour et le mois).

Le CDO est-il nécessaire ou pas

Nous avouons ne pas bien comprendre l’objet de la polémique. Car ce qu’il faut c’est un intermédiaire entre les utilisateurs et le TI, sachant qu’un projet de qualité des données n’aura de chances d’aboutir que s’il est mené par l’un de ces utilisateurs.

Maintenant qu’on le désigne par CDO ou « data scientist », on ne voit pas bien ce que cela change.

Bien sûr qu’il faut un CDO, c’est même essentiel et 451 Research ne fait que confirmer ce que tout le monde sait…sauf le management.

Quant à l’appeler CDO, Data Scientist ou Quarterback, cela ne nous dérange pas. Ce qu’il faut c’est qu’il y en ait un.