French

Une introduction à la qualité des données

D'après une étude d'InformationWeek Analytics*, la qualité des données en 2015 est « toujours No. 1 sur la liste des "obstacles au succès" cités par les professionnels du Business Intelligence et de la gestion de systèmes d'information de type analytique ».

Pourquoi ?

Les données contenues dans les bases de données d'une entreprise décrivent des faits de la réalité du monde au moment où elles sont entrées dans le système d'information. Mais pendant combien de temps restent-elles d’actualité tandis que la réalité évolue ? Au fur et à mesure que le temps s’écoule, il s’installe une « distance » entre les données stockées dans les bases de données et la réalité qu’elles représentent.

Cette distance entre la « réalité » et les données qui la décrivent représente pour l’entreprise un risque plus ou moins important en fonction de l'importance de la donnée par rapport aux besoins « métiers ». Ainsi, à titre d’exemple, prenons le cas des adresses postales des clients. Comment l’entreprise gère-t-elle les changements d'adresse ? Quelles sont les conséquences pour l’entreprise d’une adresse « périmée » ?

Ce risque s’amplifie lorsque les données sont utilisées pour alimenter des processus de décisions dans le cadre de la Business Intelligence ou bien sont échangées avec des partenaires extérieurs à l’entreprise (client, fournisseur, administration…). Comment mesurer l’impact d’une donnée « erronée » transmise à l’administration fiscale par exemple ?

Pour REVER, en matière de "qualité des données", il faut essentiellement distinguer deux aspects:

  1. l’actualité des données dont l’objectif est de garantir la conformité des données à la réalité des faits qu’elles représentent (par ex. dans un CRM les adresses clients), ce qui nécessite des procédures organisationnelles au sein de l'entreprise pour en garantir l'exactitude (rôle d'un data stewart, entre autres)
  2. la cohérence des données au sein des systèmes d’informations qui a pour objectif de garantir que les données enregistrées respectent les règles définies par le « métier » et qu’elles ne soient pas contradictoires. Cet aspect de la qualité peut être contrôlé par des outils. Exemples de données incohérentes, voire contradictoires: une date inexistante (31 juin ou année bissextile farfelue) ou bien le nombre d'enfants d'un client qui ne serait pas le même d'une base à l'autre (Mme X a-t-elle 2 ou 3 enfants?)

L’actualité d’une donnée relève du travail de l'entreprise et de ses employés, alors que la cohérence des données peut être gérée par les applications et relève du domaine informatique.

Qualité des données


 

ADEQUATION ENTRE BASES DE DONNEES ET REALITE DU MONDE

C’est sous l’angle du « risque » par rapport à ses objectifs métiers que l’entreprise doit mesurer la qualité de données. Les efforts à effectuer pour un niveau de qualité de données acceptable doivent être proportionnels aux risques encourus… Ainsi, à titre d’exemple, il n’est pas utile - et même il peut être coûteux - de maintenir des adresses postales à jour si l’entreprise ne les emploie pas…

Il appartient donc « au métier » et en fonction de l'importance de chacune de ses missions de définir et de faire respecter un niveau d’exigence de qualité des données, étant entendu qu'une qualité de données à 100% n'existe pas.

Les solutions proposées par REVER :

Il s'agit de:
  1. dissocier la partie technique de la partie organisationnelle
  2. permettre la détection des incohérences de données dans les bases de données au sein d’une application ou entre plusieurs applications
  3. permettre d’identifier les données concernées par une activité critique du « métier » et de focaliser les efforts d’amélioration continue de la qualité de données pour cette activité

*Source: 2015 Analytics & BI Survey

Mots clés: 

Auteur(s): 

Muriel Adamski