Comment gérer la qualité des données d'un entrepôt de données de santé ?

Les entrepôts de données de santé (EDS) sont devenus des piliers essentiels pour la recherche clinique, l’amélioration des soins, et l’évaluation des politiques de santé publique. Mais ces puissants outils ne valent que par la qualité des données qu’ils contiennent.
Alors, comment s’assurer que les données d’un EDS sont fiables, complètes et utilisables ? Voici une approche structurée pour organiser et maintenir une gestion rigoureuse de la qualité des données dans un entrepôt de santé.
1. Comprendre les enjeux spécifiques aux données de santé
Les données de santé sont sensibles, hétérogènes et souvent non structurées. Elles proviennent de multiples sources : Dossier Patient Informatisé (DPI), laboratoires, imagerie, pharmacie, registres, voire objets connectés.
Les enjeux spécifiques sont :
- La conformité réglementaire (CNIL, RGPD, référentiels comme le CI-SIS ou le SNDS).
- La protection des données personnelles et le respect du secret médical.
- L’interopérabilité sémantique et technique (terminologies médicales, formats HL7/FHIR...).
- L’usage secondaire des données (recherche, IA, épidémiologie...) qui nécessite une qualité irréprochable.
2. Définir les dimensions de la qualité à surveiller
Dans un EDS, la qualité des données doit être mesurée selon plusieurs dimensions métier et techniques :
Dimension | Exemple concret dans un EDS |
---|---|
Exactitude | Un code CIM-10 mal saisi fausse une analyse de morbidité. |
Complétude | Une date de diagnostic manquante rend la donnée inexploitable. |
Cohérence | Incohérence entre sexe du patient et type d’examen. |
Fraîcheur | Les données doivent être synchronisées avec les systèmes sources. |
Traçabilité | Chaque donnée doit avoir une provenance, un contexte de collecte. |
3. Mettre en place une gouvernance des données de santé
Une bonne qualité repose sur une gouvernance claire :
- Définir les rôles : data steward, data owner, administrateurs métier et technique.
- Établir des référentiels : dictionnaire des données, catalogues de métadonnées, règles métier.
- Mettre en place des comités qualité : réunissant DSI, chercheurs, médecins, référents RGPD.
La gouvernance permet de structurer les responsabilités et de faire vivre la qualité dans le temps.
4. Déployer une stratégie d’évaluation continue
a. Profiling et audit des données
Réaliser un profiling régulier des sources pour détecter :
- Taux de valeurs nulles
- Valeurs aberrantes
- Incohérences de formats
- Duplications
b. Mise en place d’indicateurs de qualité
Par exemple :
- Taux de complétude des dossiers patients
- Nombre de codes standardisés vs. libres
- Délai moyen de synchronisation entre DPI et EDS
Ces KPI sont à visualiser dans des tableaux de bord qualité.
5. Intégrer des outils de contrôle automatisé
Les contrôles qualité automatisés permettent une surveillance efficace et répétable :
- Règles de validation métier : format, valeur autorisée, correspondance entre champs.
- Tests statistiques pour repérer des anomalies inattendues.
- Comparaison inter-sources : cohérence entre plusieurs systèmes (ex : labo vs pharmacie).
Des plateformes comme QALITA Platform, Talend Data Quality, ou des solutions open source comme Great Expectations peuvent aider à industrialiser ces contrôles.
6. Mettre en place un processus de correction et de rétroaction
- Chaque anomalie détectée doit pouvoir être signalée, documentée et corrigée, idéalement à la source.
- Il faut tracer les corrections effectuées pour garantir la reproductibilité des analyses.
- Un retour doit être fait aux producteurs de données (ex. secrétariat médical, laboratoire) pour les impliquer dans l’amélioration continue.
7. Documenter et sécuriser les flux
Dans un EDS, chaque étape d’ingestion, transformation, pseudonymisation doit être documentée :
- Workflow de transformation (ETL)
- Historique des extractions
- Versioning des jeux de données
- Conformité CNIL et auditabilité RGPD
Cela garantit la confiance et la transparence, essentielles dans le domaine de la santé.
Conclusion
Gérer la qualité des données d’un entrepôt de santé, ce n’est pas simplement corriger des erreurs : c’est mettre en œuvre une culture de la qualité, structurée autour de processus clairs, d’outils adaptés et d’une gouvernance forte.
Une donnée de qualité, c’est une donnée utile, fiable et traçable, capable d’alimenter en toute sécurité la médecine de demain, la recherche clinique, et les innovations en santé numérique.