Note technique : Nettoyage des données

Publication language
French
Pages
24
Date published
28 Jun 2022
Type
Guidance
Keywords
Data approaches, Data cycle steps, Data quality

Quel que soit le mode de collecte des données (entretiens en face à face, entretiens téléphoniques, questionnaires auto-administrés, etc.), il y aura un certain niveau d'erreur. Les "données désordonnées" désignent des données remplies d'incohérences. Si certaines de ces incohérences sont justifiées car elles reflètent des différences contextuelles, d'autres sont probablement le résultat d'une erreur de mesure ou de saisie. Il peut s'agir d'erreurs humaines, de systèmes d'enregistrement mal conçus ou simplement d'un contrôle incomplet du format et du type de données importées depuis des sources de données externes. De telles divergences font des ravages lorsque l’on essaie d'effectuer des analyses de données. Avant de traiter les données en vue de leur analyse, il faut veiller à ce que celles-ci soient aussi précises et cohérentes que possible.

Utilisés principalement lorsqu'il s'agit de données stockées dans une base de données, les termes validation des données, nettoyage des données ou traitement des données désignent le processus de détection, de correction, de remplacement, de modification ou de suppression des données douteuses d'un ensemble d'enregistrements, d'une table ou d'une base de données.

Ce document, originellement publié en anglais en mai 2017, fournit des conseils aux analystes de données pour trouver la bonne stratégie de nettoyage des données lorsqu'ils traitent des données d'évaluation des besoins. Ces conseils s'appliquent à la fois aux données primaires et secondaires, et couvrent les situations où:

  • Les données brutes sont générées par les équipes d'évaluation à l'aide d'un questionnaire.
  • Les données sont obtenues à partir de sources secondaires (systèmes de suivi des déplacements, données sur la sécurité alimentaire, données de recensement, etc.).
  • Les données secondaires sont comparées ou fusionnées avec les données obtenues lors des évaluations sur le terrain.

Ce document complète la note technique d'ACAPS ‘‘How to approach a dataset’’ qui détaille spécifiquement les opérations de nettoyage des données primaires saisies dans une feuille de calcul Excel lors des évaluations rapides.

 


La traduction en français de ce document a été réalisée par CartONG, et a été soutenue par l’Agence Française de Développement (AFD) et le Centre de crise et de soutien du Ministère de l’Europe et des Affaires étrangères (CDCS). Néanmoins, les idées et les opinions présentées dans ce document ne représentent pas nécessairement celles de l’AFD ou du CDCS.