Travail de recherche autour des données manquantes, sur leurs causes, leurs impacts et sur les différentes méthodes pour les gérer au mieux.
Introduction
Dans tout pipeline de données réel, l’absence de valeurs n’est jamais anodine. Ignorer les manquants ou les supprimer naïvement peut biaiser les analyses, fausser les modèles prédictifs et conduire à des décisions incorrectes.
Ces données manquantes peuvent apparaître pour différentes raisons : erreurs de collecte, défaillance technique, fusion incomplète de plusieurs sources de données ou encore abandon d’un processus de mesure. Avant de choisir une méthode de traitement, encore faut-il comprendre pourquoi les données manquent. Trois mécanismes fondamentaux existent et chacun appelle une réponse différente.
1. Lacunes structurelles
Les lacunes structurelles surviennent lors de la fusion de plusieurs bases de données lorsque certains identifiants sont absents d’une des sources.
2. Occurrence aléatoire
Un dysfonctionnement d’appareil, une interruption réseau (la collecte échoue sans raison liée aux données elles-mêmes).
3. Cause spécifique
L’absence est corrélée à la valeur manquante elle-même. Exemple, un patient suivant un traitement qui décide d’abandonner le traitement.
L’objectif de ce projet est de présenter et comparer plusieurs méthodes d’imputation de données manquantes afin d’évaluer leur efficacité selon différents critères, la qualité de reconstruction des données, les performances statistiques et le temps de calcul. Cette étude s’adresse à un public non familier au traitement des données souhaitant découvrir les principaux enjeux liés au traitement des données manquantes.
Pour réaliser cette analyse une base de données sur la détection de fraude dans des transactions financières téléphoniques d’environ 50 000 observations a été splitée en 2 parties. La première partie sert de base expérimentale dans laquelle des valeurs manquantes sont injectées artificiellement afin de comparer les méthodes d’imputation dans un cadre contrôlé. La seconde partie sert de test afin d’évaluer la performance de nos modèles d’imputations.
Approches comparées
Plusieurs familles de méthodes d’imputation ont été étudiées dans ce projet afin de comparer leurs performances et leurs limites selon le contexte des données.
Approche prédictive ou inférentielles
Les approches prédictives et inférentielles reposent sur l’idée d’estimer les valeurs manquantes à partir des relations existantes entre les variables du jeu de données. Ces méthodes cherchent à conserver la structure statistique globale des données tout en limitant les biais introduits par l’imputation.
Approche polynomiales
Les méthodes polynomiales utilisent des relations mathématiques entre les variables afin d’estimer les valeurs absentes à partir de tendances observées. Elles sont particulièrement adaptées lorsque les données présentent une relation continue et régulière.
Algorithle KNN
L’algorithme des K plus proches voisins (KNN) consiste à remplacer une valeur manquante par une estimation calculée à partir des observations les plus similaires. Cette méthode est relativement simple à mettre en oeuvre et offre généralement un bon compromis entre précision et coût de calcul.
Arbre de décisions
Les approches basées sur les arbres de décision, notamment MissForest, exploitent des modèles d’apprentissage automatique pour prédire les valeurs manquantes. Ces méthodes sont performantes sur des jeux de données complexes comportant des relations non linéaires entre les variables.
Enfin, l’imputation multiple par chaînes de Markov (MICE) repose sur la génération de plusieurs imputations successives afin de mieux prendre en compte l’incertitude liée aux données manquantes. Cette approche est souvent considérée comme l’une des plus robustes statistiquement, mais elle nécessite un temps de calcul plus important.
Mise en application
Une première phase d’analyse exploratoire a permis de visualiser la répartition des valeurs manquantes et d’identifier les variables les plus impactées. Des valeurs manquantes ont ensuite été injectées aléatoirement dans les données afin de disposer d’une référence connue pour comparer les performances des algorithmes d’imputation. Chaque méthode a été exécutée dans les mêmes conditions afin de garantir une comparaison équitable.
Les performances ont été mesurées à l’aide de la RMSE (Root Mean Square Error), permettant d’évaluer l’écart entre les valeurs originales et les valeurs imputées. Le temps d’exécution des algorithmes a également été analysé afin de mesurer leur coût computationnel sur des jeux de données de tailles différentes.
Résultats
Les expérimentations montrent que les performances des méthodes dépendent fortement de la structure des données et du volume de valeurs manquantes présentes dans le jeu de données.
L’approche MICE obtient généralement les meilleurs résultats en termes de précision grâce à sa capacité à modéliser les relations entre les variables de manière itérative. Toutefois, cette méthode présente des temps de calcul importants, notamment sur les bases volumineuses.
La méthode KNN offre un très bon compromis entre qualité d’imputation et rapidité d’exécution.
Les méthodes basées sur les arbres, comme MissForest, se montrent également performantes, en particulier lorsque les données présentent des relations complexes ou non linéaires. Enfin, les approches polynomiales restent efficaces sur des données simples mais montrent leurs limites sur des jeux de données plus hétérogènes.
Conclusion
Le traitement des données manquantes constitue une étape essentielle dans tout projet d’analyse de données ou de machine learning. Une mauvaise gestion des valeurs absentes peut entraîner des biais importants et dégrader les performances des modèles.
Cette étude a permis de comparer plusieurs méthodes d’imputation selon deux critères, la précision des résultats obtenus et le temps de calcul nécessaire.
Bien que la méthode MICE fournisse les résultats les plus précis dans de nombreux cas, son coût computationnel reste élevé. À l’inverse, la méthode KNN présente un excellent rapport entre performance et rapidité, ce qui en fait une solution particulièrement adaptée dans un contexte opérationnel ou sur de grands volumes de données.
Ce projet met ainsi en évidence l’importance de sélectionner une méthode d’imputation adaptée aux caractéristiques des données étudiées ainsi qu’aux objectifs de l’analyse.
Prévisualisation du mémoire
Rapport de synthèse
Ouvrir le PDF dans un nouvel onglet si l'aperçu ne s'affiche pas dans votre navigateur.