Cette page présente le projet sur le site ; le dépôt GitHub contient le code, les notebooks et les instructions d’exécution.
En bref
- Données Online Retail et chaîne de traitement PySpark (nettoyage, features, partitionnement).
- Objectif : pipeline reproductible, adapté à un contexte ETL ou entraînement de modèles en aval.
Pour aller plus loin, ouvrez le lien Code source ci-dessus.