Spark Pipeline on Online Retail

Cette page présente le projet sur le site ; le dépôt GitHub contient le code, les notebooks et les instructions d’exécution.

En bref

Données Online Retail et chaîne de traitement PySpark (nettoyage, features, partitionnement).
Objectif : pipeline reproductible, adapté à un contexte ETL ou entraînement de modèles en aval.

Pour aller plus loin, ouvrez le lien Code source ci-dessus.