Formation Pipelines de Données : ETL et Orchestration Modernes
Automatisez et industrialisez vos flux de données avec Airflow et dbt
3 jours
Formation intensive
Pratique
Projets réels
4.9/5
Satisfaction
1 990€
Éligible CPF
Les Pipelines de Données : Le Cœur de l'Infrastructure Data
Les pipelines de données sont l'épine dorsale de toute entreprise data-driven. Ils collectent, transforment, et chargent les données depuis des sources multiples vers les data warehouses où elles sont analysées. Un pipeline bien conçu, c'est la différence entre des données fraîches et fiables chaque matin, ou des analystes qui perdent des heures à debugger des erreurs de données.
Notre formation Pipelines de Données vous rend autonome sur les technologies modernes d'ingénierie des données. Vous maîtriserez Apache Airflow pour orchestrer des workflows complexes, dbt pour transformer les données avec du SQL modulaire et testé, et les bonnes pratiques DevOps pour des pipelines robustes, scalables et maintenables. Fini les scripts bash fragiles, place à l'industrialisation !
Compétences Acquises
- ETL/ELT modernes : Différences, architectures, bonnes pratiques
- Apache Airflow : DAGs, opérateurs, scheduling, gestion des dépendances
- dbt (data build tool) : Transformations SQL, tests, documentation auto
- Data quality : Tests, validation, monitoring, alerting
- Orchestration : Gestion des échecs, retry, backfilling
- CI/CD pour la data : Déploiement automatisé, versioning
- Observabilité : Logs, métriques, dashboards de monitoring
- Performance : Optimisation des pipelines, parallelisation
Programme Détaillé
Jour 1 - Fondamentaux et Airflow :
- Architecture des pipelines de données modernes
- ETL vs ELT : quand utiliser quoi ?
- Installation et configuration d'Apache Airflow
- Création de DAGs (Directed Acyclic Graphs)
- Opérateurs essentiels : PythonOperator, BashOperator, SQLOperator
- Gestion des dépendances et du parallélisme
- Scheduling et triggers
Jour 2 - dbt et Transformations :
- Introduction à dbt et philosophie analytics engineering
- Models dbt : staging, intermediate, marts
- Macros et Jinja pour du SQL réutilisable
- Tests de données : unicité, non-nullité, relations
- Documentation automatique et lineage
- Sources et freshness checks
- Intégration Airflow + dbt
Jour 3 - Production et Projet :
- Data quality et Great Expectations
- Gestion des erreurs et alerting (Slack, email, PagerDuty)
- CI/CD avec GitHub Actions
- Monitoring et observabilité (logs, métriques, tracing)
- Optimisation des performances et coûts
- Projet complet : pipeline de A à Z avec Airflow + dbt
Cas d'Usage Pratiques
- Pipeline e-commerce : Ingestion des ventes, enrichissement client, reporting
- Agrégation multi-sources : APIs, bases de données, fichiers CSV/JSON
- CDC (Change Data Capture) et synchronisation temps réel
- Data warehouse moderne avec architecture medallion (bronze/silver/gold)
- Pipeline ML : Feature engineering, entraînement automatisé, déploiement
Technologies Utilisées
Industrialisez Vos Pipelines de Données
Maîtrisez Airflow et dbt en 3 jours intensifs.
Demander un Devis Gratuit