Traitement et analyse de la donnée : cas pratique
Contexte et objectif de la mission
Vos données
Livrables attendus
Quelques considérations
Contexte et objectif de la mission
Vous êtes Data Analyst au sein d’une marque de cosmétiques bios en pleine croissance. L’équipe Marketing a déployé une campagne majeure 360°, intitulée « Noel_2026 », pour promouvoir trois gammes de produits phares :
- Cheveux (Produit star : « Cheveux Miracle »)
- Visage (Produit star : « Visage Miracle »)
- Mains (Produit star : « Main Miracle »)
La campagne a été diffusée du 1er au 25 décembre 2026 sur un mix média complexe : Google Ads (Search & Display), Meta (Facebook, Instagram, WhatsApp), LinkedIn, Pinterest et via le CRM (Emailing).
La situation :
Nous sommes le 15 janvier. La Directrice Marketing attend la synthèse des résultats pour justifier le budget auprès de la direction générale.
Cependant, l’outil d’agrégation automatique des données a subi des défaillances techniques durant les fêtes. Heureusement, cette défaillance a pu être détectée, et les données brutes ont été extraites manuellement de chaque régie, mais elles sont « sales » (problèmes de format, données manquantes, conventions de nommage non respectées).
Votre objectif :
Vous devez nettoyer, consolider et visualiser ces données pour produire un rapport fiable, tout en alertant sur les zones d’incertitude.
Vos données (input)
Données de ‘haut de tunnel’ (phase d’acquisition) : issues des outils ad-centrics
⚠️ Attention : Un audit rapide montre que des erreurs humaines (mauvais nommage des campagnes/ads) et techniques (données non remontées) sont présentes dans les fichiers.
Vous disposez d’un fichier (format CSV/Excel), regroupant 5 onglets (un par régie publicitaire et outil utilisé), contenant les KPIs suivants ventilés par date et device :
-
Impressions / Sent : Visibilité
-
Views / Opens : Attention
-
Clicks : Intérêt
-
Video Views : Engagement média
-
Cost : Investissement média
-
Metrics spécifiques : Taux d’ouverture, Bounces, etc.
Données de ‘milieu’ et ‘bas’ de tunnel (phase de conversion) : issues des outils ad-centrics et site-centrics
⚠️ Attention : Un audit rapide montre que des erreurs humaines (mauvais nommage des campagnes/ads) et techniques (données non remontées) sont présentes dans les fichiers.
Vous disposez de 2 fichiers :
- Fichier « Media Consolidation » (Données Pixels) : Ce que les régies (Google, Meta, etc.) disent avoir généré.
- Fichier « GA4 Export » (Site-Centric) : Ce qui a été réellement enregistré sur le site selon l’outil d’analyse.
Livrables attendus
Il vous est demandé d’analyser la visibilité de la campagne, et sa rentabilité réelle.
Vous devez réconcilier deux mondes souvent contradictoires : ce que disent les régies publicitaires et ce que dit votre outil site-centrics (ici Google Analytics 4), qui applique un modèle d’attribution permettant de répartir le crédit dans la converion entre les différents canaux.
1/ Production d’une note d’analyse :
Data cleaning : expliquez comment vous avez transformé un chaos de données en informations exploitables.
Nettoyage des données d’Acquisition : comment avez-vous traité les campagnes mal nommées (ex: Xmas_26), les formats incohérents et les coûts manquants ?
Nettoyage des données de Conversion :
- Comment avez-vous géré les erreurs de devises (ex: USD vs EUR) ou les montants aberrants ?
- Comment avez-vous traité les sources de trafic « inexploitables » dans GA4 (ex: fautes de frappe dans les UTMs comme facebok, ou perte de tracking (not set)) ?
Gestion de l’Attribution (Le cas « Paypal ») : vous découvrirez dans GA4 que des ventes sont attribuées à des moyens de paiement (ex: paypal.com / referral) ou des sites techniques, « volant » ainsi la vente au levier marketing d’origine. Quelle est votre stratégie pour réattribuer ces ventes au bon canal (Meta, Pinterest, Google) ?
Transparence : Indiquez clairement dans votre analyse quelles données sont « reconstituées » ou « estimées » et lesquelles sont certifiées.
Data Governance : Recommandations pour la prochaine campagne
2/ Production du Dashboard pour présenter le résultat de la campagne de Noël
Vous devez produire un tableau de bord « Full Funnel » permettant de suivre le parcours client de bout en bout. Vous utiliserez l’outil ‘Looker Studio’. Le dashboard doit répondre aux questions business suivantes :
Performance Funnel : Visualisez l’entonnoir de conversion global : Impressions > Clics > Visites Site > Ajouts Panier > Achats.
Rentabilité (ROI/ROAS) : Quel levier offre le meilleur retour sur investissement ? ⚠️ : Vous constaterez des écarts de revenus entre les données « Régies » et « GA4 ». Affichez les deux ou faites un choix justifié.
Produits : Les produits les plus cliqués (Acquisition) sont-ils ceux qui se vendent le mieux (Conversion) ? Identifiez les produits « pièges à clics » (beaucoup de dépenses, peu de ventes).
La « Guerre des Chiffres » : Créez une visualisation spécifique qui compare les Clics (Régies) vs Sessions (GA4), et les Ventes déclarées par les Régies vs Ventes enregistrées dans GA4.
Quelques considérations
Générales
Dans la « vraie vie », le temps de nettoyage des données (data cleaning) représente souvent 60 à 80% du temps d’un projet data, avant même de pouvoir analyser quoi que ce soit.
Des erreurs classiques ont été intégrées à ces jeux de données :
Pour les données d’acquisition
- Incohérence de nommage (Naming convention) : La campagne ne s’appelle pas toujours Noel_2026, ce qui va fragmenter les résultats si nous cherchons à regrouper par noms.
- Données manquantes : Des trous dans les coûts ou les clics (problème d’API ou de flux).
- Granularité variable : Des noms d’Ad Sets ou d’Ads trop vagues.
Pour les données de conversion
Ce fichier simule un export d’un outil type Supermetrics ou Funnel qui agrège les données de conversion remontées par les pixels des plateformes. Les régies ont tendance à s’attribuer généreusement les conversions (fenêtre d’attribution large).
Le croisement entre les données Ad-Centrics (ce que disent les régies publicitaires via leurs pixels) et Site-Centrics (ce que dit GA4) est le conflit le plus classique en entreprise. C’est le fameux débat de l’attribution (ex: Facebook revendique 100 ventes, GA4 n’en voit que 40 venant de Facebook).
Les erreurs fréquentes :
- Problème de conversion de devise, générant des valeurs aberrantes.
- Pixels des régies publicitaires ne comptabilisant pas les mêmes événements que les outils site-centrics (ex : le retriat du panier est rarement suivi, dans les faits, pas des pixels publicitaires).
- Filtre ‘mécanique’ des données collectées par l’outil site-centrics, soumis à l’acceptation ou non des cookies. Concrètement, ici, Google Consent.
Données Meta
- L’agrégation des placements : Parfois, le gestionnaire de publicités (Ads Manager) exporte des lignes « Mixtes » (FB + Instagram) quand l’option « Placements automatiques » est cochée, ce qui empêche de savoir quel réseau a réellement converti.
- Les assets créatifs : Les marketeurs oublient souvent de renommer leurs images/vidéos avant l’upload (ex: IMG_2026.jpg au lieu de Visage_Miracle).
- WhatsApp : Les métriques sont différentes (on parle souvent de « Conversations démarrées »), ce qui crée des trous (NULL) dans des colonnes comme « Video Views ».
Données LinkedIn ads
Sur LinkedIn, le piège classique est le mélange entre des campagnes purement commerciales et des campagnes « Marque Employeur » ou « B2B » qui se retrouvent dans le même compte publicitaire.
Données Pinterest
Le défi avec Pinterest est souvent lié aux identifiants (Pin IDs) qui remplacent les noms, et à la confusion entre le trafic organique (gratuit) et payant.
