
# 📦 Pipeline compact — Baromètre 2024 → `data.xlsx`

**Objectif :** Refaire *exactement* les mêmes traitements que ton script, mais **en mémoire**, sans fichiers intermédiaires inutiles.  
**Sorties finales :**
- `data.xlsx` — dataset final prêt à l'analyse / dashboard
- `barometre_pipeline_log.csv` — log synthétique du pipeline

> Entrées attendues dans le même dossier :  
> - `2024-barometre-consommation.xlsx`  
> - `2024-datamap.xlsx` (onglet **TEXTS**)


In [None]:

import pandas as pd
import numpy as np
import re
from pathlib import Path

pd.set_option("display.max_columns", None)
LOG = []

def log(msg):
    print(msg)
    LOG.append(msg)


## 1️⃣ Chargement des données brutes

In [None]:

# Chemins (adapter si besoin)
PATH_DATA = Path("2024-barometre-consommation.xlsx")
PATH_DICT = Path("2024-datamap.xlsx")

# Lecture
df = pd.read_excel(PATH_DATA)
df_raw_shape = df.shape
log(f"📥 Loaded raw data: {df_raw_shape[0]} rows × {df_raw_shape[1]} cols")

# Dictionnaire / TEXTS
df_texts = pd.read_excel(PATH_DICT, sheet_name="TEXTS")
df_texts.columns = [c.strip().upper() for c in df_texts.columns]

# Normalisation TYPE/CODE si présents
if "TYPE" in df_texts.columns:
    type_norm = df_texts["TYPE"].astype(str).str.strip().str.upper()
    if "CODE" not in df_texts.columns:
        df_texts["CODE"] = pd.NA
    df_texts.loc[type_norm.eq("TITLE"), "CODE"] = 0

if "CODE" in df_texts.columns:
    df_texts["CODE"] = pd.to_numeric(df_texts["CODE"], errors="coerce").astype("Int64")

# On conserve les colonnes utiles si elles existent
keep_cols = [c for c in ["NAME", "CODE", "FR:L"] if c in df_texts.columns]
df_texts = df_texts[keep_cols].dropna(subset=[keep_cols[0]])
log(f"📖 TEXTS dict loaded: {df_texts.shape[0]} rows")


## 2️⃣ Pré-nettoyage (colonnes vides / constantes / quasi vides)

In [None]:

# Colonnes vides
empty_cols = df.columns[df.isna().all()].tolist()
if empty_cols:
    df = df.drop(columns=empty_cols)
    log(f"🗑️ Dropped empty columns: {len(empty_cols)}")

# Constantes
constant_cols = [c for c in df.columns if df[c].nunique(dropna=False) <= 1]
if constant_cols:
    log(f"⚙️ Constant columns detected: {len(constant_cols)} (kept for sécurité, pas de drop automatique)")

# Quasi vides (>95% NaN) — on les retire
mostly_empty = [c for c in df.columns if df[c].isna().mean() > 0.95]
if mostly_empty:
    df = df.drop(columns=mostly_empty)
    log(f"💨 Dropped mostly-empty columns (>95% NaN): {len(mostly_empty)}")

log(f"✅ Shape after pre-clean: {df.shape}")


## 3️⃣ Nettoyage sémantique léger (dérivés, techniques, duplicats)

In [None]:

cols_to_drop = []

# Tech / routing (patterns fréquents)
technical_patterns = [r"^(AFRS|AFQ|SYS_|CELLULE|CEL)"]
for pat in technical_patterns:
    cols_to_drop += [c for c in df.columns if re.match(pat, str(c))]

# Multi-lignes suffixes _R\d+$
cols_to_drop += [c for c in df.columns if re.search(r"_R\d+$", str(c))]

# Déduplique exacts (même contenu)
duplicated_cols = df.T.duplicated(keep="first")
dup_names = df.columns[duplicated_cols].tolist()
cols_to_drop += dup_names

cols_to_drop = sorted(set(cols_to_drop))
df = df.drop(columns=[c for c in cols_to_drop if c in df.columns], errors="ignore")
log(f"🧹 Dropped routing/duplicate-like columns: {len(cols_to_drop)}")
log(f"📏 Shape: {df.shape}")


## 4️⃣ Construction des mappings (code → label) depuis `TEXTS`

In [None]:

# Mappings par variable (pour colonnes codées)
label_mappings = {}
if set(["NAME","CODE","FR:L"]).issubset(df_texts.columns):
    for name in df_texts["NAME"].dropna().astype(str).unique():
        sub = df_texts[df_texts["NAME"] == name].dropna(subset=["CODE", "FR:L"])
        if not sub.empty:
            mapping = dict(zip(sub["CODE"].astype(str), sub["FR:L"].astype(str)))
            label_mappings[name] = mapping
log(f"🔠 Built {len(label_mappings)} variable-level mappings")


## 5️⃣ Fusion des questions multi-réponses (`..._rX_cY`) avec labels

In [None]:

pattern = r"(.+?)_r(\d+)_c\d+$"
multi_groups = {}

for col in df.columns:
    m = re.match(pattern, str(col))
    if m:
        root, code = m.group(1).strip(), m.group(2).strip()
        multi_groups.setdefault(root, []).append((col, code))

log(f"🔍 Detected multi-response groups: {len(multi_groups)}")

def combine_labels(row, items, label_map):
    selected = []
    for col, code in items:
        val = row.get(col)
        if pd.notna(val) and str(val).strip() not in ["0", "", "nan"]:
            label = (label_map or {}).get(str(code))
            selected.append(label if label else f"Code {code}")
    return ", ".join([x for x in selected if x])

for root, items in multi_groups.items():
    # label map by NAME ~ root (approx)
    label_map = None
    # On tente un match souple: NAME contenant root (insensible à la casse)
    if label_mappings:
        # Cherche le meilleur candidat
        candidates = [k for k in label_mappings.keys() if root.lower() in k.lower()]
        if candidates:
            label_map = label_mappings[candidates[0]]
    df[root + "_COMBINED"] = df.apply(lambda r: combine_labels(r, items, label_map), axis=1)
    df = df.drop(columns=[c for c, _ in items], errors="ignore")

log("✅ Merged multi-response groups into *_COMBINED columns")
log(f"📏 Shape: {df.shape}")


## 6️⃣ Remplacements spécifiques (codes → libellés)

In [None]:

# Dictionnaires issus du script d'origine (extraits pertinents)
region_map = {
    "UDA1": "Île-de-France","UDA2": "Hauts-de-France","UDA3": "Grand Est","UDA4": "Bourgogne-Franche-Comté",
    "UDA5": "Auvergne-Rhône-Alpes","UDA6": "Provence-Alpes-Côte d’Azur","UDA7": "Occitanie",
    "UDA8": "Nouvelle-Aquitaine","UDA9": "Pays de la Loire",
}
urban_map = {
    "UU01": "Paris et grandes métropoles","UU02": "Grande ville (100k–500k hab.)","UU03": "Ville moyenne (50k–100k hab.)",
    "UU04": "Petite ville (20k–50k hab.)","UU05": "Bourg / petite agglomération","UU06": "Rural périurbain",
    "UU07": "Rural isolé","UU08": "Autres / hors unité urbaine","Hors unité urbaine": "Rural isolé"
}
qbu1_map = {1:"Uniquement gratuitement",2:"Le plus souvent gratuitement, mais parfois de façon payante",3:"Autant gratuitement que de façon payante",4:"Le plus souvent de façon payante, mais parfois gratuitement",5:"Uniquement de façon payante"}
qbu12_map = {1:"Tous les jours ou presque",2:"1 à 5 fois par semaine",3:"1 à 3 fois par mois",4:"Moins souvent",5:"Jamais"}

def safe_replace_contains(df, pattern_substr, mapping):
    matched = [c for c in df.columns if pattern_substr.lower() in str(c).lower()]
    for col in matched:
        df[col] = df[col].replace(mapping)
        log(f"↔️ Replaced codes in: {col} ({len(mapping)} items)")

# Region / Agglo
if "REG" in df.columns: df["REG"] = df["REG"].replace(region_map)
if "AGGLOIFOP0" in df.columns: df["AGGLOIFOP0"] = df["AGGLOIFOP0"].replace(urban_map)

# QBU1 / QBU12 + quelques patterns du script
safe_replace_contains(df, "QBU1", qbu1_map)
safe_replace_contains(df, "QBU12", qbu12_map)


## 7️⃣ Renommage final des colonnes (schéma analytique)

In [None]:

rename_dict = {
    "SEXE - Vous êtes... ?": "sexe",
    "AGE - Quel âge avez-vous ? Merci de noter votre âge dans le cadre ci-dessous :": "age",
    "AGGLOIFOP0": "type_agglomeration",
    "TYPCOM": "type_commune",
    "TAILCOM": "taille_commune",
    "DPT": "departement",
    "REG": "region",
    "SITI - Actuellement, quelle est votre situation ?": "situation_personnelle",
    "PPIA - Plus précisément, quelle est votre profession principale ou, si vous ne travaillez pas actuellement, la dernière profession principale que vous avez exercée ? Attention, si vous n’avez fait dans votre vie que des petits boulots (ex : job d": "profession_principale",
    "RECPPIA": "statut_professionnel",
    "STC - Vous exercez cette profession comme… ? Si vous exercez plusieurs emplois, décrivez uniquement votre emploi principal.": "statut_emploi",
    "STCA": "categorie_socio_professionnelle",
    "STATUT - Au sein de votre foyer, quelle est votre situation ?": "statut_foyer",
    "FOYER - De combien de personnes se compose votre foyer y compris vous-même ?": "taille_foyer",
    "ENF - Au total, combien y a-t-il d’enfants de moins de 18 ans dans votre foyer ?": "nb_enfants",
    "RS6 - A quelle fréquence utilisez-vous Internet ou des applications, quels que soient le lieu d’utilisation et l’appareil de connexion ?": "frequence_internet",
    "Q2 - À quelle fréquence consommez-vous sur Internet chacun des produits ou services culturels dématérialisés suivants ? Une réponse par ligne. Vous consommez sur Internet …_r1": "frequence_conso_culturelle",
    "Q5 - Plus précisément, pour chacun des produits ou services culturels suivants, diriez-vous que vous les consommez… Une réponse par ligne. sur Internet …_r1": "type_conso_legale_ou_illegale",
    "Q7 - Concernant votre consommation de biens culturels dématérialisés, diriez-vous qu’aujourd’hui :": "evolution_conso_legale",
    "QBU1 - Vous nous avez dit consommer de façon dématérialisée les contenus culturels et sportifs suivants. Veuillez indiquer pour chacun d’eux si vous les consommez gratuitement ou de façon payante. On parle toujours de contenus culturels et spor_r1": "gratuit_ou_payant",
    "QBU2 - De façon générale, quel montant dépensez-vous en moyenne chaque mois pour votre consommation de [% ListLabel(Q1List,AFFi1) %] [% ListLabel(Q1List,AFFi2) %] [% ListLabel(Q1List,AFFi3) %] [% ListLabel(Q1List,AFFi4) %] [% ListLabel(Q1List,AFFi5": "depense_mensuelle_culturelle",
    "- Utilisez-vous des applications « crackées » que vous avez téléchargées sur des stores d’applications alternatifs (comme AppValley ou Tutuapp par exemple) ou via des APKs, permettant l’accès à des offres payantes sans payer ? Vou_1": "utilisation_applis_crackees",
    "QBU12 - Utilisez-vous des logiciels, des applications ou des sites internet permettant de convertir des contenus consultés en streaming (films, séries, musique vus sur une plateforme) en un contenu à télécharger (qui permettent par exemple de conv_r1": "utilisation_telechargement_streaming",
    "RS8 - Et vous arrive-t-il de faire des réglages de DNS ?": "reglages_dns",
    "RS7BIS - Au cours des 12 derniers mois, avez-vous utilisé au moins un VPN à titre personnel ?": "utilisation_vpn",
    "QBU5a - Et au cours des 12 derniers mois, sur quels appareils avez-vous consommé ces contenus culturels et sportifs la plupart du temps ? Vous pouvez sélectionner plusieurs réponses par ligne. Généralement, …_COMBINED": "appareils_conso_musique_videos",
    "QBU5b - Et au cours des 12 derniers mois, sur quels appareils avez-vous consommé ces contenus culturels et sportifs la plupart du temps ? Vous pouvez sélectionner plusieurs réponses par ligne. Généralement, …_COMBINED": "appareils_conso_films_series",
    "RS12BIS - Avez-vous accès aux fournisseurs de services payants suivants ? Attention, nous parlons ici des offres auxquelles vous avez accès en payant (vous ou une autre personne de votre foyer) ou en bénéficiant d’un compte d’une personne ext_COMBINED": "acces_services_payants",
    "RS16BIS - À qui appartiennent ces codes d’accès extérieurs à votre foyer que vous utilisez ? Vous pouvez sélectionner plusieurs réponses par ligne. Pour_COMBINED": "provenance_codes_acces_exterieurs"
}
df = df.rename(columns=rename_dict)

# Sélection des colonnes cibles si présentes
cols_keep = [
    "sexe","age","region","type_agglomeration",
    "situation_personnelle","profession_principale","statut_emploi",
    "frequence_internet","frequence_conso_culturelle",
    "type_conso_legale_ou_illegale","evolution_conso_legale",
    "gratuit_ou_payant","depense_mensuelle_culturelle",
    "appareils_conso_musique_videos","appareils_conso_films_series",
    "utilisation_vpn","utilisation_applis_crackees",
    "utilisation_telechargement_streaming","reglages_dns",
    "acces_services_payants","provenance_codes_acces_exterieurs",
    "taille_foyer","nb_enfants","statut_foyer"
]
existing = [c for c in cols_keep if c in df.columns]
df = df[existing].copy()
log(f"🧭 Selected {len(existing)} analytical columns")


## 8️⃣ Finitions (qualité, types)

In [None]:

# Types & noms
df.columns = [c.lower().replace(" ", "_") for c in df.columns]
if "age" in df.columns:
    df["age"] = pd.to_numeric(df["age"], errors="coerce").astype("Int64")

# Trim strings
for c in df.select_dtypes("object").columns:
    df[c] = df[c].astype(str).str.strip()

# Dédoublonnage
dupes = df.duplicated().sum()
if dupes:
    df = df.drop_duplicates()
log(f"🧩 Duplicates removed: {dupes}")
log(f"✅ Final shape: {df.shape}")


## 9️⃣ Sauvegardes finales

In [None]:

# 1) Dataset final
df.to_excel("data.xlsx", index=False, engine="openpyxl")
log("💾 Saved dataset → data.xlsx")

# 2) Log pipeline
pd.Series(LOG, name="log").to_csv("barometre_pipeline_log.csv", index=False, encoding="utf-8")
log("🧾 Saved log → barometre_pipeline_log.csv")
