
# üì¶ Pipeline compact ‚Äî Barom√®tre 2024 ‚Üí `data.xlsx`

**Objectif :** Refaire *exactement* les m√™mes traitements que ton script, mais **en m√©moire**, sans fichiers interm√©diaires inutiles.  
**Sorties finales :**
- `data.xlsx` ‚Äî dataset final pr√™t √† l'analyse / dashboard
- `barometre_pipeline_log.csv` ‚Äî log synth√©tique du pipeline

> Entr√©es attendues dans le m√™me dossier :  
> - `2024-barometre-consommation.xlsx`  
> - `2024-datamap.xlsx` (onglet **TEXTS**)


In [None]:

import pandas as pd
import numpy as np
import re
from pathlib import Path

pd.set_option("display.max_columns", None)
LOG = []

def log(msg):
    print(msg)
    LOG.append(msg)


## 1Ô∏è‚É£ Chargement des donn√©es brutes

In [None]:

# Chemins (adapter si besoin)
PATH_DATA = Path("2024-barometre-consommation.xlsx")
PATH_DICT = Path("2024-datamap.xlsx")

# Lecture
df = pd.read_excel(PATH_DATA)
df_raw_shape = df.shape
log(f"üì• Loaded raw data: {df_raw_shape[0]} rows √ó {df_raw_shape[1]} cols")

# Dictionnaire / TEXTS
df_texts = pd.read_excel(PATH_DICT, sheet_name="TEXTS")
df_texts.columns = [c.strip().upper() for c in df_texts.columns]

# Normalisation TYPE/CODE si pr√©sents
if "TYPE" in df_texts.columns:
    type_norm = df_texts["TYPE"].astype(str).str.strip().str.upper()
    if "CODE" not in df_texts.columns:
        df_texts["CODE"] = pd.NA
    df_texts.loc[type_norm.eq("TITLE"), "CODE"] = 0

if "CODE" in df_texts.columns:
    df_texts["CODE"] = pd.to_numeric(df_texts["CODE"], errors="coerce").astype("Int64")

# On conserve les colonnes utiles si elles existent
keep_cols = [c for c in ["NAME", "CODE", "FR:L"] if c in df_texts.columns]
df_texts = df_texts[keep_cols].dropna(subset=[keep_cols[0]])
log(f"üìñ TEXTS dict loaded: {df_texts.shape[0]} rows")


## 2Ô∏è‚É£ Pr√©-nettoyage (colonnes vides / constantes / quasi vides)

In [None]:

# Colonnes vides
empty_cols = df.columns[df.isna().all()].tolist()
if empty_cols:
    df = df.drop(columns=empty_cols)
    log(f"üóëÔ∏è Dropped empty columns: {len(empty_cols)}")

# Constantes
constant_cols = [c for c in df.columns if df[c].nunique(dropna=False) <= 1]
if constant_cols:
    log(f"‚öôÔ∏è Constant columns detected: {len(constant_cols)} (kept for s√©curit√©, pas de drop automatique)")

# Quasi vides (>95% NaN) ‚Äî on les retire
mostly_empty = [c for c in df.columns if df[c].isna().mean() > 0.95]
if mostly_empty:
    df = df.drop(columns=mostly_empty)
    log(f"üí® Dropped mostly-empty columns (>95% NaN): {len(mostly_empty)}")

log(f"‚úÖ Shape after pre-clean: {df.shape}")


## 3Ô∏è‚É£ Nettoyage s√©mantique l√©ger (d√©riv√©s, techniques, duplicats)

In [None]:

cols_to_drop = []

# Tech / routing (patterns fr√©quents)
technical_patterns = [r"^(AFRS|AFQ|SYS_|CELLULE|CEL)"]
for pat in technical_patterns:
    cols_to_drop += [c for c in df.columns if re.match(pat, str(c))]

# Multi-lignes suffixes _R\d+$
cols_to_drop += [c for c in df.columns if re.search(r"_R\d+$", str(c))]

# D√©duplique exacts (m√™me contenu)
duplicated_cols = df.T.duplicated(keep="first")
dup_names = df.columns[duplicated_cols].tolist()
cols_to_drop += dup_names

cols_to_drop = sorted(set(cols_to_drop))
df = df.drop(columns=[c for c in cols_to_drop if c in df.columns], errors="ignore")
log(f"üßπ Dropped routing/duplicate-like columns: {len(cols_to_drop)}")
log(f"üìè Shape: {df.shape}")


## 4Ô∏è‚É£ Construction des mappings (code ‚Üí label) depuis `TEXTS`

In [None]:

# Mappings par variable (pour colonnes cod√©es)
label_mappings = {}
if set(["NAME","CODE","FR:L"]).issubset(df_texts.columns):
    for name in df_texts["NAME"].dropna().astype(str).unique():
        sub = df_texts[df_texts["NAME"] == name].dropna(subset=["CODE", "FR:L"])
        if not sub.empty:
            mapping = dict(zip(sub["CODE"].astype(str), sub["FR:L"].astype(str)))
            label_mappings[name] = mapping
log(f"üî† Built {len(label_mappings)} variable-level mappings")


## 5Ô∏è‚É£ Fusion des questions multi-r√©ponses (`..._rX_cY`) avec labels

In [None]:

pattern = r"(.+?)_r(\d+)_c\d+$"
multi_groups = {}

for col in df.columns:
    m = re.match(pattern, str(col))
    if m:
        root, code = m.group(1).strip(), m.group(2).strip()
        multi_groups.setdefault(root, []).append((col, code))

log(f"üîç Detected multi-response groups: {len(multi_groups)}")

def combine_labels(row, items, label_map):
    selected = []
    for col, code in items:
        val = row.get(col)
        if pd.notna(val) and str(val).strip() not in ["0", "", "nan"]:
            label = (label_map or {}).get(str(code))
            selected.append(label if label else f"Code {code}")
    return ", ".join([x for x in selected if x])

for root, items in multi_groups.items():
    # label map by NAME ~ root (approx)
    label_map = None
    # On tente un match souple: NAME contenant root (insensible √† la casse)
    if label_mappings:
        # Cherche le meilleur candidat
        candidates = [k for k in label_mappings.keys() if root.lower() in k.lower()]
        if candidates:
            label_map = label_mappings[candidates[0]]
    df[root + "_COMBINED"] = df.apply(lambda r: combine_labels(r, items, label_map), axis=1)
    df = df.drop(columns=[c for c, _ in items], errors="ignore")

log("‚úÖ Merged multi-response groups into *_COMBINED columns")
log(f"üìè Shape: {df.shape}")


## 6Ô∏è‚É£ Remplacements sp√©cifiques (codes ‚Üí libell√©s)

In [None]:

# Dictionnaires issus du script d'origine (extraits pertinents)
region_map = {
    "UDA1": "√éle-de-France","UDA2": "Hauts-de-France","UDA3": "Grand Est","UDA4": "Bourgogne-Franche-Comt√©",
    "UDA5": "Auvergne-Rh√¥ne-Alpes","UDA6": "Provence-Alpes-C√¥te d‚ÄôAzur","UDA7": "Occitanie",
    "UDA8": "Nouvelle-Aquitaine","UDA9": "Pays de la Loire",
}
urban_map = {
    "UU01": "Paris et grandes m√©tropoles","UU02": "Grande ville (100k‚Äì500k hab.)","UU03": "Ville moyenne (50k‚Äì100k hab.)",
    "UU04": "Petite ville (20k‚Äì50k hab.)","UU05": "Bourg / petite agglom√©ration","UU06": "Rural p√©riurbain",
    "UU07": "Rural isol√©","UU08": "Autres / hors unit√© urbaine","Hors unit√© urbaine": "Rural isol√©"
}
qbu1_map = {1:"Uniquement gratuitement",2:"Le plus souvent gratuitement, mais parfois de fa√ßon payante",3:"Autant gratuitement que de fa√ßon payante",4:"Le plus souvent de fa√ßon payante, mais parfois gratuitement",5:"Uniquement de fa√ßon payante"}
qbu12_map = {1:"Tous les jours ou presque",2:"1 √† 5 fois par semaine",3:"1 √† 3 fois par mois",4:"Moins souvent",5:"Jamais"}

def safe_replace_contains(df, pattern_substr, mapping):
    matched = [c for c in df.columns if pattern_substr.lower() in str(c).lower()]
    for col in matched:
        df[col] = df[col].replace(mapping)
        log(f"‚ÜîÔ∏è Replaced codes in: {col} ({len(mapping)} items)")

# Region / Agglo
if "REG" in df.columns: df["REG"] = df["REG"].replace(region_map)
if "AGGLOIFOP0" in df.columns: df["AGGLOIFOP0"] = df["AGGLOIFOP0"].replace(urban_map)

# QBU1 / QBU12 + quelques patterns du script
safe_replace_contains(df, "QBU1", qbu1_map)
safe_replace_contains(df, "QBU12", qbu12_map)


## 7Ô∏è‚É£ Renommage final des colonnes (sch√©ma analytique)

In [None]:

rename_dict = {
    "SEXE - Vous √™tes... ?": "sexe",
    "AGE - Quel √¢ge avez-vous ? Merci de noter votre √¢ge dans le cadre ci-dessous :": "age",
    "AGGLOIFOP0": "type_agglomeration",
    "TYPCOM": "type_commune",
    "TAILCOM": "taille_commune",
    "DPT": "departement",
    "REG": "region",
    "SITI - Actuellement, quelle est votre situation ?": "situation_personnelle",
    "PPIA - Plus pr√©cis√©ment, quelle est votre profession principale ou, si vous ne travaillez pas actuellement, la derni√®re profession principale que vous avez exerc√©e ? Attention, si vous n‚Äôavez fait dans votre vie que des petits boulots (ex : job d": "profession_principale",
    "RECPPIA": "statut_professionnel",
    "STC - Vous exercez cette profession comme‚Ä¶ ? Si vous exercez plusieurs emplois, d√©crivez uniquement votre emploi principal.": "statut_emploi",
    "STCA": "categorie_socio_professionnelle",
    "STATUT - Au sein de votre foyer, quelle est votre situation ?": "statut_foyer",
    "FOYER - De combien de personnes se compose votre foyer y compris vous-m√™me ?": "taille_foyer",
    "ENF - Au total, combien y a-t-il d‚Äôenfants de moins de 18 ans dans votre foyer ?": "nb_enfants",
    "RS6 - A quelle fr√©quence utilisez-vous Internet ou des applications, quels que soient le lieu d‚Äôutilisation et l‚Äôappareil de connexion ?": "frequence_internet",
    "Q2 - √Ä quelle fr√©quence consommez-vous sur Internet chacun des produits ou services culturels d√©mat√©rialis√©s suivants ? Une r√©ponse par ligne. Vous consommez sur Internet ‚Ä¶_r1": "frequence_conso_culturelle",
    "Q5 - Plus pr√©cis√©ment, pour chacun des produits ou services culturels suivants, diriez-vous que vous les consommez‚Ä¶ Une r√©ponse par ligne. sur Internet ‚Ä¶_r1": "type_conso_legale_ou_illegale",
    "Q7 - Concernant votre consommation de biens culturels d√©mat√©rialis√©s, diriez-vous qu‚Äôaujourd‚Äôhui :": "evolution_conso_legale",
    "QBU1 - Vous nous avez dit consommer de fa√ßon d√©mat√©rialis√©e les contenus culturels et sportifs suivants. Veuillez indiquer pour chacun d‚Äôeux si vous les consommez gratuitement ou de fa√ßon payante. On parle toujours de contenus culturels et spor_r1": "gratuit_ou_payant",
    "QBU2 - De fa√ßon g√©n√©rale, quel montant d√©pensez-vous en moyenne chaque mois pour votre consommation de [% ListLabel(Q1List,AFFi1) %] [% ListLabel(Q1List,AFFi2) %] [% ListLabel(Q1List,AFFi3) %] [% ListLabel(Q1List,AFFi4) %] [% ListLabel(Q1List,AFFi5": "depense_mensuelle_culturelle",
    "- Utilisez-vous des applications ¬´ crack√©es ¬ª que vous avez t√©l√©charg√©es sur des stores d‚Äôapplications alternatifs (comme AppValley ou Tutuapp par exemple) ou via des APKs, permettant l‚Äôacc√®s √† des offres payantes sans payer ? Vou_1": "utilisation_applis_crackees",
    "QBU12 - Utilisez-vous des logiciels, des applications ou des sites internet permettant de convertir des contenus consult√©s en streaming (films, s√©ries, musique vus sur une plateforme) en un contenu √† t√©l√©charger (qui permettent par exemple de conv_r1": "utilisation_telechargement_streaming",
    "RS8 - Et vous arrive-t-il de faire des r√©glages de DNS ?": "reglages_dns",
    "RS7BIS - Au cours des 12 derniers mois, avez-vous utilis√© au moins un VPN √† titre personnel ?": "utilisation_vpn",
    "QBU5a - Et au cours des 12 derniers mois, sur quels appareils avez-vous consomm√© ces contenus culturels et sportifs la plupart du temps ? Vous pouvez s√©lectionner plusieurs r√©ponses par ligne. G√©n√©ralement, ‚Ä¶_COMBINED": "appareils_conso_musique_videos",
    "QBU5b - Et au cours des 12 derniers mois, sur quels appareils avez-vous consomm√© ces contenus culturels et sportifs la plupart du temps ? Vous pouvez s√©lectionner plusieurs r√©ponses par ligne. G√©n√©ralement, ‚Ä¶_COMBINED": "appareils_conso_films_series",
    "RS12BIS - Avez-vous acc√®s aux fournisseurs de services payants suivants ? Attention, nous parlons ici des offres auxquelles vous avez acc√®s en payant (vous ou une autre personne de votre foyer) ou en b√©n√©ficiant d‚Äôun compte d‚Äôune personne ext_COMBINED": "acces_services_payants",
    "RS16BIS - √Ä qui appartiennent ces codes d‚Äôacc√®s ext√©rieurs √† votre foyer que vous utilisez ? Vous pouvez s√©lectionner plusieurs r√©ponses par ligne. Pour_COMBINED": "provenance_codes_acces_exterieurs"
}
df = df.rename(columns=rename_dict)

# S√©lection des colonnes cibles si pr√©sentes
cols_keep = [
    "sexe","age","region","type_agglomeration",
    "situation_personnelle","profession_principale","statut_emploi",
    "frequence_internet","frequence_conso_culturelle",
    "type_conso_legale_ou_illegale","evolution_conso_legale",
    "gratuit_ou_payant","depense_mensuelle_culturelle",
    "appareils_conso_musique_videos","appareils_conso_films_series",
    "utilisation_vpn","utilisation_applis_crackees",
    "utilisation_telechargement_streaming","reglages_dns",
    "acces_services_payants","provenance_codes_acces_exterieurs",
    "taille_foyer","nb_enfants","statut_foyer"
]
existing = [c for c in cols_keep if c in df.columns]
df = df[existing].copy()
log(f"üß≠ Selected {len(existing)} analytical columns")


## 8Ô∏è‚É£ Finitions (qualit√©, types)

In [None]:

# Types & noms
df.columns = [c.lower().replace(" ", "_") for c in df.columns]
if "age" in df.columns:
    df["age"] = pd.to_numeric(df["age"], errors="coerce").astype("Int64")

# Trim strings
for c in df.select_dtypes("object").columns:
    df[c] = df[c].astype(str).str.strip()

# D√©doublonnage
dupes = df.duplicated().sum()
if dupes:
    df = df.drop_duplicates()
log(f"üß© Duplicates removed: {dupes}")
log(f"‚úÖ Final shape: {df.shape}")


## 9Ô∏è‚É£ Sauvegardes finales

In [None]:

# 1) Dataset final
df.to_excel("data.xlsx", index=False, engine="openpyxl")
log("üíæ Saved dataset ‚Üí data.xlsx")

# 2) Log pipeline
pd.Series(LOG, name="log").to_csv("barometre_pipeline_log.csv", index=False, encoding="utf-8")
log("üßæ Saved log ‚Üí barometre_pipeline_log.csv")
