In [2]:
import pandas as pd
import numpy as np

In [3]:
df = pd.read_excel("../data/barometre_clean.xlsx")

In [4]:
replacements = {
    "situation_personnelle": {
        "Vous êtes dans une autre situation (invalide, sans activité professionnelle...)": "autre",
        "Vous exercez une activité professionnelle (actifs, apprentis, stagiaires)": "actif",
        "Vous êtes chômeur ou chômeuse ayant déjà travaillé": "chômeur",
        "Vous êtes à la retraite ou en pré-retraite": "retraite",
        "Vous êtes homme ou femme au foyer": "homme au foyer",
        "Vous êtes collégien(ne), lycéen(ne) ou étudiant(e)": "étudiant",
        "Vous êtes à la recherche d'un premier emploi": "primo-demandeur",
    },
    "type_conso_legale_ou_illegale": {
        "Uniquement de façon légale": "légale",
        "Généralement légale, parfois illégale": "souvent légale",
        "Autant légale qu’illégale": "autant",
        "Généralement illégale, parfois légale": "souvent illégale",
        "Uniquement de manière illégale": "illégale",
    },
    "evolution_conso_legale": {
        "Consomme autant de façon légale qu’avant": "autant légale",
        "Consomme davantage de façon légale qu’avant": "davantage légale",
        "Consomme moins de façon légale qu’avant": "moins légale",
        "Ne consomme pas du tout de manière légale": "pas légale",
    },
    "gratuit_ou_payant": {
        "Uniquement gratuitement": "gratuit",
        "Le plus souvent gratuitement, mais parfois de façon payante": "souvent gratuit",
        "Autant gratuitement que de façon payante": "autant",
        "Le plus souvent de façon payante, mais parfois gratuitement": "souvent payante",
        "Uniquement de façon payante": "payante",
    },
    "utilisation_vpn": {
        "Non, vous n’avez jamais utilisé de VPN à titre personnel": "jamais",
        "Oui, vous avez occasionnellement utilisé un VPN à titre personnel au cours des 12 derniers mois": "occasionnellement",
        "Oui, vous avez régulièrement utilisé un VPN à titre personnel au cours des 12 derniers mois": "régulièrement",
        "Non, mais vous avez déjà utilisé un VPN par le passé à titre personnel": "ancien utilisateur",
    },
    "utilisation_applis_crackees": {
        "Des applis crackées permettant l’accès gratuit à une offre payante de chaînes de télévision (Canal+, beIN, etc.)": "oui",
    },
    "utilisation_telechargement_streaming": {
        "Autant gratuitement que de façon payante": "autant",
        "Uniquement gratuitement": "gratuit",
        "Le plus souvent de façon payante, mais parfois gratuitement": "souvent payante",
        "Le plus souvent gratuitement, mais parfois de façon payante": "souvent gratuit",
        "Uniquement de façon payante": "payante",
    },
    "acces_services_payants": {
        "Je bénéficie d’un compte d’une personne extérieure à mon foyer": "compte partagé",
        "J’y suis abonné au sein de mon foyer": "abonné",
        "Je n’ai pas accès à ce type d’abonnement": "non",
        "J’y suis abonné au sein de mon foyer, Je bénéficie d’un compte d’une personne extérieure à mon foyer, Je n’ai pas accès à ce type d’abonnement": "abonné",
        "J’y suis abonné au sein de mon foyer, Je n’ai pas accès à ce type d’abonnement": "abonné",
        "Je bénéficie d’un compte d’une personne extérieure à mon foyer, Je n’ai pas accès à ce type d’abonnement": "compte partagé",
        "J’y suis abonné au sein de mon foyer, Je bénéficie d’un compte d’une personne extérieure à mon foyer": "abonné",
    },
    "statut_foyer": {
        "Vous êtes célibataire": "célibataire",
        "Vous vivez en couple": "couple",
        "Vous êtes un enfant vivant chez vos parents": "enfant",
    },
}

In [5]:
for col, mapping in replacements.items():
    if col in df.columns:
        df[col] = df[col].replace(mapping)
        print(f"✅ Remplacé {col}")

✅ Remplacé situation_personnelle
✅ Remplacé type_conso_legale_ou_illegale
✅ Remplacé evolution_conso_legale
✅ Remplacé gratuit_ou_payant
✅ Remplacé utilisation_vpn
✅ Remplacé utilisation_applis_crackees
✅ Remplacé utilisation_telechargement_streaming
✅ Remplacé acces_services_payants
✅ Remplacé statut_foyer


In [6]:
for col in ["provenance_codes_acces_exterieurs", "appareils_conso_musique_videos"]:
    if col in df.columns:
        df[col] = (
            df[col].astype(str)
            .replace("nan", "")
            .str.split(",")
            .apply(lambda x: [i.strip() for i in x if i.strip()])
        )

In [7]:
def simplifier_provenance(reponses):
    if not reponses or isinstance(reponses, float):
        return np.nan
    if any("Internet" in r for r in reponses):
        return "internet"
    if any("amis" in r or "famille" in r for r in reponses):
        return "proches"
    if any("autres" in r for r in reponses):
        return "autres"
    return "autres"

if "provenance_codes_acces_exterieurs" in df.columns:
    df["provenance_simplifiee"] = df["provenance_codes_acces_exterieurs"].apply(simplifier_provenance)

In [8]:
cols_keep = [
    "sexe", "age", "region", "type_agglomeration",
    "situation_personnelle", "profession_principale", "statut_emploi",
    "frequence_internet", "frequence_conso_culturelle",
    "type_conso_legale_ou_illegale", "evolution_conso_legale",
    "gratuit_ou_payant", "depense_mensuelle_culturelle",
    "appareils_conso_films_series", "utilisation_vpn",
    "utilisation_applis_crackees", "utilisation_telechargement_streaming",
    "reglages_dns", "acces_services_payants", "taille_foyer",
    "nb_enfants", "statut_foyer"
]
df = df[[c for c in cols_keep if c in df.columns]]

In [9]:
df.to_excel("file_better.xlsx", index=False, engine="openpyxl")
print(f"✅ Fichier sauvegardé : file_better.xlsx ({df.shape[0]} lignes × {df.shape[1]} colonnes)")

✅ Fichier sauvegardé : file_better.xlsx (5040 lignes × 22 colonnes)
