# Strat√©gie d'Imputation des Donn√©es Manquantes

### 1. Contexte et Approche Stratifi√©e par Pays

La base de donn√©es trait√©e pr√©sente une forte h√©t√©rog√©n√©it√© structurelle due √† la diversit√© des pays inclus.

Afin d'√©viter **le biais d'√©crasement** qu'aurait provoqu√© une imputation globale, nous avons opt√© pour une approche **stratifi√©e par pays**.

* **Justification :** Un revenu de 2000‚Ç¨ n'a pas la m√™me signification √©conomique ni le m√™me pouvoir pr√©dictif en France qu'en Pologne. De m√™me, les mod√®les de consommation d'alcool sont fortement culturels.
* **D√©cision :** Chaque mod√®le d'imputation a √©t√© entra√Æn√© et appliqu√© exclusivement sur les sous-ensembles de donn√©es nationaux, garantissant le respect des distributions et des corr√©lations locales.


### 2. Imputation du Salaire mensuel ('sd_20month_EUR_2020): Approche par Mod√©lisation Pr√©dictive

Pour la variable **Salaire** (variable quantitative continue), nous avons rejet√© les imputations univari√©es simplistes (moyenne/m√©diane) qui r√©duisent la variance et faussent les analyses de corr√©lation ult√©rieures.

Nous avons privil√©gi√© une approche par **R√©gression Supervis√©e (Random Forest )** pour les raisons suivantes :

* **Pr√©servation de la Structure de Corr√©lation :** Le salaire est fortement d√©termin√© par des variables explicatives pr√©sentes dans la base. L'utilisation d'un mod√®le pr√©dictif permet de reconstruire le salaire th√©orique d'un individu en fonction de son profil socio-d√©mographique pr√©cis.
* **Gestion de la Non-Lin√©arit√© :** Contrairement √† une r√©gression lin√©aire simple, les mod√®les d'ensemble comme le randaom Forest capturent les effets de seuil et les interactions complexes.

### 3. Imputation de la Fr√©quence de Consommation et du Nombre d'enfant de moins de 18 ans dans le m√©nage : Approche par KNN

Pour les variables **Fr√©quence de grosse consommation (RSOD_2b)** et **Nombre de mineurs dans le m√©nage (SD_7)**, nous avons opt√© pour l'algorithme des **K-Plus Proches Voisins (KNN)**.

Ce choix se justifie par la nature de ces variables et la logique sociologique sous-jacente :

* **Nature des Variables (Ordinales/Discr√®tes) :**
* La fr√©quence de consommation est une variable ordinale (√©chelle de 1 √† 10).
* Le nombre de mineurs est une variable discr√®te.
* L'utilisation d'une r√©gression aurait produit des valeurs continues aberrantes. Le KNN, en faisant la moyenne locale, reste plus coh√©rent avec des valeurs discr√®tes.


* **Logique de "Profils Similaires" :** les comportements (boire de l'alcool) et les structures familiales (avoir des enfants) tendent √† √™tre partag√©s par des individus ayant des caract√©ristiques proches (m√™me √¢ge, m√™me milieu social).


In [None]:
data = convertir_salaires_en_euro(data)

In [None]:
data = imputer_salaire_pays(data)

In [None]:
data = imputer_knn(data)

# M√©thodologique : S√©lection des Variables Significatives

Afin d'identifier les d√©terminants sp√©cifiques de la consommation d'alcool pour chaque pays, nous avons adopt√© une m√©thodologie de **r√©gression lin√©aire multiple** avec une proc√©dure de s√©lection de variables par **√©limination descendante (Backward Elimination)**.

Pour chaque pays, la proc√©dure s'initialise par l'ajustement d'un mod√®le satur√© incluant l'ensemble des variables explicatives potentielles. √Ä chaque it√©ration, la significativit√© statistique de chaque co-variable est √©valu√©e via le **test de Student**. La variable pr√©sentant la p-value la plus √©lev√©e sup√©rieure au seuil critique fix√© √† **$\alpha = 0.05$** (et modifiable par argument d'une fonction) est retir√©e du mod√®le.Ce dernier est ensuite r√©ajust√© sur les variables restantes. 

Ce processus it√©ratif est r√©p√©t√© jusqu'√† convergence, c'est-√†-dire jusqu'√† l'obtention d'un mod√®le final o√π tous les coefficients conserv√©s sont **statistiquement significatifs**. Cette approche permet d'isoler les facteurs de risque propres √† **chaque contexte national**.

Les variables explicatives choisit sont les variables socio-d√©mographiques et de sant√© de notre base de donn√©es. Nous avons √©limin√©s toutes les variables li√©es √† la consommation d'alcool pour √©viter tout probl√®me d'endog√©n√©it√©.

In [None]:
variables_explicatives= [
    'SD_1',  # Genre
    'SD_2',  # Age
    'SD_4',  # Statut marital
    'SD_6',  # Taille m√©nage
    'SD_7',  # Mineurs
    'SD_8',  # Urbanisation
    'SD_9',  # Education
    'SD_10', # Activit√© pro
    "sd_20month_EUR_2020", # Revenu (peut devenir significatif maintenant !)
    "social_class", # Classe sociale
    "CH_1",  # Histoire familiale alcool
    "WB_1",  # Sant√© physique
    "WB_2",  # Sant√© mentale
    "WB_3"   # Satisfaction relationnelle
]
resultat = regression_iterative(
df=data, 
target_col='bsqf_alc', 
all_feature_cols= variables_explicatives, 
country_col='COUNTRY', 
liste_pays=['France', 'Poland', 'Bulgaria', 'Iceland'],
seuil_pvalue=0.05)

# Rapport d'Analyse des D√©terminants de la Consommation d'Alcool (Approche Prudente)

### 1. Pr√©ambule M√©thodologique

Les mod√®les de r√©gression lin√©aire ci-dessous pr√©sentent des coefficients de d√©termination () faibles, variant de **0,4 % (Bulgarie)** √† **6,7 % (Islande)**.

* **Signification :** Les variables socio-d√©mographiques et de bien-√™tre expliquent une part tr√®s marginale de la variance de la consommation totale. La consommation d'alcool est donc un comportement tr√®s h√©t√©rog√®ne, influenc√© par des facteurs non observ√©s ici (habitudes culturelles, prix, g√©n√©tique, contexte social imm√©diat).
* **Port√©e :** L'√©chantillon n'√©tant pas statistiquement repr√©sentatif des populations nationales, les r√©sultats suivants d√©crivent des **corr√©lations internes √† la base de donn√©es** et ne doivent pas √™tre g√©n√©ralis√©s sans r√©serve √† l'ensemble de ces pays.

### 2. Analyse D√©taill√©e 

#### Bilan Global de la Mod√©lisation 

L'analyse des r√©sultats issus de la s√©lection stepwise mets en √©vidence deux constats pour l'interpr√©tation : 

* **Un pouvoir explicatif marginal ($R^2$)** : Les coefficients de d√©termination sont compris entre 0,004 (Bulgarie) et 0,067 (Islande). nous observons que les variables socio-d√©mographiques et de bien-√™tre expliquent une part tr√®s faible de la variance (moins de 7 % dans le meilleur des cas, et moins de 1 % pour la Bulgarie). Cela signifie que la consommation volumique d'alcool est un comportement complexe, qui √©chappe en grande partie aux d√©terminants sociologiques classiques (√¢ge, sexe, situation familiale).
* **L'absence du revenu** : La variable financi√®re sd_20month_EUR_2020 (Revenu du m√©nage) a √©t√© √©limin√©e par l'algorithme pour l'ensemble des pays, ne franchissant pas le seuil de significativit√©. Cela veut dire que le niveau de richesse pure n'est pas un pr√©dicteur direct du volume d'alcool consomm√©.

#### France 

Au sein de l'√©chantillon fran√ßais, la consommation semble structur√©e par des d√©terminants "classiques" et une variable historique forte.

* **Genre (`SD_1`) :** Avec un coefficient n√©gatif significatif (-301,71), cela signifie que les hommes consommes significativement plus d'alcool que les femmes dans ce groupe.
* **H√©r√©dit√© sociale (`CH_1`) :** C'est une sp√©cificit√© marquante des r√©pondants fran√ßais. La variable "Avoir v√©cu enfant avec un buveur excessif" (1=Oui, 2=Non) a un coefficient n√©gatif (-360,84). Cela indique que les r√©pondants n'ayant **pas** √©t√© expos√©s √† l'alcoolisme familial durant l'enfance consomment significativement moins aujourd'hui.
* **Classe sociale (`social_class`) :** Le coefficient n√©gatif (-34,84) sugg√®re un effet protecteur du statut social : √† mesure que l'on s'√©l√®ve dans la cat√©gorie (de ouvrier vers cadre), le volume d√©clar√© tend √† diminuer l√©g√®rement.

#### Pologne 
Les r√©pondants polonais pr√©sentent des √©carts de consommation tr√®s brutaux en fonction de leur environnement.

* **Genre (`SD_1`) :** L'effet du genre est massif (-2327,88), bien plus fort qu'en France. Dans cet √©chantillon, la consommation d√©clar√©e est tr√®s majoritairement masculine.
* **Urbanisation (`SD_8`) :** Le coefficient positif (+1389,14) indique une corr√©lation entre la taille de la ville et la consommation. Les r√©pondants des grandes agglom√©rations d√©clarent boire davantage que ceux des zones rurales.


* **Structure familiale (`SD_7`) :** La pr√©sence de mineurs au foyer est associ√©e positivement √† la consommation (+1389,14). Ce r√©sultat contre-intuitif (on s'attendrait √† ce que les parents boivent moins) pourrait refl√©ter dans cet √©chantillon sp√©cifique une consommation domestique plus ancr√©e ou un profil de r√©pondants plus √¢g√©s/install√©s qui consomment davantage que les jeunes adultes sans enfants.

#### Bulgarie 
Le mod√®le est extr√™mement faible, ce qui indique que pour les r√©pondants bulgares, les variables classiques (√¢ge, sexe) ne pr√©disent rien. Seule la structure du foyer joue un r√¥le.

* **Isolement (`SD_6`) :** Le coefficient tr√®s n√©gatif (-4660,17) sur la variable "Taille du m√©nage" (1=Seul, 2=Plusieurs) est crucial. Il indique que le passage de la vie en solo √† la vie en groupe fait chuter la consommation. **Dans cet √©chantillon, les personnes vivant seules sont celles qui d√©clarent les plus gros volumes.**
* **Statut marital (`SD_4`) :** Le coefficient n√©gatif (-1296,28) montre que les mari√©s (code 1) consomment plus que les autres statuts (codes √©lev√©s). Cela dessine une dichotomie chez les r√©pondants bulgares : une consommation forte chez les isol√©s, mais aussi une consommation importante chez les couples mari√©s traditionnels.
* **√âducation (`SD_9`) :** L'√©ducation agit comme un frein (-2397,77) : les r√©pondants les plus dipl√¥m√©s d√©clarent des volumes plus faibles.

#### üáÆüá∏ Islande : Le lien Sant√©-Consommation ()

L'√©chantillon islandais est le mieux expliqu√© par le mod√®le, gr√¢ce √† l'introduction des variables de sant√©.

* **Le Mal-√™tre (`WB_1`, `WB_2`) :** Les coefficients sont positifs. Puisque les √©chelles de sant√© vont de 1 (Tr√®s bon) √† 5 (Tr√®s mauvais), un coefficient positif signifie que **plus la sant√© physique et mentale d√©clar√©e est mauvaise, plus la consommation d'alcool est √©lev√©e**. L'alcool appara√Æt ici corr√©l√© au mal-√™tre.


* **Statut Marital (`SD_4`) :** Contrairement √† la Bulgarie, le coefficient positif (+45,35) indique ici que ce sont les personnes seules, divorc√©es ou veuves (codes √©lev√©s) qui consomment plus que les personnes mari√©es (code 1).
* 
**√âducation (`SD_9`) :** Comme en Bulgarie, un niveau d'√©ducation √©lev√© est associ√© √† une consommation moindre (-42,52).


### 3. Synth√®se Comparative

L'analyse de ces donn√©es non-repr√©sentatives permet n√©anmoins de d√©gager **quatre profils de corr√©lation** distincts au sein de l'√©tude :

1. **Le profil socio-culturel (France) :** O√π la consommation est li√©e au genre et √† l'histoire familiale.
2. **Le profil environnemental (Pologne) :** O√π le lieu de vie (ville) et la composition du foyer (enfants) sont d√©terminants.
3. **Le profil "Solitaire" (Bulgarie) :** O√π vivre seul est le facteur de risque statistique le plus fort identifi√©.
4. **Le profil "Symptomatique" (Islande) :** O√π la consommation est significativement corr√©l√©e √† une mauvaise auto-√©valuation de la sant√© physique et mentale.

*Note de prudence finale : Ces r√©sultats soulignent des associations statistiques au sein des r√©pondants enqu√™t√©s. Ils ne permettent pas d'√©tablir de causalit√© directe ni de d√©crire les habitudes de la population g√©n√©rale de ces pays.*