In [None]:
#pip install -r requirements.txt


In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
from sklearn.decomposition import PCA
import geopandas as gpd
from prince import mca
import prince 
import requests
import io
import importlib
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.impute import KNNImputer
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import Ridge, LinearRegression
import statsmodels.api as sm
from sklearn.ensemble import StackingRegressor, RandomForestRegressor

In [None]:
from scripts import clean_data as cld
from scripts import imputation as ipt
from scripts import data_analysis as dtn
from scripts import stats_desc as std
from scripts import regression as rgp

In [None]:
file_path ="https://minio.lab.sspcloud.fr/emile/Deep_seas/20177113_DS_D3.1-SEAS2-dataset-2022_rev1.csv"
df = pd.read_csv(file_path, sep=';', encoding='utf-8', low_memory=False, na_values=" ", decimal=',')
df.describe() 


In [None]:
df.shape

# Sommaire

* [**Partie I : Premier nettoyage**](#partie1)
* [**Partie II : Analyses et traitements**](#partie2)
    * [A. Statistiques descriptives](#partie2a)
    * [B. Imputation des donn√©es](#partie2b)
    * [C. Analyses factorielles (ACM & ACP)](#partie2c)
* [**Partie III : Mod√©lisation**](#partie3)
* [**Annexes**](#annexes)

<a id="partie1"></a>
# Partie I : Premier nettoyage

**S√©lection des variables**

In [None]:
variables = ["COUNTRY","SD_1", "SD_2", "SD_4","SD_6", "SD_7", 
             "SD_8","SD_9", "SD_10", "sd_20month" ,"social_class",
             "bsqf_alc", "f_1b", "RSOD_5a", "RSOD_5b", "RSOD_5c", "cbsqf_beer", "cbsqf_spir", "cbsqf_wine",
             "RSOD_5d", "RSOD_2b", "RSOD_7b", "CH_1", "WB_1", "WB_2", "WB_3"]
data = df[variables]

Explication de la s√©lection: Nous avons garder l'ensemble des variables qui faisaient sens du point de vue de la r√©ponse √† notre probl√©matique.
La plupart des variables non s√©lectionn√©es sont redondantes avec celles ici,
(notamment des variables quantitatives qui avaient √©t√© recod√©es √† partir des variables cat√©gorielles que nous incluons ici).
Toutes les variables recueillant l'opinion des interrog√©s ont √©t√© exclues pour leur difficult√© potentielle √† √™tre traiter, 
par exemple: AP_9: Printed warnings about alcohol-related harm should be displayed on alcohol packaging ? Strongly agree, somewhat agree,...


In [None]:
data.dtypes

**Nettoyage de la base**

In [None]:
#Les pays de la base sont cod√©s de 10 √† 43, on les associe √† leur nom via le dictionnaire country_mapping de clean_data
if pd.api.types.is_numeric_dtype(data['COUNTRY']):
    data['COUNTRY'] = data['COUNTRY'].map(cld.country_mapping)
else:
    print("Le mapping a d√©j√† √©t√© effectu√©, on ne fait rien.") #Pour √©viter de remplacer par NA si on ex√©cute ce code 2 fois par erreur

Le questionnaire de Deepseas pr√©cise que le salaire mensuel sd_20month a √©t√© fourni en monnaie locale par les r√©pondants mais le code book ne pr√©cise pas si la variable a √©t√© remise dans la m√™me unit√© mon√©taire ou non. Regardons la distribution des revenus par pays ci-dessous:

In [None]:
cld.barplot_bycntry(data)

La variable sd_20month du salaire mensuel est rest√©e en monnaie local puisque les pays hors zone euro qui ont presque tous une monnaie plus faible que l'euro se retrouvent √† avoir les salaires mensuels les plus √©lev√©s, alors que ce ne sont pas n√©cessairement ceux o√π le niveau de vie est le plus √©lev√©. On notera que les valeurs manquent pour la Slov√©nie d√ª au fait que le questionnaire slov√®ne n'a pas pr√©cis√© si les r√©pondants devaient donner leur salaire mensuel ou annuel, les sondeurs ont donc supprimer les donn√©es de salaire pour ce pays. 

Les entretients pour construire cette base de donn√©es ayant √©t√© men√©s en 2019 et 2020, nous choisissons de convertir tous les salaires en euros selon les valeurs publi√©es au journal officiel de l'Union Europ√©enne pour le 2 janvier 2020. Cette date qui pr√©c√®de la crise Covid peut permettre d'√©viter des erreurs d'interpr√©tation des niveaux de vie, la crise Covid ayant fait significativement fluctuer les taux de change, faisant notamment s'appr√©cier l'euro par rapport √† certaines monnaies d√©but 2020 (couronne tch√®que, islandaise, etc.).


In [None]:
# On cr√©e une variable avec les taux de changes de 2020 
data['EXCHANGE_RATE_TO_EUR'] = data['COUNTRY'].map(cld.conversion_rates)

# On convertit la variable 'sd_20month'
data['sd_20month_EUR_2020'] = data['sd_20month'] * data['EXCHANGE_RATE_TO_EUR']

In [None]:
# Barplot des salaires mensuels moyens convertis en ‚Ç¨
cld.barplot_bycntry(data, colonne_y='sd_20month_EUR_2020',y_name= "revenu mensuel moyen par pays (en ‚Ç¨)")

On remarque que cette distribution des revenus n'est pas toujours coh√©rente avec la r√©alit√© des distributions moyennes de revenus entre les pays europ√©ens. Par exemple, le revenu moyen d√©clar√© par les italiens interrog√©s est sup√©rieur √† celui des irlandais interrog√©s, ce qui n'est pas vrai dans la population totale. Cela t√©moigne soit d'un biais d√©claratif plus √©lev√© dans certains pays que d'autres, soit d'un biais de s√©lection du fait que les personnes interrog√©es dans certains pays (en Italie par exemple) font partie d'une partie plus favoris√©e √©conomiquement de la population de leur pays que les individus interrog√©s dans d'autres pays (par exemple l'Irlande). Le cas √©ch√©ant, cela signifie que les personnes interrog√©es ne sont pas √©quitablement r√©partis dans la distribution des revenus, dans certains pays du moins (ce que Kilian et Al. pointent du doigt dans leur papier "The socioeconomic profile of alcohol use in Europe: Findings
from a cross-sectional survey of 33 European countries" qui analyse Deepseas du point de vue europ√©en).

NB: Les salaires extr√™mement hauts de la Slov√©nie sont d√ª √† un oubli de la part des sondeurs de pr√©ciser si le salaire √©tait mensuel ou annuel dans les questions pos√©es aux slov√®nes. On ne pourra donc pas utiliser ce pays pour notre √©tude.

On d√©cide de cr√©er √©galement une nouvelle variable de salaire mensuel en euros PPA pour pouvoir comparer les pays selon leur pouvoir d'achat.
On liste ci-apr√®s les taux PPA donn√©s par Eurostat et la Banque Mondiale qui correspondent au Taux de change/ Indice des prix.

In [None]:
# Cr√©ation d'un variable Valeurs brutes de parit√© (PPA) et conversion des salaires en euros PPA
data['PPA'] = data['COUNTRY'].map(cld.ppa_brut)
data['sd_20month_EUR_2020_PPA']= data['sd_20month'] / data['PPA']

*Premier traitement des valeurs manquantes*

In [None]:
# Affiche le tableau des donn√©es manquantes par variable (en %)
stats_na = cld.tableau_na(data)
stats_na

In [None]:
#version plus visuelle du tableau pr√©c√©dent
cld.visu_na(data)

Les variables pr√©sentant des valeurs manquantes dans des proportions potentiellement probl√©matiques sont:
- SD_7: le nombre de mineur dans le foyer de l'individu (21% de NA)
- SD_20month : le revenu du m√©nage par mois (24% de NA)
- Demo_Empl: si temps partiel, temps plein ou autre (31% de NA)
- Les RSOD_5(a √† d): les lieux de consommation d'alcool (46% de NA)
- RSOD_2b : Fr√©quence 4/6+ verres en nombre de jours par an (46% de NA) ;
- RSOD_7b : Fr√©quence 8/12+ verres en nombre de jours par an (50% de NA)

Nous les traiterons une par une par la suite.

*Traitement de bsqf_alc la consommation d'alcool pur par an et par individu en cl*

In [None]:
#pourcentages de valeurs manquantes pour la quantit√© d'alcool consomm√©e dans les 12 derniers mois (en cl)
cld.tableau_na_pays(data, "bsqf_alc")

In [None]:
#Peu de valeurs manquantes dans la consommation d'alcool en cl d'alcool pur bsqf_alc (moins de 2% sauf Islande, Allemagne et Malte moins de 3.7%) 
# donc on peut supprimer les individus qui pr√©sentent des valeurs manquantes pour cette variable sans cr√©er de biais de s√©lection.

data= data.dropna(subset=['bsqf_alc'])
sum(data['bsqf_alc'].isna())

*Les variables RSOD_5(a √† d)*

In [None]:
variables = ['RSOD_5a', 'RSOD_5b', 'RSOD_5c', 'RSOD_5d']

#Pourcentage d'observations o√π TOUTES les variables RSOD_5(a √† d) sont manquantes
pourcentage_observations_manquantes_communes = data[variables].isna().all(axis=1).mean()

print(f"Nombre d'observations o√π toutes les variables sont manquantes : {pourcentage_observations_manquantes_communes}")

Les valeurs manquantes des RSOD_5(a √† d) sont les m√™mes, donc quand on ne conna√Æt pas la r√©currence de consommation d'alcool dans un lieu, on ne la conna√Æt pour aucun. Ces variables pr√©sentent un tr√®s grand pourcentage de valeurs manquantes (46%) et ne sont pas √©voqu√©s dans la litt√©rature que nous avons √©tudi√© comme d√©terminant d'un profil de consommateur d'alcool, nous d√©cidons de ne pas les compl√©ter et d'√©tudier leur r√¥le seulement au travers de quelques statistiques descriptives par pays.

Puisque ces variables ne sont pas compl√©mentaires en termes d'individus r√©pondants, qu'il y a plus de 45% de valeurs manquantes et que nous ne les avons trouv√© comme typiques de certains consommateurs d'alcool dans aucune √©tude que nous avons lues, nous d√©cidons de ne pas les √©tudier et de les retirer de la base pour le traitement.

In [None]:
# Identification et suppression des colonnes RSOD_5(a √† d)
cdrop = ["RSOD_5a", "RSOD_5b", "RSOD_5c", "RSOD_5d"]
data = data.drop(columns=cdrop)

print(f"Colonnes supprim√©es : {cdrop}")

*Traitement de RSOD_2b et RSOD_7b*

Variables cat√©gorielles, respectivement la fr√©quence de consommation d'alcool sup√©rieure √† 4/6 verres et sup√©rieure 8/12 verres.

In [None]:
#regardons si, de fa√ßon coh√©rente, les valeurs manquantes de RSOD_2b sont incluses dans celles de RSOD_7b qui en a davantage

print(f"NA uniquement dans 2b: {(data['RSOD_2b'].isna() & data['RSOD_7b'].notna()).sum()}")
print(f"NA uniquement dans 7b: {(data['RSOD_2b'].notna() & data['RSOD_7b'].isna()).sum()}")

Donc si des valeurs sont manquantes dans RSOD_2b elles le sont bien aussi dans RSOD_7b, donc les gens qui n'ont pas r√©pondu √† leur fr√©quence de consommation d'alcool de 4/6+ verres n'ont pas non plus r√©pondu √† celle de 8/12+ verres .

Les RSOD_2b/7b sont cod√©es comme suit (d'apr√®s le code book):

Frequency of
drinking 4/6+ (resp. 8/12+ )
drinks
- 1 = Every day
- 2 = 5-6 days a week
- 3 = 3-4 days a week
- 4 = 1 - 2 days a week
- 5 = 2 - 3 days a month
- 6 = One day in a month
- 7 = 6 - 11 days a year
- 8 = 2 - 5 days a year
- 9 = a single day in the past 12 months
- 10 = I did not drink in the past 12 months



Comme RSOD_7b a 50% de valeurs manquantes, on d√©cide de l'abandonner pour ne garder que RSOD_2b qui en a 27%. On retiendra que, m√™me si RSOD_7b est inclus dans RSOD_2b, on perd tout de m√™me un peu d'information sur les alcoolisations ponctuelles importantes.

In [None]:
# Identification et suppression de la colonne RSOD_7b
cdrop = ["RSOD_7b"]
data = data.drop(columns=cdrop)

In [None]:
#Probl√®me: On a remarqu√© en ouvrant la base sur excel (√ßa n'est donc pas une erreur d'interpr√©tation des s√©parateurs) qu'il y a √† la fois des 0 et des NA pour ces variables
#Alors que ce sont des cat√©gorielles sans cat√©gories 0 D'APRES LE CODEBOOK
#Comptons le nombre de 0 et de valeurs manquantes pour RSOD_2b
print(f"nombre de d'individus ayant RSOD_2b = 0: {data.loc[data['RSOD_2b']==0,'RSOD_2b'].count()}",
f", nombre de valeurs manquantes pour RSOD_2b: {data['RSOD_2b'].isna().sum()}")

In [None]:
# Le codebook pourrait-il se tromper ?
# Essayons de voir combien d'individus correspondent √† chaque code cat√©goriel de 1 √† 10 possible:
print(data['RSOD_2b'].value_counts(dropna=False).sort_index())

Il n'y a pas d'observation cod√©e 10, il est coh√©rent de penser que le code book contient une erreur et que c'est le code 0 qui correspond √† "I did not drink in the past 12 months [4/6+ drinks]" et non pas le code 10. 
Pour le v√©rifier, on va essayer de voir si les individus cod√©s 0 sont bien ceux cod√©s 10 dans le code book et si les codes des autres cat√©gories sont rest√©s inchang√©s ou non. Pour cela, on utilise la variable de fr√©quence de consommation d'alcool f_1b qui n'est pas un excellent proxy de RSOD_2b la fr√©quence de consommation de plus de 4/6 verres mais qui est le meilleur que nous ayons.

Rappel:codage de f_1b

generic
frequency of
drinking
- 1 = Every day
- 2 = 5-6 days a week
- 3 = 3-4 days a week
- 4 = 1 - 2 days a week
- 5 = 2 - 3 days a month
- 6 = One day in a month
- 7 = 6 - 11 days a year
- 8 = 2 - 5 days a year
- 9 = a single day in the past 12 months
- 10 = I did not drink but I drank earlier
- 11 = I never drank in my life

In [None]:
#On regarde quelle est la distribution de la variable f_1b
print(data['f_1b'].value_counts(dropna=False).sort_index())

In [None]:
print(f"Le nombre d'individus o√π RSOD_2b=0 et f_1b=10 ou 11 est : {data.loc[(data['RSOD_2b']==0) & ((data['f_1b'] == 10) |  (data['f_1b'] == 11)), 'RSOD_2b'].count()}",
f", Le nombre d'individus ou RSOD_2b=0 est {data['RSOD_2b'].value_counts(dropna=False)[0]}")

Les individus ayant n'ayant jamais consomm√© d'alcool dans les 12 derniers mois ou durant toute leur vie (cat√©gorie 10 et 11 de f_1b) sont biens les m√™mes qui ont RSOD_2b=0.
Le code 10 est bien devenu 0.

Pour v√©rifier la concordance des codes 1 √† 9 avec les labels du codebook, on cr√©e une table de contingence entre RSOD_2b et f_1b.

In [None]:
# Table de contingence de la fr√©quance g√©n√©rique de consommation d'alcool 
# et de la fr√©quence de + de 4 verres
#NB: On est oblig√© de remplacer les RSOD_2b manquants par 0, ce qui est une limite √† notre analyse
cld.trace_table_contingence(data)


Exemple d'interpr√©tation: Tous les individus qui n'ont jamais consomm√© d'alcool dans leur vie ou durant les 12 derniers mois (f1_b=10 (2399 individus) ou 11(2887 individus)) n'ont jamais consomm√© plus de 4/6 verres d'alcool dans les 12 derniers mois. On valide de nouveau notre labelisation 0 = I did not drink in the past 12 month.


Puisque les codes 1 √† 9 ont les m√™mes labels pour les variables RSOD_2b et f_1b et que la diagonale de la table de contingence contient globalement dans les effectifs les plus √©lev√©s, en supposant une corr√©lation significative entre ces deux variables, on peut conclure que l'ordre  pas √©t√© d√©call√© par rapport au codebook (hormis 10 √©videmment). Si les codes avaient √©t√© d√©cal√©s (par exemple si le 1 √©tait devenu 2), nous verrions un d√©calage syst√©matique de la diagonale, ce qui n'est pas le cas ici.

NB: On notera qu'on a remplac√© les RSOD_2b manquants par 0 pour construire cette table ce qui est une l√©g√®re limite √† cette analyse.

Cela nous permet de confirmer assez s√ªrement l'hypoth√®se suivante:
La bonne distribution de RSOD_2b est:
Frequency of
drinking 4/6+ (resp. 8/12+ )
drinks
- 0 = I did not drink in the past 12 months
- 1 = Every day
- 2 = 5-6 days a week
- 3 = 3-4 days a week
- 4 = 1 - 2 days a week
- 5 = 2 - 3 days a month
- 6 = One day in a month
- 7 = 6 - 11 days a year
- 8 = 2 - 5 days a year
- 9 = a single day in the past 12 months


On peut par ailleurs utiliser cette table pour faire quelques commentaires sur la distribution statistique de RSOD_2b:


1. Dans nos deux √©chelles, plus le chiffre est petit, plus la fr√©quence est √©lev√©e (1 = tous les jours, 9 = 1 jour par an).

Or, on voit qu'il n'y a quasiment aucune observation dans la zone "sud-ouest" du tableau.

Ce qui est bon car cela signifie que personne n'a une fr√©quence de "forte consommation" (RSOD_2b) sup√©rieure √† sa fr√©quence de "consommation g√©n√©rale" (f_1b).Par exemple, personne n'est cod√© f_1b =4 (boit 1-2 fois/semaine) tout en √©tant RSOD_2b = 1 (boit 4/6+ verres tous les jours). C'est logiquement impossible, et la base respecte cela.

2. La distribution des "Binge Drinkers" (def: alcoolisation ponctuelle importante dans un temps tr√®s court, avec recherche d‚Äôivresse)

Les points les plus denses pour les codes 1 √† 9 se situent sur la diagonale ou l√©g√®rement √† droite de celle-ci.

Exemple sur la ligne 4 (f_1b) : Le pic est au croisement avec la colonne 4 de RSOD_2b. Cela indique que les gens qui boivent 1 √† 2 jours par semaine boivent souvent 4/6+ verres √† chaque fois qu'ils consomment.

3. Les lignes 4 et 5 sont plus fonc√©es:

Cela signifie que les consommateurs "interm√©diaires" en terme de fr√©quence de consommation (entre 2 jours par semaine et deux jours par mois), consomment des quantit√©s importantes d'alcool moins r√©guli√©rement que leur fr√©quence g√©n√©rale de consommation. Comme les effectifs sont relativement proches pour ces lignes, ces consommateurs interm√©diaires ont des profils tr√®s h√©t√©rog√®nes dans leur attitude de "binge drinking", presque autant la pratiquent 2 √† 3 fois par mois (2166 individus) que une fois par an (1895).

In [None]:
# On compte les NA
print(f"Nombre de NA dans RSOD_2b : {data['RSOD_2b'].isna().sum()}")

Avant de traiter ces valeurs manquantes, nous regardons si les r√©pondants diff√®rent selon s'ils ont r√©pondu ou non √† la question sur leur consommation excessive d'alcool.

In [None]:
#cr√©ation d'une variable valant 1 si RSOD_2b est manquante et 0 sinon
data['RSOD_2bisna'] = data['RSOD_2b'].isna().astype(int)

In [None]:
# Diagrammes circulaires des parts de valeurs manquantes pour RSOD_2b selon le genre

labels_sexe = {1.0: "Homme", 2.0: "Femme", 3.0: "Autre"}
source_sexe = "Source : SEAS-2 | Champ : 33 pays europ√©ens\nLecture : 25.9% des hommes interrog√©s n'ont pas r√©pondu √† la question 'A quelle fr√©quence buvez-vous plus de 4 verres d'alcool?'"

cld.trace_camemberts_na(data, var_na='RSOD_2bisna', var_groupe='SD_1', 
                         dict_labels=labels_sexe, 
                         titre_general="R√©partition des valeurs manquantes (RSOD_2b) par Genre",
                         source_texte=source_sexe)

On remarque que les personnes ne se d√©clarant ni homme, ni femme r√©pondent presque deux fois moins √† la question sur leur consommation ponctuelle excessive d'alcool. Les interrog√©s se d√©clarant comme homme ou femmme r√©pondent dans les m√™mes proportion (~26%).
On peut l'interpr√©ter de deux mani√®res: 
- soit certaines personnes sont r√©ticentes √† d√©voiler toute sorte d'information, que ce soit le genre ou la consommation excessive d'alcool;
- soit les personnes qui n√©gligent le questionnaire n√©gligent en particulier ces deux questions;
- soit les personnes ne s'identifiant √† aucun genre sont plus r√©ticent √† d√©voiler leur consommation d'alcool.
DANGEREUX REVOIR

In [None]:
# source et lecture sp√©cifique
lecture = ("Source : SEAS-2 | Champ : 33 pays europ√©ens\n"
           "Lecture :  Parmi les 10% des interrog√©s qui d√©clarent consommer le moins d'alcool (D1),\n"
    "seuls 4.8% ne r√©pondent pas √† la question 'A quelle fr√©quence buvez-vous plus de 4 verres d'alcool?'")

# Cr√©e barres empil√©es avec le % de r√©pondants √† la fr√©quence de consommation excessive d'alcool (4 verres et +) par d√©ciles de la distribution de consommation d'alcool 
cld.trace_barplot_na(data, var_quanti='bsqf_alc', var_na='RSOD_2bisna', source_texte=lecture)

In [None]:
seuils = data['bsqf_alc'].quantile([0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9])
print(seuils)

Relation en "U invers√©" pour la non-r√©ponse:
On observe que la part des "Non-r√©pondants" (en bleu) n'est pas distribu√©e de mani√®re uniforme :

Aux extr√©mit√©s (D1 et D10) : Le taux de r√©ponse est maximal. Les personnes qui consomment pas ou tr√®s peu d'alcool ou beaucoup r√©pondent presque toutes √† la question RSOD_2b.

On observe un pic de non-r√©ponse, culminant √† 75.1% pour le d√©cile 2 et 46.7% pour le d√©cile 3.

Proposition d'interpr√©tation: (observation difficilement interpr√©table)

L'hypoth√®se explicative pourrait √™tre que les gros consommateurs r√©pondent plus facilement car ils identifient clairement ce comportement dans leur quotidien et sont donc plus enclins √† d√©clarer une fr√©quence, m√™me si elle est √©lev√©e. Et inversement pour les faibles consommateurs. 
Pour les tr√®s faibles consommateurs du 1er d√©cile, ils consomment moins de 1.375 cl d'alcool par an, et savent donc qu'ils n'ont jamais consomm√© plus de 4 verres soit 40/7.89= 5 cl d'alcool. 

In [None]:
labels_social = {1.0: "Blue collar", 2.0: "White collar", 3.0: "Manager", 
                 4.0: "Business person", 5.0: "Other", 9.0: "No response"}
source_social = (
    "Source : The Standard European Alcohol Survey ‚Äì Wave 2\n"
    "Champ : 33 pays europ√©ens\n"
    "Lecture : 23% des interrog√©s d√©clarant occuper un emploi d'ouvrier/employ√© (col bleu) ne r√©pondent pas √† la question\n"
    "'A quelle fr√©quence buvez-vous plus de 4 verres d'alcool?'"
)
cld.trace_camemberts_na(data, var_na='RSOD_2bisna', var_groupe='social_class', 
                         dict_labels=labels_social, 
                         titre_general="R√©partition des NA (RSOD_2b) par Classe Sociale",
                         source_texte=source_social)

On observe pas de diff√©rence significative dans les taux de non r√©ponse pour RSOD_2b entre les diff√©rentes classes sociales.
Une s√©quence de diagrammes circulaires l'illustre en annexe

In [None]:
# Ratio de valeurs manquantes par pays pour RSOD_2b
cld.tableau_na_pays(data, var="RSOD_2b")

Le pourcentage de valeurs manquantes pour RSOD_2b varie aussi selon les pays allant de  0.11 pour la Bulgarie √† 0.71 pour Chypre. On notera que ces pays ont respectivement la plus forte et la plus faible consommation moyenne d'alcool en cl parmi les pays de la base. De mani√®re g√©n√©rale, les pays qui consomment en moyenne le moins d'alcool ont aussi les plus hauts taux de non r√©ponses et inversement.

Les personnes ayant RSOD_2b en valeur manquante ont donc bien un profil particulier, notamment en ce qui concerne leur consommation d'alcool. Les personnes qui consomment le moins d'alcool, r√©pondent moins souvent √† leur fr√©quence de consommation excessive. Ces valeurs manquantes engendrent donc un biais de s√©lection qu'il faudra prendre en compte dans nos interpr√©tation. Ce qui est rassurrant pour notre analyse par pays, c'est que les pays qui consomment en moyenne le moins d'alcool ont bien aussi les plus hauts taux de non r√©ponses et inversement. Si la baisse de la consommation de toute la population est proportionnelle √† la hausse du nombre de valeur manquante, on peut se dire que le biais engendr√© sera environ le m√™me peu importe les pays, ce qui pourrait ne pas trop impacter la comparaison entre pays.

*RSOD_2b - premiers traitement des valeurs manquantes*

Pour g√©rer les valeurs manquantes de RSOD_2b, on d√©cide d'utiliser les variables de fr√©quence de consommation d'alcool par an (rf_1b) et de quantit√© consomm√©e en gramme d'alcool pur (bsqf_alc).
Nous choisirons, comme les auteurs de la base le font dans leur conversions (cf. document "database guidelines" du github), de consid√©rer qu'un verre d'alcool repr√©sente en moyenne 10 grammes d'alcool pur. 



Algorithme na√Øf :

0.  On prend toutes les valeurs manquantes de RSOD_2b
1.  diviser bsqf par masse volumique de l'alcool 0.789 kg/L
2.  diviser cela par rf_1b (recod√© en quantitive en jour de consommation d'alcool par an)= on obtient la consommation moyenne en gramme d'alcool par jour o√π on a consomm√© de l'alcool sur l'ann√©e pass√©e
3.  si celle-ci est inf√©rieure √† 40g (c'est √† dire 4 verres), on met RSOD_2b = 0, sinon on met RSOD_2b= m√™me valeur que fr√©quence g√©n√©rique rf1_b

On ne peut pas appliquer cet algorithme na√Øf qui r√©duirait la variance de consommation d'alcool des individus ayant une valeur manquante pour RSOD_2b √† z√©ro.
Cependant, il y a deux cas de valeurs manquantes que l'on peut traiter facilement:
1) les individus qui ont consomm√© moins de 40g (soit 4 verres) d'alcool pur dans l'ann√©e et auxquels on peut attribuer RSOD_2b=0;
2) les individus qui ont consomm√© une seule fois par an plus de 40g d'alcool pur auxquels on peut attribuer RSOD_2b=9;

Pour le reste des valeurs manquantes sur cette variable, nous utiliserons la m√©thode d'imputation par "le plus proche voisin" apr√®s avoir s√©lectionner nos pays d'int√©r√™t.

In [None]:
# 1
# On regarde le nombre d'individu qui consomme moins de 40g par an soit 4 verre d'alcool selon notre crit√®re de conversion, 
# ceux l√† sont forc√©ment dans la cat√©gorie 0 de RSOD_2b

print(len(data.loc[data['RSOD_2b'].isna() & (data['bsqf_alc'] < 40/7.89)])) # On divise par la masse volumique de l'alcool pur en gramme/cl car bsqf_alc est en cl

#On remplace ces valeurs manquantes de RSOD_2b par 0 
data['RSOD_2b'] =data['RSOD_2b'].copy()
data.loc[data['RSOD_2b'].isna() & (data['bsqf_alc'] < 40/7.89),'RSOD_2b'] = 0

In [None]:
#2
print(len(data.loc[data['RSOD_2b'].isna() & (data['bsqf_alc'] > 40/7.89) & (data['f_1b']==9)]))
data.loc[data['RSOD_2b'].isna() & (data['bsqf_alc'] > 40/7.89) & (data['f_1b']==9),'RSOD_2b'] = 9

*SD_7 et Demo_Empl*


Les valeurs manquantes des variables SD_7  (nombre d'enfant mineur dans le m√©nage) et Demo_Empl (Temps plein, temps partiel ou autre) seront trait√©s par pays si des relations int√©ressantes sont trouv√©es sur les statistiques descriptives nationales concernant celles-ci. Elles ne sont pas √©voqu√©es comme majeures dans la d√©termination de la consommation d'alcool par la litt√©rature. 

In [None]:
#distribution du nombre de mineur par foyer
cld.afficher_tableau_distribution(data, "Environ 24 000 interrog√©s, soit 55.2% des interrog√©s vivent dans un foyer o√π n'habite aucun mineur.")


In [None]:
# Barplot de la consommation d'alcool moyenne annuel par individus ayant le m√™me nombre de mineur dans leur foyer
cld.tracer_barplot_vsbscqf(data, "Un r√©pondant vivant dans un foyer sans mineur consomme en moyenne environ 10L (1000cl) d'alcool pur par an.", var_x="SD_7", var_y="bsqf_alc")

On remarque qu'il y a une assez forte variation de la consommation d'alcool selon le nombre de mineur dans le foyer. Les personnes qui ont un mineur dans leur foyer (y compris eux), parmi les r√©pondants, consomment en moyenne plus d'une fois et demi plus que ceux qui n'ont pas de mineur dans leur foyer.  On remarquera qu'il n'est pas pertinent de prendre en compte les individus d√©clarant avoir plus de 6 enfants dans leurs foyers, qui sont trop peu nombreux et contiennent des outliers en termes de consommateurs d'alcool. 
N√©anmoins on retiendra qu'il est int√©ressant de traiter les valeurs manquantes pour cette variable pour l'√©tudier, ce que l'on fera par la suite.
Encore une fois, une partie de l'effet constat√© peut √™tre d√ª √† un biais de s√©lection sur les r√©pondants/non r√©pondants √† SD_7, mais on suppose que cela ne cr√©e pas tout l'effet.

*sd_20month - salaire mensuel*

Il est important de traiter le cas de la variable salaire sd_20month, car les facteurs √©conomiques jouent, selon la litt√©rature, un r√¥le important dans la consommation d'alcool (les plus favoris√©s auraient notamment tendance √† consommer plus r√©guli√®rement de l'alcool mais en moins grande quantit√©). Le salaire √©tant la seule variable quantitative indiquant la situation √©conomique des individus que nous ayont, nous devons traiter le probl√®me de valeur manquante sur cette variable.

In [None]:
missing_by_country = data.groupby('COUNTRY').apply(lambda x: x.isna().mean()) #on le remet car data a chang√© 
missing_by_country['sd_20month']
observation_count = data.groupby('COUNTRY').size()

# Ajouter le nombre d'observation par pays
missing_by_country['Observation_Count'] = observation_count

print(missing_by_country.loc[:, ["sd_20month", "Observation_Count"]])

In [None]:
# 1.Voir combien de personnes ont √©t√© interrog√©es par pays
display(cld.tableau_effectifs_pays(data))

# 2. Voir le taux de non-r√©ponse au revenu (sd_20month)
display(cld.tableau_na_pays(data, var="sd_20month"))

Tous les pays ont un nombre cons√©quent d'observations (+de 1400). Nous obtiendrions donc des r√©sultats statistiquements significatifs avec l'√©tude de chacun d'eux, √ßa n'est donc pas un crit√®re pour s√©lectionner quel pays nous allons √©tudier.
Ils ont cependant des ratio de valeurs manquantes diff√©rents pour la variable salaire mensuelle sd_month, ce qui repr√©sentera un crit√®re de s√©lection.
L'imputation des valeurs manquantes par sera ensuite faite seulement pour les pays s√©lectionn√©s.

**Choix des pays √† √©tudier**

In [None]:
#diagramme de la moyenne de consommation d'alcool par pays (en cl d'alcool pur par an)
# lecture sp√©cifique pour ce graphique
note_lecture = (
    "Source : The Standard European Alcohol Survey ‚Äì Wave 2\n"
    "Champ : 33 pays europ√©ens\n"
    "Lecture : En moyenne en 2019, les r√©pondants irlandais consommaient environ 3000 cl\n"
    "soit 30L d'alcool pur par an."
)

# Appel de la fonction 
cld.barplot_bycntry(
    data, 
    colonne_y='bsqf_alc', 
    y_name="consommation d'alcool pur par an (cl)", 
    titre="Consommation annuelle moyenne d'alcool pur par pays",
    source = note_lecture
)

On notera que la consommation bulgare devra √™tre √©tudi√©e en d√©tail du fait de la tr√®s grande diff√©rence en consommation absolue par rapport aux autres pays. Nous avons choisi de prendre la version non cap√©e de bsqf_alc, il s'agira donc de voir si certains outliers ne tirent pas la consommation moyenne vers le haut.

In [None]:
#URL du GeoJSON - fond de carte europe
url = "https://raw.githubusercontent.com/datasets/geo-boundaries-world-110m/master/countries.geojson"

try:
    response = requests.get(url)
    #on lit le contenu JSON
    world = gpd.read_file(io.StringIO(response.text))
except Exception as e:
    print(f"Erreur : {e}")


world.columns = [c.upper() for c in world.columns]
europe = world[world['CONTINENT'] == 'Europe'].copy() # Filtrer l'Europe

# Fusion fond de carte/ donn√©es
# On associe les COUNTRY de notre dataset aux NAME de Geojson
map_data = europe.merge(pd.DataFrame(data), left_on='NAME', right_on='COUNTRY', how='left')

europe = europe.set_geometry('GEOMETRY')

In [None]:
# --- CARTE 1 : ALCOOL ---
texte_alc = (
    "Source : The Standard European Alcohol Survey ‚Äì Wave 2\n"
    "Champ : 33 pays europ√©ens\n"
    "Lecture : En moyenne en 2019, les r√©pondants irlandais consommaient environ 3000 cl soit 30L d'alcool pur par an."
)
cld.trace_carte_europe(data, europe, 'bsqf_alc', 
                        "Consommation moyenne annuelle d'alcool par pays", 
                        "Consommation annuelle moyenne (cl d'alcool pur)", texte_alc)



In [None]:
# CARTE COMPARATIVE PPA vs nomial
txt_a = (
    "Source : The Standard European Alcohol Survey ‚Äì Wave 2\n"
    "Champ : 33 pays europ√©ens\n"
    "Lecture : En moyenne, en 2019, les r√©pondants hongrois avaient\n un salaire mensuel de 670‚Ç¨ environ."
)
txt_b = (
    "Source : The Standard European Alcohol Survey ‚Äì Wave 2 / Eurostat\n"
    "Champ : 33 pays europ√©ens\n"
    "Lecture : En moyenne, en 2019, les r√©pondants hongrois avaient\n un salaire mensuel de 1000‚Ç¨ PPA environ.\n(Le salaire PPA ajuste le montant selon le co√ªt de la vie local)."
)
cld.compare_cartes_ppa(data, europe, 'sd_20month_EUR_2020', 'sd_20month_EUR_2020_PPA', txt_a, txt_b)

Il y a peu de diff√©rence entre la distribution des salaires par pays en nominal et en PPA (notamment d√ª au large gradient de couleur qui rend moins importantes des variations de quelques centaines d'euros). La hi√©rarchie semble n√©anmoins rester la m√™me, on utilisera donc l'une ou l'autre des unit√©s indiff√©remment pour comparer les pays (en l'occurence pour nous l'euro nominal).

In [None]:
data_na = data.copy()
data_na['sd_20month_EUR_2020'] = data_na['sd_20month_EUR_2020'].isna()
data_na['RSOD_2b'] = data_na['RSOD_2b'].isna()

In [None]:
# CARTE 4 : VALEURS MANQUANTES (NA) 
texte_na = (
    "Source : The Standard European Alcohol Survey ‚Äì Wave 2\n"
    "Champ : 33 pays europ√©ens\n"
    "Lecture : En moyenne, 15% des allemands interrog√©s n'ont pas donn√© leur salaire mensuel."
)

cld.trace_carte_europe(
    data=data_na, # On utilise ici le dataframe des moyennes de NA
    europe=europe, 
    colonne='sd_20month_EUR_2020', 
    titre="Ratio national moyen de valeurs manquantes pour la variable salaire mensuel sd_20month", 
    label_legende="Ratio de valeurs manquantes", 
    texte_info=texte_na
)

On veut √©tudier des pays culturellement et √©conomiquement suffisamment diff√©rents, pour voir s'il s'en d√©gagent aussi des profils de consommateurs d'alcool diff√©rents.
On essaye donc de choisir au moins un pays o√π, dans nos donn√©es, 
1. la consommation d'alcool moyenne:
    -  est faible (France, Allemagne, Autriche, Islande, Chypre,etc.);
    -  est √©lev√©e voire tr√®s √©lev√©e (Pologne, UK, Irlande, Gr√®ce, Bulgarie, Estonie, Espagne,etc.);
2. les salaires sont en moyenne:
    - √©lev√©s (Islande, Su√®de, Norv√®ge,Irlande)
    - interm√©diaires (France, Allemagne, Finlande, Pays- Bas, etc.)
    - faible (Hongrie, Portugal, Pologne, Serbie, etc.)
Parmi ces pays, on essaye de choisir ceux qui n'ont pas trop de valeurs manquantes surtout pour la variables sd_20month pour les raisons √©voqu√©es ci-avant.
On essaye √©galement de choisir des pays √† diff√©rents endroits du continents europ√©ens pour voir l'influence des caract√©ristiques culturelles (ex: type de boissons consomm√©es selon les espaces g√©ographiques).

Ces consid√©rations nous conduisent √† choisir les quatres pays suivants: la Bulgarie, la France, l'Islande et la Pologne. 

<a id="partie2"></a>
# Partie II : Analyses et traitements

<a id="partie2a"></a>
## A. Statistiques descriptives

In [None]:
country = ['France', 'Poland', 'Iceland', 'Bulgaria']
data1 = data[data['COUNTRY'].isin(country)].copy()

#style g√©n√©ral pour l'affichage des stats desc
sns.set_theme(style="whitegrid", context="talk")

In [None]:
vars_audit = [
    'SD_1', 'SD_2', 'SD_9', 'social_class',  
    'sd_20month_EUR_2020',                            
    'bsqf_alc', 'RSOD_2b',      
]
std.tableau_qualite_par_pays(data1, vars_audit)

In [None]:
vars_audit= ['WB_1', 'WB_2', 'WB_3']
codes_refus = [6]
std.tableau_qualite_par_pays(data1, vars_audit, codes_refus)

In [None]:
vars_audit = [
    'SD_1', 'SD_2', 'SD_9', 'social_class',  
    'sd_20month_EUR_2020',                            
    'bsqf_alc', 'WB_1', 'WB_2', 'WB_3', 'RSOD_2b',      
]
std.heatmap_manquants(data1, vars_audit)


Avant de lancer les analyses, un audit rapide de la base montre que les donn√©es sont globalement tr√®s saines. En effet, on peut voir que nous n'avons aucune valeur manquante sur les variables cl√©s (√¢ge, sexe, √©ducation, classe sociale) pour les quatre pays. Cela nous facilitera la comparaison des profils de consommateurs entre les pays.

Cependant,Comme souvent dans les enqu√™tes, le revenu mensuel (sd_20month_EUR_2020) comporte beaucoup de trous, surtout en Bulgarie (21 % de manquants) et en Pologne/France. Plut√¥t que de supprimer ces individus, nous procederons a une imputation par des regressions, de meme que pour les variables de binge drinking (RSOD_2b).

In [None]:
# Matching des variables
map_marital = {
    1: "Married/Living together",
    2: "Married/Living apart",
    3: "Never married",
    4: "Divorced",
    5: "Widowed"
}

map_residence = {
    1: "Village/Farm",
    2: "Small city (<50k)",
    3: "Medium city (50k-250k)",
    4: "Large city (250k-1M)",
    5: "Very large city (>1M)"
}

map_education = {
    1: "Primary",
    2: "Secondary",
    3: "Vocational",
    4: "University/Higher",
    5: "No schooling"
}

map_pro_status = {
    1: "Active",
    2: "Non-active"
}

map_social_class = {
    1: "Blue collar",
    2: "White collar",
    3: "Manager/Professional",
    4: "Business person",
    5: "Other",
    9: "No answer"
}


data1['Marital_Label'] = data1['SD_4'].map(map_marital)
data1['Residence_Label'] = data1['SD_8'].map(map_residence)
data1['Education_Label'] = data1['SD_9'].map(map_education)
data1['Activity_Label'] = data1['SD_10'].map(map_pro_status)
data1['Class_Label'] = data1['social_class'].map(map_social_class)

In [None]:
std.analyse_cat(data1, 'Marital_Label', 'Statut Marital')
std.analyse_cat(data1, 'Residence_Label', 'Type de R√©sidence')
std.analyse_cat(data1, 'Education_Label', "Niveau d'√âducation")
std.analyse_cat(data1, 'Activity_Label', 'Statut Professionnel')
std.analyse_cat(data1, 'Class_Label', 'classe sociale')

Synthese des profils socio-demographiques:

On observe ci-dessus des structures culturelles bien distinctes selon les pays. La Pologne se d√©tache comme le pays le plus ¬´ traditionnel ¬ª, avec une nette majorit√© de personnes mari√©es (63 %), l√† o√π la France et l'Islande comptent beaucoup plus de c√©libataires. G√©ographiquement, c'est la Bulgarie qui surprend par sa polarisation extr√™me : ses habitants vivent soit dans la capitale et les tr√®s grandes villes, soit au village, sans grand entre-deux.

Le niveau d'√©ducation est un autre facteur de diff√©renciation majeur. L'√©chantillon islandais est particuli√®rement instruit (70 % de niveau universitaire), ce qui contraste avec une Pologne dont le socle principal reste l'enseignement secondaire. Cela aura forc√©ment un impact sur l'analyse des comportements de sant√©, m√™me si le taux d'emploi, lui, est identique partout (environ 75 % d'actifs).

In [None]:
std.analyse_num(data1, 'SD_2', '√Çge des r√©pondants')
std.analyse_num(data1, 'sd_20month_EUR_2020', 'Revenu Mensuel (en Euros)')

On observe une structure d'age relativement homogene, les √©chantillons sont parfaitement align√©s entre les quatre pays. La moyenne d'√¢ge gravite partout autour de 40-42 ans, avec une couverture stricte de la population active (de 18 √† 64 ans). On note une l√©g√®re nuance pour l'Islande, qui pr√©sente une population un peu plus jeune (m√©diane √† 38 ans contre 42 en France) et une densit√© plus forte sur les trentenaires. Cependant, ces √©carts sont minimes. Ainsi, si l'on observe des diff√©rences de consommation d'alcool, elles ne seront pas dues √† un effet de structure (par exemple, un pays qui serait beaucoup plus "vieux" qu'un autre).

√Ä l'inverse de l'√¢ge, la distribution des revenus mensuels (convertis en euros) illustre le foss√© √©conomique entre les pays √©tudi√©s. On distingue clairement deux groupes : -Le groupe "Hauts Revenus" : L'Islande domine largement avec un revenu m√©dian autour de 4 800 ‚Ç¨, suivie par la France (m√©diane √† 2 925 ‚Ç¨). La France se distingue par une forte in√©galit√© : la moyenne (4 020 ‚Ç¨) est bien sup√©rieure √† la m√©diane, tir√©e par des hauts revenus, ce qui se voit sur l'√©talement de la courbe de densit√©. -Le groupe "Revenus Modestes" : La Pologne et la Bulgarie pr√©sentent des distributions beaucoup plus resserr√©es et concentr√©es vers le bas, avec des m√©dianes respectives de 1 175 ‚Ç¨ et 895 ‚Ç¨.

In [None]:
std.preferences_alcool(data1)

In [None]:
std.ecart_hommes_femmes(data1)

Les hommes consomment plus d'alcool que les femmes dans tous les pays mais dans des proportion tr√®s diff√©rentes selon les pays. Les polonais consomment environ deux fois plus que les polonaises mais les islandais consomment presque le m√™me volume que les islandaises.
Le sexe semble donc √™tre davantage un d√©terminant de la consommation d'alcool en Pologne et en Bulgarie. 

In [None]:
std.evolution_par_age(data1)

In [None]:

std.analyse_intensite_annuelle(data1, log_scale=True)

On voit ici que la Bulgarie et la Pologne se distinguent par les m√©dianes de consommation les plus √©lev√©es et des distributions √©tal√©es vers le haut, signalant une part importante de gros consommateurs. √Ä l'oppos√©, l'Islande affiche une consommation globale tr√®s faible, avec une m√©diane √©cras√©e vers le bas.

In [None]:
std.analyse_rsod_frequence(data1)

In [None]:
std.analyse_composition(data1)

En matiere de type d'alcool consomm√©, la France reste incontestablement le pays du vin, qui repr√©sente 43 % du volume d'alcool ing√©r√©, loin devant les autres pays. La Pologne (50 %) et l'Islande (47 %) en revanche sont des terres de bi√®re. La Bulgarie quant a elle est le seul pays o√π les spiritueux (alcools forts) occupent une place aussi massive (32 % du march√©), talonnant la bi√®re.

<a id="partie2b"></a>
## B. Imputation des donn√©es

### Strat√©gie d'Imputation des Donn√©es Manquantes

### 1. Contexte et Approche Stratifi√©e par Pays

La base de donn√©es trait√©e pr√©sente une forte h√©t√©rog√©n√©it√© structurelle due √† la diversit√© des pays inclus.

Afin d'√©viter **le biais d'√©crasement** qu'aurait provoqu√© une imputation globale, nous avons opt√© pour une approche **stratifi√©e par pays**.

* **Justification :** Un revenu de 2000‚Ç¨ n'a pas la m√™me signification √©conomique ni le m√™me pouvoir pr√©dictif en France qu'en Pologne. De m√™me, les mod√®les de consommation d'alcool sont fortement culturels.
* **D√©cision :** Chaque mod√®le d'imputation a √©t√© entra√Æn√© et appliqu√© exclusivement sur les sous-ensembles de donn√©es nationaux, garantissant le respect des distributions et des corr√©lations locales.


### 2. Imputation du Salaire mensuel ('sd_20month_EUR_2020): Approche par Mod√©lisation Pr√©dictive

Pour la variable **Salaire** (variable quantitative continue), nous avons rejet√© les imputations univari√©es simplistes (moyenne/m√©diane) qui r√©duisent la variance et faussent les analyses de corr√©lation ult√©rieures.

Nous avons privil√©gi√© une approche par **R√©gression Supervis√©e (Random Forest )** pour les raisons suivantes :

* **Pr√©servation de la Structure de Corr√©lation :** Le salaire est fortement d√©termin√© par des variables explicatives pr√©sentes dans la base. L'utilisation d'un mod√®le pr√©dictif permet de reconstruire le salaire th√©orique d'un individu en fonction de son profil socio-d√©mographique pr√©cis.
* **Gestion de la Non-Lin√©arit√© :** Contrairement √† une r√©gression lin√©aire simple, les mod√®les d'ensemble comme le randaom Forest capturent les effets de seuil et les interactions complexes.

### 3. Imputation de la Fr√©quence de Consommation et du Nombre d'enfant de moins de 18 ans dans le m√©nage : Approche par KNN

Pour les variables **Fr√©quence de grosse consommation (RSOD_2b)** et **Nombre de mineurs dans le m√©nage (SD_7)**, nous avons opt√© pour l'algorithme des **K-Plus Proches Voisins (KNN)**.

Ce choix se justifie par la nature de ces variables et la logique sociologique sous-jacente :

* **Nature des Variables (Ordinales/Discr√®tes) :**
* La fr√©quence de consommation est une variable ordinale (√©chelle de 1 √† 10).
* Le nombre de mineurs est une variable discr√®te.
* L'utilisation d'une r√©gression aurait produit des valeurs continues aberrantes. Le KNN, en faisant la moyenne locale, reste plus coh√©rent avec des valeurs discr√®tes.


* **Logique de "Profils Similaires" :** les comportements (boire de l'alcool) et les structures familiales (avoir des enfants) tendent √† √™tre partag√©s par des individus ayant des caract√©ristiques proches (m√™me √¢ge, m√™me milieu social).


In [None]:
data = ipt.imputer_salaire_pays(data)

In [None]:
data = ipt.imputer_knn(data)

In [None]:
pays_selectionnes = ["France", "Bulgaria", "Poland", "Iceland"]
data = data[data["COUNTRY"].isin(pays_selectionnes)]
stats_na = cld.tableau_na(data)
stats_na

<a id="partie2c"></a>
## C. Analyses factorielles (ACM & ACP)

### *ACP/ACM France* ###

*ACP France*

In [None]:
# S√©lection des variables quantitatives 
quanti = data[[
    "SD_2",          # √Çge 
    "SD_7",          # Nombre de mineurs au foyer 
    "sd_20month_EUR_2020",    # Revenu mensuel 
    "bsqf_alc",      # Consommation annuelle totale d'alcool 
    "cbsqf_beer",    # Consommation annuelle de bi√®re(plafonn√©e) 
    "cbsqf_spir",    # Consommation annuelle de spiritueux (plafonn√©e) 
    "cbsqf_wine"     # Consommation annuelle de vin (plafonn√©e) 
]]

# S√©lection des variables qualitatives 
quali = data[[
    "COUNTRY",       # Pays de r√©sidence
    "SD_1",          # Genre 
    "SD_4",          # Statut matrimonial 
    "SD_6",          # vie seul ou non
    "SD_8",          # Type de lieu de r√©sidence 
    "SD_9",          # Niveau d'√©ducation 
    "SD_10",         # Statut d'activit√© professionnelle 
    "social_class",  # Classe sociale auto-d√©clar√©e 
    "f_1b",          # Fr√©quence g√©n√©rique de consommation 
    "RSOD_2b",       # Fr√©quence de consommation de 4/6+ verres 
    "CH_1",          # Contact avec un gros buveur durant l'enfance 
    "WB_1",          # √âtat de sant√© g√©n√©ral 
    "WB_2",          # Bien-√™tre psychologique 
    "WB_3"           # Satisfaction des relations sociales
]]

In [None]:


# On calcule l'ACP sur les quanti.colums/ variables quantitatives
pca_fr, feat_fr, cols_fr = dtn.calculer_acp_pays(data, "France", quanti.columns)

# Et on trace
if pca_fr is not None:
    dtn.trace_cercle_et_variance(pca_fr, cols_fr, "FRANCE")


La premi√®re dimension explique 40% de la variance et la deuxi√®me environ 17.5%, on capture donc d√©j√† beaucoup de variabilit√© en √©tudiant ces deux premi√®res dimensions notamment la premi√®re.
On voit sur le cercle des corr√©lations qu'aucune variable n'explique extr√™mement bien la premi√®re dimension, les variables qui lui sont les plus corr√©l√©es sont la consommation d'alcool annuelle (bsqf_alc) et de bi√®re en particulier (bsqf__beer).
Les variables SD_7 (le nombre de mineur dans le foyer) et l'√¢ge SD_2 sont tr√®s bien repr√©sent√©es sur le second axe. 
On remarquera logiquement que SD_2 et SD_7 ont la m√™me direction mais des sens totalement oppos√©s sur l'axe 2, c'est logique plus on avance en √¢ge, moins on a d'enfants √† charge au foyer, cette ACP capte bien une structure d√©mographique logique dans les donn√©es fran√ßaise.

Le fait que le vecteur associ√© √† la consommation de vin (cbsqf_wine) pointe l√©g√®rement plus vers le haut que celle de bi√®re ou de spiritueux (vers le sens de l'√¢ge SD_2 qui explique tr√®s bien l'axe 2) sugg√®re qu'en France, la consommation de vin est plus corr√©l√©e aux profils plus √¢g√©s.

Les matrices de variance des ACP de chaque pays sont dans la partie II de l'annexe.

On va maintenant calculer les cos^2 des individus sur les deux premiers axes, c'est √† dire la qualit√© de leur repr√©sentation sur ces axes.

In [None]:
meilleur_index1, meilleur_index2 = dtn.tracer_cos2_individus(data, "France", quanti.columns, pca_fr, n_top=10)

On voit que le cos^2 des individus les mieux projet√©s sur chaque axe sont entre 0.8 et 1 ce qui est assez proche de 1, ces individus sont donc tr√®s repr√©sentatifs d'un de ces deux premiers axes. Par exemple, l'individu 32010 est tr√®s repr√©sentatif de l'axe 1 et l'individu 36176 est tr√®s repr√©sentatif de l'axe 2.

In [None]:
# On l√®ve la limite sur le nombre de colonnes affich√©es
pd.set_option('display.max_columns', None)
# On affiche le profil / la ligne dans le dataset pour les individus ayant les plus gros cos2 pour l'axe 1 et 2
display(data.loc[[meilleur_index1]], data.loc[[meilleur_index2 ]] )

Individu 32010 : Le profil de l'Axe 1
Identit√© : 
- C'est une femme de 31 ans.

- Foyer : Elle vit avec 2 enfants mineurs.

- Revenu : Elle gagne 2 750 ‚Ç¨ par mois.

- Consommation : Elle boit 347 L d'alcool par an au total (ce qui est, disons le, beaucoup trop pour √™tre cr√©dible)!!

- D√©tail : Sa consommation d'alcool est en majorit√© de la bi√®re.

- Sant√© : Elle a un score de bien-√™tre physique et mental de 2 (= "good" sur une √©chelle o√π 1 (="very good") est le maximum).

Individu 36176 : Le profil de l'Axe 2 

- Identit√© : C'est un homme de 56 ans.

- Foyer : Il n'a aucun enfant mineur √† charge.

- Revenu : Il gagne 5 550 ‚Ç¨ par mois.

- Consommation : Il boit 615 cl soit 6.15L d'alcool par an au total.

- D√©tail : Sa consommation est plus diversifi√©e mais beaucoup plus faible en volume que l'individu pr√©c√©dent.

- Sant√© : Il a un score de bien-√™tre physique et sant√© mental de 1 ("Very good"), et un score de satistaction dans les relations sociales de 2 ("good")


Puisque sur l'axe 1, ne sont bien repr√©sent√©es que des variables li√©es √† l'alcool et sur l'axe 2 ne sont bien repr√©sent√©es que des variables non relatives √† la consommation d'alcool, il nous semble difficile de d√©duire une interpr√©tation g√©n√©ralisable sur le profil des consommateurs fran√ßais via cette ACP. En effet, par exemple, l'individu 32010 est arch√©typique d'une forte consommatrice d'alcool tandis que le 36176 est arch√©typique d'une liaison entre haut revenu, √¢ge √©lev√© et baisse du nombre d'enfant dans le foyer mais ne dit pas grand chose sur la consommation d'alcool.

Mais donc l'ACP semble r√©v√©ler que le profil de consommation (Axe 1) et le profil de vie (Axe 2) sont d√©connect√©s. Cela sugg√®re que la consommation d'alcool en France est un ph√©nom√®ne qui traverse toute la distribution de revenu et tous les √¢ges : on peut √™tre un 'gros consommateur' (Axe 1+) quel que soit son profil familial/√©conomique (Axe 2).

*ACM France*

In [None]:
#On recode certaines variables pour rendre l'ACM plus facilement interpr√©table

# Recodage du REVENU (sd_20month)
# On le d√©coupe en quartiles
df_acm= data.copy()
df_acm['sd_20month_EUR_2020'] = pd.qcut(df_acm['sd_20month_EUR_2020'], q=4, labels=['Revenu_quartile1', 'Revenu_quartile2', 'Revenu_quartile3','Revenu_quartile4'])
df_acm['RSOD_2b'] = df_acm['RSOD_2b'].apply(dtn.simplifier_rsod)#recodage du binge drinking en 4 cat√©gories (cf Data_analysis.py)
df_acm['f_1b'] = df_acm['f_1b'].apply(dtn.recoder_f1b)#recodage de la fr√©quence de consommation d'alcool en 4 cat√©gories


Avant de faire l'ACM, on doit choisir les variables qui sont actives, c'est √† dire qui participent √† la construction des axes. Elles permettront alors de comprendre les liens entre les modalit√©s (la plus ou moins forte consommation d'alcool ou le genre par exemple) et de rep√©rer la pr√©valence de ces modalit√©s pour des groupes d'individus par exemple. On fixe ce que l'on cherche : trouver des liens entre la consommation d'alcool et des caract√©ristiques intrins√®ques des individus (socio-√©conomique notamment). C'est donc les variables qui d√©crivent cela que l'on doit prendre comme variables actives. Ensuite, nous choisissons quelques variables illustratives pertinentes au vue de la litt√©rature et des analyses descriptives pr√©c√©dentes (elles peuvent √™tre qualitatives ou quantitatives - donc on peut y mettre la consommation d'alcool bsqf_alc notamment). Ces variables ne sont pas utilis√©es pour la construction des axes, mais sont projet√©es a posteriori sur les axes pour enrichir, si possible, l'interpr√©tation. En suivant cette id√©e, on fait les choix suivant:

In [None]:
# Variables Actives
actives = [
    "sd_20month_EUR_2020", "f_1b", "RSOD_2b", "SD_9", "SD_1", 
    "social_class", "WB_1", "WB_2", "WB_3",]
    
# Variables Illustratives
illustratives = [ "SD_2", "SD_6", "SD_8"," SD_7", "cbsqf","cbsqf_beer", "cbsqf_spir", "cbsqf_wine"]

On a choisi un peu arbitrairement de r√©duire l'ACM √† trois dimensions, cela permet de d√©gager les grandes tendances en √©tudiant les deux premi√®res. Nous avons essay√© avec 8 dimensions et les r√©sultats/interpr√©tations qui s'en suivaient ne changeaient pas significativement.

In [None]:
mca_fr = dtn.fait_acm(df_acm, "France", actives)
dtn.plot_var_acm(mca_fr, "France")

La premi√®re dimension explique 38% de la variance des donn√©es des variables actives et la seconde 33 %. Ces deux dimensions expliquent une grande part de la variance et on peut se concentrer sur elles. 

Comme le nombre de modalit√©s est trop important pour √™tre bien lisible en repr√©santation graphique, on regarde plut√¥t pour commencer le lien entre chacune des deux premi√®res dimensions et les variables actives.

In [None]:
#graphe des contributions de chaque variables aux 2 premiers axes
dtn.tracer_graphe_liaisons(mca_fr, "France")

On voit que la premi√®re dimension est surtout li√©e ( mais pas tr√®s fortement ~0.25) aux variables WB_1√†3 c'est √† dire respectivement l'√©tat de sant√©, l'√©tat psychologique et la satisfaction dans les rapports sociaux d√©clar√©s et un petit peu √† la fr√©quence de consommation d'alcool et au salaire. La seconde dimension est davantage li√©e √† la fr√©quence de consommation d'alcool (g√©n√©rique et binge drinking), au revenu et √† la classe sociale.

On sait que l'axe 1 permet de distinguer selon les modalit√©s des variables wb_1√†3 mais on a besoin de savoir si le fait d'√™tre sur la droite de l'axe 1 correspond √† des modalit√©s extr√™mes faibles ou fortes des wb_1√†3, autrement dit si un individu √† droite se sentira plut√¥t "very good" socialement, physiquement et psychologiquement ou "very bad".
Pour cela, on trace quand m√™me le graphe des modalit√©s (en brouillon).

In [None]:
dtn.plot_modalites_acm_simple(df_acm,mca_fr, actives, "France")

On voit que les modalit√©s 6 des variables wb_1√†3 sont largement les plus √† droite, et les modalit√©s 1 √† 5 semblent tri√©es plus ou moins dans l'ordre mais sont beaucoup plus proches des unes des autres. Or la modalit√© 6 correspond pour ces variables √† " I prefer not to answer". L'axe 1 s√©pare donc en majorit√© les individus qui souhaitent r√©pondre sur leur √©tat de sant√© ou psychologique ou relationnel de ceux qui ne r√©pondent pas.
On remarque que l'axe 2 s√©pare les hauts salaires en haut des bas salaires en bas (puisque le 2√®me quartile des revenus est le plus bas et les 3 et 4√®mes plus hauts).
Il s√©pare aussi mais de fa√ßon moins tranch√©e les fr√©quences de consommation occasionnelle (modalit√© la plus basse de f_1b) de la consommation r√©guli√®re (plus en haut).
L'axe 2 s√©pare aussi selon l'√©tat de sant√©, psychologique et des relations sociales meilleur en haut et moins bon en bas.
Les modalit√©s sur le binge drinking (RSOD_2b) nous semblent trop proches pour √™tre interpr√©t√©es.

In [None]:
# Nuage des individus dans le plan des deux premiers axes de l'ACM
dtn.plot_individus_acm(mca_fr, df_acm, "France", actives)


Les individus isol√©s √† droite de l'axe 1 sont des profils "atypiques", ils se distinguent non pas par leur mode de consommation, mais par leur refus de d√©voiler leur √©tat de sant√© ou psychologique ou de relations sociales. Cela participe sans doute √† √©craser le reste des donn√©es vers la gauche.


Voici l'interpr√©tation de ton nuage des individus pour l'ACM France, bas√©e sur les comportements que tu as identifi√©s (l'effet "non-r√©ponse" sur l'axe 1 et le gradient socio-√©conomique sur l'axe 2) :

La r√©partition en "peloton" par rapport √† l'axe 2 permet (enfin) de cerner un tendance. Les individus situ√©s dans la partie sup√©rieure du nuage sont ceux qui cumulent les revenus les plus √©lev√©s (3√®me et 4√®me quartiles). Visuellement, on peut d√©duire que ce sont des profils plus "int√©gr√©s" socialement avec une consommation d'alcool r√©guli√®re. L'aisance financi√®re est corr√©l√©e √† une consommation de routine et/ou sociale (car la fr√©quence de consommation d'alcool est plus haute et les r√©pondants sont l√©g√®rement plus en haut √† gauche vers les modalit√© plus "fair" "good", "very good" (respectivement 3,2,1) de l'√©tat de vie social/sanitaire/psychologique). 
Inversement, les individus plus en bas du  nuage principal repr√©sente la tendance d'une consommation d'alcool moins fr√©quente avec des revenus plus faibles.

Enfin, on distingue un petit nuage au Sud-Est du principal sans doute tir√© par les abstinents d'apr√®s le nuage des modalit√©s.


### *ACM Bulgarie* ###

**NB :L'ACP de la Bulgarie, de la Pologne et de l'Islande sont disponibles en annexe mais puisque les r√©sultats sont tr√®s similaires √† ceux de la France, eux m√™me d√©cevant, nous n'en faisons pas l'interpr√©tation.**

In [None]:
mca_bg = dtn.fait_acm(df_acm, "Bulgaria", actives)
dtn.plot_var_acm(mca_bg, "Bulgaria")

La premi√®re dimension explique 36% de la variance et la deuxi√®me 33%, on se concentre sur ces deux l√† pour simplifier l'analyse (m√™me si la troisi√®me en explique aussi beaucoup).

In [None]:
#graphe des contributions de chaque variables aux 2 premiers axes
dtn.tracer_graphe_liaisons(mca_bg, "Bulgarie")

Le premier axe est li√© √† beaucoup de variable mais pas tr√®s fortement, on retiendra qu'il est notamment bien repr√©sent√© par la fr√©quence g√©n√©rique et de consommation excessive d'alcool (RSOD_2b et f_1b) et √† la classe sociale, tandis que le second axe est surtout li√© √† la qualit√© de l'√©tat psychologique (WB_2) et dans un second temps social et de sant√© (WB_1 et WB_3), voire √† la fr√©quence de consommation d'alcool g√©n√©rique et binge de mani√®re moins significative.

In [None]:
dtn.plot_modalites_acm_simple(df_acm,mca_bg, actives, "Bulgaria")

Le nuage des modalit√©s nous montre que les tendances en haut √† droite du graphe sont celles de la modalit√© 5 des variables WB_1√†3 soit des "very bad" √©tat psychologiques, de sant√© et de relation sociale. L'axe 1, comme l'axe 2 s√©parent donc les "very good" au centre, des "very bad" au Nord-Est pour ces variables.
Comme pour la France, la tendance pour la consommation se lit au Sud-Est pour les abstinent mais sur un axe plus prononc√© suivant la 4√®me bissectrice (axe Sud-Est/ Nord-Ouest), o√π plus on est au Nord-Ouest, plus la fr√©quence de consommation est r√©guli√®re et dans une moindre mesure, plus le binge drinking est aussi r√©gulier.
Sur l'axe 1, la distribution des modalit√©s pour les classes sociales est moins prononc√©e m√™me si les "cols blancs" (social_class_2) et les "business person"(social_class_4) sont plus √† gauche et les non r√©pondnats et "other" (social_class_5 et 9) sont plus √† droite. Les modalit√©s des revenus repr√©sentent des revenus plus √©lev√©s √† gauche qu'√† droite de l'axe 1.

In [None]:
# Nuage des individus dans le plan des deux premiers axes de l'ACM
dtn.plot_individus_acm(mca_bg, df_acm, "Bulgaria", actives)

Le nuage des individus forme une masse centrale de points r√©partis de fa√ßon assez homog√®ne, cela indique que les variables utilis√©es pour l'analyse ne parviennent pas √† structurer des groupes d'individus distincts.

On observe bien une train√©e d'individus rares vers le Nord-Est qui sont typiques des individus ayant un mauvais √©tat de sant√© g√©n√©ral ou psychologique ou de relation social. Cependant comme WB_1√†3 sont bien repr√©sent√©s sur les 2 premiers axes il est difficile de dire si ces individus sont aussi tir√©s vers cette direction par d'autres variables et notamment la consommation d'alcool.

Comme pour la France, on observe une autre train√©e d'individu vers le Sud-Est repr√©sentatifs des profils abstinent qui sont sans doute tir√© vers la droite par leur mauvais √©tat de sant√© ou de qualit√© relationnelle.

Finalement, la forme du nuage sugg√®re que les liens entre sant√©, revenus/classe sociale et alcool sont plus h√©t√©rog√®nes en Bulgarie qu'en France. De plus, la mauvaise sant√© ou la mauvaise qualit√© des relations sociales semblent √™tre des facteurs de diff√©renciations beaucoup plus puissant chez les Bulgares que chez les Fran√ßais.

### *ACM Islande* ###

In [None]:
mca_ic = dtn.fait_acm(df_acm, "Iceland", actives)
dtn.plot_var_acm(mca_ic, "Iceland")

Comme avant, on se concentre sur les deux premi√®res dimensions.

In [None]:
#graphe des contributions de chaque variables aux 2 premiers axes
dtn.tracer_graphe_liaisons(mca_ic, "Iceland")

Les WB_1√†3 sont toujours les variables les plus li√©es au premier axe, suivies par la classe sociale et le niveau d'√©ducation (SD_9). 
Ce qui change c'est que RSOD_2b et f_1b, la fr√©quence de binge drinking et de consommation d'alcool sont tr√®s li√©es au second axe et qu'aucune autre variable n'y est vraiment li√©e.

In [None]:
dtn.plot_modalites_acm_simple(df_acm,mca_ic, actives, "Iceland")

Les modalit√©s de fr√©quence de consommation d'alcool se r√©partissent de bas (les abstinents) en haut( les consommateurs quotidiens).
Les modalit√©s de fr√©quence de binge drinking sont moins ordonn√©es (binge rare en dessous de binge jamais mais aussi en dessous de binge intensif et r√©gulier). 
On peut donc penser que le Binge drinking n'est pas vraiment caract√©ristique d'un type de consommateur d'alcool en terme de fr√©quence g√©n√©rique (puisque les deux sont tr√®s li√©s √† l'axe 2 et que la fr√©quence est, elle, ordonn√©e).

Les niveaux d'√©ducations sont aussi r√©partis aussi d'une mani√®re non ordonn√©e (difficilement interpr√©table). 
Les mauvais √©tats de sant√©, de psychologie et de relation social sont g√©n√©ralement plus √† droite et les bons plus √† gauche.

In [None]:
# Nuage des individus dans le plan des deux premiers axes de l'ACM
dtn.plot_individus_acm(mca_ic, df_acm, "Iceland", actives)

Rappel: L'axe horizontal s√©pare les individus selon leur qualit√© de vie d√©clar√©e.
L'axe vertical les s√©pares selon leur rapport √† l'alcool.

La forme applatie et horizontale du nuage principol semble indiquer que peu importe le ressenti en terme d'√©tat de sant√©/psychologique ou de relation social, tant qu'il reste dans des proportions raisonnables, la consommation des islandais est relativement similaire. Un second nuage, plus petit et translat√© vers le haut semble indiquer qu'une part des islandais interrog√©s consomment un peu plus d'alcool que la population g√©n√©rale mais garde le m√™me profil.

Cette ACM nous permet de dire que la consommation d'alcool des islandais ne varie que peu en fonction des caract√©ristiques socio-√©conomiques et psychologiques.

### *ACM Pologne* ###

In [None]:
mca_pl = dtn.fait_acm(df_acm, "Poland", actives)
dtn.plot_var_acm(mca_pl, "Poland")

Comme avant, on se concentre sur les deux premi√®res dimensions.

In [None]:
#graphe des contributions de chaque variables aux 2 premiers axes
dtn.tracer_graphe_liaisons(mca_pl, "Poland")

L'axe 1 est li√© √† de nombreuses variables mais pas tr√®s fortement: l'√©tat de sant√©/ psychologique et social, le revenu, le binge drinking et la fr√©quence de consommation d'alcool.
L'axe 2 est plut√¥t li√© √† l'√©tat de sant√©/ psychologique et social et tr√®s peu aux autres variables.

In [None]:
dtn.plot_modalites_acm_simple(df_acm,mca_pl, actives, "Poland")

Les modalit√©s sont toutes tr√®s ramass√©es sans doute d√ª √† l'√©crasement induis par les non r√©pondants aux variables WB_1√†3 (code 6). Dans le prochain plot, on recentre donc le nuage des modalit√©s sur le centre pour mieus les visualiser.

In [None]:
dtn.plot_modalites_acm_simple(df_acm,mca_pl, actives, "Poland", xlim=(-1, 1.5), ylim=(-1, 1.5))

On voit que sur l'axe Nord-Ouest / Sud-Est, les nivaux de salaires, la fr√©quence de consommation d'alcool et de Binge drinking et l'√©tat de sant√©/ psychologique et d'√©panouissement social est croissant en allant vers le Nord-Est. (La tendance pour les classes sociales n'est pas nette, on ne l'interpetera pas).

In [None]:
# Nuage des individus dans le plan des deux premiers axes de l'ACM
dtn.plot_individus_acm(mca_pl, df_acm, "Poland", actives)

Le nuage polonais se distingue par une forte coh√©rence interne : les dimensions √©conomique, sanitaire et comportementale convergent vers une seule diagonale tr√®s dense.

Le profil type du consommateur polonais r√©gulier (au Nord-Ouest) est celui d'un individu ais√© et en bonne sant√©, tandis que les plus basses consommations (au Sud-Est) sont statistiquement associ√©e √† des indicateurs de bien-√™tre et de revenus plus faibles. Il faut cependant s'interroger, comme pour la France, sur le r√¥le des non r√©pondants aux variables WB_1√†3 qui, comme vue sur le nuage des modalit√©s, participent sans doute √† cr√©er une forme plus condens√©e et lin√©aire et √† surinterpr√©ter la coh√©rence des profils.

&nbsp;
<a id="partie3"></a>
# Partie III : Mod√©lisation

### M√©thodologique : S√©lection des Variables Significatives

Afin d'identifier les d√©terminants sp√©cifiques de la consommation d'alcool pour chaque pays, nous avons adopt√© une m√©thodologie de **r√©gression lin√©aire multiple** avec une proc√©dure de s√©lection de variables par **√©limination descendante (Backward Elimination)**.

Pour chaque pays, la proc√©dure s'initialise par l'ajustement d'un mod√®le satur√© incluant l'ensemble des variables explicatives potentielles. √Ä chaque it√©ration, la significativit√© statistique de chaque co-variable est √©valu√©e via le **test de Student**. La variable pr√©sentant la p-value la plus √©lev√©e sup√©rieure au seuil critique fix√© √† **$\alpha = 0.05$** (et modifiable par argument d'une fonction) est retir√©e du mod√®le.Ce dernier est ensuite r√©ajust√© sur les variables restantes. 

Ce processus it√©ratif est r√©p√©t√© jusqu'√† convergence, c'est-√†-dire jusqu'√† l'obtention d'un mod√®le final o√π tous les coefficients conserv√©s sont **statistiquement significatifs**. Cette approche permet d'isoler les facteurs de risque propres √† **chaque contexte national**.

In [None]:
variables_explicatives= [
    'SD_1',  # Genre
    'SD_2',  # Age
    'SD_4',  # Statut marital
    'SD_6',  # Taille m√©nage
    'SD_7',  # Mineurs
    'SD_8',  # Urbanisation
    'SD_9',  # Education
    'SD_10', # Activit√© pro
    "sd_20month_EUR_2020", # Revenu 
    "social_class", # Classe sociale
    "CH_1",  # Histoire familiale alcool
    "WB_1",  # Sant√© physique
    "WB_2",  # Sant√© mentale
    "WB_3"   # Satisfaction relationnelle
]
resultat = rgp.regression_iterative(
    df=data, 
    target_col='bsqf_alc', 
    all_feature_cols=variables_explicatives, 
    country_col='COUNTRY', 
    liste_pays=['France', 'Poland', 'Bulgaria', 'Iceland'],
    seuil_pvalue=0.05)

### Rapport d'Analyse des D√©terminants de la Consommation d'Alcool (Approche Prudente)

### 1. Pr√©ambule M√©thodologique

Les mod√®les de r√©gression lin√©aire ci-dessous pr√©sentent des coefficients de d√©termination () faibles, variant de **0,4 % (Bulgarie)** √† **6,7 % (Islande)**.

* **Signification :** Les variables socio-d√©mographiques et de bien-√™tre expliquent une part tr√®s marginale de la variance de la consommation totale. La consommation d'alcool est donc un comportement tr√®s h√©t√©rog√®ne, influenc√© par des facteurs non observ√©s ici (habitudes culturelles, prix, g√©n√©tique, contexte social imm√©diat).
* **Port√©e :** L'√©chantillon n'√©tant pas statistiquement repr√©sentatif des populations nationales, les r√©sultats suivants d√©crivent des **corr√©lations internes √† la base de donn√©es** et ne doivent pas √™tre g√©n√©ralis√©s sans r√©serve √† l'ensemble de ces pays.

### 2. Analyse D√©taill√©e 

#### Bilan Global de la Mod√©lisation 

L'analyse des r√©sultats issus de la s√©lection stepwise mets en √©vidence deux constats pour l'interpr√©tation : 

* **Un pouvoir explicatif marginal ($R^2$)** : Les coefficients de d√©termination sont compris entre 0,004 (Bulgarie) et 0,067 (Islande). nous observons que les variables socio-d√©mographiques et de bien-√™tre expliquent une part tr√®s faible de la variance (moins de 7 % dans le meilleur des cas, et moins de 1 % pour la Bulgarie). Cela signifie que la consommation volumique d'alcool est un comportement complexe, qui √©chappe en grande partie aux d√©terminants sociologiques classiques (√¢ge, sexe, situation familiale).
* **L'absence du revenu** : La variable financi√®re sd_20month_EUR_2020 (Revenu du m√©nage) a √©t√© √©limin√©e par l'algorithme pour l'ensemble des pays, ne franchissant pas le seuil de significativit√©. Cela veut dire que le niveau de richesse pure n'est pas un pr√©dicteur direct du volume d'alcool consomm√©.

#### France 

Au sein de l'√©chantillon fran√ßais, la consommation semble structur√©e par des d√©terminants "classiques" et une variable historique forte.

* **Genre (`SD_1`) :** Avec un coefficient n√©gatif significatif (-301,71), cela signifie que les hommes consommes significativement plus d'alcool que les femmes dans ce groupe.
* **H√©r√©dit√© sociale (`CH_1`) :** C'est une sp√©cificit√© marquante des r√©pondants fran√ßais. La variable "Avoir v√©cu enfant avec un buveur excessif" (1=Oui, 2=Non) a un coefficient n√©gatif (-360,84). Cela indique que les r√©pondants n'ayant **pas** √©t√© expos√©s √† l'alcoolisme familial durant l'enfance consomment significativement moins aujourd'hui.
* **Classe sociale (`social_class`) :** Le coefficient n√©gatif (-34,84) sugg√®re un effet protecteur du statut social : √† mesure que l'on s'√©l√®ve dans la cat√©gorie (de ouvrier vers cadre), le volume d√©clar√© tend √† diminuer l√©g√®rement.

#### Pologne 
Les r√©pondants polonais pr√©sentent des √©carts de consommation tr√®s brutaux en fonction de leur environnement.

* **Genre (`SD_1`) :** L'effet du genre est massif (-2327,88), bien plus fort qu'en France. Dans cet √©chantillon, la consommation d√©clar√©e est tr√®s majoritairement masculine.
* **Urbanisation (`SD_8`) :** Le coefficient positif (+1389,14) indique une corr√©lation entre la taille de la ville et la consommation. Les r√©pondants des grandes agglom√©rations d√©clarent boire davantage que ceux des zones rurales.


* **Structure familiale (`SD_7`) :** La pr√©sence de mineurs au foyer est associ√©e positivement √† la consommation (+1389,14). Ce r√©sultat contre-intuitif (on s'attendrait √† ce que les parents boivent moins) pourrait refl√©ter dans cet √©chantillon sp√©cifique une consommation domestique plus ancr√©e ou un profil de r√©pondants plus √¢g√©s/install√©s qui consomment davantage que les jeunes adultes sans enfants.

#### Bulgarie 
Le mod√®le est extr√™mement faible, ce qui indique que pour les r√©pondants bulgares, les variables classiques (√¢ge, sexe) ne pr√©disent rien. Seule la structure du foyer joue un r√¥le.

* **Isolement (`SD_6`) :** Le coefficient tr√®s n√©gatif (-4660,17) sur la variable "Taille du m√©nage" (1=Seul, 2=Plusieurs) est crucial. Il indique que le passage de la vie en solo √† la vie en groupe fait chuter la consommation. **Dans cet √©chantillon, les personnes vivant seules sont celles qui d√©clarent les plus gros volumes.**
* **Statut marital (`SD_4`) :** Le coefficient n√©gatif (-1296,28) montre que les mari√©s (code 1) consomment plus que les autres statuts (codes √©lev√©s). Cela dessine une dichotomie chez les r√©pondants bulgares : une consommation forte chez les isol√©s, mais aussi une consommation importante chez les couples mari√©s traditionnels.
* **√âducation (`SD_9`) :** L'√©ducation agit comme un frein (-2397,77) : les r√©pondants les plus dipl√¥m√©s d√©clarent des volumes plus faibles.

#### üáÆüá∏ Islande : Le lien Sant√©-Consommation ()

L'√©chantillon islandais est le mieux expliqu√© par le mod√®le, gr√¢ce √† l'introduction des variables de sant√©.

* **Le Mal-√™tre (`WB_1`, `WB_2`) :** Les coefficients sont positifs. Puisque les √©chelles de sant√© vont de 1 (Tr√®s bon) √† 5 (Tr√®s mauvais), un coefficient positif signifie que **plus la sant√© physique et mentale d√©clar√©e est mauvaise, plus la consommation d'alcool est √©lev√©e**. L'alcool appara√Æt ici corr√©l√© au mal-√™tre.


* **Statut Marital (`SD_4`) :** Contrairement √† la Bulgarie, le coefficient positif (+45,35) indique ici que ce sont les personnes seules, divorc√©es ou veuves (codes √©lev√©s) qui consomment plus que les personnes mari√©es (code 1).
* 
**√âducation (`SD_9`) :** Comme en Bulgarie, un niveau d'√©ducation √©lev√© est associ√© √† une consommation moindre (-42,52).


### 3. Synth√®se Comparative

L'analyse de ces donn√©es non-repr√©sentatives permet n√©anmoins de d√©gager **quatre profils de corr√©lation** distincts au sein de l'√©tude :

1. **Le profil socio-culturel (France) :** O√π la consommation est li√©e au genre et √† l'histoire familiale.
2. **Le profil environnemental (Pologne) :** O√π le lieu de vie (ville) et la composition du foyer (enfants) sont d√©terminants.
3. **Le profil "Solitaire" (Bulgarie) :** O√π vivre seul est le facteur de risque statistique le plus fort identifi√©.
4. **Le profil "Symptomatique" (Islande) :** O√π la consommation est significativement corr√©l√©e √† une mauvaise auto-√©valuation de la sant√© physique et mentale.

*Note de prudence finale : Ces r√©sultats soulignent des associations statistiques au sein des r√©pondants enqu√™t√©s. Ils ne permettent pas d'√©tablir de causalit√© directe ni de d√©crire les habitudes de la population g√©n√©rale de ces pays.*

<a id="annexes"></a>
# Annexes

Annexes Partie de la partie II

In [None]:
print("matrice des corr√©lations ACP France")
matrice_fr = dtn.obtenir_matrice_pca(data, "France", quanti.columns)
matrice_fr


In [None]:
print("matrice des corr√©lations ACP Bulgarie")
matrice_bg = dtn.obtenir_matrice_pca(data, "Bulgaria", quanti.columns)
matrice_bg

In [None]:
# On calcule l'ACP sur les quanti.colums/ variables quantitatives
pca_bg, feat_bg, cols_bg = dtn.calculer_acp_pays(data, "Bulgaria", quanti.columns)

# Et on trace
if pca_bg is not None:
    dtn.trace_cercle_et_variance(pca_bg, cols_bg, "Bulgaria")

In [None]:
print("matrice des corr√©lations ACP Pologne")
matrice_Pl = dtn.obtenir_matrice_pca(data, "Poland", quanti.columns)
matrice_Pl

In [None]:
# On calcule l'ACP sur les quanti.colums/ variables quantitatives
pca_pl, feat_pl, cols_pl = dtn.calculer_acp_pays(data, "Poland", quanti.columns)

# Et on trace
if pca_fr is not None:
    dtn.trace_cercle_et_variance(pca_fr, cols_fr, "Poland")

In [None]:
print("matrice des corr√©lations ACP Islande")
matrice_Ic = dtn.obtenir_matrice_pca(data, "Iceland", quanti.columns)
matrice_Ic

In [None]:
# On calcule l'ACP sur les quanti.colums/ variables quantitatives
pca_ic, feat_ic, cols_ic = dtn.calculer_acp_pays(data, "Iceland", quanti.columns)

# Et on trace
if pca_ic is not None:
    dtn.trace_cercle_et_variance(pca_ic, cols_ic, "Iceland")