# Projet Classification Vaccination

## Introduction

Prédire la probabilité qu'une personne ait reçu ou non les vaccins contre la grippe H1N1 et la grippe saisonnière. Il y aura deux variables cibles (binaires : oui/non), ce qui correspond à un problème de classification supervisée.

Tu dois prédire la probabilité qu'une personne ait reçu ou non les vaccins contre la grippe H1N1 et la grippe saisonnière. Tu auras deux variables cibles (binaires : oui/non), ce qui correspond à un problème de classification supervisée.

## 1. Importation des bibliothèques et chargement des données

In [11]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder, LabelEncoder

## 2. Préparation complète des données

In [3]:
X = pd.read_csv("sup/X.csv")
y = pd.read_csv("sup/y.csv")

### 2.1 Présentation des données (variables, dimensions, types)

In [4]:
print("Dimensions X :", X.info())
print("Dimensions y :", y.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 26707 entries, 0 to 26706
Data columns (total 36 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   respondent_id                26707 non-null  int64  
 1   h1n1_concern                 26615 non-null  float64
 2   h1n1_knowledge               26591 non-null  float64
 3   behavioral_antiviral_meds    26636 non-null  float64
 4   behavioral_avoidance         26499 non-null  float64
 5   behavioral_face_mask         26688 non-null  float64
 6   behavioral_wash_hands        26665 non-null  float64
 7   behavioral_large_gatherings  26620 non-null  float64
 8   behavioral_outside_home      26625 non-null  float64
 9   behavioral_touch_face        26579 non-null  float64
 10  doctor_recc_h1n1             24547 non-null  float64
 11  doctor_recc_seasonal         24547 non-null  float64
 12  chronic_med_condition        25736 non-null  float64
 13  child_under_6_mo

In [None]:
%%sql


### 2.2 Detction des valeurs manquantes

In [8]:
missing = X.isna().sum()
pct    = (missing / len(X) * 100).round(2)
pd.concat([missing, pct], axis=1, keys=["missing", "pct_missing"])[lambda d: d["missing"] > 0]

Unnamed: 0,missing,pct_missing
education,1407,5.27
income_poverty,4423,16.56
marital_status,1408,5.27
rent_or_own,2042,7.65
employment_status,1463,5.48
employment_industry,13330,49.91
employment_occupation,13470,50.44


### 2.3 Gestion des valeurs aberrantes

In [7]:
num_vars = X.select_dtypes(include=['int64', 'float64']).columns
num_imputer = SimpleImputer(strategy="median")
X[num_vars] = num_imputer.fit_transform(X[num_vars])

In [14]:
cat_vars = X.select_dtypes(include=['object']).columns
cat_imputer = SimpleImputer(strategy="most_frequent")
X[cat_vars] = cat_imputer.fit_transform(X[cat_vars])

    ### 2.4 Sélection pertinente des variables (Feature selection)


### 2.5 Normalisation et transformation des variables

In [15]:
X_encoded = pd.get_dummies(X, columns=cat_vars, drop_first=True)


In [16]:

scaler = StandardScaler()
X_encoded[num_vars] = scaler.fit_transform(X_encoded[num_vars])

## 3. Analyse exploratoire approfondie

### 3.1 Visualisations des variables qualitatives


### 3.2 Visualisations des variables quantitatives

### 3.3 Visualisations croisées (quali x quanti)

### 3.4 Table de corrélation

## 4. Modélisation et évaluation des modèles

### 4.1 Modèle 1 : Régression logistique

#### Évaluation (ROC/AUC, précision, rappel, F-score)

### 4.2 Modèle 2 : Arbres de décision / Forêts aléatoires

#### Évaluation

### 4.3 Modèle 3 : KNN

#### Évaluation

### 4.4 Optimisation des hyperparamètres (Grid Search)

### 4.5 Validation croisée (cross-validation)

### 4.6 Comparaison des modèles et choix final

## 5. Conclusion métier

### Interprétation des résultats, recommandations et conclusion métier.