# Exercice : Préparation et Modélisation des Données

## Objectif
Vous allez travailler sur un sous-ensemble de données contenant **100 colonnes sélectionnées semi-aléatoirement**, ainsi que la colonne `winner`. Votre objectif est de préparer les données, de réduire leur dimensionnalité, et d'appliquer des modèles de classification et de régression.

## Étapes

1. **Sélection de colonnes** :
   - Sélectionnez **100 colonnes aléatoires** parmi les colonnes du DataFrame, en plus de la colonne `winner`, qui sera votre variable cible.
   - Créez un DataFrame avec ces colonnes.

2. **Préparation des données** :
   - **Nettoyage** :
     - Identifiez les valeurs manquantes dans chaque colonne.
     - Remplacez les valeurs manquantes par la moyenne pour les colonnes numériques, et par la modalité (valeur la plus fréquente) pour les colonnes catégorielles.
   - **Transformation** :
     - Standardisez les colonnes numériques (moyenne = 0, écart-type = 1).
     - Identifier la colonne catégorielle avec le moins de valeurs uniques (c'est-à-dire, la moins fréquente), et appliquer un Label Encoding uniquement à cette colonne.
     - pour les autres  colonnes catégorielles Appliquez un encodage one-hot aux(à l'exception de la colonne `winner`).
   - Vérifiez que toutes les colonnes ont été transformées correctement et que les données sont prêtes pour la modélisation.

3. **Réduction de la dimensionnalité** :
   - **Analyse de corrélation** :
     - Calculez la matrice de corrélation pour les colonnes numériques du DataFrame.
     - Identifiez les colonnes qui sont fortement corrélées (par exemple, avec un coefficient de corrélation supérieur à 0,8).
     - Supprimez les colonnes fortement corrélées pour éviter la redondance dans les données.
   - **Sélection de caractéristiques** :
     - Appliquez une méthode de sélection de caractéristiques (par exemple, `SelectKBest` avec `chi2` pour la classification) pour ne garder que les **10 meilleures caractéristiques**.
   - **PCA** :
     - Appliquez une analyse en composantes principales (PCA) pour réduire encore la dimensionnalité des données et ne garder que **3 composantes principales**.

4. **Modélisation** :

Dans cette section, vous allez appliquer deux types de modèles (classification et régression) pour prédire la variable cible winner. Les étapes seront réalisées d'abord sur **les données avant réduction de dimensionnalité**, puis sur **les données après réduction de dimensionnalité**.
   - **Classification** :
     - Utilisez un algorithme de classification (par exemple, `RandomForestClassifier`) pour prédire la variable cible `winner`.
     - Entraînez le modèle, puis évaluez ses performances (précision, rappel, F1-score) sur un ensemble de test.
   - **Régression** :
     - Transformez la variable `winner` en une variable numérique si elle est catégorielle.
     - Utilisez un algorithme de régression (par exemple, `LinearRegression`) pour prédire `winner`.
     - Entraînez le modèle de régression et évaluez ses performances (MSE, RMSE, MAE) sur l'ensemble de test.



In [None]:
import requests

url = "https://raw.githubusercontent.com/linogaliana/python-datascientist/main/content/modelisation/get_data.py"
r = requests.get(url, allow_redirects=True)
open("getdata.py", "wb").write(r.content)

import getdata

votes = getdata.create_votes_dataframes()
votes

Unnamed: 0,STATEFP,COUNTYFP,COUNTYNS,AFFGEOID,GEOID,NAME,LSAD,ALAND,AWATER,geometry,...,share_2008_democrat,share_2008_other,share_2008_republican,share_2012_democrat,share_2012_other,share_2012_republican,share_2016_democrat,share_2016_other,share_2016_republican,winner
0,29,227,00758566,0500000US29227,29227,Worth,06,690564983,493903,"POLYGON ((-94.63203 40.57176, -94.53388 40.570...",...,0.363714,0.034072,0.602215,0.325382,0.041031,0.633588,0.186424,0.041109,0.772467,republican
1,31,061,00835852,0500000US31061,31061,Franklin,06,1491355860,487899,"POLYGON ((-99.1794 40.35068, -98.72683 40.3504...",...,0.284794,0.019974,0.695232,0.250000,0.026042,0.723958,0.149432,0.045427,0.805140,republican
2,36,013,00974105,0500000US36013,36013,Chautauqua,06,2746047476,1139407865,"POLYGON ((-79.76195 42.26986, -79.62748 42.324...",...,0.495627,0.018104,0.486269,0.425017,0.115852,0.459131,0.352012,0.065439,0.582550,republican
3,37,181,01008591,0500000US37181,37181,Vance,06,653713542,42178610,"POLYGON ((-78.49773 36.51467, -78.45728 36.541...",...,0.630827,0.004743,0.364429,0.638870,0.004891,0.356239,0.612154,0.020824,0.367022,democrats
4,47,183,01639799,0500000US47183,47183,Weakley,06,1503107848,3707114,"POLYGON ((-88.94916 36.4101, -88.81642 36.4107...",...,0.335720,0.017458,0.646822,0.287590,0.014914,0.697495,0.227511,0.033158,0.739330,republican
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3102,40,091,01101836,0500000US40091,40091,McIntosh,06,1601359179,242867678,"POLYGON ((-95.98151 35.28978, -95.98146 35.376...",...,0.403746,0.000000,0.596254,0.381312,0.000000,0.618688,0.266608,0.042070,0.691322,republican
3103,40,095,01101832,0500000US40095,40095,Marshall,06,962443215,143430766,"POLYGON ((-96.96842 34.17268, -96.9335 34.1727...",...,0.305788,0.000000,0.694212,0.271595,0.000000,0.728405,0.199563,0.034596,0.765841,republican
3104,48,225,01383898,0500000US48225,48225,Houston,06,3188278910,14435337,"POLYGON ((-95.7287 31.16406, -95.72523 31.2710...",...,0.307978,0.011132,0.680891,0.275749,0.008400,0.715851,0.236801,0.020352,0.742847,republican
3105,48,407,01383989,0500000US48407,48407,San Jacinto,06,1474332268,151949233,"POLYGON ((-95.32748 30.85955, -95.25238 30.906...",...,0.303751,0.009600,0.686649,0.250624,0.010295,0.739081,0.197041,0.023784,0.779174,republican
