# Regression linéaire 

# Lire les données des elections

In [3]:
import pandas as pd


# Essayer avec l'encodage 'ISO-8859-1'
data = pd.read_csv('données/Nettoyées_Et_Modifiées/Elections/Elections_12_17_22.csv', sep=';', encoding='ISO-8859-1')

# ou essayer avec l'encodage 'cp1252'
# df = pd.read_csv('données/Nettoyées_Et_Modifiées/Elections/Elections_12_17_22.csv', sep=';', encoding='cp1252')

# Limiter les données sur 2017 et 2022

In [5]:
# Filtrer les données pour les années 2017 et 2022
filtered_data = data[data['Annee'].isin([2017, 2022])]

# Afficher les premières lignes pour vérifier
print(filtered_data.head())

       Annee  Tour  Nombre_candidat  Code_du_departement  \
16788   2017     1               11                   75   
16789   2017     1               11                   75   
16790   2017     1               11                   77   
16791   2017     1               11                   77   
16792   2017     1               11                   77   

      Libelle_du_departement  Code_de_la_commune Libelle_de_la_commune  \
16788                  Paris                  56                 Paris   
16789                  Paris                  56                 Paris   
16790         Seine-et-Marne                   1      Achères-la-Forêt   
16791         Seine-et-Marne                   1      Achères-la-Forêt   
16792         Seine-et-Marne                   2               Amillis   

       Inscrits  Abstentions  Nombre_votants  Blancs_et_nulls Nom_candidat  \
16788   1301637       210200         1091437            14878       macron   
16789   1301637       210200         1

# Ajouter une colonne 'id' avec la valeur 1 pour 2017 et 2 pour 2022

In [51]:
# Ajouter une colonne 'id' avec la valeur 1 pour 2017 et 2 pour 2022
filtered_data.loc[:, 'id'] = filtered_data['Annee'].apply(lambda x: 1 if x == 2017 else (2 if x == 2022 else None))

# Afficher les premières lignes pour vérifier
print(filtered_data.head())

       Annee  Tour  Nombre_candidat  Code_du_departement  \
16788   2017     1               11                   75   
16789   2017     1               11                   75   
16790   2017     1               11                   77   
16791   2017     1               11                   77   
16792   2017     1               11                   77   

      Libelle_du_departement  Code_de_la_commune Libelle_de_la_commune  \
16788                  Paris                  56                 Paris   
16789                  Paris                  56                 Paris   
16790         Seine-et-Marne                   1      Achères-la-Forêt   
16791         Seine-et-Marne                   1      Achères-la-Forêt   
16792         Seine-et-Marne                   2               Amillis   

       Inscrits  Abstentions  Nombre_votants  Blancs_et_nulls Nom_candidat  \
16788   1301637       210200         1091437            14878       macron   
16789   1301637       210200         1

# Ajout du contexte de la securité

In [43]:
delinquency_file_path = 'données/Nettoyées_Et_Modifiées/Contextes/delinquance_idf.csv'

In [52]:
#Charger les données de délinquance
delinquency_data = pd.read_csv(delinquency_file_path, sep=',', encoding='ISO-8859-1')


# Ajouter une colonne 'id' basée sur l'année

In [53]:

# Ajouter une colonne 'id' basée sur l'année
delinquency_data['id'] = delinquency_data['annee'].apply(
    lambda x: 1 if x == 16 else (2 if 18 <= x <= 21 else None)
)

# Afficher les premières lignes pour vérifier
print(delinquency_data.head())

      classe  annee  Code.dÃ©partement  Code.rÃ©gion unitÃ©.de.compte  \
0  Homicides     16                 75            11          victime   
1  Homicides     16                 77            11          victime   
2  Homicides     16                 78            11          victime   
3  Homicides     16                 91            11          victime   
4  Homicides     16                 92            11          victime   

   millPOP  millLOG  faits      POP           LOG  tauxpourmille   id  
0       16       16     31  2190327  1.374377e+06       0.014153  1.0  
1       16       16      7  1397665  6.046272e+05       0.005008  1.0  
2       16       16      8  1431808  6.293828e+05       0.005587  1.0  
3       16       16     18  1287330  5.508949e+05       0.013982  1.0  
4       16       16      5  1603268  7.898089e+05       0.003119  1.0  


# Supprimer la collone année dans le contexte de la securité

In [54]:
delinquency_data=delinquency_data.drop(columns=['annee'])

In [55]:
print(delinquency_data)

                     classe  Code.dÃ©partement  Code.rÃ©gion unitÃ©.de.compte  \
0                 Homicides                 75            11          victime   
1                 Homicides                 77            11          victime   
2                 Homicides                 78            11          victime   
3                 Homicides                 91            11          victime   
4                 Homicides                 92            11          victime   
...                     ...                ...           ...              ...   
1019  Usage de stupÃ©fiants                 91            11     Mis en cause   
1020  Usage de stupÃ©fiants                 92            11     Mis en cause   
1021  Usage de stupÃ©fiants                 93            11     Mis en cause   
1022  Usage de stupÃ©fiants                 94            11     Mis en cause   
1023  Usage de stupÃ©fiants                 95            11     Mis en cause   

      millPOP  millLOG  fai

# Fusionner le contexte avec les donnes d'elections


In [60]:
# Fusionner les DataFrames sur les colonnes 'id' et les colonnes de département
merged_df = pd.merge(delinquency_data,filtered_data, left_on=['id', 'Code.dÃ©partement'], right_on=['id', 'Code_du_departement'], how='inner')

# Afficher le DataFrame fusionné
#print(merged_df.columns)


# Model d'apprentissage 

# features = ['POP', 'LOG', 'Sexe', 'Age', 'Orientation_politique']

In [61]:
# Sélectionner les colonnes pour les features et le label
features = ['POP', 'LOG', 'Sexe', 'Age', 'Orientation_politique']
label = 'Nombre_voix'

# Extraire les caractéristiques et le label
X = merged_df[features]
y = merged_df[label]

# Gestion des valeurs manquantes
X = X.dropna()  # Supprimer les lignes avec des valeurs manquantes
y = y[X.index]  # Assurer que 'y' correspond à 'X'

# Préparer les transformations
preprocessor = ColumnTransformer(
    transformers=[
        ('num', Pipeline(steps=[
            ('imputer', SimpleImputer(strategy='median')),
            ('scaler', StandardScaler())
        ]), ['POP', 'LOG', 'Age']),
        ('cat', Pipeline(steps=[
            ('imputer', SimpleImputer(strategy='most_frequent')),
            ('onehot', OneHotEncoder())
        ]), ['Sexe', 'Orientation_politique'])
    ])

# Créer le pipeline
model_pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('regressor', LinearRegression())
])

# Séparer les données en ensemble d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Entraîner le modèle
model_pipeline.fit(X_train, y_train)

# Évaluer le modèle
score = model_pipeline.score(X_test, y_test)
print(f'R² score: {score:.2f}')


R² score: 0.08
