# Machine Learning - Régression Linéaire sur les données de coût de la vie

### 1. Importation des bibliothèques nécessaires

In [None]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

### 2. Chargement des données

In [None]:
df = pd.read_csv('cleaned_cost_of_living_data.csv')
df.head()

### 3. Nettoyage des données

In [None]:

# Nettoyage des symboles monétaires dans la colonne 'Price'
df['Price'] = df['Price'].replace({'€': '', '$': '', '£': ''}, regex=True)

# Conversion de la colonne 'Price' en numérique (float)
df['Price'] = pd.to_numeric(df['Price'], errors='coerce')

# Suppression des lignes avec des valeurs manquantes
df = df.dropna(subset=['Price'])

# Vérification du nettoyage
df.head()
    

### 4. Ingénierie des caractéristiques

In [None]:

# Conversion en variables booléennes ou numériques
df['Feature_1'] = (df['Column_1'] > 100).astype(int)
df['Feature_2'] = (df['Column_2'] == 'Yes').astype(int)
df.head()
    

### 5. Régression Linéaire

In [None]:

# Séparation des variables indépendantes et de la cible
X = df[['Feature_1', 'Feature_2']]  # Variables indépendantes
y = df['Price']  # Variable cible (prix)

# Je divise les données en ensemble d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Modélisation : Régression Linéaire
model = LinearRegression()
model.fit(X_train, y_train)

# Prédictions et évaluation
y_pred = model.predict(X_test)

# Calcul du MSE (Mean Squared Error)
mse = mean_squared_error(y_test, y_pred)
mse
    