In [2]:
import pandas as pd

file_path = 'data/housing-train-data-6628a4723213d886993351.csv'
final_data = pd.read_csv(file_path)

# Régression Linéaire

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer

# Préparation des données
X = final_data.drop('median_house_value', axis=1)
y = final_data['median_house_value']

# Identifier les colonnes numériques et catégorielles
numeric_features = X.select_dtypes(include=['int64', 'float64']).columns
categorical_features = X.select_dtypes(include=['object']).columns

# Création des transformateurs pour les données numériques et catégorielles
numeric_transformer = Pipeline([
    ('imputer', SimpleImputer(strategy='median')),  # Imputation par la médiane pour les valeurs numériques
    ('scaler', StandardScaler())
])

categorical_transformer = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Imputation par la valeur la plus fréquente pour les catégorielles
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

# Assembler les transformateurs
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ])

# Création du pipeline final avec préprocesseur et modèle de régression
pipeline = Pipeline([
    ('preprocessor', preprocessor),
    ('regression', LinearRegression())
])

# Séparation des données
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=200)

# Entraînement du pipeline
pipeline.fit(X_train, y_train)

# Prédiction sur l'ensemble de test
y_pred = pipeline.predict(X_test)

# Calcul de R^2
r_squared = r2_score(y_test, y_pred)
print(r_squared)


In [None]:
import numpy as np

# Calculer la moyenne et l'écart-type des prédictions
mean_y_pred = np.mean(y_pred)
std_y_pred = np.std(y_pred)

# Calculer le Z-score pour chaque prédiction
z_scores = (y_pred - mean_y_pred) / std_y_pred

# Afficher les Z-scores
print("Z-scores des prédictions:", z_scores)

In [None]:
import matplotlib.pyplot as plt

plt.figure(figsize=(10, 6))
plt.hist(z_scores, bins=30, color='blue', alpha=0.7)
plt.title('Distribution des Z-scores des prédictions')
plt.xlabel('Z-score')
plt.ylabel('Fréquence')
plt.grid(True)
plt.show()

In [None]:
from sklearn.metrics import mean_squared_error, mean_absolute_error

# Calcul de l'Erreur Quadratique Moyenne (MSE)
mse = mean_squared_error(y_test, y_pred)
print("MSE:", mse)

# Calcul de l'Erreur Absolue Moyenne (MAE)
mae = mean_absolute_error(y_test, y_pred)
print("MAE:", mae)

# Calcul de la RMSE (Root Mean Squared Error)
rmse = np.sqrt(mse)
rmse

# Random Forest

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.metrics import r2_score

final_data = final_data.drop('Unnamed: 0', axis=1)

# Préparation des données
X = final_data.drop('median_house_value', axis=1)
y = final_data['median_house_value']

# Séparation des données
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=200)

# Identification des types de caractéristiques
numeric_features = X_train.select_dtypes(include=['int64', 'float64']).columns.tolist()
categorical_features = X_train.select_dtypes(include=['object']).columns.tolist()

# Transformateurs pour les caractéristiques numériques
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='median')),
    ('scaler', StandardScaler())
])

# Transformateurs pour les caractéristiques catégorielles
categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='constant', fill_value='missing')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

# Préprocesseur avec ColumnTransformer
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ])

# Pipeline complet
pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('regressor', RandomForestRegressor(n_estimators=200, random_state=200))
])

# Entraînement du pipeline
pipeline.fit(X_train, y_train)

# Prédiction sur l'ensemble de test
y_pred = pipeline.predict(X_test)

# Calcul de R^2
r_squared = r2_score(y_test, y_pred)
print("R^2 score avec la forêt aléatoire :", r_squared)

# KNN

In [None]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.neighbors import KNeighborsRegressor
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.metrics import r2_score

# Suppression de la colonne 'Unnamed: 0'
if 'Unnamed: 0' in final_data.columns:
    final_data = final_data.drop('Unnamed: 0', axis=1)

# Préparation des données
X = final_data.drop('median_house_value', axis=1)
y = final_data['median_house_value']

# Séparation des données
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=200)

# Identification des types de caractéristiques
numeric_features = X_train.select_dtypes(include=['int64', 'float64']).columns.tolist()
categorical_features = X_train.select_dtypes(include=['object']).columns.tolist()

# Transformateurs pour les caractéristiques numériques
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='median')),
    ('scaler', StandardScaler())
])

# Transformateurs pour les caractéristiques catégorielles
categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='constant', fill_value='missing')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

# Préprocesseur avec ColumnTransformer
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ])

# Pipeline complet
pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('knn', KNeighborsRegressor(n_neighbors=5))
])

# Configuration des paramètres pour le GridSearchCV
param_grid = {
    'knn__n_neighbors': [3, 5, 7, 10],
    'knn__weights': ['uniform', 'distance']
}

# Création de l'objet GridSearchCV
grid_search = GridSearchCV(pipeline, param_grid, cv=5, scoring='r2', verbose=1)

# Entraînement du GridSearchCV
grid_search.fit(X_train, y_train)

# Meilleurs paramètres trouvés
print("Meilleurs paramètres: ", grid_search.best_params_)

# Meilleur score R^2 obtenu
print("Meilleur score R^2: ", grid_search.best_score_)

# Prédiction avec le meilleur modèle trouvé
y_pred = grid_search.predict(X_test)

# Calcul de R^2
r_squared = r2_score(y_test, y_pred)
print("R^2 score avec KNN :", r_squared)


In [None]:
from sklearn import set_config

set_config(display='diagram')
display(pipeline)

In [None]:
from joblib import dump

dump(grid_search, 'knn_model.joblib')

In [None]:
from sklearn.metrics import mean_squared_error, mean_absolute_error

# Prédiction sur l'ensemble de test
y_pred = grid_search.predict(X_test)

# Calcul de R^2
r_squared = r2_score(y_test, y_pred)
print("R^2 score avec KNN :", r_squared)

# Calcul de l'erreur quadratique moyenne (MSE)
mse = mean_squared_error(y_test, y_pred)
print("Mean Squared Error (MSE) :", mse)

# Calcul de l'erreur absolue moyenne (MAE)
mae = mean_absolute_error(y_test, y_pred)
print("Mean Absolute Error (MAE) :", mae)

# Calcul de la moyenne et de l'écart-type des valeurs prédites
mean_y_pred = np.mean(y_pred)
std_y_pred = np.std(y_pred)

# Calcul du score Z pour les prédictions
z_scores = (y_pred - mean_y_pred) / std_y_pred

# Affichage de quelques scores Z
print("Quelques scores Z des prédictions :", z_scores[:5])


In [None]:
import matplotlib.pyplot as plt

plt.figure(figsize=(10, 6))
plt.hist(z_scores, bins=30, color='blue', alpha=0.7)
plt.title('Distribution des scores Z des prédictions')
plt.xlabel('Scores Z')
plt.ylabel('Nombre de prédictions')
plt.grid(True)
plt.show()