## Objectif du Projet

objectif :

- L'objectif de ce projet est de créer un modèle prédictif pour prédire la valeur des logements en Californie.

Contexte du projet :

- Vous êtes développeur AI dans une startup de la Silicon Valley qui fournit des services dans le domaine de l'investissement immobilier. Les chargés de relation client ont mentionné que la demande a augmenté récemment et qu'il devient difficile de faire des estimations personnalisées. De ce fait, l'entreprise vous a confier d'automatiser cette tâche avec un modèle prédictif.
- Pour cela, vous avez récupéré une base de données qui contient les prix médians des logements pour les districts de Californie issus du recensement de 1990 :
- L'objectif est de créer un modèle avec vos données (train) pour prédire la valeur du prix médian des maisons par district / bloc (medianHouseValue). A la fin du projet, vous devez évaluer ce modèle avec les données (validation) que seul votre client dispose (le prof).

## Imports

In [27]:
# imports des librairies
import pandas as pd
import numpy as np 
import matplotlib.pyplot as plt 
import seaborn as sns

# préprocessing
from sklearn import preprocessing
from sklearn.model_selection import train_test_split

# model
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import RANSACRegressor

# metrics
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score

# export 
import pickle

In [28]:
# import des données
df = pd.read_csv("../data/df.csv")
display(df.head())
print(df.shape)

Unnamed: 0.1,Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,2072,-119.84,36.77,6.0,1853.0,473.0,1397.0,417.0,1.4817,72000.0,INLAND
1,10600,-117.8,33.68,8.0,2032.0,349.0,862.0,340.0,6.9133,274100.0,<1H OCEAN
2,2494,-120.19,36.6,25.0,875.0,214.0,931.0,214.0,1.5536,58300.0,INLAND
3,4284,-118.32,34.1,31.0,622.0,229.0,597.0,227.0,1.5284,200000.0,<1H OCEAN
4,16541,-121.23,37.79,21.0,1922.0,373.0,1130.0,372.0,4.0815,117900.0,INLAND


(16512, 11)


## EDA

In [29]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16512 entries, 0 to 16511
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Unnamed: 0          16512 non-null  int64  
 1   longitude           16512 non-null  float64
 2   latitude            16512 non-null  float64
 3   housing_median_age  16512 non-null  float64
 4   total_rooms         16512 non-null  float64
 5   total_bedrooms      16336 non-null  float64
 6   population          16512 non-null  float64
 7   households          16512 non-null  float64
 8   median_income       16512 non-null  float64
 9   median_house_value  16512 non-null  float64
 10  ocean_proximity     16512 non-null  object 
dtypes: float64(9), int64(1), object(1)
memory usage: 1.4+ MB


infos :

- 
16512 row- s
11 colum- ns
"total_bedrooms" est la seul colonne qui possède des valeurs manquan- tes
"ocean_proximity" est la seul colonne de type o rapport à la mer

Plus d'information sur les variables :

- longitude : la longitude d'un bloc
- latitude : la latitude d'un bloc
- housingMedianAge: Âge médian d'une maison dans un pâté de maisons ; un chiffre plus bas correspond à un bâtiment plus récent.
- totalRooms: Nombre total de chambres dans un bloc
- totalBedrooms: Nombre total de chambres dans un bloc
- population: Nombre total de personnes résidant dans un bloc
- households: Nombre total de ménages, c'est-à-dire un groupe de personnes résidant dans une unité d'habitation, pour un bloc
- medianIncome: Revenu médian des ménages dans un bloc de maisons (mesuré en dizaines de milliers de dollars US)
- medianHouseValue: Valeur médiane des maisons pour les ménages d'un bloc (mesurée en dollars US)
- oceanProximity: Situation de la maison par rapport à la mer

In [30]:
df.describe()

Unnamed: 0.1,Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
count,16512.0,16512.0,16512.0,16512.0,16512.0,16336.0,16512.0,16512.0,16512.0,16512.0
mean,10295.498789,-119.564046,35.626523,28.624516,2644.170603,539.31954,1435.01726,501.135962,3.864091,206509.251453
std,5941.973488,2.005033,2.13915,12.59798,2213.946369,425.207704,1158.151967,385.650673,1.893244,115225.957661
min,0.0,-124.35,32.54,1.0,6.0,2.0,3.0,2.0,0.4999,14999.0
25%,5178.75,-121.79,33.93,18.0,1446.0,296.0,788.0,280.0,2.5625,119400.0
50%,10263.5,-118.49,34.25,29.0,2116.0,435.0,1168.0,410.0,3.5313,179300.0
75%,15438.25,-118.01,37.71,37.0,3154.0,647.0,1738.0,606.0,4.733225,264500.0
max,20639.0,-114.31,41.95,52.0,39320.0,6445.0,35682.0,6082.0,15.0001,500001.0


In [31]:
# Modification des colonnes

df.rename(columns = {'Unnamed: 0': "index"},
         inplace = True, errors = 'raise')

In [32]:
# vérifier les duplicates 
df.duplicated().sum()

0

Ce dataset ne possède pas de valeurs dupliquées

In [33]:
# encoder les features catégorielles
df = pd.get_dummies(df, columns=['ocean_proximity'], prefix=[""])
display(df.head())
print(df.shape)

Unnamed: 0,index,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,_<1H OCEAN,_INLAND,_ISLAND,_NEAR BAY,_NEAR OCEAN
0,2072,-119.84,36.77,6.0,1853.0,473.0,1397.0,417.0,1.4817,72000.0,False,True,False,False,False
1,10600,-117.8,33.68,8.0,2032.0,349.0,862.0,340.0,6.9133,274100.0,True,False,False,False,False
2,2494,-120.19,36.6,25.0,875.0,214.0,931.0,214.0,1.5536,58300.0,False,True,False,False,False
3,4284,-118.32,34.1,31.0,622.0,229.0,597.0,227.0,1.5284,200000.0,True,False,False,False,False
4,16541,-121.23,37.79,21.0,1922.0,373.0,1130.0,372.0,4.0815,117900.0,False,True,False,False,False


(16512, 15)


In [34]:
# Traiter les valeurs manquantes
df.isnull().sum()

index                   0
longitude               0
latitude                0
housing_median_age      0
total_rooms             0
total_bedrooms        176
population              0
households              0
median_income           0
median_house_value      0
_<1H OCEAN              0
_INLAND                 0
_ISLAND                 0
_NEAR BAY               0
_NEAR OCEAN             0
dtype: int64

In [35]:
# calculer le pourcentage de nan de total_bedrooms par rapport au total des données disponibles 

Je vais supprimer mes valeurs manquantes (faibles pourcentage de nan sur toutes données)

In [36]:
df = df.dropna()

In [37]:
df.isnull().sum()

index                 0
longitude             0
latitude              0
housing_median_age    0
total_rooms           0
total_bedrooms        0
population            0
households            0
median_income         0
median_house_value    0
_<1H OCEAN            0
_INLAND               0
_ISLAND               0
_NEAR BAY             0
_NEAR OCEAN           0
dtype: int64

In [38]:
# sélection des features à donner au modèle
df = df.drop(["index","_NEAR OCEAN", "_NEAR BAY", "_ISLAND", "_INLAND", "_<1H OCEAN", "households"], axis=1)

In [39]:
df.columns

Index(['housing_median_age', 'total_rooms', 'total_bedrooms', 'population',
       'median_income', 'median_house_value'],
      dtype='object')

## Export du df 

In [40]:
df.to_csv("../data/df_final.csv", index=False)

## Linear Regression model

In [47]:
# split les données en X (features) et y (target)
X = df.drop(["median_house_value"], axis = 1)
y = df["median_house_value"]

In [48]:
# Train test split en ensemble de test et de train
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size = 0.8, random_state = 42)

### Cross Validation

In [49]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import cross_val_score
from sklearn.metrics import r2_score, mean_squared_error
from sklearn.model_selection import train_test_split

# Create a linear regression object
reg = LinearRegression()

# Perform 5-fold cross-validation
scores = cross_val_score(reg, X, y, cv=5)
scores_1 = np.sqrt(-cross_val_score(reg, X, y, cv=5, scoring='neg_mean_squared_error'))

# Print the mean and standard deviation of the scores
print("R²: %0.2f (+/- %0.2f)" % (scores.mean(), scores.std() * 2))
print("RMSE: ", scores_1.mean())

R²: 0.56 (+/- 0.02)
RMSE:  76251.79336632713


### train test split

In [50]:
lr = LinearRegression()
lr.fit(X_train, y_train)
lr_preds = lr.predict(X_test)

In [51]:
print("RMSE :", np.sqrt(mean_squared_error(y_test, lr_preds)))
print("R^2: ", r2_score(y_test, lr_preds))

RMSE : 77259.95696109782
R^2:  0.5460121276426214


In [52]:
lr.get_params()

{'copy_X': True, 'fit_intercept': True, 'n_jobs': None, 'positive': False}

### hyperparameter tuning

In [21]:
from sklearn.model_selection import GridSearchCV

## Export du modèle

In [22]:
X.columns

Index(['housing_median_age', 'total_rooms', 'total_bedrooms', 'population',
       'median_income'],
      dtype='object')

In [23]:
# Train the model
reg.fit(X, y)

# Save the model
filename = '../data/linear_regression_model.pkl'
with open(filename, 'wb') as file:
    pickle.dump(reg, file)

## RANSAC Regression model

Random Sample Consensus, or RANSAC for short, is another robust regression algorithm. RANSAC tries to separate data into outliers and inliers and fits the model on the inliers.

### Ransac Regressor with parameters

In [24]:
# Créez une instance de RANSACRegressor en spécifiant les hyperparamètres
ransac = RANSACRegressor(
    LinearRegression(),   # Vous pouvez spécifier ici un modèle de régression linéaire personnalisé si nécessaire.
    residual_threshold=10, # La distance seuil pour considérer un échantillon comme inlier (float).
    max_trials=10,        # Le nombre maximum d'itérations pour RANSAC (int).
    random_state=42,      # Le générateur de nombres aléatoires (int ou instance de RandomState).

    
    # loss='absolute_error',  # La fonction de perte à minimiser (str ou fonction).
    # min_samples=None,       # Le nombre minimum d'échantillons requis pour ajuster un modèle (int ou float).
    # is_data_valid=None,     # Une fonction personnalisée pour valider les données.
    # is_model_valid=None,    # Une fonction personnalisée pour valider le modèle.
    # max_skips=None,         # Le nombre maximum d'échantillons à ignorer lors de la sélection de nouveaux inliers (int).
    # stop_n_inliers=None,    # Arrêter la recherche lorsque ce nombre d'inliers est atteint (int).
    # stop_probability=None,  # Arrêter la recherche lorsque cette probabilité est atteinte (float).
    # stop_score=None,        # Arrêter la recherche lorsque ce score est atteint (float).
    # residual_metric=None,   # La mesure de la distance à utiliser pour calculer les résidus (str ou fonction).
    # min_samples_2=None,     # Le nombre minimum d'échantillons requis pour considérer un modèle valide (int ou float).
    # stop_n_inliers_ratio=None,  # Arrêter la recherche lorsque ce ratio d'inliers est atteint (float).
    # stop_score_ratio=None   # Arrêter la recherche lorsque ce ratio de score est atteint (float).
)

# Train model
ransac.fit(X_train, y_train)

# Model prediction
y_pred = ransac.predict(X_test)
# Evaluate the model
rmse = np.sqrt(mean_squared_error(y_test, lr_preds))
r2 = r2_score(y_test, y_pred)

# Evaluate the model 
print('RMSE:', rmse)
print('R²:', r2_score(y_test, y_pred))

RMSE: 77259.95696109782
R²: -0.18806725395455426


### Tuning avec Grid search

In [25]:
param_grid = {
    'residual_threshold': np.arange(0.1, 1.0, 10),
    'max_trials': [10, 20, 30]
}

grid_search = GridSearchCV(estimator=ransac_tune, param_grid=param_grid, cv=5)

grid_search.fit(X, y) 

print("Meilleurs hyperparamètres:", grid_search.best_params_)

NameError: name 'ransac_tune' is not defined

In [None]:
# Créez une instance de RANSACRegressor en spécifiant les hyperparamètres
ransac_tune = RANSACRegressor(
    LinearRegression(),  
    residual_threshold=10,
    max_trials=10,        
    random_state=42,      
)

# Train model
ransac_tune.fit(X_train, y_train)

# Model prediction
y_pred = ransac_tune.predict(X_test)
# Evaluate the model
rmse = np.sqrt(mean_squared_error(y_test, lr_preds))
r2 = r2_score(y_test, y_pred)

# Evaluate the model 
print('RMSE:', rmse)
print('R²:', r2_score(y_test, y_pred))