<a href="https://colab.research.google.com/github/pat-ch0/DataScience-intro/blob/main/House_Price_Prediction.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## House Price Prediction

### Importation des librairies nécessaires

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error

`from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error` importe des fonctions pour évaluer les performances du modèle. Ces métriques aideront à quantifier la qualité de la correspondance entre les prédictions et les données réelles.

*  `r2_score` Calcule le coefficient de détermination R², une mesure de la qualité de l'ajustement du modèle aux données.
*  `mean_squared_error` Calcule l'erreur quadratique moyenne, une mesure de la différence quadratique moyenne entre les valeurs prédites et réelles.
*  `mean_absolute_error` Calcule l'erreur absolue moyenne, une mesure de la différence absolue moyenne entre les valeurs prédites et réelles.

### Importation des données

Understand each column. If you can't be sure about a few of them, make logical assumptions if you can, else, don't use them.

In [None]:
data = pd.read_csv('seattle_house_prices.csv')
data.head()

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,7129300520,20141013T000000,221900.0,3,1.0,1180,5650,1.0,0,0,...,7,1180.0,0,1955,0,98178,47.5112,-122.257,1340,5650
1,6414100192,20141209T000000,538000.0,3,2.25,2570,7242,2.0,0,0,...,7,2170.0,400,1951,1991,98125,47.721,-122.319,1690,7639
2,5631500400,20150225T000000,180000.0,2,1.0,770,10000,1.0,0,0,...,6,770.0,0,1933,0,98028,47.7379,-122.233,2720,8062
3,2487200875,20141209T000000,604000.0,4,3.0,1960,5000,1.0,0,0,...,7,1050.0,910,1965,0,98136,47.5208,-122.393,1360,5000
4,1954400510,20150218T000000,510000.0,3,2.0,1680,8080,1.0,0,0,...,8,1680.0,0,1987,0,98074,47.6168,-122.045,1800,7503


`data.head()` affiche les premières lignes du DataFrame `data`. C'est un moyen rapide de jeter un coup d'œil aux données chargées et de voir sa structure, les noms des colonnes et certaines valeurs initiales. Par défaut, `head()` affiche les 5 premières lignes, vous donnant un aperçu du contenu du jeu de données.

### Nettoyage des données
Il est fréquent que les jeux de données ne soient pas parfaits et puissent contenir des erreurs (fautes d'orthographe, etc.), des types de données incorrects, des cellules vides ou des éléments qui peuvent être standardisés. Nous devons optimiser le jeu de données avant de commencer notre travail.

In [None]:
data.dtypes

Unnamed: 0,0
id,int64
date,object
price,float64
bedrooms,int64
bathrooms,float64
sqft_living,int64
sqft_lot,int64
floors,float64
waterfront,int64
view,int64


Chaque colonne de ce tableau contient des informations d'un type particulier : des nombres, des dates, du texte, etc.

Le code `data.dtypes` permet de lister le type de données contenu dans chaque colonne de votre jeu de données.

**Pourquoi est-ce important ?**

*  **Compréhension des données**: Cela vous aide à comprendre la structure de votre jeu de données et le type d'informations qu'il contient.
*  **Prétraitement des données**: Avant d'utiliser vos données pour entraîner un modèle de Machine Learning, il est souvent nécessaire de les nettoyer et de les transformer. Connaître le type de données de chaque colonne est essentiel pour cette étape. Par exemple, vous pourriez devoir convertir une colonne de texte en nombres si votre modèle ne peut traiter que des données numériques.
*  **Débogage**: Si vous rencontrez des erreurs dans votre code, `data.dtypes` peut vous aider à identifier des problèmes liés aux types de données.
`data.dtypes` est une commande utile pour explorer et comprendre la structure de vos données dans un DataFrame pandas. Elle affiche le type de données de chaque colonne, ce qui est crucial pour le prétraitement des données et la construction de modèles de Machine Learning.

In [None]:
data['date'] = pd.to_datetime(data['date'])
data['date']

Unnamed: 0,date
0,2014-10-13
1,2014-12-09
2,2015-02-25
3,2014-12-09
4,2015-02-18
...,...
21608,2014-05-21
21609,2015-02-23
21610,2014-06-23
21611,2015-01-16


`pd.to_datetime()` est une fonction de la bibliothèque Pandas (`pd`) qui convertit une donnée (ici, le contenu de la colonne 'date') en un objet `datetime` de Pandas. Un objet `datetime` est un type de donnée spécifique qui représente une date et/ou une heure.
Ces lignes prennent une colonne contenant des dates (probablement sous forme de texte initialement) et la convertissent en un format de données spécifique aux dates, ce qui permettra de les manipuler plus facilement et efficacement pour l'analyse et la modélisation.

**Pourquoi est-ce important ?**

*  **Analyse temporelle:** Convertir les dates en objets `datetime` permet d'effectuer des analyses basées sur le temps, comme extraire le mois, l'année, le jour de la semaine, etc.
*  **Opérations sur les dates**: On peut ensuite effectuer des calculs et des comparaisons entre les dates (par exemple, calculer la différence entre deux dates).
*  **Visualisation**: Les bibliothèques de visualisation comme Matplotlib et Seaborn peuvent mieux gérer les données de type `datetime` pour créer des graphiques chronologiques.

In [None]:
data.isna().sum()

Unnamed: 0,0
id,0
date,0
price,0
bedrooms,0
bathrooms,0
sqft_living,0
sqft_lot,0
floors,0
waterfront,0
view,0


1.  `data.isna()` applique la fonction `isna()` à votre DataFrame `data`. La fonction `isna()` vérifie chaque cellule du DataFrame.

*  Si la cellule contient une valeur manquante (comme `NaN`, qui signifie "Not a Number"), elle renvoie `True`.
*  Si la cellule contient une valeur, elle renvoie `False`. Le résultat de `data.isna()` est un nouveau DataFrame de la même taille que data, mais contenant uniquement des valeurs `True` ou `False` indiquant la présence ou l'absence de valeurs manquantes.
2.  `.sum()` applique la fonction `sum()` au résultat de `data.isna()`. La fonction `sum()` additionne les valeurs `True` dans chaque colonne du DataFrame. Puisque `True` est interprété comme 1 et `False` comme 0, le résultat final pour chaque colonne est le **nombre total de valeurs manquantes** dans cette colonne.

### Analyse des données
Dans cette étape, vous allez **examiner vos données, rechercher des tendances et comprendre les corrélations** entre les caractéristiques (variables) que vous avez et la cible que vous allez prédire. Je recommande d'utiliser des outils de visualisation de données (tels que Tableau, PowerBI, etc.), ou vous pouvez également coder vos graphiques en utilisant des bibliothèques comme `matplotlib` et `seaborn`. **La visualisation de vos données est très importante et vous aidera à mieux les comprendre.**

In [None]:
correlations = data.corr()['price']
correlations

Unnamed: 0,price
id,-0.016762
date,-0.004357
price,1.0
bedrooms,0.30835
bathrooms,0.525138
sqft_living,0.702035
sqft_lot,0.089661
floors,0.256794
waterfront,0.266369
view,0.397293


`data.corr()` : Cette partie du code calcule la matrice de corrélation pour toutes les colonnes numériques de votre DataFrame data.

*  Une matrice de corrélation est un tableau qui montre comment chaque colonne est liée à chaque autre colonne en termes de corrélation linéaire.
*  La corrélation est une valeur entre -1 et 1.
  *  1 indique une corrélation positive parfaite (lorsque une variable augmente, l'autre augmente également).
  *  -1 indique une corrélation négative parfaite (lorsque une variable augmente, l'autre diminue).
  *  0 indique qu'il n'y a pas de corrélation linéaire.

In [None]:
columns = list(correlations[correlations > 0.5].index)
columns

['price', 'bathrooms', 'sqft_living', 'grade', 'sqft_above', 'sqft_living15']

Ce code identifie et stocke dans une liste les noms des colonnes qui ont une forte corrélation positive (supérieure à 0.5) avec la colonne 'price'. Ces colonnes seront probablement les plus importantes pour prédire le prix des maisons et seront utilisées par la suite dans la construction du modèle de Machine Learning.
correlations
1.  `[correlations > 0.5]:`

*  `correlations > 0.5` crée un masque booléen. Il renvoie `True` pour chaque colonne où la corrélation avec 'price' est supérieure à 0.5, et `False` sinon.
*  `correlations[correlations > 0.5]` utilise ce masque pour sélectionner uniquement les éléments de `correlations` correspondant aux colonnes ayant une corrélation supérieure à 0.5 avec 'price'.
2.  `.index:` extrait les noms des colonnes des corrélations sélectionnées à l'étape précédente. Ce sont donc les noms des colonnes qui ont une forte corrélation positive avec 'price'.

Le processus d'analyse de données est plus complexe en réalité, il a été simplifié ici pour les besoins de cette formation.

### Prétraitement des données
Ici, vous devez préparer les données de manière à ce que votre algorithme puisse les comprendre (uniquement des nombres). Nous pouvons également mettre les données à l'échelle afin que chaque caractéristique soit à la même échelle.

Après l'analyse des données, nous réalisons que le code postal est en fait catégoriel, car les données numériques représentent un emplacement.
L'année de rénovation pourrait également être "difficile à comprendre pour le modèle", nous pouvons la simplifier en considérant plutôt le nombre d'années écoulées depuis la dernière rénovation.

In [None]:
# Turning zip_code into categorical
data['zipcode'] = data['zipcode'].astype(object)
data['zipcode'].unique()

array([98178, 98125, 98028, 98136, 98074, 98053, 98003, 98198, 98146,
       98038, 98007, 98115, 98107, 98126, 98019, 98103, 98002, 98133,
       98040, 98092, 98030, 98119, 98112, 98052, 98027, 98117, 98058,
       98001, 98056, 98166, 98023, 98070, 98148, 98105, 98042, 98008,
       98059, 98122, 98144, 98004, 98005, 98034, 98075, 98116, 98010,
       98118, 98199, 98032, 98045, 98102, 98077, 98108, 98168, 98177,
       98065, 98029, 98006, 98109, 98022, 98033, 98155, 98024, 98011,
       98031, 98106, 98072, 98188, 98014, 98055, 98039], dtype=object)

**Cet extrait de code transforme la colonne `zipcode` d'une représentation numérique en une représentation catégorielle, puis affiche les codes postaux distincts présents dans le jeu de données.**

**Les codes postaux sont catégoriels** : bien qu'ils soient représentés par des nombres, les codes postaux sont essentiellement des catégories représentant des zones géographiques. Les traiter comme des valeurs numériques pourrait induire en erreur le modèle de Machine Learning, car il pourrait supposer un ordre ou une relation entre les codes postaux qui n'existe pas en réalité (par exemple, qu'un code postal plus élevé est « meilleur » qu'un code postal plus bas).

*  `.astype(object)` est une méthode appliquée à la colonne `zipcode`. Elle modifie le type de données de la colonne en `object`. Dans Pandas, le type de données `object` est souvent utilisé pour représenter des données catégorielles (comme des chaînes de caractères ou des types mixtes).
*  `.unique()` est une méthode qui renvoie un tableau de toutes les valeurs uniques présentes dans la colonne.

**Meilleures performances du modèle** : en représentant les codes postaux comme des catégories, le modèle peut apprendre les caractéristiques spécifiques associées à chaque code postal sans faire d'hypothèses incorrectes basées sur des valeurs numériques. Cela peut conduire à une meilleure précision dans des tâches telles que la prédiction du prix des maisons.

In [None]:
# Calculating years before last renovation, considering date as the sales point
def years_since_renovation(df):
    if df['yr_renovated'] != 0:
        return int(df['date'].year) - df['yr_renovated']
    else:
        return int(df['date'].year) - df['yr_built']

data['yr_renovated_b4_sale'] = data.apply(years_since_renovation, axis=1)
data['yr_renovated_b4_sale']

Unnamed: 0,yr_renovated_b4_sale
0,59
1,23
2,82
3,49
4,28
...,...
21608,5
21609,1
21610,5
21611,11


Ce code permet de créer une nouvelle caractéristique (feature) pour le modèle de prédiction de prix des maisons, en calculant le nombre d'années écoulées depuis la dernière rénovation ou la construction, ce qui peut être un facteur important pour estimer la valeur d'une maison.

`apply` applique la fonction `years_since_renovation` à chaque **ligne** ( `axis=1`) du DataFrame `data`.

In [None]:
# now let's separate the columns we want to keep - high correlations + the ones we "preprocessed"
columns = columns + ['yr_renovated_b4_sale', 'zipcode']
columns

['price',
 'bathrooms',
 'sqft_living',
 'grade',
 'sqft_above',
 'sqft_living15',
 'yr_renovated_b4_sale',
 'zipcode']

Ce code sélectionne les caractéristiques (colonnes) qui seront utilisées pour prédire le prix des maisons. Il combine les caractéristiques ayant une forte corrélation avec le prix et celles qui ont été spécifiquement prétraitées pour l'analyse (`yr_renovated_b4_sale` et `zipcode`). La liste `columns` contient finalement tous les noms de ces caractéristiques sélectionnées.

In [None]:
data = data[columns]
data

Unnamed: 0,price,bathrooms,sqft_living,grade,sqft_above,sqft_living15,yr_renovated_b4_sale,zipcode
0,221900.0,1.00,1180,7,1180.0,1340,59,98178
1,538000.0,2.25,2570,7,2170.0,1690,23,98125
2,180000.0,1.00,770,6,770.0,2720,82,98028
3,604000.0,3.00,1960,7,1050.0,1360,49,98136
4,510000.0,2.00,1680,8,1680.0,1800,28,98074
...,...,...,...,...,...,...,...,...
21608,360000.0,2.50,1530,8,1530.0,1530,5,98103
21609,400000.0,2.50,2310,8,2310.0,1830,1,98146
21610,402101.0,0.75,1020,7,1020.0,1020,5,98144
21611,400000.0,2.50,1600,8,1600.0,1410,11,98027


In [None]:
data = pd.get_dummies(data, columns=['zipcode'])
data

Unnamed: 0,price,bathrooms,sqft_living,grade,sqft_above,sqft_living15,yr_renovated_b4_sale,zipcode_98001,zipcode_98002,zipcode_98003,...,zipcode_98146,zipcode_98148,zipcode_98155,zipcode_98166,zipcode_98168,zipcode_98177,zipcode_98178,zipcode_98188,zipcode_98198,zipcode_98199
0,221900.0,1.00,1180,7,1180.0,1340,59,False,False,False,...,False,False,False,False,False,False,True,False,False,False
1,538000.0,2.25,2570,7,2170.0,1690,23,False,False,False,...,False,False,False,False,False,False,False,False,False,False
2,180000.0,1.00,770,6,770.0,2720,82,False,False,False,...,False,False,False,False,False,False,False,False,False,False
3,604000.0,3.00,1960,7,1050.0,1360,49,False,False,False,...,False,False,False,False,False,False,False,False,False,False
4,510000.0,2.00,1680,8,1680.0,1800,28,False,False,False,...,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21608,360000.0,2.50,1530,8,1530.0,1530,5,False,False,False,...,False,False,False,False,False,False,False,False,False,False
21609,400000.0,2.50,2310,8,2310.0,1830,1,False,False,False,...,True,False,False,False,False,False,False,False,False,False
21610,402101.0,0.75,1020,7,1020.0,1020,5,False,False,False,...,False,False,False,False,False,False,False,False,False,False
21611,400000.0,2.50,1600,8,1600.0,1410,11,False,False,False,...,False,False,False,False,False,False,False,False,False,False


In [None]:
# after you deal with all categoricals, you can encode the dataset:
data = pd.get_dummies(data, dummy_na=False) #  Set dummy_na=False to avoid creating NaNs for missing values.
data = data.dropna() # Drop rows with any remaining NaNs after creating dummies.
data

Unnamed: 0,price,bathrooms,sqft_living,grade,sqft_above,sqft_living15,yr_renovated_b4_sale,zipcode_98001,zipcode_98002,zipcode_98003,...,zipcode_98146,zipcode_98148,zipcode_98155,zipcode_98166,zipcode_98168,zipcode_98177,zipcode_98178,zipcode_98188,zipcode_98198,zipcode_98199
0,221900.0,1.00,1180,7,1180.0,1340,59,False,False,False,...,False,False,False,False,False,False,True,False,False,False
1,538000.0,2.25,2570,7,2170.0,1690,23,False,False,False,...,False,False,False,False,False,False,False,False,False,False
2,180000.0,1.00,770,6,770.0,2720,82,False,False,False,...,False,False,False,False,False,False,False,False,False,False
3,604000.0,3.00,1960,7,1050.0,1360,49,False,False,False,...,False,False,False,False,False,False,False,False,False,False
4,510000.0,2.00,1680,8,1680.0,1800,28,False,False,False,...,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21608,360000.0,2.50,1530,8,1530.0,1530,5,False,False,False,...,False,False,False,False,False,False,False,False,False,False
21609,400000.0,2.50,2310,8,2310.0,1830,1,False,False,False,...,True,False,False,False,False,False,False,False,False,False
21610,402101.0,0.75,1020,7,1020.0,1020,5,False,False,False,...,False,False,False,False,False,False,False,False,False,False
21611,400000.0,2.50,1600,8,1600.0,1410,11,False,False,False,...,False,False,False,False,False,False,False,False,False,False


La plupart des algorithmes de Machine Learning ne peuvent pas traiter directement les données catégorielles sous forme de texte. Ils ont besoin de données numériques. L'encodage one-hot permet de transformer les catégories en un format numérique que les modèles peuvent comprendre et utiliser pour l'apprentissage.

**Dans le contexte du code fourni, `pd.get_dummies(data)` est utilisé pour encoder la variable `zipcode`, qui a été préalablement transformée en type catégoriel. Cela permet au modèle de Machine Learning d'utiliser les informations de code postal pour prédire le prix des maisons.**

`dummy_na=False` est ajouté pour empêcher `pd.get_dummies` de créer des colonnes supplémentaires pour représenter les valeurs manquantes (NaN) dans les colonnes catégorielles. Cela simplifie les données.

Le "Scaling" est également une technique bien connue [StandardScaler](https://towardsdatascience.com/how-and-why-to-standardize-your-data-996926c2c832) pour voir si vous pouvez obtenir de meilleurs résultats.

### Train the model

In [None]:
# First we split the features from the target
X = data.drop(columns=['price'])
y = data['price']

# Then we split the data into train and test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Trainning the model
model = LinearRegression()
model.fit(X_train, y_train)

### Évaluation du modèle : vérification des mesures de performance

Ces mesures fournissent des informations précieuses sur la capacité du modèle à prédire les prix des maisons en fonction des caractéristiques données.

In [None]:
# Getting predictions
predictions = model.predict(X_test)

# Checking our metrics
print('R2:', r2_score(y_test, predictions))
print('MAE:', mean_absolute_error(y_test, predictions))
# Calculate MSE without the 'squared' argument, then take the square root for RMSE
mse = mean_squared_error(y_test, predictions)
rmse = mse**0.5
print('RMSE:', rmse)

R2: 0.7612201923552787
MAE: 51353.04239954857
RMSE: 67355.6472700086


*  `r2_score(y_test, predictions)` calcule la valeur R au carré, une mesure statistique qui indique la qualité de l'ajustement du modèle. Il représente essentiellement la proportion de la variance de la variable cible (`y_test`, prix réels des maisons) qui est expliquée par les prédictions du modèle (`predictions`).
*  `mean_absolute_error(y_test, predictions)` calcule la MAE, qui est la différence absolue moyenne entre les valeurs prédites et les valeurs réelles. Elle donne une idée de l'erreur de prédiction moyenne dans les mêmes unités que la variable cible (par exemple, en dollars pour les prix des maisons).
*  `mean_squared_error(y_test, predictions)` : Cette fonction calcule l'erreur quadratique moyenne (MSE), qui est la moyenne des différences au carré entre les valeurs prédites et réelles. La mise au carré des erreurs donne plus de poids aux erreurs plus importantes. Le résultat est stocké dans la variable mse.
*  `rmse = mse**0.5` :** Cette ligne calcule la RMSE en prenant la racine carrée de la MSE. La RMSE est souvent préférée à la MSE car elle est dans les mêmes unités que la variable cible, ce qui la rend plus interprétable.

### Conclusions

Il reste encore beaucoup de travail à faire. Les erreurs sont importantes et nécessitent des analyses plus approfondies pour améliorer les résultats.

Des informations supplémentaires peuvent être obtenues en examinant les valeurs aberrantes. Dans ce cas précis, certaines maisons ont une valeur excessive, ce qui biaise notre droite de régression.

En tenant compte de cela, il est possible de supprimer les maisons de grande valeur, tout en étant conscient que le modèle aura une limitation : il ne fournira pas de prédictions fiables pour les maisons de grande valeur.
Si la prédiction des prix des maisons de grande valeur est cruciale, il serait nécessaire de disposer de davantage de données, notamment concernant les maisons de cette catégorie.

### EXTRA
Optimisation du modèle : retirer les maisons à forte valeur.

In [None]:
data['price'].describe()

Unnamed: 0,price
count,21611.0
mean,540085.0
std,367143.0
min,75000.0
25%,321725.0
50%,450000.0
75%,645000.0
max,7700000.0


In [None]:
data_filtered = data[data['price'] < 645000]
data_filtered

Unnamed: 0,price,bathrooms,sqft_living,grade,sqft_above,sqft_living15,yr_renovated_b4_sale,zipcode_98001,zipcode_98002,zipcode_98003,...,zipcode_98146,zipcode_98148,zipcode_98155,zipcode_98166,zipcode_98168,zipcode_98177,zipcode_98178,zipcode_98188,zipcode_98198,zipcode_98199
0,221900.0,1.00,1180,7,1180.0,1340,59,False,False,False,...,False,False,False,False,False,False,True,False,False,False
1,538000.0,2.25,2570,7,2170.0,1690,23,False,False,False,...,False,False,False,False,False,False,False,False,False,False
2,180000.0,1.00,770,6,770.0,2720,82,False,False,False,...,False,False,False,False,False,False,False,False,False,False
3,604000.0,3.00,1960,7,1050.0,1360,49,False,False,False,...,False,False,False,False,False,False,False,False,False,False
4,510000.0,2.00,1680,8,1680.0,1800,28,False,False,False,...,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21608,360000.0,2.50,1530,8,1530.0,1530,5,False,False,False,...,False,False,False,False,False,False,False,False,False,False
21609,400000.0,2.50,2310,8,2310.0,1830,1,False,False,False,...,True,False,False,False,False,False,False,False,False,False
21610,402101.0,0.75,1020,7,1020.0,1020,5,False,False,False,...,False,False,False,False,False,False,False,False,False,False
21611,400000.0,2.50,1600,8,1600.0,1410,11,False,False,False,...,False,False,False,False,False,False,False,False,False,False


In [None]:
# First we split the features from the target
X = data_filtered.drop(columns=['price'])
y = data_filtered['price']

# Then we split the data into train and test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Trainning the model
model = LinearRegression()
model.fit(X_train, y_train)

# Getting predictions
predictions = model.predict(X_test)

In [None]:
# Checking our metrics
print('R2:', r2_score(y_test, predictions))
print('MAE:', mean_absolute_error(y_test, predictions))
# Calculate MSE without the 'squared' argument, then take the square root for RMSE
mse = mean_squared_error(y_test, predictions)
rmse = mse**0.5  # Calculate RMSE manually
print('RMSE:', rmse)  # Print RMSE instead of MSE

R2: 0.7351453970393527
MAE: 48709.15134516134
RMSE: 65270.07580578702
