## <center>House Prices Prediction</center>

Nous allons travailler sur un jeu de données qui contient des informations sur l'emplacement de la maison, le prix et d'autres aspects tels que la superficie, etc.

Notre objectif principal aujourd'hui est de créer un modèle qui puisse nous donner une bonne prédiction du prix de la maison en fonction des autres variables.

#### Importer les bibliothèques nécessaires :

In [None]:
import pandas as pd

import matplotlib.pyplot as plt
%matplotlib inline

#### Charger le jeu de données à partir du fichier kc_house_data.csv :




In [None]:
# Fill here

Field | Meaning
--- | ---
**id** | `A notation for a house`
**date** | `Date house was sold`
**price** | `Price is prediction target`
**bedrooms** | `Number of Bedrooms/House`
**bathrooms** | `Number of bathrooms/bedrooms`
**sqft_living** | `Square footage of the home`
**sqft_lot** | `Square footage of the lot`
**floors** | `Total floors (levels) in house`
**waterfront** | `House which has a view to a waterfront`
**view** | `Has been viewed`
**condition** | `How good the condition is Overall`
**grade** | `Overall grade given to the housing unit, based on King County grading system`
**sqft_above** | `Square footage of house apart from basement`
**sqft_basement** | `Square footage of the basement`
**yr_built** | `Built Year`
**yr_renovated** | `Year when house was renovated`
**zipcode** | `Zip code`
**lat** | `Latitude coordinate`
**long** | `Longitude coordinate`
**sqft_living15** | `Living room area in 2015(implies-- some renovations) This might or might not have affected the lotsize area`
**sqft_lot15** | `Lot size area in 2015 (implies-- some renovations)`

#### Exploration du jeu de données :
Utilisez la fonction "describe" pour voir les percentiles et autres statistiques clés.

In [None]:
data.describe()

* The dataset has a house where the house has 33 bedrooms.
* Maximum square feet is 13,450 where as the minimum is 290.
* ...

Quelle est la maison la plus courante (en termes de nombre de chambres) ?

In [None]:
data['bedrooms'].value_counts().plot(kind='bar')
plt.title("Number of Bedroom")
plt.xlabel("Bedrooms")
plt.ylabel("Count")

#### Visualisation de l'emplacement des maisons en fonction de la latitude et de la longitude :

Nous utiliserons **Seaborn**.

Il s'agit d'une bibliothèque de visualisation de données en Python basée sur Matplotlib qui fournit une interface de haut niveau pour créer des graphiques statistiques attrayants et informatifs.

In [None]:
import seaborn as sns

plt.figure(figsize=(10,10))
sns.jointplot(x=data.lat.values, y=data.long.values, height=10)
plt.ylabel('Longitude', fontsize=12)
plt.xlabel('Latitude', fontsize=12)
plt.show()

#### How common factors are affecting the price of the houses ?



1. Location :

In [None]:
plt.scatter(data.long, data.price)
plt.xlabel("Longitude")
plt.ylabel("Price")
plt.title("Price vs Location of the area")

In [None]:
plt.scatter(data.lat, data.price)
plt.xlabel("Latitude")
plt.ylabel("Price")
plt.title("Latitude vs Price")

2. Living area :

In [None]:
# Fill here

3. Bedrooms :

In [None]:
# Fill here

4. Square Footage :

In [None]:
# Fill here

5. View to a waterfront :

In [None]:
plt.scatter(data.waterfront, data.price)
plt.xlabel("Price")
plt.title("Waterfront vs Price (0 = no waterfront)")
plt.show()

6. Zip code :

In [None]:
plt.scatter(data.zipcode, data.price)
plt.xlabel("Price")
plt.ylabel("Zip Code")
plt.title("Which is the pricey location by zipcode?")
plt.show()

#### Heatmap :
Pour nous assurer que nous avons couvert toutes les relations, nous traçons une corrélation entre toutes les caractéristiques en utilisant une heatmap.

Une heatmap est une représentation graphique bidimensionnelle des données où les valeurs individuelles contenues dans une matrice sont représentées par des couleurs.

In [None]:
fig ,ax = plt.subplots(figsize=(20, 15))
colormap = sns.diverging_palette(220, 10, as_cmap=True)
sns.heatmap(data.corr(), annot=True, cmap=colormap)

#### Modèle :
1. Créer le modèle de régression linéaire.
2. Normalisation : Convertir la date en valeur booléenne (2014 en 1 et 2015 en 0).
3. Nettoyer les données en supprimant les caractéristiques inutiles...

In [None]:
# Fill here

In [None]:
data.tail()

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
21608,263000018,1,360000.0,3,2.5,1530,1131,3.0,0,0,...,8,1530,0,2009,0,98103,47.6993,-122.346,1530,1509
21609,6600060120,0,400000.0,4,2.5,2310,5813,2.0,0,0,...,8,2310,0,2014,0,98146,47.5107,-122.362,1830,7200
21610,1523300141,1,402101.0,2,0.75,1020,1350,2.0,0,0,...,7,1020,0,2009,0,98144,47.5944,-122.299,1020,2007
21611,291310100,0,400000.0,3,2.5,1600,2388,2.0,0,0,...,8,1600,0,2004,0,98027,47.5345,-122.069,1410,1287
21612,1523300157,1,325000.0,2,0.75,1020,1076,2.0,0,0,...,7,1020,0,2008,0,98144,47.5941,-122.299,1020,1357


4. Diviser les données.
5. Entraîner le modèle.
6. Calculer le score.

In [None]:
from sklearn.model_selection import train_test_split

# x_train , x_test , y_train , y_test


#### Pour améliorer le résultat, choisissez un autre modèle :
1.Créer le modèle.
https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingRegressor.html

In [None]:
# Fill here

2. Entraîner le modèle.
3. Calculer le score.

In [None]:
# Fill here

4. Effectuer des prédictions :

In [None]:
# Fill here