# **Lecture des données**

In [None]:
# Directive pour afficher les graphiques dans Jupyter
%matplotlib inline

In [None]:
# Pandas : librairie de manipulation des données
# NumPy : librairie de calcul scientifique
# MatPlotLib : librairie de visualisation et graphiques
# SeaBorn : librairie de graphiques avancés
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
import seaborn as sns

In [None]:
# Lecture des données d'apprentissage et de test
df = pd.read_csv("../input/housesalesprediction/kc_house_data.csv")

In [None]:
df.head().T

# **Interprétation des paramètres**
- id : id de la vente
- date : date de la vente
- price : prix de la vente
- bedrooms : nombre de chambre
- bathrooms : nombre de salle de bain
- sqft_living : surface de la maison
- sqft_lot : surface totale du terrain
- floors : nombre d'étage
- waterfront : vue sur la mer
- view :
- condition : note en fonction de l'age et de la qualité de la construction (1-5)
- grade : note en fonction de la qualité de la construction (1-13)
- sqft_above : surface de la maison - surface du sous-sol
- sqft_basement : surface du sous-sol
- yr_built : année de construction
- yr_renovated : année de rénovation
- zipcode : code postal
- lat : latitude
- long : longitude
- sqft_living15 : surface moyenne des 15 maisons les plus proches
- sqft_lot15 : surface moyenne des 15 terrains (maisons y compris) les plus proches

In [None]:
df.count()    # Comptage des valeurs par colonnes

> On remarque qu'il ne manque aucune valeur pour chaque colonne de la table

# **Visualisations des données de la table** 

> Quelques réprésentation du dataset

In [None]:
plt.figure(figsize = (8, 5))
sns.jointplot(df.sqft_living, df.price, 
              alpha = 0.5)
plt.xlabel('Sqft Living')
plt.ylabel('Sale Price')
plt.show()

In [None]:
condition = df['condition'].value_counts()

print("Nombre de logement par condition : ")
print(condition)

fig, ax = plt.subplots(ncols=2, figsize=(14,5))
sns.countplot(x='condition', data=df, ax=ax[0])
sns.boxplot(x='condition', y= 'price',
            data=df, ax=ax[1])
plt.show()

> *Trace les courbes de distribution de l'année de construction selon condition (utilisation de FacetGrid)*

In [None]:
fig = sns.FacetGrid(df, hue="condition", aspect=3, palette="Set1")
fig.map(sns.kdeplot, "yr_built", shade=True)
fig.add_legend()

> *Trace les courbes de distribution de l'année de construction selon le grade (utilisation de FacetGrid)*

In [None]:
fig = sns.FacetGrid(df, hue="grade", aspect=3, palette="Set1")
fig.map(sns.kdeplot, "yr_built", shade=True)
fig.add_legend()

# **Conditionnement des données**
Elimination des colonnes non pertinentes pour la prédiction, et placer le resultat dans la varible HouseSales

In [None]:
df.columns

In [None]:
# On élimine les colonnes non pertinentes pour la prédiction
HouseSales = df.drop(['id','date','lat','long'], axis=1)

In [None]:
HouseSales.count()

> On remarque qu'il ne manque aucune valeur

In [None]:
print("Prix Min :", HouseSales['price'].min())
print("Prix Moyen :", HouseSales['price'].mean())
print("Prix Médiant :",HouseSales['price'].median())
print("Prix Max :", HouseSales['price'].max())

# **Déséquilibre des distributions**
Certaines distributions sont déséquilibrées, et éloignées d'une loi normale :

In [None]:
sns.distplot(HouseSales['price'], color='blue')

In [None]:
HouseSales['log_price'] = np.log(HouseSales['price']+1)
sns.distplot(HouseSales['log_price'], color="blue")

In [None]:
# HouseSales = HouseSales.drop(['price'], axis=1)

**Mise à l'échelle des données quantitatives**

In [None]:
HouseSales[['yr_built', 'log_price']].describe()

In [None]:
sns.distplot(HouseSales.log_price, color='blue')
sns.distplot(HouseSales.yr_built, color='red')

In [None]:
# import de la librairie sklearn qui est une librairie de prétraitement des données
from sklearn import preprocessing

In [None]:
# normalisation des données pour ramener les valeurs min et max à 0 et 1
minmax = preprocessing.MinMaxScaler(feature_range=(0,1))
HouseSales[['yr_built', 'log_price']] = minmax.fit_transform(HouseSales[['yr_built', 'log_price']])

In [None]:
sns.distplot(HouseSales.log_price, color='blue')
sns.distplot(HouseSales.yr_built, color='red')

In [None]:
# normalisation des données pour ramener les valeurs ecart type et moyenne à 0 et 1
scaler = preprocessing.StandardScaler()
HouseSales[['yr_built', 'log_price']] = scaler.fit_transform(HouseSales[['yr_built', 'log_price']])

In [None]:
sns.distplot(HouseSales.log_price, color='blue')
sns.distplot(HouseSales.yr_built, color='red')

In [None]:
HouseSales.info()

# **Création des jeux d'apprentissage et de test**

In [None]:
X = HouseSales.drop(['price'], axis = 1)
Y = HouseSales['price']

In [None]:
# Séparation du dataset en deux parties :
from sklearn.model_selection import train_test_split

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=1)

In [None]:
print(X_train.shape)
print(Y_test.shape)

# **Régression logistique**
Appliquation d'une régression logistique pour classifier l'ensemble de test

In [None]:
from sklearn.linear_model import LogisticRegression

In [None]:
lr = LogisticRegression()
lr.fit(X_train,Y_train)

In [None]:
Y_lr = lr.predict(X_test)

# **Mesures de performance**

In [None]:
# Importation des méthodes de mesure de performances
from sklearn.metrics import classification_report, confusion_matrix, roc_curve, roc_auc_score,auc, accuracy_score

In [None]:
# Affichage de la matrice de confusion :
print(confusion_matrix(Y_test, Y_lr))

In [None]:
# Affichage du score de performance
print(accuracy_score(Y_test, Y_lr))

In [None]:
# Affichage du rapport de classification
print(classification_report(Y_test, Y_lr))