# Prédire le prix d’une propriété immobilière

Si l'on devait demander à des futurs propriétaires ce que serait la maison de leurs rêves, nous aurions surement autant de réponses différentes que de personnes à qui l'on a posé cette question.

Et pourtant, il serait intéressant de pouvoir prédire le prix d'une maison en fonction des de ces critères.

Pour cette prédiction, nous aurons besoin des librairies classiques Numpy, Pandas, Matplotlib. Nous importerons scikitlearn plus tard une fois que nous commencerons à nettoyer nos données puis appliquer notre modèle.

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

## Chargement du jeu de donnée via un fichier CSV

In [3]:
datasetV2 = pd.read_csv("/Users/vperrin/Downloads/train_House_V2.csv")

## Information sur le jeu de donnée

In [4]:
datasetV2.head()

Unnamed: 0,Home,Price,SqFt,Bedrooms,Bathrooms,Offers,Brick,Neighborhood
0,1,114300,1790,2,2,2,No,East
1,2,114200,2030,4,2,3,No,East
2,3,114800,1740,3,2,1,No,East
3,4,94700,1980,3,2,3,No,East
4,5,119800,2130,3,3,3,No,East


## Visualisation des données. 
### Dans ce cas, le prix de vente vis à vis de la taille du batiment.

In [None]:
plt.scatter(datasetV2["SqFt"], datasetV2["Price"])
plt.xlabel("Taille de la propriété")
plt.ylabel("Prix de vente")
plt.show()

### Que constatez-vous assez facilement comme corrélation entre la superficie et le prix ?

A première vue, hormis quelques données qui sortent du lot, on peut voir que si la taille de la propriété augmente ne serait-ce qu'un peu, le prix de la propriété augmente de beaucoup.

In [None]:
datasetV2.head()

## Maintenant il faut préparer le jeu de donnée

### Premièrement, remplacement des données textuelles

In [None]:
# Remplacement des données textuelles
datasetV2['Brick'] = datasetV2.Brick.replace({'Yes':0, 'No':1})

In [None]:
# Extraction des attributes/features
X = datasetV2.iloc[:, 2:-1].values
# Extraction de la cible/target
Y = datasetV2.iloc[:, 1:2].values

## Préparation du jeu de données

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size = 0.2)

## Entrainement du modèle

In [None]:
from sklearn.linear_model import LinearRegression
regressor_lr = LinearRegression()
regressor_lr.fit(X_train, y_train)

y_pred_lr = regressor_lr.predict(X_test)

In [None]:
overview_y_pred = y_pred_lr
overview_y_test = y_test

overview = pd.DataFrame(data=np.column_stack((overview_y_pred,overview_y_test)),
                        columns=['Predictions','Valeurs Réelles'])

overview.head()

## Evaluation du modèle
Notre modèle est construit et semble être capable de prédire de manière assez précise la valeur d'une propriété à quelques milliers d'euros près. Cependant, nous l'avons testé que sur les 5 premières valeurs.
Une manière assez simple d'évaluer notre modèle serait de voir l'écart moyen entre nos valeurs prédites et nos valeurs réelles. De cette manière, nous aurons une vue globale de la performance de notre modèle.

In [None]:
accuracy_lr = []

for i in range (0,26):
    if y_test[i] - y_pred_lr[i] < 0:
        accuracy_lr.append(y_pred_lr[i] - y_test[i])
    else:
        accuracy_lr.append(y_test[i] - y_pred_lr[i])


accuracy_lr = np.asarray(accuracy_lr)
accuracy_lr.mean()

Nous pouvons voir ici que nous avons un écart moyen entre nos valeurs réelles et nos valeurs prédites de 10992$. Ce qui correspond à 10% d'écart environs. Ce qui est vraiment bien pour un modèle de régression linéaire simple !

In [None]:
print("Training set score: {:.2f}".format(regressor_lr.score(X_train,y_train)))
print("Test set score: {:.2f} ".format(regressor_lr.score(X_test,y_test)))

### Bravo vous avez cre votre 1er modèle de régression linéaire.