In [None]:
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
import numpy as np

__Import des données dans le dataframe "df" et paramétrage des options__

In [None]:
df = pd.read_csv("kc_house_data.preparation.csv")
pd.options.display.max_columns = 100
df.head()

__Conversion des dates__

In [None]:
df["date"] = pd.to_datetime(df["date"])
df.head()

__Conversion des pied² vers m²__

In [None]:
df["m2_habitable"] = round(df["m2_habitable"].apply(lambda x: x * 0.09290304))
df["m2_parcelle"] = round(df["m2_parcelle"].apply(lambda x: x * 0.09290304))
df["m2_etage"] = round(df["m2_etage"].apply(lambda x: x * 0.09290304))
df["m2_cave"] = round(df["m2_cave"].apply(lambda x: x * 0.09290304))
df["m2_habitable15"] = round(df["m2_habitable15"].apply(lambda x: x * 0.09290304))
df["m2_parcelle15"] = round(df["m2_parcelle15"].apply(lambda x: x * 0.09290304))
df.head()

In [None]:
df.describe()

__Passage des valeurs 0 de la colonne annee_renovation par la valeur de annee_construction__

In [None]:
df.loc[df["annee_renovation"] == 0, "annee_renovation"] = df["annee_construction"]
df.head()

__Graphique des corrélations entre les différents éléments__

In [None]:
#Recherche des corrélations via la méthode pearson
pearson = df.corr(method='pearson')

#Création de la heatmap
sns.set(rc={'figure.figsize':(30,12)})
mask = np.zeros_like(pearson)
mask[np.triu_indices_from(mask)] = True
with sns.axes_style("white"):
    ax = sns.heatmap(data=pearson, cmap="YlGnBu", mask=mask, vmax=1, annot=True, square=True)

__Création de colonnes pour chaque code postal différent et drop de l'ancienne colonne "cp"__

In [None]:
df = df.join(pd.get_dummies(df["cp"]))
df.drop("cp", axis=1, inplace=True)
df.head()

__Graphique : Prix - M2 Parcelle__

In [None]:
plt.scatter(df["prix"], df["m2_parcelle"], c=df["prix"])
plt.xlabel("Prix")
plt.ylabel("m2 parcelle")
plt.colorbar()

__Graphique : Prix - M2 Habitable__

In [None]:
sns.scatterplot(data = df , x= "prix", y = "m2_habitable")

__Graphique : Prix - Année de construction__

In [None]:
sns.scatterplot(data=df , x="annee_construction", y="prix")

__Graphique : Prix - Année de rénovation__

In [None]:
sns.lmplot(data=df[df["annee_renovation"] != df["annee_construction"]], x="annee_renovation", y="prix")

__Graphique de distribution du prix__

In [None]:
graph = sns.distplot(df["prix"], bins=200, fit=norm)
graph.set_title("Distribution du prix")
graph.set(xlim=(50000, 1800000))

__Distribution du prix des maisons par emplacement géographique__

In [None]:
plt.figure(figsize= (15,7))
plt.title("Prix des maisons par latitude et longitude")
sns.scatterplot(data=df, x="lon", y="lat", hue="prix", palette="RdYlGn")
plt.show()

__Distribution du prix des maisons en dessous du quartile de 75% par emplacement géographique__

In [None]:
df_prix75 = df[df["prix"]<6450000]

plt.figure(figsize= (15,7))
plt.title("Prix des maisons en dessous du quartile de 75%")
sns.scatterplot(data=df_prix75, x="lon", y="lat", hue="prix", palette="RdYlGn")
plt.show()

__Impact de la vue sur la mer sur le prix__

In [None]:
sns.violinplot(data=df , x="vue_mer", y="prix")

__Propension du nombre d'étages suivant les années de construction__

In [None]:
graph2 = sns.jointplot(data=df, x=df["annee_construction"], y=df["etages"], kind="kde", height=8)

__Propension du nombre de chambres suivant les années de construction__

In [None]:
graph3 = sns.jointplot(data=df, x=df["annee_construction"], y=df["chambres"], kind="kde", height=8)

__Propension du nombre du nombre de salle de bain suivant les années de construction__

In [None]:
graph4 = sns.jointplot(data=df, x=df["annee_construction"], y=df["salle_de_bain"], kind="kde", height=8)

__Export csv pour la modélisation__

In [None]:
#df.to_csv("kc_house_data.modelisation.csv", index=False)