# DS Data Mining

## Cas d'utilisation : Prix des Maisons

Ce dataset est centré sur les caractéristiques des maisons et leurs prix associés. Il contient un ensemble de variables décrivant divers aspects des propriétés résidentielles, telles que:



*   `id_maison` : l'identifiant de la maison
*   `nb_chambre` : nombre de chambres
*   `nb_wc` : nombre de salle de bains
*   `surface` : la surface de la maison
*   `date_creation` : la date de creation de la maison
*   `type` : le type de la maison
*   `équipement` : les équipements possibles dans la maison
*   `price` : le prix de la maison



 L'objectif principal de ce ds est d'explorer, pre-traiter et exporter les données

## Imports

In [None]:
import pandas as pd

## Charger les datasets

Objectif : Vous allez explorer différentes sources de données sur les maisons pour les combiner en une seule et unique dataset, prête à être transformée et analysée.

In [None]:
## chargez les 2 fichiers csv des maisons et faites la fusion

## chargement des fichiers csv
# df_1 = ?
# df_2 = ?

df_1 = pd.read_csv("maisons_partie_1.csv")
df_2 = pd.read_csv("maisons_partie_2.csv")
## fusion des fichiers csv

# df = ?
df = pd.concat([df_1, df_2])


In [None]:
df.shape

(1000, 8)

## Ajouter une maison
Vous êtes invités à ajouter une nouvelle ligne (Maison) à notre DataFrame.

les information de la maison à ajouter:

*   `id_maison` : 1001
*   `nb_chambre` : 3
*   `nb_wc` : 1
*   `surface` : 5000
*   `date_creation` : 11/10/2017
*   `type` : apartment
*   `équipement` : Internet
*   `price` : €1207,52

In [None]:
# creation d'une nouvelle ligne et l'ajout dans notre dataframe
# methode1
df.loc[len(df)] = [1001, 3, 1, 5000, "11/10/2017","apartment","Internet","€1207,52"]

# methode2
"""
new_row = pd.DataFrame({
    'id_maison': [1001],
    'nb_chambre': [3],
    'nb_wc': [1],
    'surface': [5000],
    'date_creation': "11/10/2017",
    'type': "apartment",
    'équipement': "Internet",
    'price': "€1207,52"
}, index = [1000])

df = pd.concat([df, new_row], ignore_index=False)
"""

'\nnew_row = pd.DataFrame({\n    \'id_maison\': [1001],\n    \'nb_chambre\': [3],\n    \'nb_wc\': [1],\n    \'surface\': [5000],\n    \'date_creation\': "11/10/2017",\n    \'type\': "apartment",\n    \'équipement\': "Internet",\n    \'price\': "€1207,52"\n}, index = [1000])\n\ndf = pd.concat([df, new_row], ignore_index=False)\n'

##  Changement d'index

Nous voulons changer l'index de notre dataframe en utilisant la colonne `id_maison`.

l'index doit être sous cette forme : `M1 , M2, M3 , ...... M1000`

In [None]:
# df.index = ?
df.index = df.apply(lambda maison : "M" + str(maison["id_maison"]), axis=1)

## Supprimer la colonne `id_maison`

In [None]:
# supprimer la colonne

# df =  ?
# methode 1
df.drop(["id_maison"],axis=1, inplace=True)
# methode2
# df = df.drop(["id_maison"],axis=1)

## Exploration de données

Dans cette partie, vous êtes amené à explorer les données de notre dataframe.

### Afficher les 7 premieres maison dans la dataframe

In [None]:
df.head(7)

Unnamed: 0,nb_chambre,nb_wc,surface,date_creation,type,équipement,price
M1,1,2,3278.0,11/17/2013,studio,,"€1787,57"
M2,3,1,4257.0,10/3/2009,studio,parking,"€1391,58"
M3,3,1,,11/10/2015,detached house,,"€531,79"
M4,3,3,1036.0,10/31/2003,detached house,,"€549,72"
M5,1,1,1220.0,11/13/2016,detached house,,"€1166,82"
M6,4,1,3667.0,11/18/2011,duplex,,"€1029,65"
M7,2,1,963.0,7/17/2016,apartment,,"€1590,35"


### Afficher les informations , les metadata de cette dataframe
(la fonction qui affiche les noms de colonnes , le nombre de valeurs non null et le type de chaque colonne)

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1001 entries, M1 to M1001
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   nb_chambre     1001 non-null   int64  
 1   nb_wc          1001 non-null   int64  
 2   surface        966 non-null    float64
 3   date_creation  1001 non-null   object 
 4   type           981 non-null    object 
 5   équipement     313 non-null    object 
 6   price          1001 non-null   object 
dtypes: float64(1), int64(2), object(4)
memory usage: 62.6+ KB


### Afficher combien de maisons ont des valeurs nulles sur la colonne `surface` , `type` et `équipement` (en utilisant python)

In [None]:
# vous pouvez utiliser des print

print("surface nulles: ",df[df.surface.isnull()].shape[0])
print("type nulles: ",df[df.type.isnull()].shape[0])
print("équipement nulles: ",df[df.équipement.isnull()].shape[0])

surface nulles:  35
type nulles:  20
équipement nulles:  688


### Selectionner les Maisons qui ont un type `studio` ou type `detached house`

In [None]:
df_studio_d_house = df[
    (df.type == "studio") |
    (df.type == "detached house")
]
#df_studio_d_house = ?
#df_studio_d_house

### Selectionner les Maisons qui ont un nombre de chambre supérieur à 2 et ont une surface supérieur à 1000

In [None]:
df_chb_sup_2 = df[
    (df.nb_chambre > 2) &
     (df.surface > 1000)
]
#df_chb_sup_2 = ?
#df_chb_sup_2

### Afficher `nb_chambre`, `nb_wc` pour la maison qui a un index `M5`

In [None]:
maison_m_5 = df.loc["M5"][["nb_chambre","nb_wc"]]
maison_m_5
#maison_m_5 = ?
#maison_m_5

nb_chambre    1
nb_wc         1
Name: M5, dtype: object

## Prétraitement des données

### Supprimer les colonnes qui ont plus que 50 % des valeurs nulles

In [None]:
df[df.columns[df.isnull().mean() < 0.5]]

Unnamed: 0,nb_chambre,nb_wc,surface,date_creation,type,price
M1,1,2,3278.0,11/17/2013,studio,"€1787,57"
M2,3,1,4257.0,10/3/2009,studio,"€1391,58"
M3,3,1,,11/10/2015,detached house,"€531,79"
M4,3,3,1036.0,10/31/2003,detached house,"€549,72"
M5,1,1,1220.0,11/13/2016,detached house,"€1166,82"
...,...,...,...,...,...,...
M997,2,1,589.0,12/17/2019,apartment,"€1307,42"
M998,1,3,3239.0,12/7/2003,studio,"€1077,06"
M999,1,2,3821.0,9/30/2005,studio,"€1978,59"
M1000,2,3,1509.0,12/21/2008,studio,"€1941,48"


In [None]:
#df = ?
df = df[df.columns[df.isnull().mean() < 0.5]]

### Pour le reste des colonnes qui ont des valuers nulles , appliquer la technique d'imputation

vous poouvez remplacer par la moyenne , le mode, la médiane pour les variables numeriques.

Pour les colonnes catégoriques, vous pouvez remplacer par la valeur la plus fréquente


In [None]:
# df = ?

df.fillna(
    {
    "surface" : df.surface.mean(),
    "type" : df.type.value_counts().idxmax()

    }, inplace = True
  )

### Changement de type

Changer le type de la colonne `Price` en type numerique(float)

In [None]:
# df = ?
def changer_type(value):
    return float(value.replace('€', '').replace(',', '.'))

In [None]:
#met1
#df['price'] = df['price'].apply(changer_type)
# met2
df['price'] = df['price'].str.replace('€', '').str.replace(',', '.').astype(float)

Changer le type de la colonne `date_creation` pour qu'elle soit de type `date`

In [None]:
df.date_creation=pd.to_datetime(df.date_creation)

Creer des nouvelles colonnes :

*   `date_jour` : extraire le jour à partir de la colonne `date_creation`.
*   `date_mois` : extraire le mois à partir de la colonne `date_creation`.
*   `date_annee` : extraire l'année à partir de la colonne `date_creation`.
*   `age_maison` : extraire l'age de la maison à partir de la colonne `date_creation`.



remarque: pas de boucle for 😃 et pour le calcul de l'age vous pouvez importer : `from datetime import datetime`



In [None]:
# importer le datetime
from datetime import datetime

# creation des colonnes
#df["date_jour"] = ?
#df["date_mois"] = ?
#df["date_annee"] =  ?
#df["age"] = ?
df["date_jour"] = df.date_creation.apply(lambda d : d.day)
df["date_mois"] = df.date_creation.apply(lambda d : d.month)
df["date_annee"] = df.date_creation.apply(lambda d : d.year)
df['age']=df.apply(lambda maison : datetime.now().year - maison['date_creation'].year, axis=1)

### Transformation des Variables catégoriques  

comme vous le savez, les machines ne comprennent pas le langage humain et les variables catégorielles, c'est pourquoi vous devez les convertir au format numérique.

Dans ce sens, vous pouvez utiliser la technique OneHotencoder.

rq : vous pouvez importer `from sklearn.preprocessing import OneHotEncoder`



In [None]:
# importer onehot enocder technique
from sklearn.preprocessing import OneHotEncoder
# initialiser l'encoder
ohe=OneHotEncoder()

In [None]:
# appliquer l'encoder sur la colonne categorique
#type_encoded = ?
type_encoded = ohe.fit_transform(df.loc[:,['type']]).toarray()

In [None]:
# ajouter l'array calculé dans l'etape precedente dans une dataframe
#df_type_encoded = ?
df_type_encoded = pd.DataFrame(type_encoded, columns='type_'+ohe.categories_[0], index=df.index)

In [None]:
# concatener cette dataframe avec notre dataframe df
#df = ?
df =pd.concat([df, df_type_encoded], axis=1)

### Supprimer les colonnes `type` & `date_creation`

In [None]:
#df = ?
df.drop(["type","date_creation"], axis=1, inplace=True, errors='ignore')

## Exporter les données

Dans cette partie, notre but est d'exporter notre data

### sélectionner les maisons qui ont été construites `après "2013"` et les exporter dans un `fichier csv`

In [None]:
# selectionner les maisons qui ont été construite après 2013
#df_sup_2013 = ?
df_sup_2013 = df[df.date_annee > 2013].copy()
# exporter ces maisons sous forme `csv`
# vous pouvez nommer le fichier maisons_sup_2013.csv

df_sup_2013.to_csv("maisons_sup_2013.csv",index=False)


## ML

importer la fonction qui divise la data en train et test

In [None]:
from sklearn.model_selection import train_test_split


nous sommes dans un regression task, donc on fait l'extraction des x ( les features) et les y (cible, variable dependante)

In [None]:
# les targets
y = df['price'].values
# les features , on laisse seulement les x et on supprime les prices
x = df.drop(["price"],axis=1).copy().values

In [None]:
# diviser notre data en train et test
# 80 % des donnees sont des train test

X_train, X_test, y_train, y_test = train_test_split(x, y, train_size=0.8)

On importe le modele du regression lineaire

In [None]:
from sklearn.linear_model import LinearRegression

init le modele

In [None]:
lr = LinearRegression()

entrainer le modele avec les données de training

In [None]:
lr.fit(X_train, y_train)

ici, juste on affiche les parametres que le modele a estimé durant le training


In [None]:
lr.coef_


array([-9.04591474e+00,  5.06182108e+00,  4.26943356e-04,  2.93479065e+00,
       -1.75114763e+01,  3.00540004e+01,  8.93676632e-01, -1.63709914e+01])

on teste notre modele, avec les données de test

In [None]:
y_test_pred= lr.predict(X_test)

evaluer le modele : on compare les valeurs réelles(y_test) vs les predicted values (y_test_pred)


In [None]:
from sklearn.metrics import r2_score
r2_score(y_test_pred, y_test)

-537.3414853389958