# 👩‍💻 Activité 1 : analyse exploratoire des données (EDA) et pré-traitement des données

<img src="https://cdn.pixabay.com/photo/2017/07/22/11/46/adventure-2528477_1280.jpg" alt="rubik" width="400"/>

#### [Pierre-Loic BAYART](https://www.linkedin.com/in/pierreloicbayart/) - Formation développeur d'applications spécialisation data analyst - Webforce3 - Grenoble Ecole de Management

### Code pour indiquer l'importance des notions traitées dans cette activité

- #### 🥇 : connaissance fondamentale pour l'analyse de données
- #### 🥈 : connaissance importante pour l'analyse de données
- #### 🥉 : connaissance moins importante pour l'analyse de données
> Si rien n'est indiqué, il s'agit de connaissances fondamentales pour l'analyse de données

## 🔍 Recherche d'informations

En recherchant sur le web, trouver les réponses aux questions suivantes :
### - Quel est l'intérêt d'écrire des fonctions Python pour traiter des données ?
___
Cela permet d'**automatiser** et de **tester** le pré-traitement des données en amont de l'entrainement d'un modèle de machine learning.
___
### - Pourquoi est-il important de créer des fonctions Python courtes ?
___
Les fonctions courtes sont plus **facilement testables**.
___
### - Qu'est-ce que l'ingénierie des caractéristiques (feature engineering) ?
___
L'ingénierie des caractéristiques consiste à utiliser des **connaissances métier** et les données qui en découlent pour extraire des propriétés pour les **ajouter au jeu de données**.
___
### - Comment faire de l'ingénierie des caractéristiques avec des données temporelles ?
___
On peut indiquer à quel jour de la semaine correspond la date, s'il s'agit d'un jour férié...
___

## ✏️ Activités

Dans cette activité, nous allons travailler avec le fichier des transactions immobilières par département que l'on peut récupérer à cette url : https://files.data.gouv.fr/geo-dvf/latest/csv/2022/departements/

- Compléter la fonction Python suivante **`get_dvf_data()`** pour qu'elle retourne le **dataframe** des données immobilières de l'**année** et du **département** choisis en paramètres. Créer un dataframe de données grâce à cette fonction

In [1]:
from datetime import date
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

In [2]:
def get_dvf_data(year: str = "2022", department: str = "38") -> pd.DataFrame:
    """
    Renvoie un dataframe des données des transactions immobilières d'une année pour un département
        Parameters:
                year (str): années des données
                department (str): numéro de département des données sur 2 chiffres (01, 02...)
        Returns:
                df (pandas.DataFrame): dataframe des données immobilières
    """
    url = f"https://files.data.gouv.fr/geo-dvf/latest/csv/{year}/departements/{department}.csv.gz"
    df = pd.read_csv(url, compression="gzip")
    return df

In [3]:
df = get_dvf_data(year="2022", department="38")
df

Unnamed: 0,id_mutation,date_mutation,numero_disposition,nature_mutation,valeur_fonciere,adresse_numero,adresse_suffixe,adresse_nom_voie,adresse_code_voie,code_postal,...,type_local,surface_reelle_bati,nombre_pieces_principales,code_nature_culture,nature_culture,code_nature_culture_speciale,nature_culture_speciale,surface_terrain,longitude,latitude
0,2022-179716,2022-01-07,1,Vente,229000.0,20.0,,RTE D URIAGE,0200,38320.0,...,Appartement,64.0,2.0,,,,,,5.791164,45.139141
1,2022-179716,2022-01-07,1,Vente,229000.0,20.0,,RTE D URIAGE,0200,38320.0,...,Dépendance,,0.0,,,,,,5.791164,45.139141
2,2022-179717,2022-01-07,1,Vente,185000.0,5.0,,PL SAINT-BRUNO,6140,38000.0,...,Local industriel. commercial ou assimilé,260.0,0.0,,,,,,5.714881,45.187343
3,2022-179718,2022-01-04,1,Vente,151500.0,20.0,,RUE DOCTEUR HERMITE,2161,38000.0,...,Dépendance,,0.0,,,,,,5.711105,45.181912
4,2022-179718,2022-01-04,1,Vente,151500.0,20.0,,RUE DOCTEUR HERMITE,2161,38000.0,...,Appartement,54.0,2.0,,,,,,5.711105,45.181912
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5888,2022-182181,2022-02-07,6,Echange,,,,TETE FIERE,B113,38840.0,...,,,,BT,taillis simples,,,380.0,5.175753,45.097939
5889,2022-182181,2022-02-07,6,Echange,,,,TETE FIERE,B113,38840.0,...,,,,BT,taillis simples,,,1664.0,5.175532,45.097856
5890,2022-182182,2022-02-07,7,Echange,870.5,,,BOIS ROIBON,B015,38840.0,...,,,,BT,taillis simples,,,2390.0,5.174435,45.091118
5891,2022-182183,2022-01-25,1,Adjudication,138000.0,,,LA TERRASSE,B077,38210.0,...,,,,S,sols,,,49.0,5.537115,45.274085


- Compléter la fonction Python suivante **`select_columns()`** pour qu'elle sélectionne **certaines colonnes** du dataframe suivant un **tuple fourni en paramètre**

In [4]:
def select_columns(house_dataframe: pd.DataFrame, selected_columns: tuple[str]) -> pd.DataFrame:
    """
    Renvoie un dataframe des données avec uniquement les colonnes sélectionnées
        Parameters:
                house_dataframe (pandas.DataFrame): dataframe des données immobilières
                selected_columns (tuple[str]): tuple contenant les noms des colonnes du dataframe à sélectionner
        Returns:
                df (pandas.DataFrame): dataframe des données immobilières traitées
    """
    df = house_dataframe.copy()
    return df.loc[:,selected_columns]

In [5]:
selected_columns = (
    "date_mutation", "valeur_fonciere", "surface_reelle_bati",
    "nombre_pieces_principales", "longitude", "latitude",
    "type_local", "nature_mutation",
)
df = select_columns(df, selected_columns)
df

Unnamed: 0,date_mutation,valeur_fonciere,surface_reelle_bati,nombre_pieces_principales,longitude,latitude,type_local,nature_mutation
0,2022-01-07,229000.0,64.0,2.0,5.791164,45.139141,Appartement,Vente
1,2022-01-07,229000.0,,0.0,5.791164,45.139141,Dépendance,Vente
2,2022-01-07,185000.0,260.0,0.0,5.714881,45.187343,Local industriel. commercial ou assimilé,Vente
3,2022-01-04,151500.0,,0.0,5.711105,45.181912,Dépendance,Vente
4,2022-01-04,151500.0,54.0,2.0,5.711105,45.181912,Appartement,Vente
...,...,...,...,...,...,...,...,...
5888,2022-02-07,,,,5.175753,45.097939,,Echange
5889,2022-02-07,,,,5.175532,45.097856,,Echange
5890,2022-02-07,870.5,,,5.174435,45.091118,,Echange
5891,2022-01-25,138000.0,,,5.537115,45.274085,,Adjudication


- Compléter la fonction Python suivante **`select_type()`** pour qu'elle sélectionne **uniquement** les **appartements** et les **maisons**. Vérifier son bon fonctionnement

In [6]:
def select_type(house_dataframe: pd.DataFrame, house_types: tuple[str]) -> pd.DataFrame:
    """
    Renvoie un dataframe des données avec uniquement les données des types d'habitations sélectionnées
        Parameters:
                house_dataframe (pandas.DataFrame): dataframe des données immobilières
                house_types (tuple[str]): tuple contenant les noms des types d'habitations à sélectionner
        Returns:
                df (pandas.DataFrame): dataframe des données immobilières traitées
    """
    df = house_dataframe.copy()
    return df[df["type_local"].isin(house_types)]

In [7]:
df = select_type(df, ("Maison", "Appartement"))
df

Unnamed: 0,date_mutation,valeur_fonciere,surface_reelle_bati,nombre_pieces_principales,longitude,latitude,type_local,nature_mutation
0,2022-01-07,229000.0,64.0,2.0,5.791164,45.139141,Appartement,Vente
4,2022-01-04,151500.0,54.0,2.0,5.711105,45.181912,Appartement,Vente
6,2022-01-03,62000.0,66.0,3.0,5.702079,45.144146,Appartement,Vente
7,2022-01-07,110000.0,65.0,4.0,5.766423,45.183840,Appartement,Vente
9,2022-01-10,157000.0,100.0,5.0,5.708358,45.173086,Appartement,Vente
...,...,...,...,...,...,...,...,...
5817,2022-06-29,416901.0,48.0,3.0,5.615595,45.550246,Maison,Vente
5818,2022-06-29,416901.0,150.0,4.0,5.615595,45.550246,Maison,Vente
5819,2022-06-29,416901.0,48.0,3.0,5.615595,45.550246,Maison,Vente
5823,2022-06-27,360000.0,102.0,4.0,5.190719,45.752555,Maison,Vente


In [8]:
df["type_local"].value_counts()

Appartement    1354
Maison          565
Name: type_local, dtype: int64

- Compléter la fonction Python suivante **`select_sales()`** pour qu'elle sélectionne **uniquement** les **ventes**. Vérifier son bon fonctionnement

In [9]:
def select_sales(house_dataframe: pd.DataFrame) -> pd.DataFrame:
    """
    Renvoie un dataframe des données avec uniquement les données des ventes
        Parameters:
                house_dataframe (pandas.DataFrame): dataframe des données immobilières
        Returns:
                df (pandas.DataFrame): dataframe des données immobilières traitées
    """
    df = house_dataframe.copy()
    return df[df["nature_mutation"]=="Vente"]

In [10]:
df = select_sales(df)
df

Unnamed: 0,date_mutation,valeur_fonciere,surface_reelle_bati,nombre_pieces_principales,longitude,latitude,type_local,nature_mutation
0,2022-01-07,229000.0,64.0,2.0,5.791164,45.139141,Appartement,Vente
4,2022-01-04,151500.0,54.0,2.0,5.711105,45.181912,Appartement,Vente
6,2022-01-03,62000.0,66.0,3.0,5.702079,45.144146,Appartement,Vente
7,2022-01-07,110000.0,65.0,4.0,5.766423,45.183840,Appartement,Vente
9,2022-01-10,157000.0,100.0,5.0,5.708358,45.173086,Appartement,Vente
...,...,...,...,...,...,...,...,...
5816,2022-06-29,416901.0,150.0,4.0,5.615595,45.550246,Maison,Vente
5817,2022-06-29,416901.0,48.0,3.0,5.615595,45.550246,Maison,Vente
5818,2022-06-29,416901.0,150.0,4.0,5.615595,45.550246,Maison,Vente
5819,2022-06-29,416901.0,48.0,3.0,5.615595,45.550246,Maison,Vente


In [11]:
df["nature_mutation"].value_counts()

Vente    1897
Name: nature_mutation, dtype: int64

- Compléter la fonction Python suivante **`drop_na()`** pour qu'elle supprime les lignes avec des données manquantes et affiche le nombre de lignes supprimées. Vérifier son bon fonctionnement

In [12]:
def drop_na(house_dataframe: pd.DataFrame) -> pd.DataFrame:
    """
    Renvoie un dataframe des données sans données manquantes
        Parameters:
                house_dataframe (pandas.DataFrame): dataframe des données immobilières
        Returns:
                df (pandas.DataFrame): dataframe des données immobilières traitées
    """
    df = house_dataframe.copy()
    print(f"Nombre de lignes supprimées : {df.shape[0]-df.dropna().shape[0]}")
    return df.dropna()

In [13]:
df = drop_na(df)

Nombre de lignes supprimées : 0


- Compléter la fonction Python suivante **`check_na()`** pour qu'elle vérifie qu'il **ne reste plus** de valeurs manquantes. Si ce n'est pas le cas, **afficher le nombre** des **valeurs manquantes** par colonne et le **graphique des valeurs manquantes**

In [14]:
def check_na(house_dataframe: pd.DataFrame) -> None:
    """
    Renvoie le nombre de données manquantes
        Parameters:
                house_dataframe (pandas.DataFrame): dataframe des données immobilières
        Returns:
                None
    """
    df = house_dataframe.copy()
    if df.isna().sum().sum()==0:
        print("Il n'y a pas de données manquantes dans le dataframe")
    else:
        print("Nombre de données manquantes par colonne :")
        print(df.isna().sum())
        sns.heatmap(df.isna(), cbar=False)
        plt.show()

In [15]:
check_na(df)

Il n'y a pas de données manquantes dans le dataframe


- Compléter la fonction Python suivante **`split_datetime()`** pour qu'elle transforme la colonne "date_mutation" en objet "datetime" et crée deux colonnes pour le **numéro du jour dans la semaine** de l'achat et le **nombre de jours passés depuis l'achat**

> ℹ️ les fonctions suivantes peuvent être utiles :
> - [pandas.to_datetime](https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html)
> - [pandas.Series.dt.dayofweek](https://pandas.pydata.org/docs/reference/api/pandas.Series.dt.dayofweek.html)
> - [pandas.Series.dt.days](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.dt.days.html)
> - [pandas.Timestamp.now](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Timestamp.now.html)

In [16]:
def split_datetime(house_dataframe: pd.DataFrame) -> None:
    """
    Transforme la colonne "date_mutation" en objet "datetime" et crée deux colonnes
    pour le numéro du jour dans la semaine de l'achat et le nombre de jours passés depuis l'achat
        Parameters:
                house_dataframe (pandas.DataFrame): dataframe des données immobilières
        Returns:
                df (pandas.DataFrame): dataframe des données immobilières traitées
    """
    df = house_dataframe.copy()
    df["date_mutation"] = pd.to_datetime(df["date_mutation"])
    df["jour_semaine"] = df["date_mutation"].dt.dayofweek
    df["jours_depuis_achat"] = (pd.Timestamp.now()-df["date_mutation"]).dt.days
    return df

In [17]:
df = split_datetime(df)

In [18]:
df

Unnamed: 0,date_mutation,valeur_fonciere,surface_reelle_bati,nombre_pieces_principales,longitude,latitude,type_local,nature_mutation,jour_semaine,jours_depuis_achat
0,2022-01-07,229000.0,64.0,2.0,5.791164,45.139141,Appartement,Vente,4,339
4,2022-01-04,151500.0,54.0,2.0,5.711105,45.181912,Appartement,Vente,1,342
6,2022-01-03,62000.0,66.0,3.0,5.702079,45.144146,Appartement,Vente,0,343
7,2022-01-07,110000.0,65.0,4.0,5.766423,45.183840,Appartement,Vente,4,339
9,2022-01-10,157000.0,100.0,5.0,5.708358,45.173086,Appartement,Vente,0,336
...,...,...,...,...,...,...,...,...,...,...
5816,2022-06-29,416901.0,150.0,4.0,5.615595,45.550246,Maison,Vente,2,166
5817,2022-06-29,416901.0,48.0,3.0,5.615595,45.550246,Maison,Vente,2,166
5818,2022-06-29,416901.0,150.0,4.0,5.615595,45.550246,Maison,Vente,2,166
5819,2022-06-29,416901.0,48.0,3.0,5.615595,45.550246,Maison,Vente,2,166


- Compléter la fonction Python suivante **`drop_columns()`** pour qu'elle **supprime les colonnes non utiles** pour l'entrainement du modèle de régression : "date_mutation" et "nature_mutation"

In [19]:
def drop_columns(house_dataframe: pd.DataFrame, columns_to_drop: list[str]) -> pd.DataFrame:
    """
    Renvoie un dataframe des données avec uniquement les colonnes sélectionnées
        Parameters:
                house_dataframe (pandas.DataFrame): dataframe des données immobilières
                columns_to_drop (list[str]): liste contenant les noms des colonnes du dataframe à supprimer
        Returns:
                df (pandas.DataFrame): dataframe des données immobilières traitées
    """
    df = house_dataframe.copy()
    return df.drop(columns_to_drop, axis=1)

In [20]:
df = drop_columns(df, ["date_mutation", "nature_mutation"])
df

Unnamed: 0,valeur_fonciere,surface_reelle_bati,nombre_pieces_principales,longitude,latitude,type_local,jour_semaine,jours_depuis_achat
0,229000.0,64.0,2.0,5.791164,45.139141,Appartement,4,339
4,151500.0,54.0,2.0,5.711105,45.181912,Appartement,1,342
6,62000.0,66.0,3.0,5.702079,45.144146,Appartement,0,343
7,110000.0,65.0,4.0,5.766423,45.183840,Appartement,4,339
9,157000.0,100.0,5.0,5.708358,45.173086,Appartement,0,336
...,...,...,...,...,...,...,...,...
5816,416901.0,150.0,4.0,5.615595,45.550246,Maison,2,166
5817,416901.0,48.0,3.0,5.615595,45.550246,Maison,2,166
5818,416901.0,150.0,4.0,5.615595,45.550246,Maison,2,166
5819,416901.0,48.0,3.0,5.615595,45.550246,Maison,2,166


- Compléter la fonction Python suivante **`to_csv()`** pour qu'elle **crée un fichier CSV** à partir du dataframe fourni avec comme nom la date de création du fichier et les méta-données "département" et "année"

In [21]:
from datetime import date

In [22]:
def to_csv(house_dataframe: pd.DataFrame, year: str, department: str) -> None:
    """
    Crée un fichier CSV des données du dataframe
        Parameters:
                house_dataframe (pandas.DataFrame): dataframe des données immobilières
                year (str): années des données
                department (str): numéro de département des données sur 2 chiffres (01, 02...)
        Returns:
                None
    """
    df = house_dataframe.copy()
    name = f"DVF_{year}_{department}_{str(date.today())}.csv"
    df.to_csv(name, index=False)

In [23]:
to_csv(df, "2022", "38")

- Compléter le code du **module `dvfprep.py`** en y ajoutant toutes les **fonctions créées** dans ce notebook

## 🚀 Pour aller plus loin

- [Feature Engineering](https://en.wikipedia.org/wiki/Feature_engineering)
- [Art of Feature Engineering for Data Science - Nabeel Sarwar](https://www.youtube.com/watch?v=leTyvBPhYzw)


___
*👨‍🏫 [Pierre-Loic BAYART](https://www.linkedin.com/in/pierreloicbayart/) - Formation développeur d'applications spécialisation data analyst - Webforce3 - Grenoble Ecole de Management*
___
Source images d'illustration : Image par MasterTux de Pixabay