# 👩‍💻 Activité 1 : analyse exploratoire des données (EDA) et pré-traitement des données

<img src="https://cdn.pixabay.com/photo/2017/07/22/11/46/adventure-2528477_1280.jpg" alt="rubik" width="400"/>

#### [Pierre-Loic BAYART](https://www.linkedin.com/in/pierreloicbayart/) - Formation développeur d'applications spécialisation data analyst - Webforce3 - Grenoble Ecole de Management

### Code pour indiquer l'importance des notions traitées dans cette activité

- #### 🥇 : connaissance fondamentale pour l'analyse de données
- #### 🥈 : connaissance importante pour l'analyse de données
- #### 🥉 : connaissance moins importante pour l'analyse de données
> Si rien n'est indiqué, il s'agit de connaissances fondamentales pour l'analyse de données

## 🔍 Recherche d'informations

En recherchant sur le web, trouver les réponses aux questions suivantes :
### - Quel est l'intérêt d'écrire des fonctions Python pour traiter des données ?
___
Cela permet d'**automatiser** et de **tester** le pré-traitement des données en amont de l'entrainement d'un modèle de machine learning.
___
### - Pourquoi est-il important de créer des fonctions Python courtes ?
___
Les fonctions courtes sont plus **facilement testables**.
___
### - Qu'est-ce que l'ingénierie des caractéristiques (feature engineering) ?
___
L'ingénierie des caractéristiques consiste à utiliser des **connaissances métier** et les données qui en découlent pour extraire des propriétés pour les **ajouter au jeu de données**.
___
### - Comment faire de l'ingénierie des caractéristiques avec des données temporelles ?
___
On peut indiquer à quel jour de la semaine correspond la date, s'il s'agit d'un jour férié...
___

## ✏️ Activités

Dans cette activité, nous allons travailler avec le fichier des transactions immobilières par département que l'on peut récupérer à cette url : https://files.data.gouv.fr/geo-dvf/latest/csv/2022/departements/

- Compléter la fonction Python suivante **`get_dvf_data()`** pour qu'elle retourne le **dataframe** des données immobilières de l'**année** et du **département** choisis en paramètres. Créer un dataframe de données grâce à cette fonction

In [None]:
from datetime import date
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
def get_dvf_data(year: str = "2022", department: str = "38") -> pd.DataFrame:
    """
    Renvoie un dataframe des données des transactions immobilières d'une année pour un département
        Parameters:
                year (str): années des données
                department (str): numéro de département des données sur 2 chiffres (01, 02...)
        Returns:
                df (pandas.DataFrame): dataframe des données immobilières
    """
    url = f"https://files.data.gouv.fr/geo-dvf/latest/csv/{year}/departements/{department}.csv.gz"
    df = pd.read_csv(url, compression="gzip")
    return df

In [None]:
df = get_dvf_data(year="2022", department="38")
df

- Compléter la fonction Python suivante **`select_columns()`** pour qu'elle sélectionne **certaines colonnes** du dataframe suivant un **tuple fourni en paramètre**

In [None]:
def select_columns(house_dataframe: pd.DataFrame, selected_columns: tuple[str]) -> pd.DataFrame:
    """
    Renvoie un dataframe des données avec uniquement les colonnes sélectionnées
        Parameters:
                house_dataframe (pandas.DataFrame): dataframe des données immobilières
                selected_columns (tuple[str]): tuple contenant les noms des colonnes du dataframe à sélectionner
        Returns:
                df (pandas.DataFrame): dataframe des données immobilières traitées
    """
    df = house_dataframe.copy()
    return df.loc[:,selected_columns]

In [None]:
selected_columns = (
    "date_mutation", "valeur_fonciere", "surface_reelle_bati",
    "nombre_pieces_principales", "longitude", "latitude",
    "type_local", "nature_mutation",
)
df = select_columns(df, selected_columns)
df

- Compléter la fonction Python suivante **`select_type()`** pour qu'elle sélectionne **uniquement** les **appartements** et les **maisons**. Vérifier son bon fonctionnement

In [None]:
def select_type(house_dataframe: pd.DataFrame, house_types: tuple[str]) -> pd.DataFrame:
    """
    Renvoie un dataframe des données avec uniquement les données des types d'habitations sélectionnées
        Parameters:
                house_dataframe (pandas.DataFrame): dataframe des données immobilières
                house_types (tuple[str]): tuple contenant les noms des types d'habitations à sélectionner
        Returns:
                df (pandas.DataFrame): dataframe des données immobilières traitées
    """
    df = house_dataframe.copy()
    return df[df["type_local"].isin(house_types)]

In [None]:
df = select_type(df, ("Maison", "Appartement"))
df

In [None]:
df["type_local"].value_counts()

- Compléter la fonction Python suivante **`select_sales()`** pour qu'elle sélectionne **uniquement** les **ventes**. Vérifier son bon fonctionnement

In [None]:
def select_sales(house_dataframe: pd.DataFrame) -> pd.DataFrame:
    """
    Renvoie un dataframe des données avec uniquement les données des ventes
        Parameters:
                house_dataframe (pandas.DataFrame): dataframe des données immobilières
        Returns:
                df (pandas.DataFrame): dataframe des données immobilières traitées
    """
    df = house_dataframe.copy()
    return df[df["nature_mutation"]=="Vente"]

In [None]:
df = select_sales(df)
df

In [None]:
df["nature_mutation"].value_counts()

- Compléter la fonction Python suivante **`drop_na()`** pour qu'elle supprime les lignes avec des données manquantes et affiche le nombre de lignes supprimées. Vérifier son bon fonctionnement

In [None]:
def drop_na(house_dataframe: pd.DataFrame) -> pd.DataFrame:
    """
    Renvoie un dataframe des données sans données manquantes
        Parameters:
                house_dataframe (pandas.DataFrame): dataframe des données immobilières
        Returns:
                df (pandas.DataFrame): dataframe des données immobilières traitées
    """
    df = house_dataframe.copy()
    print(f"Nombre de lignes supprimées : {df.shape[0]-df.dropna().shape[0]}")
    return df.dropna()

In [None]:
df = drop_na(df)

- Compléter la fonction Python suivante **`check_na()`** pour qu'elle vérifie qu'il **ne reste plus** de valeurs manquantes. Si ce n'est pas le cas, **afficher le nombre** des **valeurs manquantes** par colonne et le **graphique des valeurs manquantes**

In [None]:
def check_na(house_dataframe: pd.DataFrame) -> None:
    """
    Renvoie le nombre de données manquantes
        Parameters:
                house_dataframe (pandas.DataFrame): dataframe des données immobilières
        Returns:
                None
    """
    df = house_dataframe.copy()
    if df.isna().sum().sum()==0:
        print("Il n'y a pas de données manquantes dans le dataframe")
    else:
        print("Nombre de données manquantes par colonne :")
        print(df.isna().sum())
        sns.heatmap(df.isna(), cbar=False)
        plt.show()

In [None]:
check_na(df)

- Compléter la fonction Python suivante **`split_datetime()`** pour qu'elle transforme la colonne "date_mutation" en objet "datetime" et crée deux colonnes pour le **numéro du jour dans la semaine** de l'achat et le **nombre de jours passés depuis l'achat**

> ℹ️ les fonctions suivantes peuvent être utiles :
> - [pandas.to_datetime](https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html)
> - [pandas.Series.dt.dayofweek](https://pandas.pydata.org/docs/reference/api/pandas.Series.dt.dayofweek.html)
> - [pandas.Series.dt.days](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.dt.days.html)
> - [pandas.Timestamp.now](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Timestamp.now.html)

- Compléter la fonction Python suivante **`drop_columns()`** pour qu'elle **supprime les colonnes non utiles** pour l'entrainement du modèle de régression : "date_mutation" et "nature_mutation"

- Compléter la fonction Python suivante **`to_csv()`** pour qu'elle **crée un fichier CSV** à partir du dataframe fourni avec comme nom la date de création du fichier et les méta-données "département" et "année"

- Compléter le code du **module `dvfprep.py`** en y ajoutant toutes les **fonctions créées** dans ce notebook

## 🚀 Pour aller plus loin

- [Feature Engineering](https://en.wikipedia.org/wiki/Feature_engineering)
- [Art of Feature Engineering for Data Science - Nabeel Sarwar](https://www.youtube.com/watch?v=leTyvBPhYzw)


___
*👨‍🏫 [Pierre-Loic BAYART](https://www.linkedin.com/in/pierreloicbayart/) - Formation développeur d'applications spécialisation data analyst - Webforce3 - Grenoble Ecole de Management*
___
Source images d'illustration : Image par MasterTux de Pixabay