# üë©‚Äçüíª Activit√© 1 : analyse exploratoire des donn√©es (EDA) et pr√©-traitement des donn√©es

<img src="https://cdn.pixabay.com/photo/2017/07/22/11/46/adventure-2528477_1280.jpg" alt="rubik" width="400"/>

#### [Pierre-Loic BAYART](https://www.linkedin.com/in/pierreloicbayart/) - Formation d√©veloppeur d'applications sp√©cialisation data analyst - Webforce3 - Grenoble Ecole de Management

### Code pour indiquer l'importance des notions trait√©es dans cette activit√©

- #### ü•á : connaissance fondamentale pour l'analyse de donn√©es
- #### ü•à : connaissance importante pour l'analyse de donn√©es
- #### ü•â : connaissance moins importante pour l'analyse de donn√©es
> Si rien n'est indiqu√©, il s'agit de connaissances fondamentales pour l'analyse de donn√©es

## üîç Recherche d'informations

En recherchant sur le web, trouver les r√©ponses aux questions suivantes :
### - Quel est l'int√©r√™t d'√©crire des fonctions Python pour traiter des donn√©es ?
___
Cela permet d'**automatiser** et de **tester** le pr√©-traitement des donn√©es en amont de l'entrainement d'un mod√®le de machine learning.
___
### - Pourquoi est-il important de cr√©er des fonctions Python courtes ?
___
Les fonctions courtes sont plus **facilement testables**.
___
### - Qu'est-ce que l'ing√©nierie des caract√©ristiques (feature engineering) ?
___
L'ing√©nierie des caract√©ristiques consiste √† utiliser des **connaissances m√©tier** et les donn√©es qui en d√©coulent pour extraire des propri√©t√©s pour les **ajouter au jeu de donn√©es**.
___
### - Comment faire de l'ing√©nierie des caract√©ristiques avec des donn√©es temporelles ?
___
On peut indiquer √† quel jour de la semaine correspond la date, s'il s'agit d'un jour f√©ri√©...
___

## ‚úèÔ∏è Activit√©s

Dans cette activit√©, nous allons travailler avec le fichier des transactions immobili√®res par d√©partement que l'on peut r√©cup√©rer √† cette url : https://files.data.gouv.fr/geo-dvf/latest/csv/2022/departements/

- Compl√©ter la fonction Python suivante **`get_dvf_data()`** pour qu'elle retourne le **dataframe** des donn√©es immobili√®res de l'**ann√©e** et du **d√©partement** choisis en param√®tres. Cr√©er un dataframe de donn√©es gr√¢ce √† cette fonction

In [None]:
from datetime import date
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
def get_dvf_data(year: str = "2022", department: str = "38") -> pd.DataFrame:
    """
    Renvoie un dataframe des donn√©es des transactions immobili√®res d'une ann√©e pour un d√©partement
        Parameters:
                year (str): ann√©es des donn√©es
                department (str): num√©ro de d√©partement des donn√©es sur 2 chiffres (01, 02...)
        Returns:
                df (pandas.DataFrame): dataframe des donn√©es immobili√®res
    """
    url = f"https://files.data.gouv.fr/geo-dvf/latest/csv/{year}/departements/{department}.csv.gz"
    df = pd.read_csv(url, compression="gzip")
    return df

In [None]:
df = get_dvf_data(year="2022", department="38")
df

- Compl√©ter la fonction Python suivante **`select_columns()`** pour qu'elle s√©lectionne **certaines colonnes** du dataframe suivant un **tuple fourni en param√®tre**

In [None]:
def select_columns(house_dataframe: pd.DataFrame, selected_columns: tuple[str]) -> pd.DataFrame:
    """
    Renvoie un dataframe des donn√©es avec uniquement les colonnes s√©lectionn√©es
        Parameters:
                house_dataframe (pandas.DataFrame): dataframe des donn√©es immobili√®res
                selected_columns (tuple[str]): tuple contenant les noms des colonnes du dataframe √† s√©lectionner
        Returns:
                df (pandas.DataFrame): dataframe des donn√©es immobili√®res trait√©es
    """
    df = house_dataframe.copy()
    return df.loc[:,selected_columns]

In [None]:
selected_columns = (
    "date_mutation", "valeur_fonciere", "surface_reelle_bati",
    "nombre_pieces_principales", "longitude", "latitude",
    "type_local", "nature_mutation",
)
df = select_columns(df, selected_columns)
df

- Compl√©ter la fonction Python suivante **`select_type()`** pour qu'elle s√©lectionne **uniquement** les **appartements** et les **maisons**. V√©rifier son bon fonctionnement

In [None]:
def select_type(house_dataframe: pd.DataFrame, house_types: tuple[str]) -> pd.DataFrame:
    """
    Renvoie un dataframe des donn√©es avec uniquement les donn√©es des types d'habitations s√©lectionn√©es
        Parameters:
                house_dataframe (pandas.DataFrame): dataframe des donn√©es immobili√®res
                house_types (tuple[str]): tuple contenant les noms des types d'habitations √† s√©lectionner
        Returns:
                df (pandas.DataFrame): dataframe des donn√©es immobili√®res trait√©es
    """
    df = house_dataframe.copy()
    return df[df["type_local"].isin(house_types)]

In [None]:
df = select_type(df, ("Maison", "Appartement"))
df

In [None]:
df["type_local"].value_counts()

- Compl√©ter la fonction Python suivante **`select_sales()`** pour qu'elle s√©lectionne **uniquement** les **ventes**. V√©rifier son bon fonctionnement

In [None]:
def select_sales(house_dataframe: pd.DataFrame) -> pd.DataFrame:
    """
    Renvoie un dataframe des donn√©es avec uniquement les donn√©es des ventes
        Parameters:
                house_dataframe (pandas.DataFrame): dataframe des donn√©es immobili√®res
        Returns:
                df (pandas.DataFrame): dataframe des donn√©es immobili√®res trait√©es
    """
    df = house_dataframe.copy()
    return df[df["nature_mutation"]=="Vente"]

In [None]:
df = select_sales(df)
df

In [None]:
df["nature_mutation"].value_counts()

- Compl√©ter la fonction Python suivante **`drop_na()`** pour qu'elle supprime les lignes avec des donn√©es manquantes et affiche le nombre de lignes supprim√©es. V√©rifier son bon fonctionnement

In [None]:
def drop_na(house_dataframe: pd.DataFrame) -> pd.DataFrame:
    """
    Renvoie un dataframe des donn√©es sans donn√©es manquantes
        Parameters:
                house_dataframe (pandas.DataFrame): dataframe des donn√©es immobili√®res
        Returns:
                df (pandas.DataFrame): dataframe des donn√©es immobili√®res trait√©es
    """
    df = house_dataframe.copy()
    print(f"Nombre de lignes supprim√©es : {df.shape[0]-df.dropna().shape[0]}")
    return df.dropna()

In [None]:
df = drop_na(df)

- Compl√©ter la fonction Python suivante **`check_na()`** pour qu'elle v√©rifie qu'il **ne reste plus** de valeurs manquantes. Si ce n'est pas le cas, **afficher le nombre** des **valeurs manquantes** par colonne et le **graphique des valeurs manquantes**

In [None]:
def check_na(house_dataframe: pd.DataFrame) -> None:
    """
    Renvoie le nombre de donn√©es manquantes
        Parameters:
                house_dataframe (pandas.DataFrame): dataframe des donn√©es immobili√®res
        Returns:
                None
    """
    df = house_dataframe.copy()
    if df.isna().sum().sum()==0:
        print("Il n'y a pas de donn√©es manquantes dans le dataframe")
    else:
        print("Nombre de donn√©es manquantes par colonne :")
        print(df.isna().sum())
        sns.heatmap(df.isna(), cbar=False)
        plt.show()

In [None]:
check_na(df)

- Compl√©ter la fonction Python suivante **`split_datetime()`** pour qu'elle transforme la colonne "date_mutation" en objet "datetime" et cr√©e deux colonnes pour le **num√©ro du jour dans la semaine** de l'achat et le **nombre de jours pass√©s depuis l'achat**

> ‚ÑπÔ∏è les fonctions suivantes peuvent √™tre utiles :
> - [pandas.to_datetime](https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html)
> - [pandas.Series.dt.dayofweek](https://pandas.pydata.org/docs/reference/api/pandas.Series.dt.dayofweek.html)
> - [pandas.Series.dt.days](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.dt.days.html)
> - [pandas.Timestamp.now](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Timestamp.now.html)

- Compl√©ter la fonction Python suivante **`drop_columns()`** pour qu'elle **supprime les colonnes non utiles** pour l'entrainement du mod√®le de r√©gression : "date_mutation" et "nature_mutation"

- Compl√©ter la fonction Python suivante **`to_csv()`** pour qu'elle **cr√©e un fichier CSV** √† partir du dataframe fourni avec comme nom la date de cr√©ation du fichier et les m√©ta-donn√©es "d√©partement" et "ann√©e"

- Compl√©ter le code du **module `dvfprep.py`** en y ajoutant toutes les **fonctions cr√©√©es** dans ce notebook

## üöÄ Pour aller plus loin

- [Feature Engineering](https://en.wikipedia.org/wiki/Feature_engineering)
- [Art of Feature Engineering for Data Science - Nabeel Sarwar](https://www.youtube.com/watch?v=leTyvBPhYzw)


___
*üë®‚Äçüè´ [Pierre-Loic BAYART](https://www.linkedin.com/in/pierreloicbayart/) - Formation d√©veloppeur d'applications sp√©cialisation data analyst - Webforce3 - Grenoble Ecole de Management*
___
Source images d'illustration : Image par MasterTux de Pixabay