# Analyse et visualisation de données avec Python
## Formatage des données
Questions
* Quels sont les différents types de données dans Pandas?
* Quel est l'impact des types sur les statistiques descriptives?
* Comment gérer les valeurs non définies ou nulles?
* Comment sauvegarder un dataframe?

Objectifs
* Manipuler les types de données
* Créer une copie d'un dataframe.
* Transformer ou éliminer les valeurs non définies ou nulles.
* Écrire les données manipulées dans un fichier CSV.

## Charger nos données

In [None]:
# Charger le module pandas
import pandas as pd

# Charger les données
surveys_df = pd.read_csv("../data/surveys.csv")

## Types de données
### Vérifier le type de données pour chaque colonne

In [None]:
# Obtenir le type de données pour chaque colonne
surveys_df.dtypes

In [None]:
# Le type de données pour la colonne des mois
surveys_df['month'].dtype

Types Python | Types Pandas | Description
:-----------:|:------------:|:-----------
`str`        | `object`     | Type générique, aussi utilisé en cas de multiples types
`int`        | `int64`      | Nombres entiers représentés avec 64 bits
`float`      | `float64`    | Nombres réels représentés avec 64 bits, ou non-définis (NaN)
 N/A         | `datetime64` | Dates et heures, avec une précision allant jusqu'à la nanoseconde

### Impacts sur les statistiques descriptives

In [None]:
# Statistiques descriptives sur les valeurs numériques
surveys_df.describe()

In [None]:
# Convertir les numéros de mois en valeurs nominales
surveys_df['month'] = surveys_df['month'].astype('str')
surveys_df['month'].dtype

In [None]:
# Statistiques descriptives sur une variable qualitative
surveys_df['month'].describe()

In [None]:
# Lister les différents mois
surveys_df['month'].unique()

In [None]:
# Lister les différentes années
surveys_df['year'].unique()

### Démo - Types et statistiques descriptives

`1`. Convertir les valeurs de `weight` en entiers `int64` produira une erreur. Pourquoi?

In [None]:
try:
    surveys_df['weight'].astype('int64')
except BaseException as erreur:
    print(f'La raison : {erreur}')

`2`. Essayez de convertir la colonne `plot_id` au type Python `float`.

In [None]:
surveys_df['plot_id'] = ###
surveys_df['plot_id'].dtype

## Sélection et nettoyage des valeurs non définies

In [None]:
# Pour chaque valeur, déterminer si non définie
surveys_df.isnull()

In [None]:
# Sélectionner les enregistrements ayant au moins une valeur NaN
masque_nan = surveys_df.isnull().any(axis='columns')
surveys_df[masque_nan]

In [None]:
# Qu'est-ce que le code suivant va retourner?
masque_nan = surveys_df['weight'].isnull()
une_selection = surveys_df[masque_nan]
une_selection.groupby('species_id')['record_id'].count()

### Recréer des données manquantes

In [None]:
# Le "avant" - nombre et moyenne
print(surveys_df['weight'].count(), surveys_df['weight'].mean())

In [None]:
# Créer une copie pour ne pas modifier l'objet original
copie_surveys = surveys_df.copy()

In [None]:
# Pour une valeur moyenne stable
moyennePoids = copie_surveys['weight'].mean()
copie_surveys['weight'] = copie_surveys['weight'].fillna(moyennePoids)

In [None]:
# Le "après" - nombre et moyenne
print(copie_surveys['weight'].count(), copie_surveys['weight'].mean())

In [None]:
# Tester la conversion en entiers
copie_surveys['weight'] = copie_surveys['weight'].astype('int64')
copie_surveys['weight'].mean()

### Exercice - Nettoyage
Dans la colonne `sex` de `copie_surveys` :
* Remplacez les valeurs non-définies par `'F|M'`
* Tout ce qui n'est pas `'F'`, `'M'` ou `'F|M'` est considéré
  invalide et on veut remplacer ces valeurs par `'F|M'`

In [None]:
# Générer des données invalides
copie_surveys.loc[::123, 'sex'] = 'NA'

# Traiter les données manquantes
#copie_surveys['sex'] = ###

# Traiter toute donnée invalide
#selection_invalides = ###.isin(['F', 'F|M', 'M'])
#copie_surveys.loc[selection_invalides, ###] = ###

copie_surveys['sex'].unique()

### Sauvegarde après nettoyage

In [None]:
# Ne garder que les lignes sans aucun NA
df_sans_na = copie_surveys.dropna()
df_sans_na

In [None]:
# Sauvegarder le dataframe filtré dans un fichier CSV
df_sans_na.to_csv('surveys_sans_NA.csv', index=False)

## Résumé technique
* **Gestion des types**
    * Pour un **DataFrame** :
        * Attributs : `dtypes`
    * Pour une **série** (colonne) :
        * Attributs : `dtype`
        * Méthodes : `astype()`
* **Nettoyage**
    * `df.copy()`
    * `isna()`, `isnull()` (le second est un alias du premier)
    * `notna()`, `notnull()`  (le second est un alias du premier)
    * `colonne.fillna(valeur, inplace=True)`
* **Sauvegarde**
    * `df.to_csv(nom_csv, index=False)`