# Bases de l'IA TP 2

## Manipulation de tableaux avec Pandas


> - [Documentation Pandas](https://pandas.pydata.org/)  


La manipulation de données est une partie importante de l'IA. Il faut souvent récupérer des données de différentes sources, les lier, les transformer et les agréger afin d'obtenir des jeux de données (dataset). Ces jeux de données seront ensuite utilisés pour entrainer et tester des modèles d'IA. En termes de temps, lorsque l'on travaille sur des modèles d'IA, la préparation des données peut représenter 80% du temps. C'est donc une phase qui est longue, fastidieuse, ou l'on peut aussi facilement se tromper.

Dans ce TP, nous allons utiliser le package Pandas, qui permet de travailler sur des 'dataframes'. Les dataframes sont des tableaux qui, comme un tableau Excel, permettent de recueillir différents types de données (numérique, chaine de caractères...).


In [None]:
import pandas as pd
import numpy as np

## Un peu de gymnastique

L'utilisation des dataframes Pandas demande de connaitre quelques méthodes de bases pour: 
- créer des dataframes
- filtrer les lignes et les colonnes
- rajouter des colonnes
- concatener des dataframes
- fusionner des dataframes

### création de dataframes

In [None]:
# une dataframe vide
ma_dataframe = pd.DataFrame([])

Créez une dataframe à partir d'un tableau numpy de 3 colonnes et 4 lignes. Nommez les colonnes : col_un, col_deux, col_trois. 
Utilisez les valeurs suivantes.

||||
|---|---|---|
|1|9|7|
|2|7|8|
|3|5|5|
|4|2|4|

Chaque dafaframe utilise un index, cet index permet d'identifier les lignes (comme dans une table de base de données). Par défaut, si on ne précise rien, quel index sera créé ? Comment récupérer l'index d'une dataframe?


comment afficher le nom des colonnes?

comment afficher le nombre de colonnes et de lignes?

comment obtenir des informations sur la dataframe? Quelle est la taille de la dataframe en bytes? 

Quel est le type de données de cette dataframe?

Quelle est le type de donnée d'une colonne?

Quel est le type de donnée de la dataframe avec la propriété values? (.values)

### filtrage

En utilisant l'opérateur .iloc []  afficher: 
- la premiere ligne
- les 2 premieres lignes
- la prémiere colonne
- la dernire colonne
- les 2 dernieres lignes et les 2 premieres colonnes

En utilisant l'opérateur .loc []  afficher: 
- la colonne col_un
- les colonnes col_un et col_trois
- la colonne col_deux pour les lignes dont la colonne 1 est pair

### ajout de colonnes

On va rajouter une nouvelle colonne jour. 

Elle aura pour valeurs lundi, mardi, mecredi, jeudi

Il y a différentes façon de rajouter une colonne. 

- Essayer avec .loc, ou se place la nouvelle colonne?

- Effacez ensuite la nouvelle colonne créé avec drop

- Essayer avec [ ], ou se place la nouvelle colonne?

- Effacez ensuite la nouvelle colonne créé avec drop

- Essayer avec insert, et placez la colonne en prémiere position


### concaténation

Créez maintenant une deuxieme dataframe avec les mêmes colonnes et avec comme valeurs pour jour: vendredi, samedi, dimanche

Avec la méthode concat() de Pandas, créez une seule dataframe contenant toutes les lignes des 2 dataframes précedentes. On veut un index unique dans cette nouvelle dataframe. Appelez cette dataframe 'ma_dataframe_complete'

### fusion de dataframes

Créez une nouvelle dataframe, contenant 4 lignes et 2 colonnes: jour et couleur

lundi  rouge

mardi  vert

samedi  bleu

dimanche  jaune

En utilisant la méthode merge, fusionnez cette nouvelle dataframe avec ma_dataframe_complete de maniére à: 

- avoir que les lignes en commun entre les 2 dataframes
- avoir toutes les lignes de ma_dataframe_complete. Sauvegardez cette dataframe comme étant ma_dataframe_complete


Utilisez la méthode isna() et 2 fois la méthode sum() pour compter le nombre de valeurs manquantes 'NaN'.

Remplacez les valeurs NaN par 'blanc'

## Travail sur un dataset existant

Utilisez la méthode read_csv  de Pandas pour charger le dataset contenu dans le fichier "penguins_size.csv". Nommez la dataframe "penguins".
C'est un dataset contenant des informations sur des pinguins: espèce, ile, 3 mesures, le poids et le sexe. 
C'est un dataset très utilisé pour s'exercer sur des algorithmes de classification.

Utilisez les méthodes head() et tail() pour afficher les 7 premieres et 7 dernieres lignes

Utilisez les méthodes nlargest et nsmallest pour afficher les 3 poids les plus important; et les 3 poids les plus faibles. 

Répondez à ces questions:
- combien y a t il de lignes? de colonnes?
- quelle est la taille de la dataframe en mémoire vive?
- quel est le type de données pour chaque colonne?

Y a t il des données manquantes (NaN)? Combien?

Comment avoir simplement, pour les 4 valuers numériques:
    - la moyenne
    - la mediane
    - la valeur max
    - la valuer min

En utilisant la méthode groupby: 
- quelles sont les moyennes des 4 variables numériques par espece? Par île? Par sexe?
- quelles sont les valeurs medianes des 4 variables numériques par espece? Par île? Par sexe?

### Standardisation des données. 

Il est souvent pratique et aussi indispensable pour certains algorithmes d'apprentissage de standardiser les données. Standardiser, c'est centrer les données et les réduire, c'est à dire que pour une variable donnée, on retranche pour chaque valeur, la moyenne de la variable, et on divise par l'écart type. Après cette transformation, la moyenne de la variable est ainsi zéro, et son écart type est 1. 

En utilisant copy(), créer une nouvelle dataframe 'penguins_standardized'. Standardisez les 4 variables numériques en faisant des opérations sur les 4 colonnes numériques.

Vérifiez que la moyenne de chaque variable est zéro et que l'écart type est 1.


Sauvergardez cette dataframe en .csv en utilisant la méthode to_csv. Attention de ne par garder l'index dans le fichier csv.

# Matplotlib

### Visualisation avec Matplotlib

> - [Documentation Matplotlib](http://matplotlib.org/)  



Matplotlib permet de construire de très nombreux types de graphiques directement à partir de l’interpréteur Python et nous sera très utile pour visualiser des données, des fonctions de décision, etc. Nous nous servirons principalement de `matplotlib.pyplot`, à importer en début de session :

To install it: 
conda install matplotlib or pip install matplotlib

In [None]:
import matplotlib.pyplot as plt

Construisons d’abord un graphique très simple :

In [None]:
plt.plot(np.random.rand(100))  # données générées aléatoirement
plt.show()                     # affichage du graphique

En utilisant la méthode hist(), afficher l'histogrammes de la variable 'culmen_length_mm' de la dataframe penguins (utilisez 10 bins). 

En utilisant la méthode hist(), afficher l'histogrammes de la variable 'culmen_length_mm' de la dataframe penguins_standardized.
Quelle est la différence entre les 2 histogrammes?

Combien y a t il d'especes différences de penguin? Utilisez la méthode unique() sur la colonne species de penguins.

A partir de penguins (pas standardisée), créez autant de dataframes qu'il y a d'especes. Chaque dataset ne contiendra que les données d'une espece. Utilisez la méthode query() de Pandas pour filtrer les données.

Sur une même figure, affichez les 3 histogrammes de culmen_length_mm. 

Que remarquez vous?
Faites de mêmes pour les 3 autres variables numériques

Utilisez la méthode plot pour construire un graphique avec  body_mass_g en ordonné et flipper_length_mm en abscisse. 

Est-ce que ces 2 variables sont lineairement corrélées? Vérifiez cela en utilisant la méthode .corr() de Pandas.

Y a t il d'autres variables corrélées? 