# TP1: Manipulation des données sous PYTHON

Utilisation du package `pandas`


## Objectifs du TP

Un préalable à l’utilisation d’algorithmes d’apprentissage statistique
est le chargement, la mise en forme et l’analyse de base de données. Le
package `pandas` de `Python` met à dispostion un ensemble de structures
de données et d’outils très pratiques permettant cela. L’objectif de ce
TP est de se familiariser avec ces stuctures et outils.

In [14]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## Liste des fonctions que nous utiliserons

Ci-dessous $s$ représente une liste et $t$ un tableau à 2 dimensions

| Fonction | Description |
|:---------|:-------------|
|`s = Series(data, index)`|Creation d’une liste indexée |
|`t = DataFrame(data, index, columns)`|Creation d’un tableau à 2 dimensions|
|`s.index` or `t.index`|Renvoie l’index de `s` ou de `t`|
|`s.values`|Renvoie la liste des valeurs de `s`|
|`t = read_csv(’fichier.csv’)`|Charge une base contenue dans `fichier.csv` dans `t`|
|`random.permutation(x)`|Si `x` est entier, crée une séquence aléatoire d’entiers entre 1 et `x`|
|`random.choice(a,size,replace)`|Génère un échantillon aléatoire d’éléments de `a`|avec (`replace=True`) ou sans remise (`replace`=False)|
|`t.drop(label,axis)`|Crée un DataFrame à partir de `t` dont les lignes (axis=0)|ou les colonnes (axis=1) spécifiées dans `label` ont été supprimées|
|`t.duplicated()`|Renvoie la liste des doublons de lignes|
|`t.replace(value1,value2)`|Remplace `value1` par `value2` dans `t`|
|`t.fillna(value)`|Remplace les valeurs manquantes `nan` par `value`|
|`t.dropna(axis)`|Supprime les lignes (axis=0) ou les colonnes (axis=1)|avec valeurs manquantes|
|`t.describe()`|Affiche des statistiques sur `t`|
|`t.mean(axis)`|Renvoie la valeur moyenne selon l’axe précisé (0 ou 1)|
|`t.min(axis)`|Renvoie la valeur mini selon l’axe précisé (0 ou 1)|
|`t.max(axis)`|Renvoie la valeur maxi selon l’axe précisé (0 ou 1)|
|`t.value_counts()`|Renvoie le nombre de valeurs unique de `t`|
|`s.hist()`|Affiche l’histogramme des valeurs de `s`|
|`t.crosstab(column1,column2)`|Calcule et affiche le tableau de contingence des 2 variables de `t`|

## 1 - La structure de données `Series`

Le package `pandas` propose une structure pour gérer les listes
d’objets. Il s’agit d’un tableau à deux colonnes dont la première
colonne correspond aux indices et la deuxième aux valeurs
correspondantes.

(a) Créer un objet de type `Series` contenant la liste suivante:

|`crab` | `deer` | `hamster` | `dolphin` |
|:-----:|:------:|:---------:|:---------:|

(b) Faire afficher à l’écran la liste des index de cette liste avec la fonction `s.index`

(c) Sélectionner à l’écran l’élément de la liste dont l’index est 2

(d) Faire afficher à l’écran l’index de l’élément est `deer`

(e) Modifier les index de la liste pour qu’ils soient maintenant: `’a’,’b’,’c’,’d’`

## 2 - La structure de données `DataFrame`

La deuxième structure proposée par `pandas` permet de gérer des tableaux
de données. C’est donc un tableau à 2 dimensions avec des index de
lignes et colonnes. L’index de colonnes correspond aux noms des
variables de la base de données et l’index des lignes correspond aux
différents individus de la population que représente la base.

(a) Créer un objet de type `DataFrame` contenant les données suivantes:

|  _Animal_ | **Aquatic** | **Tail** |
|:---------:|:-----------:|:--------:|
|**crab**   |     True    |  False   |
|**deer**   |     False   |  True    |
|**hamster**|     False   |  True    |
|**dolphin**|     True    |  False   |

(b) Faire afficher à l’écran la liste des index de cette base avec la fonction `t.index`


(c) Faire afficher à l’écran la liste des colonnes (variables) de la base avec la fonction `t.columns`

(d) Faire afficher à l’écran les valeurs des variables de la ligne `deer`

(e) Créer une `DataFrame` qui contiendra uniquement les animaux “aquatiques”

## 3 - Chargement de données à partir d’un fichier `.csv`

(a) Charger dans une `DataFrame` la base de données `zoo` à partir du
    fichier `.csv` disponible sur Moodle

(b) Faire afficher la liste des variables de la base

## 4 - Sélection de données

(a) Créer une fonction `Melange(t)` qui prendra en paramètre une DataFrame `t` et renverra la DataFrame dont les lignes ont été mélangées aléatoirement. Tester sur la base `zoo`.

(b) Créer un script `Tirage1(t,n)` qui prendra en paramètre une DataFrame `t` et un entier `n` et renverra une DataFrame contenant $n$ lignes de `t` tirées aléatoirement (avec remise). Tester sur la base `zoo`.

(c) Créer une variante `Tirage2(t,n)` avec tirage sans remise.

(d) Vérifier dans les 2 cas avec la fonction `t.duplicated` l’existence ou non de doublons de lignes(remise ou non).

### Suppression et transformation de données

(a) Charger dans une `DataFrame` la base de données `titanic2` à partir du fichier `.csv` disponible sur Moodle:

_Avant de répondre aux questions suivantes, dupliquer votre DataFrame dans une autre DataFrame pour en avoir 2 versions._

(b) Afficher les lignes dont la valeur de la variable `class` est `unknown` et supprimer une des lignes avec la fonction `t.drop(index)`. Faire la même chose avec la variable `age`.

(c) Pour éviter de le faire sur l’ensemble des lignes une à une, on utilisera plutôt la gestion de données manquantes de `pandas`. Pour cela, à l’aide de la fonction `replace`, on remplacera l’ensemble des variables `unknown` par la valeur `nan` reconnue par `pandas`.

(d) Supprimer les lignes contenant les valeurs manquantes avec la fonction `dropna(axis=0)`

(e) Avec la deuxième version de la DataFrame, utiliser la fonction `fillna` pour remplacer les valeurs manquantes “nan” par leur valeur la plus fréquente.

### Statistiques descriptives élémentaires

(a) Charger dans une `DataFrame` la base de données `cancer` à partir du fichier `.csv` disponible sur Moodle.

(b) Utiliser les fonctions `describe()`, `mean()`, `min()`, `max()`, `value_counts()` pour afficher un certain nombre de statistiques descriptives sur la base de données

(c) Utiliser la fonction `hist()` du package `pyplot` pour afficher l’histogramme des valeurs de la variable `Clump_Thickness`.

(d) Utiliser la fonction `scatter()` pour afficher la variable `Cell_Size_Uniformity` en fonction de la variable `Cell_Shape_Uniformity` et étudier la corrélation des 2 variables

(e) A l’aide de la fonction `crosstab`, afficher la table de contingence des variables `Mitoses` et `class`