<img
    src="https://upload.wikimedia.org/wikipedia/commons/4/42/CNAM_Logo.svg" 
    alt=""
    height="200px" 
    width="200px"
    align=left
/> 

<center> <br>
  <h1 style="color:#7c7979";></h1>
</center>  

<center>
  <h1 style="color:#000000";>Manipulations de jeux de données avec Pandas en Python</h1>
</center>  

Pandas est une librairie Python qui permet de manipuler facilement des données à analyser. Pour importer la bibliothèque Pandas dans l’environnement de travail Python, il faut saisir en début de programme l’instruction suivante :

In [1]:
import pandas as pd
import numpy as np

# Création d'un DataFrame

Un DataFrame se comporte comme un dictionnaire dont les clefs sont les noms des colonnes et les valeurs sont des séries (=contenu des colonnes).
On peut donc créer un DataFrame comme un dictionnaire :

In [2]:
infoBat = pd.DataFrame({'nEtages' : np.array([1,1,4,7,3]), \
                        'nSalles' : np.array([4,2,16,35,10]), \
                        'ville' : ["Paris","Paris","Montreuil","Paris","Paris"], \
                        'cafet' : [False, False, True, True, False], \
                        'tempMoy' : np.array([18.4, 19.0, 21.1, 19.5, 20.0])}, \
                        index = ["BatA", "PC Secu", "BatB", "BatC", "BatD"],
                        columns = ["nEtages","nSalles","ville","cafet","tempMoy"])
infoBat

Unnamed: 0,nEtages,nSalles,ville,cafet,tempMoy
BatA,1,4,Paris,False,18.4
PC Secu,1,2,Paris,False,19.0
BatB,4,16,Montreuil,True,21.1
BatC,7,35,Paris,True,19.5
BatD,3,10,Paris,False,20.0


# Travailler avec des fichiers
## Notion de format de fichiers

Dans le cadre de ce cours nous serons peu amenés à créer nous-mêmes nos DataFrames. Nous les importerons plutôt à partir de fichiers de données tabulés existants. Nous nous intéresserons ici principalement aux fichiers CSV et XLS.

### Les fichiers XLS (Excel)

Un fichier XLS contient une feuille de calcul créée avec Microsoft Excel. Les données y sont organisées en lignes et en colonnes et contenues dans des cellules ou des blocs. L'extension lors de l'enregistrement d'un fichier de ce type est `.xls`.

Avec Microsoft Excel 2007 un nouveau format de fichier est introduit. Il est appelé OpenXML (XML ouvert Office) et l'extension proposée par défaut lors de l'enregistrement d'un classeur est le type `.xlsx`.

Ce nouveau format:
* Améliore l'interaction et l'utilisation par d'autres applications.
* Facilite l'intégration aux sources de données externes.
* Réduit la taille des fichiers (technologie de compression zip utilisée pour stocker les documents).
* Améliore la récupération des contenus pour les fichiers endommagés.

Les autres extensions XML sont:
* Classeur autorisant les macros (`.xlsm`)
* Modèle par défaut (`.xltx`)
* Modèle autorisant les macros (`.xltm`)
* Macro complémentaire (`.xlam`)
* Le dernier format `.xlsb`, est une version binaire non XML.

La lettre `x` en fin d'extension signifie que le fichier ne contient aucune macro. La lettre `m` signifie que le fichier contient des macros. Si vous enregistrez et fermez votre classeur au format `.xlsx` alors qu'il contenait des macros, celles ci seront perdues. 

### Les fichiers CVS

CSV signifie _"Comma-Separated Values"_. Un fichier CVS désigne un fichier de type tableur, dans lequel les valeurs sont séparées par des virgules. L'extension lors de l'enregistrement d'un fichier de ce type est `.csv`.

Ce format est intrinsèquement lié à l'exportation ou l'importation de bases de données.


Les fichiers CSV peuvent être importés et exportés par des tableurs tels qu’Excel (Microsoft), Google Sheets (Google) ou Calc (LibreOffice) ainsi que par des bases de données telles que MySQL et Oracle. 

**Structure d'un fichier CSV** :

Chaque élément du tableau correspond à une ligne de texte dans le fichier CSV. Chaque champ de la ligne (c'est à dire chaque colonne) est séparé par une virgule. On dit que la virgule est un **séparateur** de colonnes. Parfois un chiffre, un point-virgule, un espace, un onglet ou d'autres caractères peuvent séparer les différentes données d’une même ligne.

$\rightarrow$ Ouvrir le fichier `catdata.csv` et observer sa structure.

## Arborescence de fichiers et chemins d'accès

Dans la suite de cours nous allons nous intéresser à l'importation de fichiers de données (.csv ou .xls) dans des structures de données Python, de type DataFrame.
Pour cela nous allons avoir besoin d'accéder aux fichiers de données, eux-même inclus dans une **arborescence**. Pour accéder aux fichiers nous spécifierons un **chemin d'accès** à travers cette arborescence. 

Considérons par exemple l'arborescence du Jupyter hub :
* 1 répertoire partagé (DossierGroupe)
* 1 répertoire personnel (DossierPersonnel)

Ces deux répertoires sont les deux répertoires **parents** de l'arborescence du Jupyter Hub sur votre session.
A l'intérieur de chacun de ces deux répertoires parents il peut y avoir des sous-répertoires.
Par exemple dans *DossierGroupe* on trouve :
* DM 1 (R et Python)
* Seance_1_python
* Seance_2_python
* Seance_3_jeux_de_donnees

Les jeux de données que nous allons utiliser dans cette séquence sont situés dans le sous-répertoire *Seance_3_jeux_de_donnees* du DossierGroupe.

Pour y accéder depuis votre DossierPersonnel (sans faire de copie), nous allons avoir recours aux **chemins d'accès relatifs**. 

$\underline{Définition}$ : Un chemin relatif est une chaîne de caractères faisant référence à un emplacement qui est relatif à un répertoire courant. Les chemins relatifs utilisent trois symboles spéciaux :
* le point (.) qui correspond au répertoire courant
* les deux pointillés (..) qui correspondent au répertoire parent 
* la barre oblique (/ sous Linux, Mac et \ sous Windows) pour séparer deux noms de répertoires. 

Les deux pointillés sont utilisés pour monter d'un niveau dans la hiérarchie. Le point unique représente le répertoire courant lui-même.

$\underline{Exemple}$ : Dans l'arborescence Jupyter Hub, si l'on se place dans DossierPersonnel et que l'on souhaite accéder au fichier de données catdata.csv situé dans DossierGroupe/Seance_3_jeux_de_donnees il faut taper le chemin relatif suivant (entre guillemets, il s'agit d'une chaîne de caractères) :

`'../DossierGroupe/Seance_3_jeux_de_donnees/catdata.csv'`

$\rightarrow$ On commence tout d'abord par monter d'un niveau dans la hierarchie de l'arboresence avec `../` (on passe de Dossier Personnel à DossierGroupe). Puis on donne le chemin allant de DossierGroupe au fichier catdata.csv en séparent les sous-répertoires intermédiaires par des slashs `/`.

# Exporter des données depuis un fichier vers un DataFrame
## Fichiers XLS (Excel)

La fonction `read_excel()` de Pandas permet de lire les données contenues dans les cellules d'un ficher Excel et de les importer dans un DataFrame.

On cherche ici à importer les données du fichier "catdata.xlsx" dans un DataFrame.

In [None]:
import pandas as pd
catExcel = pd.read_excel('./catdata.xlsx')
type(catExcel)

$\rightarrow$ catExcel est le nom de l'objet crée, de type DataFrame.

On peut afficher les premières lignes du jeu de données avec `head()` :

(il s'agit d'un jeu de données où les individus observés sont des chats et les critères d'observation sont la couleur du pelage, la robe, le sexe, le poids, l'âge et le type de nourriture) :

In [None]:
catExcel.head()

On peut afficher les dernières lignes du jeu de données avec `tail()` :

In [None]:
catExcel.tail()

## Fichiers CSV

De même, la fonction `read_csv()` de Pandas permet de lire les données contenues dans un fichier CSV et de les importer dans un DataFrame :

In [73]:
catCSV = pd.read_csv('./catdata.csv')

$\rightarrow$ catCSV est le nom de l'objet crée, de type DataFrame.

On peut afficher les premières lignes du jeu de données avec `head()` :

(il s'agit d'un jeu de données où les individus observés sont des chats et les critères d'observation sont la couleur du pelage, la robe, le sexe, le poids, l'âge et le type de nourriture) :

In [74]:
catCSV.head()

Unnamed: 0,"haircolor;""hairpattern"";""sex"";""weight"";""age"";""foodtype"""
0,"red;""solid"";""female"";4.6;12;""other"""
1,"black;""tabby"";""female"";5.5;6;""dry"""
2,"white;""tabby"";""female"";5.6;8;""wet"""
3,"red;""tabby"";""female"";6.1;5;""dry"""
4,"brown;""solid"";""female"";5.3;7;""dry"""


On peut afficher les dernières lignes du jeu de données avec `tail()` :

In [75]:
catCSV.tail()

Unnamed: 0,"haircolor;""hairpattern"";""sex"";""weight"";""age"";""foodtype"""
148,"brown;""tabby"";""female"";6.3;3;""dry"""
149,"black;""tabby"";""female"";5.2;5;""wet"""
150,"brown;""tabby"";""female"";4.3;3;""other"""
151,"red;""tabby"";""male"";3.8;4;""wet"""
152,"black;""tortoise"";""male"";4.2;6;""dry"""


$\rightarrow$ On remarque dans ces sorties écran que les points virgules sont encore présents entre chaque champ. La structure de DataFrame n'est donc pas encore fonctionnelle puisque le séparateur de colonne n'a pas été clairement défini (les colonnes ne sont pas reconnues comme telles à ce stade).

**Définir un séparateur de colonnes** : l'argument `sep` permet de spécifier le caractère séparateur de colonnes :

In [9]:
catCSV = pd.read_csv('./catdata.csv', sep=';')

In [10]:
catCSV.head()

Unnamed: 0,haircolor,hairpattern,sex,weight,age,foodtype
0,red,solid,female,4.6,12,other
1,black,tabby,female,5.5,6,dry
2,white,tabby,female,5.6,8,wet
3,red,tabby,female,6.1,5,dry
4,brown,solid,female,5.3,7,dry


In [11]:
catCSV.tail()

Unnamed: 0,haircolor,hairpattern,sex,weight,age,foodtype
148,brown,tabby,female,6.3,3,dry
149,black,tabby,female,5.2,5,wet
150,brown,tabby,female,4.3,3,other
151,red,tabby,male,3.8,4,wet
152,black,tortoise,male,4.2,6,dry


$\underline{Remarque}$ : Les fonctions `read_excel()` et `read_csv()` comportent une multitude d'arguments optionnels à consulter sur la documentation Pandas:

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_excel.html

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html

# Architecture de la structure DataFrame
* **Dimension** : On peut connaître le nombre de lignes et de colonnes avec la fonction `shape` (idem qu'avec les numpy.array). 

La ligne d'en-tête  contenant les noms des champs n'est pas comptabilisée dans le nombre de lignes.

In [12]:
cat = pd.read_csv('./catdata.csv', sep=';')
cat.shape

(153, 6)

$\rightarrow$ Ce DataFrame comporte 153 lignes (sans la ligne d'en-tête) et 6 colonnes.

* **Enumération des lignes et colonnes** avec `index` et `columns`

In [13]:
cat.index # lignes

RangeIndex(start=0, stop=153, step=1)

$\rightarrow$ Les numéros de lignes vont de 0 jusqu'à 153-1 par pas de 1 : cela fait bien 153 lignes.

In [14]:
cat.columns # colonnes

Index(['haircolor', 'hairpattern', 'sex', 'weight', 'age', 'foodtype'], dtype='object')

$\rightarrow$ Les noms des colonnes sont énumérés dans une liste.

* **Description statistique des données**

La fonction `describe()` donne la description des données numériques uniquement :

In [15]:
cat.describe()

Unnamed: 0,weight,age
count,153.0,153.0
mean,4.891503,6.124183
std,1.043901,2.678669
min,1.9,2.0
25%,4.2,4.0
50%,4.9,6.0
75%,5.6,7.0
max,7.5,17.0


$\rightarrow$ Ici seule la description statistique des variables numériques ("weight" et "age") est donnée.

On peut ajouter l'argument `include='all'` pour avoir la description de toutes les données (numériques et catégorielles).

Certains indicateurs statistiques ne sont valables que pour les variables numériques (moyenne, min, max, quartiles), et inversemment pour les non-numériques (unique, top, freq), d'où les NaN (= Not a Number) dans certaines situations.

In [16]:
cat.describe(include='all')

Unnamed: 0,haircolor,hairpattern,sex,weight,age,foodtype
count,153,153,153,153.0,153.0,153
unique,4,5,2,,,3
top,black,tabby,male,,,dry
freq,79,60,78,,,102
mean,,,,4.891503,6.124183,
std,,,,1.043901,2.678669,
min,,,,1.9,2.0,
25%,,,,4.2,4.0,
50%,,,,4.9,6.0,
75%,,,,5.6,7.0,


# Manipulation des variables
(inspiré du cours du laboratoire Eric de l'université Lyon 2 : https://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/fr_Tanagra_Data_Manipulation_Pandas.pdf)
##  Accès aux variables

$\underline{Paramétrage}$ : Pour éviter d'afficher à l'écran des DataFrame trop longues, on peut modifier par convenance le nombre de lignes à afficher dans les print (ici nous en garderons seulement 10). Ceci sera valable pour toute la suite du document :

In [17]:
pd.options.display.max_rows = 10

Il est possible d'accéder explicitement aux variables (c'est à dire aux colonnes). Dans un premier temps, nous accédons aux variables directement avec les noms des champs **entre guillemets et dans des crochets** (cad les noms des variables, en en-tête de colonne).

In [18]:
cat['sex']

0      female
1      female
2      female
3      female
4      female
        ...  
148    female
149    female
150    female
151      male
152      male
Name: sex, Length: 153, dtype: object

$\underline{Remarque}$ : Il est aussi possible d'accéder à une colonne avec le `.` (équivalent du `$` en R). Dans ce cas le nom de la colonne n'est pas donné comme une chaîne de caractères entre guillemets, mais plutôt comme une variable.

In [19]:
cat.sex

0      female
1      female
2      female
3      female
4      female
        ...  
148    female
149    female
150    female
151      male
152      male
Name: sex, Length: 153, dtype: object

En Pandas, une colonne d'un DataFrame est de type Series (on appelle donc parfois les colonnes d'un DataFrame des séries) :

In [20]:
type(cat['sex'])

pandas.core.series.Series

On peut accéder à un ensemble de colonnes en donnant une **liste** contenant les noms des colonnes souhaitées :

In [21]:
cat[['sex','age']]

Unnamed: 0,sex,age
0,female,12
1,female,6
2,female,8
3,female,5
4,female,7
...,...,...
148,female,3
149,female,5
150,female,3
151,male,4


On peut obtenir des statistiques descriptives seulement pour des variables souhaitées, toujours avec la fonction `describe()`

In [22]:
cat['age'].describe()

count    153.000000
mean       6.124183
std        2.678669
min        2.000000
25%        4.000000
50%        6.000000
75%        7.000000
max       17.000000
Name: age, dtype: float64

Ou encore calculer explicitement la moyenne (ou autre description statistique) d'une variable en particulier :

In [23]:
cat['age'].mean()

6.124183006535947

On peut compter l'occurence d'une valeur pour une colonne donnée avec la fonction `value_counts()`

In [24]:
cat['hairpattern'].value_counts()

tabby         60
solid         34
tipped        22
tortoise      19
colorpoint    18
Name: hairpattern, dtype: int64

$\rightarrow$ Il y 60 chats dont la robe est de type "Tabby", 34 "Solid", etc ...

In [25]:
cat['age'].value_counts()

5     30
4     27
6     22
7     20
3     17
      ..
10     4
17     3
12     2
13     1
2      1
Name: age, Length: 13, dtype: int64

$\rightarrow$ Il y 30 chats âgés de 5 ans, 27 chats âgés de 4 ans, etc ...

$\rightarrow$ En tout il y a 13 valeurs d'âge différentes

## Indexation
Chaque colonne d'un DataFrame (de type Series) est vue comme un vecteur. Il est donc possible d'utiliser des indices pour accéder à certains éléments de la colonne :

In [26]:
cat['haircolor'][0] 

'red'

$\rightarrow$ On accède à la première valeur de la colonne "haircolor" qui est 'red'

In [27]:
cat['haircolor'][0:6] 

0      red
1    black
2    white
3      red
4    brown
5    black
Name: haircolor, dtype: object

$\rightarrow$ On accède aux 6 premières valeurs de la colonne "haircolor" (de l'élément 0 jusqu'à l'élément 6-1= 5)

In [28]:
cat['weight'][148:] 

148    6.3
149    5.2
150    4.3
151    3.8
152    4.2
Name: weight, dtype: float64

$\rightarrow$ On accède aux valeurs de la colonne "weight" à partir de l'indice 148 jusqu'à la fin (=152)

## Trier des valeurs
On peut trier les valeurs d'une colonne grâce à la fonction `sort_values()`. On rappelle que cette fonction trie par défaut dans l'ordre croissant.

In [29]:
cat['age'].sort_values()

135     2
127     3
65      3
31      3
38      3
       ..
0      12
81     13
136    17
44     17
58     17
Name: age, Length: 153, dtype: int64

$\rightarrow$ Le résultat signifie que la plus petite valeur de la variable 'age' est 2 (ans) et qu'elle correspond au chat n°135.

Le tri par ordre décroissant se fait en mettant la valeur de l'argument `ascending` à False dans la fonction `sort_values() `:

In [30]:
cat['age'].sort_values(ascending=False)

58     17
44     17
136    17
81     13
0      12
       ..
38      3
31      3
65      3
127     3
135     2
Name: age, Length: 153, dtype: int64

$\rightarrow$ Le résultat signifie que la plus grande valeur de la variable 'age' est 17 (ans) et qu'elle correspond au chat n°58.

Si les valeurs à trier sont des chaînes de caractères (comme par exemple les valeurs prises par la variable "hairpattern" ici), le tri se fait sur l'ordre alphabétique en affichant les indices de ligne associés par ordre croissant :

In [31]:
cat['hairpattern'].sort_values()

32     colorpoint
22     colorpoint
21     colorpoint
44     colorpoint
71     colorpoint
          ...    
111      tortoise
112      tortoise
118      tortoise
139      tortoise
152      tortoise
Name: hairpattern, Length: 153, dtype: object

Il est aussi possible d'obtenir les **indices** des valeurs triées avec la fonction `argsort()`

In [32]:
cat['age'].argsort()

0      135
1      127
2       65
3       31
4       38
      ... 
148      0
149     81
150    136
151     44
152     58
Name: age, Length: 153, dtype: int64

$\rightarrow$ Le résultat signifie que 135 est le numéro du chat portant la plus petite valeur de la variable "age", puis vient le n°127, etc. Ces résultats sont complètement cohérents avec ceux obtenus avec la fonction `sort_values()`

La notion de tri peut-être généralisée au DataFrame entier grâce à l'argument `by` de la fonction `sort_values()` :

In [33]:
cat.sort_values(by='age')

Unnamed: 0,haircolor,hairpattern,sex,weight,age,foodtype
135,white,tabby,male,5.1,2,dry
127,white,solid,male,2.5,3,wet
65,red,tabby,female,4.6,3,dry
31,brown,tipped,female,6.1,3,dry
38,black,tabby,male,3.5,3,dry
...,...,...,...,...,...,...
0,red,solid,female,4.6,12,other
81,red,tortoise,female,3.4,13,wet
136,black,solid,female,6.2,17,dry
44,red,colorpoint,male,5.9,17,wet


$\rightarrow$ Ce résultat signifie que tout le DataFrame a été trié en fonction de la variable 'age' (on remarque en effet que les indices de ligne à gauche ne sont plus classés dans l'ordre croissant 0,1,2,3, ..., 152)

In [34]:
cat.sort_values(by='age', ascending=False)

Unnamed: 0,haircolor,hairpattern,sex,weight,age,foodtype
58,black,tabby,female,1.9,17,dry
44,red,colorpoint,male,5.9,17,wet
136,black,solid,female,6.2,17,dry
81,red,tortoise,female,3.4,13,wet
0,red,solid,female,4.6,12,other
...,...,...,...,...,...,...
101,black,tipped,female,6.7,3,dry
9,red,solid,female,2.3,3,dry
93,red,tabby,female,4.5,3,dry
65,red,tabby,female,4.6,3,dry


$\rightarrow$ Tout le DataFrame a été trié en fonction de la variable "age" par ordre *décroissant* (on a ici utilisé plusieurs arguments de la fonction `sort_values() `)

## Accès indicé
On peut accéder aux valeurs du DataFrame via des indices ou plages d'indice. La structure se comporte alors comme une matrice. La cellule en haut et à gauche du DataFrame est de coordonnées [0,0].

Il y a différentes manières de faire un accès indicé, l'utilisation de `iloc[ , ]` constitue une des solutions les plus simples. 

In [35]:
cat.iloc[0,0]

'red'

$\rightarrow$ On accède à la valeur du DataFrame située en [0,0], c'est à dire 'red'.

On peut faire un head() pour s'en convaincre :

In [36]:
cat.head()

Unnamed: 0,haircolor,hairpattern,sex,weight,age,foodtype
0,red,solid,female,4.6,12,other
1,black,tabby,female,5.5,6,dry
2,white,tabby,female,5.6,8,wet
3,red,tabby,female,6.1,5,dry
4,brown,solid,female,5.3,7,dry


In [37]:
cat.iloc[-1,0]

'black'

$\rightarrow$ On accède à la valeur du DataFrame située à la dernière ligne (rappel : l'indice -1 permet d'accéder au dernier élément d'un axe) et la première colonne, c'est à dire 'black'. 

On peut faire un `tail()` pour s'en convaincre :

In [38]:
cat.tail()

Unnamed: 0,haircolor,hairpattern,sex,weight,age,foodtype
148,brown,tabby,female,6.3,3,dry
149,black,tabby,female,5.2,5,wet
150,brown,tabby,female,4.3,3,other
151,red,tabby,male,3.8,4,wet
152,black,tortoise,male,4.2,6,dry


In [39]:
cat.iloc[0:7,:]

Unnamed: 0,haircolor,hairpattern,sex,weight,age,foodtype
0,red,solid,female,4.6,12,other
1,black,tabby,female,5.5,6,dry
2,white,tabby,female,5.6,8,wet
3,red,tabby,female,6.1,5,dry
4,brown,solid,female,5.3,7,dry
5,black,tabby,male,6.9,5,wet
6,brown,solid,male,6.3,5,dry


$\rightarrow$ On accède aux 7 premières lignes avec toutes les colonnes (lignes => 0:7 (0 à 7 [non inclus]), colonnes => : (toutes les colonnes))

In [40]:
cat.iloc[-4:,:]

Unnamed: 0,haircolor,hairpattern,sex,weight,age,foodtype
149,black,tabby,female,5.2,5,wet
150,brown,tabby,female,4.3,3,other
151,red,tabby,male,3.8,4,wet
152,black,tortoise,male,4.2,6,dry


$\rightarrow$ Avec l'indiçage négatif, on peut facilement accéder aux 4 dernières lignes (lignes => -4: (c.a.d. -4 avant la fin jusqu'à la fin))

In [41]:
cat.iloc[0:5,0:2]

Unnamed: 0,haircolor,hairpattern
0,red,solid
1,black,tabby
2,white,tabby
3,red,tabby
4,brown,solid


$\rightarrow$ Accès aux 5 premières lignes et 2 premières colonnes. 

Cette opération est équivalente à celle-ci (mélange de l'accès par noms de colonne et par indices) :

In [42]:
cat[['haircolor','hairpattern']].iloc[0:5,:]

Unnamed: 0,haircolor,hairpattern
0,red,solid
1,black,tabby
2,white,tabby
3,red,tabby
4,brown,solid


ou encore à celle-ci :

In [43]:
cat[['haircolor','hairpattern']][0:5]

Unnamed: 0,haircolor,hairpattern
0,red,solid
1,black,tabby
2,white,tabby
3,red,tabby
4,brown,solid


$\underline{Remarque}$ : Dans les deux cas on constate que lorsqu'au moins deux noms de variables sont donnés (comme ici 'haircolor' et 'hairpattern'), il faut les donner dans une **liste** : `['haircolor','hairpattern']`

In [44]:
cat.iloc[0:5,[1,3,5]]

Unnamed: 0,hairpattern,weight,foodtype
0,solid,4.6,other
1,tabby,5.5,dry
2,tabby,5.6,wet
3,tabby,6.1,dry
4,solid,5.3,dry


$\rightarrow$ Accès aux 5 premières lignes et aux colonnes 1 ("Hairpattern"), 3 ("Weight") et 5 ("Foodtype") (on a donné une **liste** d'indices en colonne). 

In [45]:
cat.iloc[0:5,1:6:2]

Unnamed: 0,hairpattern,weight,foodtype
0,solid,4.6,other
1,tabby,5.5,dry
2,tabby,5.6,wet
3,tabby,6.1,dry
4,solid,5.3,dry


$\rightarrow$ On obtient exactement le même résultat que précédemment mais cette fois-ci au lieu de donner une liste d'indices en colonne on donne un *range* : on va de la colonne 1 à la colonne 6-1 par pas de 2. Ce qui donne bien les colonnes : 1, 3 et 5.

## Les requêtes (restrictions avec des conditions)
Il est possible d'isoler les sous-ensembles d'observations répondant à des critères définis sur les variables. 

Pour cela on utilisera la méthode `loc[ , ]`.

In [46]:
cat.loc[cat['hairpattern']=='solid',:]

Unnamed: 0,haircolor,hairpattern,sex,weight,age,foodtype
0,red,solid,female,4.6,12,other
4,brown,solid,female,5.3,7,dry
6,brown,solid,male,6.3,5,dry
9,red,solid,female,2.3,3,dry
11,black,solid,female,6.7,5,dry
...,...,...,...,...,...,...
127,white,solid,male,2.5,3,wet
134,white,solid,female,4.8,7,dry
136,black,solid,female,6.2,17,dry
138,red,solid,female,4.5,5,wet


$\rightarrow$ On n'affiche que les lignes du DataFrame pour lesquelles la variable "Hairpattern" vaut "solid". On constate qu'il y a 34 lignes qui vérifient cette condition, autrement dit parmi les 153 chats observés il y en a 34 qui ont la robe de type "solid".

Si on regarde dans le détail, on oberve que l'on indexe en réalité le DataFrame global avec un vecteur de booléens défini à partir de la condition :

In [47]:
cat['hairpattern']=='solid'

0       True
1      False
2      False
3      False
4       True
       ...  
148    False
149    False
150    False
151    False
152    False
Name: hairpattern, Length: 153, dtype: bool

Seules les observations correspondant à True sont reprises par `loc[ , ]`.

Il est possible de dénombrer les observations correspondant à True et False avec la fonction `value_counts()` vue précédemment :

In [48]:
(cat['hairpattern']=='solid').value_counts()

False    119
True      34
Name: hairpattern, dtype: int64

$\rightarrow$ Il y a 119 chats qui n'ont pas une robe de type "solid" et 34 chats qui ont une robe de type "solid".

$\underline{Remarque}$ : attention, il faut des parenthèses ici de part et d'autre de la condition. Sinon la fonction value_counts() est appliquée à la chaîne de caractères "solid", ce qui n'a pas de sens :

In [49]:
cat['hairpattern']=='solid'.value_counts()

AttributeError: 'str' object has no attribute 'value_counts'

Il est également possible de donner une restriction à plusieurs valeurs d'une même variable. Pour cela on utilise la fonction `isin()` dans laquelle on donne la liste des valeurs souhaitées :

In [50]:
cat.loc[cat['hairpattern'].isin(['solid','tabby']),:]

Unnamed: 0,haircolor,hairpattern,sex,weight,age,foodtype
0,red,solid,female,4.6,12,other
1,black,tabby,female,5.5,6,dry
2,white,tabby,female,5.6,8,wet
3,red,tabby,female,6.1,5,dry
4,brown,solid,female,5.3,7,dry
...,...,...,...,...,...,...
147,black,tabby,female,4.1,3,wet
148,brown,tabby,female,6.3,3,dry
149,black,tabby,female,5.2,5,wet
150,brown,tabby,female,4.3,3,other


$\rightarrow$ On ne garde ici que les chats ayant une robe de type "solid" et "tabby" : on autorise 2 valeurs possibles pour la variable "hairpattern". Il y a 94 individus sur 153 dans ce cas.

Il est possible de combiner les conditions grâce aux opérateurs logiques : 
* & : et
* | : ou
* ~ : négation

In [51]:
cat.loc[(cat['hairpattern']=='solid') & (cat['sex']=='female'),:]

Unnamed: 0,haircolor,hairpattern,sex,weight,age,foodtype
0,red,solid,female,4.6,12,other
4,brown,solid,female,5.3,7,dry
9,red,solid,female,2.3,3,dry
11,black,solid,female,6.7,5,dry
33,white,solid,female,6.0,5,dry
...,...,...,...,...,...,...
115,black,solid,female,5.3,3,dry
134,white,solid,female,4.8,7,dry
136,black,solid,female,6.2,17,dry
138,red,solid,female,4.5,5,wet


$\rightarrow$ On ne garde ici que les chats femelles **et** ayant une robe de type "solid". Il n'y a plus que 19 individus dans ce cas.

Il est également possible de n'afficher qu'une partie des colonnes pour une requête donnée. Pour cela on peut définir ces colonnes dans une liste au préalable :

In [52]:
colonnes = ['haircolor','hairpattern','weight','foodtype']

que l'on utilise ensuite en paramètre dans `loc[ , ]` :

In [53]:
cat.loc[(cat['age'] > 2) & (cat['sex']=='female'), colonnes]

Unnamed: 0,haircolor,hairpattern,weight,foodtype
0,red,solid,4.6,other
1,black,tabby,5.5,dry
2,white,tabby,5.6,wet
3,red,tabby,6.1,dry
4,brown,solid,5.3,dry
...,...,...,...,...
145,black,tabby,2.6,dry
147,black,tabby,4.1,wet
148,brown,tabby,6.3,dry
149,black,tabby,5.2,wet


$\rightarrow$ On ne garde ici que les chats femelles de plus de 2 ans et on n'affiche que les colonnes "haircolor", "hairpattern", "weight" et "foodtype".

## Croisement des variables
Tout comme on peut faire des tableaux croisés dynamiques avec Excel, il est possible avec Pandas de procéder à des croisements de données et effectuer des calculs récapitulatifs.

Les tableaux croisés s'obtiennent à l'aide de la fonction `crosstab()` de pandas :

In [54]:
pd.crosstab(cat['sex'], cat['hairpattern'])

hairpattern,colorpoint,solid,tabby,tipped,tortoise
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
female,6,19,31,9,10
male,12,15,29,13,9


$\rightarrow$ Ici avec un crosstab simple on obtient les fréquences selon le sexe et le type de robe.

Il est possible d'effectuer un post-traitement directement dans la fonction `crosstab`, par exemple ici on demande un calcul de **pourcentage en ligne** :

In [55]:
pd.crosstab(cat['sex'], cat['hairpattern'], normalize='index')

hairpattern,colorpoint,solid,tabby,tipped,tortoise
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
female,0.08,0.253333,0.413333,0.12,0.133333
male,0.153846,0.192308,0.371795,0.166667,0.115385


$\rightarrow$ Parmi les femelles, 8% ont une robe "colorpoint", 25,33% ont une robe "solid", ..., 13,3% ont une robe "tortoise"

$\rightarrow$ Parmi les mâles, 15,38% ont une robe "colorpoint", 19,23% ont une robe "solid", ..., 17,54% ont une robe "tortoise"

Même chose ici avec un calcul de **pourcentage en colonne** :

In [56]:
pd.crosstab(cat['sex'], cat['hairpattern'], normalize='columns')

hairpattern,colorpoint,solid,tabby,tipped,tortoise
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
female,0.333333,0.558824,0.516667,0.409091,0.526316
male,0.666667,0.441176,0.483333,0.590909,0.473684


## Conctruction de variables calculées
Il est possible d'effectuer des calculs directs sur les variables du DataFrame (souvent les variables numériques).

De la même manière qu'avec Numpy, les calculs seront vectorisés pour les vecteurs de type `Series` de Pandas (c'est à dire pour les colonnes). Cela nous évitera d'avoir recours à des boucles `for` pour manipuler les valeurs des vecteurs.

In [57]:
humanAge = ((cat['age'] + 4.0) / 2.0) * 7.0
print(type(humanAge))

<class 'pandas.core.series.Series'>


$\rightarrow$ On créé ici une nouvelle Series appelée `humanAge` qui calcule l'âge de chaque chat en âge humain (cette formule n'a pas de preuve scientifique).

In [58]:
print(humanAge)
print(cat['age'])

0      56.0
1      35.0
2      42.0
3      31.5
4      38.5
       ... 
148    24.5
149    31.5
150    24.5
151    28.0
152    35.0
Name: age, Length: 153, dtype: float64
0      12
1       6
2       8
3       5
4       7
       ..
148     3
149     5
150     3
151     4
152     6
Name: age, Length: 153, dtype: int64


In [59]:
weightPound = cat['weight'] * 2.20462
print(weightPound)

0      10.141252
1      12.125410
2      12.345872
3      13.448182
4      11.684486
         ...    
148    13.889106
149    11.464024
150     9.479866
151     8.377556
152     9.259404
Name: weight, Length: 153, dtype: float64


$\rightarrow$ On créé une Series qui correspond au poids en kilo des chats converti en livres (1 kilo = 2,20462 livres)

In [60]:
import numpy as np
weightLog = np.log(cat['weight'])
print(weightLog)

0      1.526056
1      1.704748
2      1.722767
3      1.808289
4      1.667707
         ...   
148    1.840550
149    1.648659
150    1.458615
151    1.335001
152    1.435085
Name: weight, Length: 153, dtype: float64


$\rightarrow$ On créé une Series qui correspond au logarithme du poids des chats (qui n'a pas de signification particulière).

## Concaténation

Il est possible de combiner ensemble des Series et/ou des DataFrames.

La fonction `concat` permet de concaténer ensemble des Series ou DataFrames le long d'un axe (axis = 0 : ligne ou axis = 1 : colonne).

In [61]:
newcat = pd.concat([cat,humanAge,weightPound], axis=1)
newcat

Unnamed: 0,haircolor,hairpattern,sex,weight,age,foodtype,age.1,weight.1
0,red,solid,female,4.6,12,other,56.0,10.141252
1,black,tabby,female,5.5,6,dry,35.0,12.125410
2,white,tabby,female,5.6,8,wet,42.0,12.345872
3,red,tabby,female,6.1,5,dry,31.5,13.448182
4,brown,solid,female,5.3,7,dry,38.5,11.684486
...,...,...,...,...,...,...,...,...
148,brown,tabby,female,6.3,3,dry,24.5,13.889106
149,black,tabby,female,5.2,5,wet,31.5,11.464024
150,brown,tabby,female,4.3,3,other,24.5,9.479866
151,red,tabby,male,3.8,4,wet,28.0,8.377556


$\rightarrow$ On vient de créer un nouveau DataFrame `catnew` issu de la concaténation du DataFrame `cat` et des deux Series créées auparavant : `humanAge` et `weightPound` $\Rightarrow$ on a ajouté 2 nouvelles colonnes (`axis=1`) au DataFrame original.

Cependant on remarque que les deux Series d'âges et de poids ont le même nom.

### Renommer des colonnes :
* On ne peut pas renommer individuellement une colonne (non mutable)

In [62]:
newcat.columns[-1] = 'weightPound'

TypeError: Index does not support mutable operations

* On peut donc soit renommer l'ensemble des colonnes (en définissant la liste complète des noms de colonnes) :

In [63]:
newcat.columns = ['haircolor','hairpattern','sex','weight','age','foodtype','humanAge','weightPound']
newcat

Unnamed: 0,haircolor,hairpattern,sex,weight,age,foodtype,humanAge,weightPound
0,red,solid,female,4.6,12,other,56.0,10.141252
1,black,tabby,female,5.5,6,dry,35.0,12.125410
2,white,tabby,female,5.6,8,wet,42.0,12.345872
3,red,tabby,female,6.1,5,dry,31.5,13.448182
4,brown,solid,female,5.3,7,dry,38.5,11.684486
...,...,...,...,...,...,...,...,...
148,brown,tabby,female,6.3,3,dry,24.5,13.889106
149,black,tabby,female,5.2,5,wet,31.5,11.464024
150,brown,tabby,female,4.3,3,other,24.5,9.479866
151,red,tabby,male,3.8,4,wet,28.0,8.377556


* soit renommer une colonne en particulier, en suivant une démarche de ce type :

In [64]:
myList = list(newcat.columns) # on extrait les noms des colonnes dans une liste
myList[-2] = 'humanAge' # on modifie les éléments de cette liste
myList[-1] = 'weightPound' 
newcat.columns = myList # on impose cette liste comme étant la liste des noms de colonnes du DataFrame
newcat

Unnamed: 0,haircolor,hairpattern,sex,weight,age,foodtype,humanAge,weightPound
0,red,solid,female,4.6,12,other,56.0,10.141252
1,black,tabby,female,5.5,6,dry,35.0,12.125410
2,white,tabby,female,5.6,8,wet,42.0,12.345872
3,red,tabby,female,6.1,5,dry,31.5,13.448182
4,brown,solid,female,5.3,7,dry,38.5,11.684486
...,...,...,...,...,...,...,...,...
148,brown,tabby,female,6.3,3,dry,24.5,13.889106
149,black,tabby,female,5.2,5,wet,31.5,11.464024
150,brown,tabby,female,4.3,3,other,24.5,9.479866
151,red,tabby,male,3.8,4,wet,28.0,8.377556


## GroupBy : split-apply-combine

Le mot GroupBy fait référence à une manipulation sur le DataFrame d'origine qui implique une ou plusieurs de ces opérations :

* **Splitting** : on scinde les données en sous-groupes en fonction de certains critères
* **Applying** : on applique une fonction aux sous-groupes indépendamment. Parmi les fonctions que l'on peut appliquer :
    * Aggrégation : calcul d'une description statistique pour chaque groupe
* **Combining** : on place ces groupes dans une structure de données de type DataFrame (i.e. on créé des sous-DataFrames)

### Splitting et sélection de groupes

#### Splitting
On créé des groupes avec la fonction `groupby()`. L'argument à fournir à cette fonction est soit le nom d'une des variables (colonnes) soit un index level (ligne).

In [65]:
g = cat.groupby('sex')
print(g)

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000559546e92fa8>


$\rightarrow$ On vient de créer une sorte de masque par rapport au DataFrame original. Ce masque permet de scinder le DataFrame en fonction des différentes valeurs prises par la variable `sex` (le DataFrame est scindé en 2 en fonction des 2 valeurs possibles prises par la varibles `sex` : female ou male).

On peut lister l'intitulé de chaque sous-groupe (clé) ainsi que les valeurs de chaque sous-groupe à l'aide d'une boucle :

In [66]:
for cle, sg in g :
    print('intitule du sous-groupe :', cle)
    print(sg)

intitule du sous-groupe : female
    haircolor hairpattern     sex  weight  age foodtype
0         red       solid  female     4.6   12    other
1       black       tabby  female     5.5    6      dry
2       white       tabby  female     5.6    8      wet
3         red       tabby  female     6.1    5      dry
4       brown       solid  female     5.3    7      dry
..        ...         ...     ...     ...  ...      ...
145     black       tabby  female     2.6   10      dry
147     black       tabby  female     4.1    3      wet
148     brown       tabby  female     6.3    3      dry
149     black       tabby  female     5.2    5      wet
150     brown       tabby  female     4.3    3    other

[75 rows x 6 columns]
intitule du sous-groupe : male
    haircolor hairpattern   sex  weight  age foodtype
5       black       tabby  male     6.9    5      wet
6       brown       solid  male     6.3    5      dry
8       white    tortoise  male     4.3    5      wet
10      black       tabby

#### Sélectionner un groupe

A partir d'un groupeby, on peut sélectionner un ou plusieurs des sous-groupes avec la fonction `get_group()` :

In [67]:
g = cat.groupby('hairpattern')
g.get_group('tabby')

Unnamed: 0,haircolor,hairpattern,sex,weight,age,foodtype
1,black,tabby,female,5.5,6,dry
2,white,tabby,female,5.6,8,wet
3,red,tabby,female,6.1,5,dry
5,black,tabby,male,6.9,5,wet
10,black,tabby,male,3.6,8,wet
...,...,...,...,...,...,...
147,black,tabby,female,4.1,3,wet
148,brown,tabby,female,6.3,3,dry
149,black,tabby,female,5.2,5,wet
150,brown,tabby,female,4.3,3,other


$\rightarrow$ On applique un masque par rapport à la variable `'hairpattern'` et on accède ensuite seulement au sous-groupe `tabby`.

Du DataFrame orginal on ne garde que les individus ayant un hairpattern de type **tabby**.

Il est possible de faire un `groupeby` à partir de plusieurs variables (données dans une liste) et d'accéder ensuite aux sous-groupes de ces variables avec un `get_group` :

In [68]:
g = cat.groupby(['hairpattern','sex']).get_group(('tabby','male'))
g

Unnamed: 0,haircolor,hairpattern,sex,weight,age,foodtype
5,black,tabby,male,6.9,5,wet
10,black,tabby,male,3.6,8,wet
13,brown,tabby,male,4.6,5,wet
17,white,tabby,male,4.1,8,wet
28,brown,tabby,male,5.7,8,dry
...,...,...,...,...,...,...
129,black,tabby,male,5.7,5,dry
130,white,tabby,male,4.0,4,dry
133,black,tabby,male,5.9,11,dry
135,white,tabby,male,5.1,2,dry


$\rightarrow$ On applique un masque par rapport aux variables 'hairpattern' et 'sex' et on ne garde que les individus **mâles** ayant un hairpattern de type **tabby**.

In [69]:
g = cat.groupby('sex')
g['hairpattern', 'foodtype'].get_group('female')

  


Unnamed: 0,hairpattern,foodtype
0,solid,other
1,tabby,dry
2,tabby,wet
3,tabby,dry
4,solid,dry
...,...,...
145,tabby,dry
147,tabby,wet
148,tabby,dry
149,tabby,wet


$\rightarrow$ On fait d'abord un groupby 'sex' (masque). Ce groupe comprend deux sous-groupes : male et female.

$\rightarrow$ On accède ensuite seulement au sous-groupe `female` (cela créé un sous-DataFrame) et on ne sélectionne que les colonnes `hairpattern` et `foodtype` de ce sous-DataFrame. 

### Applying : aggrégation

Une fois qu'un object groupeby a été crée il est possible d'appliquer différents types de calcul à l'ensemble des  données de cet objet. Pour cela on utilise la fonction `aggregate` :

In [70]:
g = cat.groupby('foodtype')
g.aggregate(np.mean)

Unnamed: 0_level_0,weight,age
foodtype,Unnamed: 1_level_1,Unnamed: 2_level_1
dry,4.989216,6.019608
other,4.3,6.555556
wet,4.780952,6.285714


$\rightarrow$ Ici on ne voit que les colonnes `age` et `weight` car l'opération `mean` est un indicateur statistique qui ne fonctionne que sur les données numériques.

De manière générale, pour obtenir l'ensemble des indicateurs statistiques **de l'objet groupby** on peut appliquer la fonction `describe()` vue précédemment:

In [71]:
g.describe()

Unnamed: 0_level_0,weight,weight,weight,weight,weight,weight,weight,weight,age,age,age,age,age,age,age,age
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
foodtype,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
dry,102.0,4.989216,1.022703,1.9,4.4,5.1,5.7,7.5,102.0,6.019608,2.594665,2.0,4.0,6.0,7.0,17.0
other,9.0,4.3,0.759934,3.2,3.9,4.3,4.6,5.4,9.0,6.555556,3.32081,3.0,4.0,6.0,7.0,12.0
wet,42.0,4.780952,1.112509,2.5,4.025,4.6,5.5,7.1,42.0,6.285714,2.787478,3.0,5.0,5.0,7.75,17.0


On peut aussi effectuer des opérations d'aggrégation sur un groupby ayant plusieurs clés :

In [72]:
g = cat.groupby(['foodtype','sex'])
g.aggregate(np.mean)

Unnamed: 0_level_0,Unnamed: 1_level_0,weight,age
foodtype,sex,Unnamed: 2_level_1,Unnamed: 3_level_1
dry,female,4.802041,6.244898
dry,male,5.162264,5.811321
other,female,4.3375,6.875
other,male,4.0,4.0
wet,female,4.605556,6.888889
wet,male,4.9125,5.833333
