# Lab 7 : Prise en main de Pandas

L'objectif de cette fiche d'exercices est de découvrir un outil que nous utiliserons dans le lab 7:
+ [Pandas](https://pandas.pydata.org/) : une bibliothèque python spécialisée dans l'analyse de données qui est très utilisée en science des données, notamment pour la manipulation de données. Cette librairie permet notamment de manipuler les données à l'aide de **Data Frame** (tableau de données), ce qui peut être très utile.



Comme pour les précédents labs, pour le cas du lab effectué sur colab, voici les instructions pour permettre l'importation de ce dossier Data fournie avec ce lab :

- Dans le dossier Lab7_TutoPanda_2021 téléchargé depuis git, vous trouverez une archive Archive_Tuto_Panda.zip.
- Ouvrir le panneau Fichiers de colab (c'est à dire cliquez sur le logo en forme de dossier à gauche) et cliquez sur le premier bouton en haut à gauche vous permettant de télécharger. Téléchargez ainsi l'Archive_Tuto_Panda.zip dans votre colab. Si besoin actualiser jusqu'à voir l'archive apparaître dans le panneau.
- Exécutez la céllule de code suivante pour déziper l'archive.

In [None]:
!unzip Archive_Tuto_Panda.zip

# PANDAS

Cette partie s'inspire des très bon tutoriels de [Philippe Besse](https://www.math.univ-toulouse.fr/~besse/Wikistat/pdf/st-tutor2-python-pandas.pdf) et de [Xavier Dupré](http://www.xavierdupre.fr/app/ensae_teaching_cs/helpsphinx/ml2a/td_2a_manip.html#matrices-et-dataframes-numpy-pandas-sql). De nombreux autres tutoriels sont disponibles en ligne : http://pandas.pydata.org/pandas-docs/stable/tutorials.html

La bibliothèque Pandas possède de nombreuses riches foncionnalités qui sont à l'origine de son succès et de l'utilisation de Python pour extraire, préparer, et éventuellement analyser des données. En particulier:

+ **Objets** : les classes **Series** et **DataFrame** ou table de données.
+ **Lire, écrire** :  création et exportation de tables de données à partir de fichiers textes (séparateurs, .csv, format fixe, compressés), binaires (HDF5 avec Pytable), HTML, XML, JSON, MongoDB, SQL...
+ **Gestion d’une table** : sélection des lignes, colonnes, transformations, réorganisation par niveau d’un facteur, discrétisation de variables quantitatives, exclusion ou imputation élémentaire de données manquantes, permutation et échantillonnage aléatoire, variables indicatrices, chaînes de caractères...
+ **Statistiques** élémentaires uni et bivariées, tri à plat (nombre de modalités, devaleurs nulles, de valeurs manquantes...), graphiques associés, statistiques par groupe, détection élémentaire de valeurs atypiques...
+ **Manipulation de tables** : concaténations, fusions, jointures, tri, gestion des types et formats

## Installation

In [None]:
!pip install pandas


## Series

Une [Series](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.html) est un objet uni-dimensionnel similaire à un tableau, une liste ou une colonne d'une table. Chaque valeur est associée à un index qui est par défaut les entiers de $0$ à  $N−1$  (avec  N  la longueur de la Series).

In [2]:
import pandas
from pandas import Series
import numpy
s = Series([42, 'Bonjour!', 3.14, -5, None, numpy.nan])
s.head()

0          42
1    Bonjour!
2        3.14
3          -5
4        None
dtype: object

On peut aussi préciser les indices lors de la création.

In [3]:
s2 = Series([42, 'Bonjour!', 3.14, -5, None, numpy.nan], 
            index=['int', 'string', 'pi', 'neg', 'missing1', 'missing2'])
s2

int               42
string      Bonjour!
pi              3.14
neg               -5
missing1        None
missing2         NaN
dtype: object

On peut aussi construire la Series à partir d'un dictionnaire si on fournit un index avec un dictionnaire, les index qui ne sont pas des clés du dictionnaire seront des valeurs manquantes.

In [4]:
city2cp_dict = {'Paris14': 75014, 'Paris18': 75018, 'Malakoff': 92240, 'Nice': 6300}
cities = Series(city2cp_dict)
cities

Paris14     75014
Paris18     75018
Malakoff    92240
Nice         6300
dtype: int64

## DataFrame

Un DataFrame est un objet qui est présent dans la plupart des logiciels de traitements de données. C'est une matrice, chaque colonne est une **Series** et est de même type (nombre, date, texte), elle peut contenir des valeurs manquantes (nan). On peut considérer chaque colonne comme les variables d'une table.

Un Dataframe représente une table de données, i.e. une collection ordonnée de colonnes. Ces colonnes/lignes peuvent avoir des types différents (numérique, string, boolean). Cela est très similaire aux DataFrame du langage R (en apparence...), avec un traitement plus symétrique des lignes et des colonnes. C’est un tableau bi-dimensionnel
avec des index de lignes et de colonnes mais il peut également être vu comme une liste de **Series** partageant le même index. L’index de colonne (noms des variables) est un objet de type dict (dictionnaire).

In [5]:
import pandas
l = [ { "date":"2014-06-22", "prix":220.0, "devise":"euros" }, 
      { "date":"2014-06-23", "prix":221.0, "devise":"euros" },]
df = pandas.DataFrame(l)
df

Unnamed: 0,date,prix,devise
0,2014-06-22,220.0,euros
1,2014-06-23,221.0,euros


In [6]:
import pandas as pd
data = {"state": ["Ohio", "Ohio", "Ohio",
"Nevada", "Nevada"],
"year": [2000, 2001, 2002, 2001, 2002],
"pop": [1.5, 1.7, 3.6, 2.4, 2.9]}
frame = pd.DataFrame(data)
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [13]:
matrix = frame.pivot_table(index='state', columns='year', values='pop')
matrix

year,2000,2001,2002
state,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Nevada,,2.4,2.9
Ohio,1.5,1.7,3.6


In [16]:
# ordre des colonnes
pd.DataFrame(data, columns=["year", "state", "pop"])
frame2 = pd.DataFrame(data)
frame2

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [17]:
# index des lignes et valeurs manquantes (NaN)
frame2=pd.DataFrame(data, columns=["year", "state","pop", "debt"],
index=["one", "two", "three", "four", "five"])
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,


In [None]:
# liste des colonnes
frame.columns

Index(['state', 'year', 'pop'], dtype='object')

In [None]:
# valeurs d’une colonne
frame["state"]

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
Name: state, dtype: object

In [None]:
# valeurs d’une colonne
frame.year

0    2000
1    2001
2    2002
3    2001
4    2002
Name: year, dtype: int64

In [None]:
# "imputation"
frame2["debt"] = 16.5
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5


In [None]:
# créer une variable
frame2["eastern"] = frame2.state == "Ohio"
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,16.5,True
two,2001,Ohio,1.7,16.5,True
three,2002,Ohio,3.6,16.5,True
four,2001,Nevada,2.4,16.5,False
five,2002,Nevada,2.9,16.5,False


### Lecture et écriture de DataFrame

Cette section présente brièvement les fonctions qui permettent de lire/écrire un DataFrame aux formats texte/Excel. L'instruction encoding=utf-8 n'est pas obligatoire mais conseillée lorsque les données contiennent des accents.

#### Ecriture

*Note: si vous avez l'erreur "No module named 'openpyxl'" en executant la cellule suivante alors vous avez besoin d'installer openyxl avec la commande  !pip install openpyxl* 


In [20]:
!pip install openpyxl

Collecting openpyxl
  Downloading openpyxl-3.0.7-py2.py3-none-any.whl (243 kB)
[K     |████████████████████████████████| 243 kB 3.7 MB/s eta 0:00:01
[?25hCollecting et-xmlfile
  Downloading et_xmlfile-1.1.0-py3-none-any.whl (4.7 kB)
Installing collected packages: et-xmlfile, openpyxl
Successfully installed et-xmlfile-1.1.0 openpyxl-3.0.7


In [21]:
import pandas
l = [ { "date":"2014-06-22", "prix":220.0, "devise":"euros" }, 
      { "date":"2014-06-23", "prix":221.0, "devise":"euros" },]
df = pandas.DataFrame(l)

# écriture au format texte
df.to_csv("exemple.txt",sep="\t",encoding="utf-8", index=False)

# on regarde ce qui a été enregistré
with open("exemple.txt", "r", encoding="utf-8") as f: 
    text = f.read()
print(text)

# on enregistre au format Excel
df.to_excel("exemple.xlsx", index=False)


date	prix	devise
2014-06-22	220.0	euros
2014-06-23	221.0	euros



#### Lecture

On peut récupérer des données directement depuis Internet ou une chaîne de caractères et afficher le début (*head*) ou la fin (*tail*).

Nous allons travailler avec les données : [heart.txt](./Data/marathon.txt) (source : R. Rakotomalala)

In [22]:

#chargement du fichier
#df est le nom de l'objet de type data frame créé
#sep spécifie le caractère séparateur de colonnes
#header = 0 : la ligne numéro 0 = aux noms des champs
#éventuellement decimal permet d'indiquer le point décimal
df = pandas.read_table("./Data/heart.txt",sep = '\t',header = 0)
#vérifions le type de df
print(type(df))


<class 'pandas.core.frame.DataFrame'>


In [23]:
#afficher les premières lignes du jeu de données
df.head()

Unnamed: 0,age,sexe,typedouleur,sucre,tauxmax,angine,depression,coeur
0,70,masculin,D,A,109,non,24,presence
1,67,feminin,C,A,160,non,16,absence
2,57,masculin,B,A,141,non,3,presence
3,64,masculin,D,A,105,oui,2,absence
4,74,feminin,B,A,121,oui,2,absence


In [24]:
#dimensions : nombre de lignes, nombre de colonnes
#la ligne d'en-tête n'est pas comptabilisée
#dans le nombre de lignes
print(df.shape)

(270, 8)


In [25]:
#énumération des colonnes
print(df.columns)

Index(['age', 'sexe', 'typedouleur', 'sucre', 'tauxmax', 'angine',
       'depression', 'coeur'],
      dtype='object')


In [26]:
#type de chaque colonne
print(df.dtypes)

age             int64
sexe           object
typedouleur    object
sucre          object
tauxmax         int64
angine         object
depression      int64
coeur          object
dtype: object


In [27]:
#description des données
print(df.describe(include='all'))

               age      sexe typedouleur sucre     tauxmax angine  depression  \
count   270.000000       270         270   270  270.000000    270  270.000000   
unique         NaN         2           4     2         NaN      2         NaN   
top            NaN  masculin           D     A         NaN    non         NaN   
freq           NaN       183         129   230         NaN    181         NaN   
mean     54.433333       NaN         NaN   NaN  149.677778    NaN   10.500000   
std       9.109067       NaN         NaN   NaN   23.165717    NaN   11.452098   
min      29.000000       NaN         NaN   NaN   71.000000    NaN    0.000000   
25%      48.000000       NaN         NaN   NaN  133.000000    NaN    0.000000   
50%      55.000000       NaN         NaN   NaN  153.500000    NaN    8.000000   
75%      61.000000       NaN         NaN   NaN  166.000000    NaN   16.000000   
max      77.000000       NaN         NaN   NaN  202.000000    NaN   62.000000   

          coeur  
count    

#### Manipulation des variables


In [28]:
#accès à une colonne
print(df['sucre'])

0      A
1      A
2      A
3      A
4      A
      ..
265    B
266    A
267    A
268    A
269    A
Name: sucre, Length: 270, dtype: object


In [29]:
#autre manière d'accéder à une colonne avec le .
print(df.sucre)

0      A
1      A
2      A
3      A
4      A
      ..
265    B
266    A
267    A
268    A
269    A
Name: sucre, Length: 270, dtype: object


In [30]:
#accéder à un ensemble de colonnes
print(df[['sexe','sucre']])

         sexe sucre
0    masculin     A
1     feminin     A
2    masculin     A
3    masculin     A
4     feminin     A
..        ...   ...
265  masculin     B
266  masculin     A
267   feminin     A
268  masculin     A
269  masculin     A

[270 rows x 2 columns]


In [31]:
#une colonne est un vecteur (Series en terminologie Pandas)
#affichage des premières valeurs
print(df['age'].head())

0    70
1    67
2    57
3    64
4    74
Name: age, dtype: int64


In [32]:
#affichage des dernières valeurs
print(df['age'].tail())

265    52
266    44
267    56
268    57
269    67
Name: age, dtype: int64


#### Quelques statistiques

Voir les détails ici : http://pandas.pydata.org/pandas-docs/stable/basics.html#summarizing-data-describe

In [33]:
print(df['age'].describe())

count    270.000000
mean      54.433333
std        9.109067
min       29.000000
25%       48.000000
50%       55.000000
75%       61.000000
max       77.000000
Name: age, dtype: float64


In [34]:
#calculer explicitement la moyenne
print(df['age'].mean())

54.43333333333333


In [35]:
#comptage des valeurs
print(df['typedouleur'].value_counts())

D    129
C     79
B     42
A     20
Name: typedouleur, dtype: int64


In [36]:
#trier les valeurs d'une variable de manière croissante
print(df['age'].sort_values())

214    29
174    34
138    34
224    35
81     35
       ..
15     71
255    71
4      74
73     76
199    77
Name: age, Length: 270, dtype: int64


In [37]:
#nous pouvons aussi obtenir les indices des valeurs triées
print(df['age'].argsort())

0      214
1      174
2      138
3      224
4       81
      ... 
265     15
266    255
267      4
268     73
269    199
Name: age, Length: 270, dtype: int64


In [38]:
# Appliquer une fonction
import numpy
#fonction call back
def operation(x):
    return(x.mean())
#appel de la fonction sur l'ensemble des colonnes du DataFrame
#axis = 0 ==> chaque colonne sera transmise à la fonction operation()
#la selection select_dtypes() permet d'exclure les variables non numériques

resultat = df.select_dtypes(exclude=['object']).apply(operation,axis=0)
print(resultat)

age            54.433333
tauxmax       149.677778
depression     10.500000
dtype: float64


#### Accès indicé aux données d'un DataFrame
On peut accéder aux valeurs du DataFrame via des indices ou plages d'indice. La structure se comporte alors comme une
matrice. La cellule en haut et à gauche est de coordonnées (0,0).
Il y a différentes manières de le faire, l'utilisation de $.iloc[,]$ constitue une des solutions les plus simples. 

In [39]:
#accès à la valeur située en (0,0)
print(df.iloc[0,0])

70


In [40]:
#5 premières valeurs de toutes les colonnes
#lignes => 0:5 (0 à 5 [non inclus])
#colonnes = : (toutes les colonnes)
print(df.iloc[0:5,:])

   age      sexe typedouleur sucre  tauxmax angine  depression     coeur
0   70  masculin           D     A      109    non          24  presence
1   67   feminin           C     A      160    non          16   absence
2   57  masculin           B     A      141    non           3  presence
3   64  masculin           D     A      105    oui           2   absence
4   74   feminin           B     A      121    oui           2   absence


In [41]:
#liste des individus présentant une douleur de type A
print(df.loc[df['typedouleur']=="A",:])

     age      sexe typedouleur sucre  tauxmax angine  depression     coeur
13    61  masculin           A     A      145    non          26  presence
18    64  masculin           A     A      144    oui          18   absence
19    40  masculin           A     A      178    oui          14   absence
37    59  masculin           A     A      125    non           0  presence
63    60   feminin           A     A      171    non           9   absence
64    63  masculin           A     B      150    non          23   absence
85    42  masculin           A     A      178    non           8   absence
87    59  masculin           A     A      145    non          42   absence
118   66   feminin           A     A      114    non          26   absence
143   51  masculin           A     A      125    oui          14   absence
158   56  masculin           A     A      162    non          19   absence
160   38  masculin           A     A      182    oui          38  presence
169   65  masculin       

In [42]:
#liste des individus présentant une douleur de type A et angine == oui
print(df.loc[(df['typedouleur']=="A") & (df['angine'] == "oui"),:])

     age      sexe typedouleur sucre  tauxmax angine  depression     coeur
18    64  masculin           A     A      144    oui          18   absence
19    40  masculin           A     A      178    oui          14   absence
143   51  masculin           A     A      125    oui          14   absence
160   38  masculin           A     A      182    oui          38  presence


In [43]:
# Croisement de variables
print(pandas.crosstab(df['sexe'],df['coeur']))


coeur     absence  presence
sexe                       
feminin        67        20
masculin       83       100


In [44]:
#scission des données selon le sexe
g = df.groupby('sexe')
#calculer la dimension du sous-DataFrame associé aux hommes
print(g.get_group('masculin').shape)

(183, 8)
