# Chapitre 1 Bibliothèque Panda 
# 1.1 Introduction au structures de données pandas

# Series
## liste + Etiquette

In [107]:
import pandas as pd
import numpy as np

In [108]:
obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

Comme on a pas spécifié d'index pour les données, un index par defaut est crée (en entier de 0 a N)

In [109]:
obj.values

array([ 4,  7, -5,  3])

In [110]:
obj.index # comme range(4)

RangeIndex(start=0, stop=4, step=1)

il est souhaitable de créer une série avec un index identifiant chaque point
regarder ci dessous :

In [111]:
obj2 = pd.Series([4, 7, -5, 3], index = ['d', 'b', 'a', 'c'])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [112]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

Comparaison avec numpy on peut utiliser des étiquette dans l'index lorsque on selectionne des valeur individuelles ou un ensemble de valeurs :

In [113]:
obj2['a']

np.int64(-5)

In [114]:
obj2['d'] = 6
obj2[['c', 'a', 'd']]

c    3
a   -5
d    6
dtype: int64

c'est interprété comme une liste d'indice

l'utilisation de la fonction numpy telle que le filtrage avec un tableau booléen, la multiplication scalaire, permettra de préserver le lien entre l'index et la valeur:

In [115]:
obj2[obj2 > 0]

d    6
b    7
c    3
dtype: int64

In [116]:
obj2 * 2

d    12
b    14
a   -10
c     6
dtype: int64

In [117]:
np.exp(obj2)

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

une autre facon de représenter un objet Series : le considérer comme un dictionnaire ordonnée de longueur fixe 
il s'agit d'une correspondance entre des valeur d'index et des valeurs de données ci dessous :

In [118]:
'b' in obj2

True

In [119]:
'e' in obj2

False

si des donnée sont contenues dans un dict python, on peut créer un objet Series à partir de celui-ci en passant le dict : exemple

In [120]:
sdata = {'ohio': 35000, 'Texas': 71000, 'Oregon': 1600, 'Utah': 5000}
obj3 = pd.Series(sdata)
obj3

ohio      35000
Texas     71000
Oregon     1600
Utah       5000
dtype: int64

In [121]:
etats = ['Californie', 'ohio', 'Oregon', 'Texas']

In [122]:
obj4 = pd.Series(sdata, index=etats)
obj4

Californie        NaN
ohio          35000.0
Oregon         1600.0
Texas         71000.0
dtype: float64

ici, trois valeur trouvées dans sdata ont été placé aux endroit voulus, mais comme aucune valeur pour 'Californie', n'a été trouvé elle apparait sous forme de NaN ce qui est considéré comme une valeur manquante. la fonction isnull et notnull dans pansas doivent être appliquées pour detecter les données manquante : ci dessous

In [123]:
pd.isnull(obj4)

Californie     True
ohio          False
Oregon        False
Texas         False
dtype: bool

In [124]:
pd.notnull(obj4)

Californie    False
ohio           True
Oregon         True
Texas          True
dtype: bool

Séries dispose également de ces fonctions en tant que méthode instance:

In [125]:
obj4.isnull()

Californie     True
ohio          False
Oregon        False
Texas         False
dtype: bool

tips : une caractéristique utiles de Séries pour de nombreuses application et l'alignement automatique par étiquette d'index dans les opération arithmétique:

In [126]:
obj3

ohio      35000
Texas     71000
Oregon     1600
Utah       5000
dtype: int64

In [127]:
obj4

Californie        NaN
ohio          35000.0
Oregon         1600.0
Texas         71000.0
dtype: float64

In [128]:
obj3 + obj4

Californie         NaN
Oregon          3200.0
Texas         142000.0
Utah               NaN
ohio           70000.0
dtype: float64

l'objet Series lui même et son index ont un attribut name, qui s'integre a d'autre domaines de fonctionnalité de pandas : 

In [129]:
obj4.name = 'population'
obj4.index.name = 'états'
obj4

états
Californie        NaN
ohio          35000.0
Oregon         1600.0
Texas         71000.0
Name: population, dtype: float64

l'index Series peut etre modifie sur place  via une affectation : 

In [130]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [131]:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

# Resume
definition de Series : # Une Series c'est une colonne de données avec des étiquettes
Series = Liste avec étiquettes, accès par nom ou position, supporte NaN et s'aligne automatiquement lors des calculs.

## Dataframe

il existe de nombreuse façon de construire un dataframe, bien que l'une des plus courantes consiste a partir d'un dict d'une liste de longueur égal ou de tableau Numpy :

In [132]:
data = {'etat': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'annee': ['2000', '2001', '2002', '2001', '2002', '2003'],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)
frame

Unnamed: 0,etat,annee,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


Pour les grands DataFrame, la méthode head ne sélectionne que les 5 premiere ligne

In [133]:
frame.head()

Unnamed: 0,etat,annee,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


Si on spécifie une séquence de colonnes, les colonnes du dataframe seront disposé dans l'ordre indiqué

In [134]:
pd.DataFrame(data, columns=['annee', 'etat', 'pop'])

Unnamed: 0,annee,etat,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


Si on passe une colonne qui n'est pas contenue dans le dict, elle apparaitra avec des valeurs manquante dans les resultat:

In [135]:
frame2 = pd.DataFrame(data, columns=['annee', 'etat', 'pop', 'dette'],
                      index=['un', 'deux', 'trois', 'quatre','cinq', 'six'])
frame2

Unnamed: 0,annee,etat,pop,dette
un,2000,Ohio,1.5,
deux,2001,Ohio,1.7,
trois,2002,Ohio,3.6,
quatre,2001,Nevada,2.4,
cinq,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [136]:
frame2.columns

Index(['annee', 'etat', 'pop', 'dette'], dtype='object')

Une colonne dans un dataframe peut être récupérer sous forme d'un objet Series, sois par une notation de type dict, soit par attribut : 

In [137]:
frame2['etat']

un          Ohio
deux        Ohio
trois       Ohio
quatre    Nevada
cinq      Nevada
six       Nevada
Name: etat, dtype: object

In [138]:
frame2.annee

un        2000
deux      2001
trois     2002
quatre    2001
cinq      2002
six       2003
Name: annee, dtype: object

les lignes peuvent également être récupérées par position ou par nom avec l'attribut spécial loc (nous y reviendrons plus loin) : 

In [139]:
frame2.loc['trois']

annee    2002
etat     Ohio
pop       3.6
dette     NaN
Name: trois, dtype: object

les colonnes peuvent être modifiées par affectation. Par exemple, la colonne vide 'dette' peut se voir attribuer une valeur scalaire ou un tableau de valeurs : 

In [140]:
frame2['dette'] = 16.5
frame2

Unnamed: 0,annee,etat,pop,dette
un,2000,Ohio,1.5,16.5
deux,2001,Ohio,1.7,16.5
trois,2002,Ohio,3.6,16.5
quatre,2001,Nevada,2.4,16.5
cinq,2002,Nevada,2.9,16.5
six,2003,Nevada,3.2,16.5


In [141]:
frame2['dette'] = np.arange(6.)
frame2

Unnamed: 0,annee,etat,pop,dette
un,2000,Ohio,1.5,0.0
deux,2001,Ohio,1.7,1.0
trois,2002,Ohio,3.6,2.0
quatre,2001,Nevada,2.4,3.0
cinq,2002,Nevada,2.9,4.0
six,2003,Nevada,3.2,5.0


lorsqu'on affecte des listes ou des tableaux a une colonne, la longueur de la valeur doit corespondre à la longueur du dataframe. si on attribue une series, ses étiquettes seront alignées exactement sur l'index du dataframe, en insérant les valeurs manquantes dans les trous :

In [142]:
val = pd.Series([-1.2, -1.5, -1.7], index=['deux', 'quatre', 'cinq'])
frame2['dette'] = val
frame2

Unnamed: 0,annee,etat,pop,dette
un,2000,Ohio,1.5,
deux,2001,Ohio,1.7,-1.2
trois,2002,Ohio,3.6,
quatre,2001,Nevada,2.4,-1.5
cinq,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


Ajout d'une nouvelle colonne de valeurs booléennes ou la colonne etat est égale à 'Ohio' :

In [143]:
frame2['est'] = frame2.etat == 'Ohio'
frame2

Unnamed: 0,annee,etat,pop,dette,est
un,2000,Ohio,1.5,,True
deux,2001,Ohio,1.7,-1.2,True
trois,2002,Ohio,3.6,,True
quatre,2001,Nevada,2.4,-1.5,False
cinq,2002,Nevada,2.9,-1.7,False
six,2003,Nevada,3.2,,False


Attention : il n'est pas possible de créer de nouvelle colonnes avec la syntaxe frame2.est.

la méthode del peut alors être utilisée pour supprimer cette colonne : 

In [144]:
del frame2['est']
frame2.columns

Index(['annee', 'etat', 'pop', 'dette'], dtype='object')

La colonne renvoyée depuis l'indexation d'un DataFrame est une vue sur les données sous-jacente, et non une copie de celle-ci. Par conséquent, toute modification en place de la série sera reflétée dans la dataframe. La colonne peut être explicitement copiée avec la méthode copy de Series

Autre forme courant de données est un dict imbriquéde plusieur autres dict :

In [145]:
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
       'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}


Si le dict emboité est passé au DataFrame, pandas interprètera les clés du dict extérieur comme étant les colonnes, et les clé intérieur comme étant les indice de ligne :

In [146]:
frame3 = pd.DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


on peut transposer les DataFrame (échanger les lignes et les colonnes) avec une syntaxe similaire à un tableau numpy:

In [147]:
frame3.T

Unnamed: 0,2001,2002,2000
Nevada,2.4,2.9,
Ohio,1.7,3.6,1.5


Les clés des dictionnaires intérieur sont combinées et triées pour former l'index du résultat. Cela n'est pas vrai si un index explicite est spécifié:

In [148]:
pd.DataFrame(pop, index=[2001, 2002, 2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


les dicts de Series sont traité a peu pré de la meme maniere: 

In [149]:
pdata = {'Ohio': frame3['Ohio'][:-1],
         'Nevada': frame3['Nevada'][:2]}
pd.DataFrame(pdata)

Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,3.6,2.9


si un élements index et columns d'un dataFrame ont leur attribut name définis, ceux ci seront également affichés : 

In [150]:
frame3.index.name = 'annee'; frame3.columns.name = 'etat'
frame3

etat,Nevada,Ohio
annee,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


comme pour les objet Serie, l'attribut values renvoie les données contenues dans le DataFrame sous forme d'un DataFrame sous forme d'un tableau bidimensionnel:

In [151]:
frame3.values

array([[2.4, 1.7],
       [2.9, 3.6],
       [nan, 1.5]])

Si la colonnes du DataFrame ont des dtype différent, le dtype du tableau des valeurs sera choisi pour s'adapter à toutes les colonnes : 

In [152]:
frame2.values

array([['2000', 'Ohio', 1.5, nan],
       ['2001', 'Ohio', 1.7, -1.2],
       ['2002', 'Ohio', 3.6, nan],
       ['2001', 'Nevada', 2.4, -1.5],
       ['2002', 'Nevada', 2.9, -1.7],
       ['2003', 'Nevada', 3.2, nan]], dtype=object)

# Resume 
DataFrame = tableau 2D, accès par df['col'] ou df.loc/iloc, filtre avec df[condition]

# Objets Index

les objets Index de pandas sont chargés de contenir les étiquettes des axes et d'autres métadonnées (comme le ou les noms des axes). Tout tableau ou toute autre séquence  d'étiquette que vous utilisez lors de la construction d'un objet Series ou DataFrame est converti en interne en un index:

In [153]:
obj = pd.Series(range(3), index=['a', 'b', 'c'])
index = obj.index
index

Index(['a', 'b', 'c'], dtype='object')

In [154]:
index[1:]

Index(['b', 'c'], dtype='object')

Les objets index sont immutables et ne peuvent donc pas être modifiés par l'utilisateur: 

In [155]:
#index[1] = 'd'  # Type Error

L'immutabilité rend plus sur le partage des objets Index entre les structures de données :

In [156]:
labels = pd.Index(np.arange(3))
labels

Index([0, 1, 2], dtype='int64')

In [158]:
obj2 = pd.Series([1.5, -2.5, 0], index=labels)
obj2

0    1.5
1   -2.5
2    0.0
dtype: float64

In [159]:
obj2.index is labels

True

en plus de ressembler à un tableau, un index se comporte aussi comme un ensemble de taille fixe:

In [160]:
frame3

etat,Nevada,Ohio
annee,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [161]:
frame3.columns

Index(['Nevada', 'Ohio'], dtype='object', name='etat')

In [162]:
'Ohio' in frame3.columns

True

In [163]:
2003 in frame3.index

False

Contrairement aux ensembles Python, un index pandas pet contenir des étiquettes dupliquées : 

In [164]:
dup_labes = pd.Index(['foo', 'foo', 'bar', 'bar'])
dup_labes

Index(['foo', 'foo', 'bar', 'bar'], dtype='object')

les sélections avec des étiquette en double renverront toute les occurence de cette étiquette

# Resume
Index = étiquettes immuables, vérifiables avec 'in', combinables avec union/intersection