In [None]:
"""
Librairie pandas

Notions de la librairie pandas :
Tableau à 1 dimension (1 colonne) = Series
Tableau à 2 dimensions (2 colonnes) = DataFrame
index : en-têtes des lignes

L'avantage de cette librairie est que les opérations ne
se feront entre deux tableaux qui auront deux index identiques
À titre d'exemple deux tableaux avec un en-tête noms, prenoms et âges :
Les additions ne se feront que pour les colonnes qui auront le label 'ages'

Autre avantage : la librairie pandas permet d'afficher les en-têtes des
tableaux qui ne sont pas par principe, créés par le programmeur concepteur.
À cela, les données sont généralement importés d'un fichier html, csv,
excel, json, sql, python pickle...

Les dataframe sont des tableaux à 2 dimensions sur lesquels on va mettre
des index sur les lignes et sur les colonnes

Éditeur : Laurent REYNAUD
Date : 25-06-2021
"""

In [2]:
import pandas as pd
import numpy as np

In [3]:
# Une liste de prénoms
prenoms = ['liz', 'bob', 'bill', 'eve']

In [4]:
# Une series d'âge
age = pd.Series([25, 30, 35, 40],
                index=prenoms)

In [5]:
# Une series de taille
taille = pd.Series([160, 175, 170, 180],
                   index=prenoms)

In [6]:
# Une series de liste de sexe
sexe = pd.Series(list('fhhf'),
                 index=prenoms)

In [7]:
"""Constitution d'une dataframe :
-> les entêtes des lignes constituent sont les index
-> les entêtes des colonnes sont les clés de la bibliothèque"""

"Constitution d'une dataframe :\n-> les entêtes des lignes constituent sont les index\n-> les entêtes des colonnes sont les clés de la bibliothèque"

In [9]:
# Dataframe de la liste et des series ci-avant
df = pd.DataFrame({'age': age,
                   'taille': taille,
                   'sexe': sexe})
df

Unnamed: 0,age,taille,sexe
liz,25,160,f
bob,30,175,h
bill,35,170,h
eve,40,180,f


In [10]:
# Accès aux attributs de l'index
df.index

Index(['liz', 'bob', 'bill', 'eve'], dtype='object')

In [11]:
# Accès aux attributs des colonnes
df.columns

Index(['age', 'taille', 'sexe'], dtype='object')

In [12]:
# Accès aux valeurs du tableau numpy
df.values

array([[25, 160, 'f'],
       [30, 175, 'h'],
       [35, 170, 'h'],
       [40, 180, 'f']], dtype=object)

In [13]:
# Accès aux 2 premières lignes
df.head(2)

Unnamed: 0,age,taille,sexe
liz,25,160,f
bob,30,175,h


In [14]:
# Accès aux 2 derniers lignes
df.tail(2)

Unnamed: 0,age,taille,sexe
bill,35,170,h
eve,40,180,f


In [15]:
# Statistiques de la dataframe
df.describe()

Unnamed: 0,age,taille
count,4.0,4.0
mean,32.5,171.25
std,6.454972,8.539126
min,25.0,160.0
25%,28.75,167.5
50%,32.5,172.5
75%,36.25,176.25
max,40.0,180.0


In [16]:
"Indexation dans les dataframe"

'Indexation dans les dataframe'

In [17]:
# Accès à une ligne : données concernant 'liz'
df.loc['liz']

age        25
taille    160
sexe        f
Name: liz, dtype: object

In [18]:
# Accès à une valeur d'une ligne et d'une colonne : âge de 'liz'
df.loc['liz', 'age']

25

In [19]:
# Accès aux éléments d'une colonne : taille de toutes les personnes
df.loc[:, 'taille']

liz     160
bob     175
bill    170
eve     180
Name: taille, dtype: int64

In [20]:
# Accès à tous les éléments de la dataframe selon une condition :
# Liste des personnes ayant - de 32 ans
df.loc[df.loc[:, 'age']<32]

Unnamed: 0,age,taille,sexe
liz,25,160,f
bob,30,175,h


In [21]:
"Modification de la dataframe"

'Modification de la dataframe'

In [22]:
# Les données de l'index passent en valeurs de la dataframe
df = df.reset_index()
df

Unnamed: 0,index,age,taille,sexe
0,liz,25,160,f
1,bob,30,175,h
2,bill,35,170,h
3,eve,40,180,f


In [23]:
# Renommage de la colonne index modifiée ci-avant
df = df.rename(columns={'index': 'prenom'})
df

Unnamed: 0,prenom,age,taille,sexe
0,liz,25,160,f
1,bob,30,175,h
2,bill,35,170,h
3,eve,40,180,f


In [24]:
# Une colonne de la dataframe passe en index cette fois-ci
# Colonne des âges en index
df = df.set_index('age')
df

Unnamed: 0_level_0,prenom,taille,sexe
age,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
25,liz,160,f
30,bob,175,h
35,bill,170,h
40,eve,180,f


In [25]:
"Simplification des instructions faites ci-avant"

'Simplification des instructions faites ci-avant'

In [27]:
# Réinitialisation de la dataframe
df = pd.DataFrame({'age': age,
                   'taille': taille,
                   'sexe': sexe})
df

Unnamed: 0,age,taille,sexe
liz,25,160,f
bob,30,175,h
bill,35,170,h
eve,40,180,f


In [28]:
# Même résultat que les instructions faites dans la partie ci-avant
df = (df.reset_index()
      .rename(columns={'index': 'nom'})
      .set_index('age'))
df

Unnamed: 0_level_0,nom,taille,sexe
age,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
25,liz,160,f
30,bob,175,h
35,bill,170,h
40,eve,180,f


In [29]:
"Alignement d'index"

"Alignement d'index"

In [30]:
# 1ère Dataframe contenant que des valeurs 1.00
df1 = pd.DataFrame(np.ones((2, 2)),
                   index=list('ab'),
                   columns=list('xy'))
df1

Unnamed: 0,x,y
a,1.0,1.0
b,1.0,1.0


In [31]:
# 2ème Dataframe contenant que des valeurs 1.00
df2 = pd.DataFrame(np.ones((2, 2)),
                   index=list('ac'),
                   columns=list('xz'))
df2

Unnamed: 0,x,z
a,1.0,1.0
c,1.0,1.0


In [32]:
# Somme des 2 dataframe ci-avant
df1 + df2

Unnamed: 0,x,y,z
a,2.0,,
b,,,
c,,,


In [33]:
# Intervention sur la somme des 2 dataframe ci-avant
df1.add(df2, fill_value=0)

Unnamed: 0,x,y,z
a,2.0,1.0,1.0
b,1.0,1.0,
c,1.0,,1.0


In [35]:
# Nouvelle intervention pour supprimer la valeur 'Nan' définitivement
df = df1.add(df2, fill_value=0)
df

Unnamed: 0,x,y,z
a,2.0,1.0,1.0
b,1.0,1.0,
c,1.0,,1.0


In [36]:
# 1ère solution remplacement de la valeur 'Nan' par une autre valeur
df = df.fillna(-1)
df

Unnamed: 0,x,y,z
a,2.0,1.0,1.0
b,1.0,1.0,-1.0
c,1.0,-1.0,1.0


In [37]:
# 2ème solution : suppression des lignes contenant la valeur 'Nan'
df = df.dropna()
df

Unnamed: 0,x,y,z
a,2.0,1.0,1.0
b,1.0,1.0,-1.0
c,1.0,-1.0,1.0
