In [None]:
"""
Librairie pandas

Notions de la librairie pandas :
Tableau à 1 dimension (1 colonne) = Series
Tableau à 2 dimensions (2 colonnes) = DataFrame
index : en-têtes des lignes

L'avantage de cette librairie est que les opérations ne
se feront entre deux tableaux qui auront deux index identiques
À titre d'exemple deux tableaux avec un en-tête noms, prenoms et âges :
Les additions ne se feront que pour les colonnes qui auront le label 'ages'

Autre avantage : la librairie pandas permet d'afficher les en-têtes des
tableaux qui ne sont pas par principe, créés par le programmeur concepteur.
À cela, les données sont généralement importés d'un fichier html, csv,
excel, json, sql, python pickle...

Éditeur : Laurent REYNAUD
Date : 25-06-2021
"""

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns # module des données le titanic :D

In [2]:
"Concaténation entre plusieurs dataframe"

'Concaténation entre plusieurs dataframe'

In [3]:
# 1er dataframe
df1 = pd.DataFrame(np.random.randint(1, 10, size=(2, 2)),
                   columns=list('ab'),
                   index=list('xy'))
df1

Unnamed: 0,a,b
x,2,4
y,7,1


In [4]:
# 2ème dataframe
df2 = pd.DataFrame(np.random.randint(1, 10, size=(2, 2)),
                   columns=list('ab'),
                   index=list('zt'))
df2

Unnamed: 0,a,b
z,5,2
t,2,7


In [6]:
# Concaténation des 2 dataframe ci-avant en 2 colonnes
pd.concat([df1, df2])

Unnamed: 0,a,b
x,2,4
y,7,1
z,5,2
t,2,7


In [7]:
# 3ème dataframe
df3 = pd.DataFrame(np.random.randint(1, 10, size=(2, 2)),
                   columns=list('cd'),
                   index=list('xy'))
df2

Unnamed: 0,a,b
z,5,2
t,2,7


In [8]:
# Concaténation du 1er dataframe et du 3ème en 2 lignes
pd.concat([df1, df3], axis=1)

Unnamed: 0,a,b,c,d
x,2,4,4,2
y,7,1,7,8


In [9]:
"Jointure entre plusieurs dataframe"

'Jointure entre plusieurs dataframe'

In [10]:
# Autres dataframe : personnel d'une société -> service & ancienneté

#Dataframe personnel affecté au service qui lui est rattaché
df4 = pd.DataFrame({'personnel': ['Bob', 'Lisa', 'Sue'],
                    'groupe': ['SAV', 'R&D', 'RH']})
df4

Unnamed: 0,personnel,groupe
0,Bob,SAV
1,Lisa,R&D
2,Sue,RH


In [11]:
# Dataframe ancienneté du personnel
df5 = pd.DataFrame({'personnel': ['Lisa','Bob', 'Sue'],
                    'date embauche': [2004, 2008, 2014]})
df5

Unnamed: 0,personnel,date embauche
0,Lisa,2004
1,Bob,2008
2,Sue,2014


In [12]:
# Dataframe ancienneté du personnel
df5 = pd.DataFrame({'personnel': ['Lisa','Bob', 'Sue'],
                    'date embauche': [2004, 2008, 2014]})
df5

Unnamed: 0,personnel,date embauche
0,Lisa,2004
1,Bob,2008
2,Sue,2014


In [13]:
# Jointure des deux dataframe ci-avant
pd.merge(df4, df5)

Unnamed: 0,personnel,groupe,date embauche
0,Bob,SAV,2008
1,Lisa,R&D,2004
2,Sue,RH,2014


In [14]:
"Opérations de regroupement et de pivot"

'Opérations de regroupement et de pivot'

In [15]:
# Téléchargement des données du Titanic :D
# Recours au module seaborn"
ti = sns.load_dataset('titanic').loc[:, ['survived', 'sex', 'class']]
ti.head()

Unnamed: 0,survived,sex,class
0,0,male,Third
1,1,female,First
2,1,female,Third
3,1,female,First
4,0,male,Third


In [16]:
# Affichage du nombre de lignes et de colonnes au total
# Nombre total de lignes et de colonnes"
ti.shape

(891, 3)

In [17]:
# Accès aux données de la colonne 'survived'
ti.loc[:, 'survived']

0      0
1      1
2      1
3      1
4      0
      ..
886    0
887    1
888    0
889    1
890    0
Name: survived, Length: 891, dtype: int64

In [18]:
# Taux de survie des personnes du Titanic :D
ti.loc[:, 'survived'].mean()

0.3838383838383838

In [21]:
# Différence du taux de survie entre les différentes classes

# Taux de survie des passagers de la 1ère classe
ti.loc[ti.loc[:, 'class']=='First', 'survived'].mean()

0.6296296296296297

In [22]:
# Taux de survie des passagers de la 2ème classe
ti.loc[ti.loc[:, 'class']=='Second', 'survived'].mean()

0.47282608695652173

In [23]:
# Taux de survie des passagers de la 3ème classe
ti.loc[ti.loc[:, 'class']=='Third', 'survived'].mean()

0.24236252545824846

In [24]:
# Récapitulatif du taux de survie par class

ti.groupby('class').mean()

Unnamed: 0_level_0,survived
class,Unnamed: 1_level_1
First,0.62963
Second,0.472826
Third,0.242363


In [25]:
# Récapitulatif du taux de survie par regroupement classe et sexe
g = ti.groupby(['class', 'sex']).mean()
g

Unnamed: 0_level_0,Unnamed: 1_level_0,survived
class,sex,Unnamed: 2_level_1
First,female,0.968085
First,male,0.368852
Second,female,0.921053
Second,male,0.157407
Third,female,0.5
Third,male,0.135447


In [26]:
# Recours à la fonction pivot_table
ti.pivot_table('survived',
                     aggfunc=np.mean,
                     index='class',
                     columns='sex')

sex,female,male
class,Unnamed: 1_level_1,Unnamed: 2_level_1
First,0.968085,0.368852
Second,0.921053,0.157407
Third,0.5,0.135447
