# Cours

* [OpenClassRooms - de NumPy à Pandas](https://openclassrooms.com/fr/courses/4452741-decouvrez-les-librairies-python-pour-la-data-science/5558996-passez-de-numpy-a-pandas)

# Sommaire

* [de NumPy à Pandas](#numpypandas)
* [Manipuler les données](#manipdonnees)
* [Algèbre relationnel](#relationnel)

# Introduction

* Avec  Numpy  et  Matplotlib  , la librairie  Pandas  fait partie des librairies de base pour la data science en Python.
* Pandas fournit des structures de données puissantes et simples à utiliser, ainsi que les moyens d'opérer rapidement des opérations sur ces structures. 
* L'objet phare de cette librairie sont le dataframe et la series
  * On peut voir ces structures comme une généralisation des tableaux et des matrices de Numpy. 
  * La différence fondamentale entre ces structures et les versions de Numpy est que les objets Pandas possèdent des indices explicites. 
  * Là où on ne pouvait se référer à un élément d'un tableau Numpy que par sa position dans le tableau, chaque élément d'une Series ou d'un DataFrame peut avoir un indice explicitement désigné par l'utilisateur.

<a id="numpypandas"></a>

## de NumPy à Pandas

In [5]:
import numpy as np

# taille (cm), poids (kg), age (années), taille des pattes avant (cm), taille des pattes arrières (cm)
papa_panda = np.array([200,300,20,50,60])
maman_panda = np.array([180,250,17,40,50])
bebe_panda = np.array([60,50,5,20,30])
famille_panda = np.array([papa_panda,maman_panda,bebe_panda])

print("famille_panda")
print(famille_panda)
print()

print("taille des pattes avant de papa_panda:",famille_panda[0,3])
print("taille des pattes avant de toute la famille:",famille_panda[:,3])

famille_panda
[[200 300  20  50  60]
 [180 250  17  40  50]
 [ 60  50   5  20  30]]

taille des pattes avant de papa_panda: 50
taille des pattes avant de toute la famille: [50 40 20]


### comment faire pour savoir que 3 correspond à la taille des pattes avant ?

In [15]:
import pandas as pd

df = pd.DataFrame(famille_panda)
df

# nous sommes passés d'un tableau NumPy à un DataFrame Pandas
# il y a maintenant des index et des colonnes pour chaque catégorie de valeurs
# ici : [papa, maman, bebe] & [taille, poids, age, taille patte avant, taille patte arriere]

Unnamed: 0,0,1,2,3,4
0,200,300,20,50,60
1,180,250,17,40,50
2,60,50,5,20,30


In [44]:
df = pd.DataFrame(famille_panda, 
                  index=['papa','maman','bebe'], 
                  columns=['taille', 'poids', 'age', 'taille_patte_avant', 'taille_patte_arriere'])

print(df)

# les lignes sont indexées
# les colonnes aussi

       taille  poids  age  taille_patte_avant  taille_patte_arriere
papa      200    300   20                  50                    60
maman     180    250   17                  40                    50
bebe       60     50    5                  20                    30


### on peut maintenant accéder plus facilement aux valeurs

In [45]:
print("NumPy - taille des pattes avant de papa_panda:", famille_panda[0,3])
print("NumPy - taille des pattes avant de toute la famille:", famille_panda[:,3])
print()
print("Pandas - taille des pattes avant de papa_panda:", df.loc['papa','taille_patte_avant'])
print("Pandas - taille des pattes avant de toute la famille:", df['taille_patte_avant'])

NumPy - taille des pattes avant de papa_panda: 50
NumPy - taille des pattes avant de toute la famille: [50 40 20]

Pandas - taille des pattes avant de papa_panda: 50
Pandas - taille des pattes avant de toute la famille: papa     50
maman    40
bebe     20
Name: taille_patte_avant, dtype: int32


### on peut parcourir le dataframe ligne par ligne avec une boucle for

In [35]:
for index, value in df.iterrows():
    print("Voici le panda : ", index)
    print(value)
    print("----------------------------")

Voici le panda :  papa
taille                  200
poids                   300
age                      20
taille_patte_avant       50
taille_patte_arriere     60
Name: papa, dtype: int32
----------------------------
Voici le panda :  maman
taille                  180
poids                   250
age                      17
taille_patte_avant       40
taille_patte_arriere     50
Name: maman, dtype: int32
----------------------------
Voici le panda :  bebe
taille                  60
poids                   50
age                      5
taille_patte_avant      20
taille_patte_arriere    30
Name: bebe, dtype: int32
----------------------------


### listes et masques

In [41]:
# liste des pandas ayant un age supérieur à 10 ans

df['age'] > 10

papa      True
maman     True
bebe     False
Name: age, dtype: bool

In [43]:
# cela permet de créer des masques pour filtrer les données

masque = df['age'] > 10
print(df[masque])

# inverse du masque

print(df[~masque])

       taille  poids  age  taille_patte_avant  taille_patte_arriere
papa      200    300   20                  50                    60
maman     180    250   17                  40                    50
      taille  poids  age  taille_patte_avant  taille_patte_arriere
bebe      60     50    5                  20                    30


In [72]:
df.loc[df['taille'] > 100]

Unnamed: 0,taille,poids,age,taille_patte_avant,taille_patte_arriere,sexe
papa,200,300,20,50,60,m
maman,180,250,17,40,50,f
frere,190,280,12,47,54,m
soeur,150,200,14,35,39,f


### ajouter des lignes au dataframe

In [47]:
nouveau_pandas = pd.DataFrame([[190,280,12,47,54],[150,200,14,35,39]],
                              index=['frere', 'soeur'],
                              columns = df.columns
)

df = df.append(nouveau_pandas)
df

Unnamed: 0,taille,poids,age,taille_patte_avant,taille_patte_arriere
papa,200,300,20,50,60
maman,180,250,17,40,50
bebe,60,50,5,20,30
frere,190,280,12,47,54
soeur,150,200,14,35,39


### supprimer les doublons

In [54]:
doublon = pd.DataFrame([[190,280,12,47,54]],
                      index=['doublon_frere'],
                      columns = df.columns)

df = df.append(doublon)
df

Unnamed: 0,taille,poids,age,taille_patte_avant,taille_patte_arriere
papa,200,300,20,50,60
maman,180,250,17,40,50
bebe,60,50,5,20,30
frere,190,280,12,47,54
soeur,150,200,14,35,39
doublon_frere,190,280,12,47,54
doublon_frere,190,280,12,47,54
doublon_frere,190,280,12,47,54


In [56]:
df = df.drop_duplicates()
df

Unnamed: 0,taille,poids,age,taille_patte_avant,taille_patte_arriere
papa,200,300,20,50,60
maman,180,250,17,40,50
bebe,60,50,5,20,30
frere,190,280,12,47,54
soeur,150,200,14,35,39


### créer une nouvelle colonne

In [60]:
df['sexe'] = ['m','f','f','m','f']
df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


Unnamed: 0,taille,poids,age,taille_patte_avant,taille_patte_arriere,sexe
papa,200,300,20,50,60,m
maman,180,250,17,40,50,f
bebe,60,50,5,20,30,f
frere,190,280,12,47,54,m
soeur,150,200,14,35,39,f


### nombre de lignes d'un DataFrame

In [61]:
len(df)

5

### lire un fichier csv

In [63]:
iris = pd.read_csv('iris.csv', sep=',')

iris.head()

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


<a id="manipdonnees"></a>

## Manipuler les données

In [64]:
import seaborn as sns

titanic = sns.load_dataset('titanic')
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


### liste des valeurs uniques

In [65]:
titanic.age.unique()

array([22.  , 38.  , 26.  , 35.  ,   nan, 54.  ,  2.  , 27.  , 14.  ,
        4.  , 58.  , 20.  , 39.  , 55.  , 31.  , 34.  , 15.  , 28.  ,
        8.  , 19.  , 40.  , 66.  , 42.  , 21.  , 18.  ,  3.  ,  7.  ,
       49.  , 29.  , 65.  , 28.5 ,  5.  , 11.  , 45.  , 17.  , 32.  ,
       16.  , 25.  ,  0.83, 30.  , 33.  , 23.  , 24.  , 46.  , 59.  ,
       71.  , 37.  , 47.  , 14.5 , 70.5 , 32.5 , 12.  ,  9.  , 36.5 ,
       51.  , 55.5 , 40.5 , 44.  ,  1.  , 61.  , 56.  , 50.  , 36.  ,
       45.5 , 20.5 , 62.  , 41.  , 52.  , 63.  , 23.5 ,  0.92, 43.  ,
       60.  , 10.  , 64.  , 13.  , 48.  ,  0.75, 53.  , 57.  , 80.  ,
       70.  , 24.5 ,  6.  ,  0.67, 30.5 ,  0.42, 34.5 , 74.  ])

In [68]:
titanic.age[titanic.age < 1]

78     0.83
305    0.92
469    0.75
644    0.75
755    0.67
803    0.42
831    0.83
Name: age, dtype: float64

### description générale du df

In [70]:
titanic.describe(include="all")
# L'argument include="all" sert à inclure les colonnes non-numérique dans l'analyse.

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
count,891.0,891.0,891,714.0,891.0,891.0,891.0,889,891,891,891,203,889,891,891
unique,,,2,,,,,3,3,3,2,7,3,2,2
top,,,male,,,,,S,Third,man,True,C,Southampton,no,True
freq,,,577,,,,,644,491,537,537,59,644,549,537
mean,0.383838,2.308642,,29.699118,0.523008,0.381594,32.204208,,,,,,,,
std,0.486592,0.836071,,14.526497,1.102743,0.806057,49.693429,,,,,,,,
min,0.0,1.0,,0.42,0.0,0.0,0.0,,,,,,,,
25%,0.0,2.0,,20.125,0.0,0.0,7.9104,,,,,,,,
50%,0.0,3.0,,28.0,0.0,0.0,14.4542,,,,,,,,
75%,1.0,3.0,,38.0,1.0,0.0,31.0,,,,,,,,


### données manquantes

* NaN : Not a Number
* ex : la moyenne d'une colonne de string n'a pas de sens

#### remplacer les valeurs NaN

In [85]:
titanic.fillna(value={'age':0}).age #remplace NaN par 0

5      0.0
17     0.0
19     0.0
26     0.0
28     0.0
      ... 
859    0.0
863    0.0
868    0.0
878    0.0
888    0.0
Name: age, Length: 177, dtype: float64

In [86]:
titanic.fillna(method="pad").age #remplace NaN par la valeur précédente

0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888    19.0
889    26.0
890    32.0
Name: age, Length: 891, dtype: float64

#### supprimer les valeurs NaN

In [89]:
titanic.dropna() # supprime les lignes qui contiennent au moins un NaN

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
10,1,3,female,4.0,1,1,16.7000,S,Third,child,False,G,Southampton,yes,False
11,1,1,female,58.0,0,0,26.5500,S,First,woman,False,C,Southampton,yes,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
871,1,1,female,47.0,1,1,52.5542,S,First,woman,False,D,Southampton,yes,False
872,0,1,male,33.0,0,0,5.0000,S,First,man,True,B,Southampton,no,True
879,1,1,female,56.0,0,1,83.1583,C,First,woman,False,C,Cherbourg,yes,False
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True


In [90]:
titanic.dropna(axis="columns") #supprime les colonnes qui contiennent au moins un NaN

Unnamed: 0,survived,pclass,sex,sibsp,parch,fare,class,who,adult_male,alive,alone
0,0,3,male,1,0,7.2500,Third,man,True,no,False
1,1,1,female,1,0,71.2833,First,woman,False,yes,False
2,1,3,female,0,0,7.9250,Third,woman,False,yes,True
3,1,1,female,1,0,53.1000,First,woman,False,yes,False
4,0,3,male,0,0,8.0500,Third,man,True,no,True
...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,0,0,13.0000,Second,man,True,no,True
887,1,1,female,0,0,30.0000,First,woman,False,yes,True
888,0,3,female,1,2,23.4500,Third,woman,False,no,False
889,1,1,male,0,0,30.0000,First,man,True,yes,True


### renommer un index/colonne

#### renommer une colonne

In [92]:
titanic.rename(columns={'sex':'sexe'})

Unnamed: 0,survived,pclass,sexe,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


#### modifier les index

In [93]:
f = lambda x : x+1
titanic.rename(index=f)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
1,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
2,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
3,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
4,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
5,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
887,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
888,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
889,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
890,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


### supprimer des axes

#### supprimer une ligne

In [96]:
print(titanic.drop(0).head(1))
print(titanic.head(1))


   survived  pclass     sex   age  sibsp  parch     fare embarked  class  \
1         1       1  female  38.0      1      0  71.2833        C  First   

     who  adult_male deck embark_town alive  alone  
1  woman       False    C   Cherbourg   yes  False  
   survived  pclass   sex   age  sibsp  parch  fare embarked  class  who  \
0         0       3  male  22.0      1      0  7.25        S  Third  man   

   adult_male deck  embark_town alive  alone  
0        True  NaN  Southampton    no  False  


#### supprimer une colonne

In [97]:
titanic.drop(columns=['sex'])

Unnamed: 0,survived,pclass,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


### tableaux croisés dynamiques

In [105]:
titanic.pivot_table('survived',index=['sex'],columns='class')

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


In [107]:
titanic.pivot_table('survived',index=['sex'],columns='class', aggfunc='sum')

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,91,70,72
male,45,17,47


In [114]:
titanic.dropna(inplace=True)
age = pd.cut(titanic['age'],[0,18,100])

titanic.pivot_table('survived',index=['sex',age], columns='class', aggfunc='sum')

Unnamed: 0_level_0,class,First,Second,Third
sex,age,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,"(0, 18]",10,1,1
female,"(18, 100]",61,7,2
male,"(0, 18]",4,3,1
male,"(18, 100]",31,1,1


<a id="relationnel"></a>

## Algèbre relationnel

### les series

In [119]:
import numpy as np
import pandas as pd

# On peut créer une Series à partir d'une list
data = pd.Series([0.25, 0.5, 0.75, 1.0])
print("data ressemble à un tableau Numpy: ")
print(data)
print("------------------------------------")

# On peut spécifier des indices à la main
data = pd.Series([0.25, 0.5, 0.75, 1.0],
         index=['a', 'b', 'c', 'd'])
print("data ressemble à un dict en Python: ")
print(data)
print("------------------------------------")

# On peut même créer une Serie directement à partir d'une dict
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
area_dict = {'California': 423967, 
             'Texas': 695662,
             'New York': 141297, 
             'Florida': 170312,
             'Illinois': 149995}
population = pd.Series(population_dict)
print("une serie crée à partir d'un dict :")
print(population)
print("----------")

# Que pensez vous de cette ligne?
print(population['California':'Florida']) #de California à Florida

data ressemble à un tableau Numpy: 
0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64
------------------------------------
data ressemble à un dict en Python: 
a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64
------------------------------------
une serie crée à partir d'un dict :
California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64
----------
California    38332521
Texas         26448193
New York      19651127
Florida       19552860
dtype: int64


In [123]:
# A partir d'une Series
df = pd.DataFrame(population, columns=['population'])
print("creation d'un dataframe à partir d'une serie")
print(df)
print("--------------------------------------------")

# A partir d'une list de dict
data = [{'a': i+8, 'b': 2 * (i+8)}
        for i in range(3)]
print("creation d'un dataframe à partir d'un dict")
df = pd.DataFrame(data)
print(df)
print("------------------------------------------")

# A partir de plusieurs Series
df = pd.DataFrame({'population': population,
              'area': area})
print("creation d'un dataframe à partir de plusieurs series")
print(df)
print("----------------------------------------------------")

# A partir d'un tableau Numpy de dimension 2
df = pd.DataFrame(np.random.rand(3, 2),
             columns=['foo', 'bar'],
             index=['a', 'b', 'c'])
print("creation d'un dataframe à partir d'un tableau NumPy 2D")
print(df)
print("------------------------------------------------------")

# Une fonction pour générer facilement des DataFrame. 
# Elle nous sera utile dans la suite de ce chapitre.
def make_df(cols, ind):
    """Crée rapidement des DataFrame"""
    data = {c: [str(c) + str(i) for i in ind]
            for c in cols}
    return pd.DataFrame(data, ind)

# exemple
make_df('ABC', range(3))

creation d'un dataframe à partir d'une serie
            population
California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
--------------------------------------------
creation d'un dataframe à partir d'un dict
    a   b
0   8  16
1   9  18
2  10  20
------------------------------------------
creation d'un dataframe à partir de plusieurs series
            population    area
California    38332521  423967
Texas         26448193  695662
New York      19651127  141297
Florida       19552860  170312
Illinois      12882135  149995
----------------------------------------------------
creation d'un dataframe à partir d'un tableau NumPy 2D
        foo       bar
a  0.818143  0.045608
b  0.753909  0.349034
c  0.295491  0.627696
------------------------------------------------------


Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2
