<h1>Analyse de données avec la bibliothèque Pandas</h1><h1>Les Séries</h1><hr>
<b>Créer par : </b> <i>Walid ABDELJAWED</i><br>
    <b>Inspirer de :</b> <a href="https://github.com/3wen/Python_pour_economistes/blob/master/notebooks/09_pandas.ipynb">Notebook Ewen Gallic</a>
<hr>

# Introduction

Pandas est une librairie open-source basée sur NumPy fournissant des structures de données facile à manipuler, et des outils d’analyse de données. Deux structures sont offertes par cette bibliothèque: 

* <b>Série : </b>  tableaux à une dimension de données indexées. 
* <b>Dataframe : </b> tableau à deux dimensions indexées en ligne et en colonne
<hr>




<a href="https://pandas.pydata.org/pandas-docs/stable/reference/series.html">Documentation officielle : Séries</a>

- Une series Pandas est composé de:
  * un tableau 1D de données (éventuellement hétérogènes)
  * une séquence d'étiquettes appelée index de même longueur que le tableau 1D
  
   
- l'index peut être du contenu numérique, des chaînes de caractères, ou des dates-heures.

- si l'index est une valeur temporelle, alors il s'agit d'une time series

- l'index par défaut est <b>range(len(data))</B>

## I. Création de Série
### 1. Création d'une série à partir d'une liste

In [2]:
import pandas as pd
import numpy as np
s = pd.Series([12,4,np.nan,-5,8.5])
s

0    12.0
1     4.0
2     NaN
3    -5.0
4     8.5
dtype: float64

In [2]:
# les valeurs de la série
s.values

array([12. ,  4. ,  nan, -5. ,  8.5])

In [3]:
# l'index de la série
s.index

RangeIndex(start=0, stop=5, step=1)

In [5]:
# Créer une série avec un index 
s = pd.Series([12,4,np.nan,-5,8.5],index=["a","b","c","d","e"])
s

a    12.0
b     4.0
c     NaN
d    -5.0
e     8.5
dtype: float64

In [6]:
s.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [15]:
# Donner un nom à la série
s.name="Ma SERIE"
# Donner un nom à l'index
s.index.name="Index de la série "
s

Index de la série 
a    5
b    5
c    5
d    5
e    5
Name: Ma SERIE, dtype: int64

### 2. Création d'une série à partir d'un tableau Numpy

In [5]:
import numpy as np
import pandas as pd
t = np.arange(1,20,3)
s = pd.Series(t)
print('le tableau t :\n',t)
print("la Série s:")
print(s)

le tableau t :
 [ 1  4  7 10 13 16 19]
la Série s:
0     1
1     4
2     7
3    10
4    13
5    16
6    19
dtype: int32


### 3. Création d'une série à partir d'un dictionnaire 

In [3]:
#Création d'un dictionnaire
kasserine ={"Latitude":35.1675800,
           "Longitude":8.8365100,
           "L'altitude":674}
kasserine

{'Latitude': 35.16758, 'Longitude': 8.83651, "L'altitude": 674}

In [4]:
# Création de la série
s = pd.Series(kasserine)
s

Latitude       35.16758
Longitude       8.83651
L'altitude    674.00000
dtype: float64

### 4. Création d'une série avec une valeur fixe

In [9]:
s = pd.Series(5,index=list("abcde"))
print(s)

a    5
b    5
c    5
d    5
e    5
dtype: int64


## II. Sélection

On note deux manières bien distinctes pour sélectionner :

— une première basée sur l’utiliation de crochets directement sur l’objet pour lequel on souhaite sélectionner certaines parties.

— seconde s’appuyant sur des indexeurs, accessibles en tant qu’attributs d’objets NumPy (loc, at, iat, etc.)

La seconde méthode permet d’éviter certaines confusions qui peuvent apparaître dans le cas d’index numériques.

### 1. Sélection avec les crochets
#### a. Cas d'index de type numérique (par défaut)

In [19]:
s = pd.Series([1,4, -1, np.nan, .5,1])
print("Premier élément :\n",s[0])
print("du 2e élément (inclus) au 5e (non inclus) :\n",s[1:4])
print("1er et 5e éléments :\n",s[[0,4]])

Premier élément :
 1.0
du 2e élément (inclus) au 5e (non inclus) :
 1    4.0
2   -1.0
3    NaN
dtype: float64
1er et 5e éléments :
 0    1.0
4    0.5
dtype: float64


#### b. Cas d'index de type str

In [3]:
# Création de la série
s = pd.Series([1,4, -1, np.nan],index = ["o","d","i","l"])
print(s)

o    1.0
d    4.0
i   -1.0
l    NaN
dtype: float64


In [21]:
# Afficher l'élément à la position d
print(s["d"])

4.0


In [22]:
# Afficher l'élément à la position 1
print(s[1])

4.0


In [27]:
# Afficher les éléments de "o" à "l"
print(s["o":"l"])

o    1.0
d    4.0
i   -1.0
l    NaN
dtype: float64


In [28]:
# Afficher les éléments o et l
print(s[["o","l"]])

o    1.0
l    NaN
dtype: float64


#### c. Cas d'index de type numérique non ordonnée

In [5]:
# Création de la série
s = pd.Series([1,4, -1, np.nan],index = [3,2,40,4])
# Afficher l'élément d'indice 3
print(s[3])

1.0


### 2. Sélection avec les indexeurs

Pandas propose deux types d’indiçage multi-axes : loc, iloc. 
* <b><i>loc</i></b> est basé sur l’utilisation des labels des axes, 
* <b><i>iloc</i></b> est basé sur les positions à l’aide d’entiers.

In [4]:
import numpy as np
import pandas as pd
#Série avec index numérique
snum = pd.Series([1,4, -1, np.nan],index = [3,2,40,4])
snum

3     1.0
2     4.0
40   -1.0
4     NaN
dtype: float64

In [6]:
#Série avec index textuel
stxt = pd.Series([1,4, -1, np.nan],index = ["a","b","c","d"])
stxt

a    1.0
b    4.0
c   -1.0
d    NaN
dtype: float64

#### a. Extraction avec loc

In [9]:
# Extraction d'un seul élément
print(snum.loc[40])
print(stxt.loc["c"])

-1.0
-1.0


In [10]:
# Extraction de plusieurs éléments
print(snum.loc[[3,40]])
print(stxt.loc[["a","c"]])

3     1.0
40   -1.0
dtype: float64
a    1.0
c   -1.0
dtype: float64


In [11]:
# Découpage
print(snum.loc[3:40])
print(stxt.loc["a":"c"])

3     1.0
2     4.0
40   -1.0
dtype: float64
a    1.0
b    4.0
c   -1.0
dtype: float64


In [12]:
# Masque
print(snum.loc[[True,False,False,True]])
print(stxt.loc[[True,False,False,True]])

3    1.0
4    NaN
dtype: float64
a    1.0
d    NaN
dtype: float64


#### b. Extraction avec iloc

In [13]:
# Extraction d'un seul élément
print(snum.iloc[2])
print(stxt.iloc[2])

-1.0
-1.0


In [14]:
# Extraction de plusieurs éléments
print(snum.iloc[[0,2]])
print(stxt.iloc[[0,2]])

3     1.0
40   -1.0
dtype: float64
a    1.0
c   -1.0
dtype: float64


In [15]:
# Découpage
print(snum.iloc[0:2])
print(stxt.iloc[0:2])

3    1.0
2    4.0
dtype: float64
a    1.0
b    4.0
dtype: float64


In [16]:
# Masque
print(snum.iloc[[True,False,False,True]])
print(stxt.iloc[[True,False,False,True]])

3    1.0
4    NaN
dtype: float64
a    1.0
d    NaN
dtype: float64


## III. Les valeurs manquantes

En économie, il est assez fréquent de récupérer des données incomplètes. La manière dont les données manquantes sont gérées par pandas est le recours aux deux valeurs spéciales : <b>None</b> et <b>NaN</b>.
La valeur None peut être utilisée dans les tableaux NumPy uniquement quand le type de ces derniers est object.

### 1. Repérer les valeurs manquantes

In [20]:
s = pd.Series([1,None, -1, np.nan])
print(s)

0    1.0
1    NaN
2   -1.0
3    NaN
dtype: float64


Avec la méthode <b>isnull()</b>, un masque de booléens est retournée, indiquant <b>True</b> pour les observations dont la valeur est <b>NaN</b> ou <b>None<b>

In [21]:
s.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Pour savoir si une valeur <u>n’est pas nulle</u>, on dispose de la méthode <b>notnull()</b>


In [22]:
s.notnull()

0     True
1    False
2     True
3    False
dtype: bool

### 2. Supprimer des valeurs

Pour supprimer une valeur manquante on utilise la méthode <b>drop</b>

In [24]:
snum = pd.Series([1,4, -1, np.nan],index = [5,0,4,1])
stxt = pd.Series([1,4, -1, np.nan],index = ["c","a","b","d"])

#### a. Supprimer un seul élément 

In [25]:
# Supprimer le premier élément de la série snum dont l'index est 5
print(snum.drop(5))

0    4.0
4   -1.0
1    NaN
dtype: float64


In [26]:
# Supprimer le premier élément de la série stxt dont l'index est c
print(stxt.drop("c"))

a    4.0
b   -1.0
d    NaN
dtype: float64


On peut aussi aller récupérer le nom en fonction de la position, en passant par un détour en utilisant la méthode <b>index()</b>

In [30]:
# Création des séries
snum = pd.Series([1,4, -1, np.nan],index = [5,0,4,1])
stxt = pd.Series([1,4, -1, np.nan],index = ["c","a","b","d"])

In [31]:
# Index du premier élément de la série snum
print("snum.index[0] : ", snum.index[0])

snum.index[0] :  5


In [32]:
# Index du premier élément de la série stxt
print("stxt.index[0] :", stxt.index[0])

stxt.index[0] : c


In [34]:
# Supprimer le premier élément de la série snum
print(snum.drop(snum.index[0]))

0    4.0
4   -1.0
1    NaN
dtype: float64


In [35]:
# Supprimer le premier élément de la série stxt
print(stxt.drop(stxt.index[0]))

a    4.0
b   -1.0
d    NaN
dtype: float64


####  b. Supprimer plusieurs éléments

Pour supprimer plusieurs éléments, il suﬃt de fournir plusieurs noms d’indice dans une liste à la méthode <b>drop()</b>

In [36]:
# Supprimer les éléments d'indice 5 et 4 de la série snum
print(snum.drop([5,4]))
# Supprimer les éléments d'indice c et b de la série stxt
print(stxt.drop(["c","b"]))

0    4.0
1    NaN
dtype: float64
a    4.0
d    NaN
dtype: float64


In [44]:
# Création des séries
snum = pd.Series([1,4, -1, np.nan],index = [5,0,4,1])
stxt = pd.Series([1,4, -1, np.nan],index = ["c","a","b","d"])
print(snum.index[[0,2]])
print(stxt.index[[0,2]])

Int64Index([5, 4], dtype='int64')
Index(['c', 'b'], dtype='object')


In [45]:
# Supprimer les éléments le premier et le 3e élement des deux listes
print(snum.drop(snum.index[[0,2]]))
print(stxt.drop(stxt.index[[0,2]]))

0    4.0
1    NaN
dtype: float64
a    4.0
d    NaN
dtype: float64


#### c. Suppression avec le Slicing (Découpage)
<b>Rq :</b> On ne peut pas utiliser la syntaxe <b>s.drop([0:2])</b>. Il faut utiliser l'attribut <b>index</b>

In [46]:
# Création des séries
snum = pd.Series([1,4, -1, np.nan],index = [5,0,4,1])
stxt = pd.Series([1,4, -1, np.nan],index = ["c","a","b","d"])

In [56]:
# Supprimer du 1ier à 3e élément de la série snum
print(snum.drop(snum.index[0:2]))
# Supprimer du 1ier au 3e élément de lasérie stxt
print(stxt.drop(stxt.index[0:2]))

4   -1.0
1    NaN
dtype: float64
b   -1.0
d    NaN
dtype: float64


### 3. Supprimer les valeurs manquantes
<b><u> Syntaxe:</u></b>  Series.dropna(inplace={False,True})

inplace :
* False (par défaut): Retourne une vue d'une série
* True: La série en cours sera modifié

In [60]:
# Supprimer les valeurs manquantes de la séries snum
snum.dropna()

5    1.0
0    4.0
4   -1.0
dtype: float64

In [61]:
# Supprimer les valeurs manquantes de la série stxt
stxt.dropna

<bound method Series.dropna of c    1.0
a    4.0
b   -1.0
d    NaN
dtype: float64>

### 4. Supprimer les valeurs dupliqués

Retourne une liste des valeurs non dupliqués

<b><u>Syntaxe :</u></b>
<i>Series.drop_duplicates(keep='first', inplace=False)</i>

*  Pour keep :

  * first : (par défaut) supprime les éléments dupliqués et laisse la première occurence
  * last : supprime les éléments dupliqués et laisse la dernière occurence
  * false : supprime toutes les déplications
 
 
* Pour inplace

  * False : (par défaut) retourne une vue d'une série
  * True : l'effet de supprission se fait sur la série en cours 

In [64]:
s = pd.Series(['lama', 'cow', 'lama', 'beetle', 'lama', 'hippo'],name='animal')
s.drop_duplicates()

0      lama
1       cow
3    beetle
5     hippo
Name: animal, dtype: object

## IV. Remplacement de valeurs

In [8]:
import pandas as pd
import numpy as np
s = pd.Series([1,4, -1, np.nan],index = [5,0,4,1])
s.iloc[1]=-3
s

5    1.0
0   -3.0
4   -1.0
1    NaN
dtype: float64

In [9]:
s.iloc[1:4]=-4
s

5    1.0
0   -4.0
4   -4.0
1   -4.0
dtype: float64

In [10]:
s.iloc[[1,3]]=[20,30]
s

5     1.0
0    20.0
4    -4.0
1    30.0
dtype: float64

## V. Ajout de valeurs

Pour ajouter une série ou bien une liste à la fin d'une autre série, on utilise la méthode <b>append</b>

<b>Syntaxe : </b> <i>append(to_append, ignore_index=False)</i>
avec:
* to_append : liste ou série à ajouter
* ignore_index :
  - False (par défaut) : Utiliser l'index de la deuxième série
  - True : Ne pas utiliser l'index de la deuxième série

In [19]:
# Création des séries
s1 = pd.Series([1, 2, 3])
s2 = pd.Series([4, 5, 6])
s3 = pd.Series([4, 5, 6], index=["a", "b", "c"])
# Ajouter s2 (avec son index) à la fin de s1 
s1.append(s2)

0    1
1    2
2    3
0    4
1    5
2    6
dtype: int64

In [20]:
# Ajouter s3 (avec son index) à la fin de s1 et laisser l'index de s3
s1.append(s3)

0    1
1    2
2    3
a    4
b    5
c    6
dtype: int64

In [13]:
# Ajouter s2 à la fin de s1 (continuer avec l'index de s1)
s1.append(s2,ignore_index=True)

0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64

In [21]:
# Ajouter s3 à la fin de s1 (continuer avec l'inde de s1)
s1.append(s3,ignore_index=True)

0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64

<b>Remarque : </b> la méthode <b>append</b> retourne <b><i><u>une vue</u></i></b> de la concaténation et les séries ne sont pas modifiés

In [22]:
s1

0    1
1    2
2    3
dtype: int64

## VI. Opération arithmétiques et Statiques
### 1. Opérations arithmétiques et statique sur une série

In [23]:
# Création de la série
s = pd.Series([5,40,6,98,4])
s

0     5
1    40
2     6
3    98
4     4
dtype: int64

In [24]:
# Afficher la statistiques descriptives (la valeurs NAN ne sont pas pris en compte)
s.describe()

count     5.00000
mean     30.60000
std      40.61773
min       4.00000
25%       5.00000
50%       6.00000
75%      40.00000
max      98.00000
dtype: float64

In [30]:
# Valeur maximale
print("max : ",s.max())
# index de la valeur maximale
print("Index max : ",s.idxmax())

max :  98
Index max :  3


In [31]:
# Valeur minimale
print("min : ",s.min())
# index de la valeur minimale
print("Index min : ",s.idxmin())

min :  4
Index min :  4


In [32]:
# La somme
print("Somme : ",s.sum())

Somme :  153


In [34]:
# La somme cumulée
print("Somme cumulé : \n",s.cumsum())

Somme cumulé : 
 0      5
1     45
2     51
3    149
4    153
dtype: int64


### 2. Calcul arithmétiques entre deux séries

In [36]:
# Création de deux séries
s1 = pd.Series([1,2,3,4])
s2 = pd.Series([5,5,5,5])

In [37]:
# Somme de deux séries
s1+s2

0    6
1    7
2    8
3    9
dtype: int64

In [38]:
# Produit de deux séries
s1*s2

0     5
1    10
2    15
3    20
dtype: int64

## VII. Tri de Série
<b>Syntaxe : </b> <i><b>sort_values(ascending=True, inplace=False, kind='quicksort', na_position='last')</b></i>

Avec :
* Ascending =
    - True (par défaut) : Tri décroissant
    - False : Tri décroissant
* inplace = 
    - False (par défaut) : retourné une vue triée
    - True : trier la série sur place
* kind =
    - quicksort (par défaut) : Tri rapide
    - mergesort :Tri fusin
    - heapsort : Tri par tas
* na_position =
    - last : les valeurs NaN seront à la fin de la série
    - first : les valeurs NaN seront au début de la série


In [42]:
# Création de la série
s = pd.Series(np.random.randint(1,99,10))
print("Série s avant le Tri :")
print(s)
# Trier dans un ordre décroissant avec la méthode Tri fusion
s.sort_values(ascending=False,inplace=True,kind="mergesort")
print("Série s après le Tri : ")
print(s)

Série s avant le Tri :
0    81
1    42
2    33
3    30
4    64
5    85
6    33
7    63
8    25
9    39
dtype: int32
Série s après le Tri : 
5    85
0    81
4    64
7    63
1    42
9    39
6    33
2    33
3    30
8    25
dtype: int32
