# Initiation à Pandas - Les séries -

Email : <a href='mailto:madani.a@ucd.ac.ma'>madani.a@ucd.ac.ma</a>
<img src='images/pandas.jpg'>

## Introduction
<p>
Pandas est une librairie python qui permet de manipuler facilement des données à analyser :
<ul>
<li>manipuler des tableaux de données avec des étiquettes de variables (colonnes) et d'individus (lignes).
<li>ces tableaux sont appelés DataFrames.
<li>on peut facilement lire et écrire ces dataframes à partir ou vers un fichier tabulé.
<li>on peut faciler tracer des graphes à partir de ces DataFrames grâce à matplotlib.
</ul>
</p>
<p>
Pour utiliser pandas : <strong>import pandas</strong>
</p>

## Création de séries
<p>
Une Series est un objet uni-dimensionnel similaire à un tableau, une liste ou une colonne d’une table. Chaque valeur est associée à un index qui est par défaut les entiers de 0 à N-1 (avec N la longueur de la Series).
</p>
<p>
Une série est donc un vecteur de valeurs d'une variable (en général des valeurs pour différents individus) :
</p>

<b>Création d'une série vide</b>

In [4]:
import pandas as pd
s = pd.Series() #Création d'une série vide
print(s)

Series([], dtype: uint8)


<b>Création d'une série à partir d'un scalaire (constante)</b>

In [1]:
import pandas as pd
s1 = pd.Series(5)
s2 = pd.Series(5, index=['a', 'b', 'c']) #Création d'une série à partir d'un scalaire (constante)
print(s1)
print(s2)

0    5
dtype: int64
a    5
b    5
c    5
dtype: int64


<b>Création d'une série numérique entière</b>

In [13]:
import pandas
s1 = pandas.Series([11, 20, 51, 17]) # série numérique entière.
s2 = pandas.Series([11, 20, 51, 17], index=['ElJadida','Casa','Rabat','Fes']) # série numérique entière.
print(s1)
print(s2)

0    11
1    20
2    51
3    17
dtype: int64
ElJadida    11
Casa        20
Rabat       51
Fes         17
dtype: int64


<b>Création d'une série numérique flottante</b>

In [7]:
import pandas as pd
s = pd.Series([1.3, 2, 5.3, 17]) # série numérique flottante.
print(s)

0     1.3
1     2.0
2     5.3
3    17.0
dtype: float64


In [8]:
import pandas as pd
s = pd.Series([1, 2, 5, 7], dtype = float) # série numérique flottante.
print(s)

0    1.0
1    2.0
2    5.0
3    7.0
dtype: float64


## Obtenir la taille d'une série
<p>
On peut obtenir la taille d'une série avec la fonction len() ou la propriété size
</p>

In [11]:
print(len(s))
print(s.size)

4
4


## Index d'une série
<p>
L'index est le nom affecté à chaque valeur d'une série. Par défaut, les index sont des entiers 0, ..., N-1 (N est la taille de la série). On peut aussi préciser les indices lors de la création de la série.
</p>

In [15]:
import pandas as pd
s=pd.Series([1.3, 2, 5.3, 17], index=['a', 'b', 'c', 'd'])
print(s)

a     1.3
b     2.0
c     5.3
d    17.0
dtype: float64


On peut utiliser aussi une autre façon pour affecter des index. Cette méthode permet de créer une série à partir d'un dictionnaire.

In [18]:
pandas.Series({'a': 1, 'b': 2, 'c': 5, 'd': 7}) 

a    1
b    2
c    5
d    7
dtype: int64

Par défaut, les index d'une série est [0, ..., n-1]

In [2]:
import pandas as pd
s=pd.Series([1.3, 2, 5.3, 17])
print(s)

0     1.3
1     2.0
2     5.3
3    17.0
dtype: float64


## Accès aux éléments d'un série
<p>
Les données d'une série sont accessibles de différentes manières.
</p>
<p>
l'accès en utilisant la position se fait de la même manière que les tableaux :
</p>

In [6]:
import pandas as pd
s = pd.Series([1,2,3,4,5],index = ['a','b','c','d','e'])
#Accès au premier élément
print (s[0], s['a'])

1 1


In [7]:
import pandas as pd
s = pd.Series([10,2,13,45,5],index = ['f','b','c','d','e'])

#Récupère les trois premiers éléments
print (s[:3])
print(s[:'c'])

f    10
b     2
c    13
dtype: int64
f    10
b     2
c    13
dtype: int64


In [16]:
import pandas as pd
s = pd.Series([1,2,3,4,5],index = ['a','b','c','d','e'])

#Récupère les trois derniers éléments
print (s[-3:])

c    3
d    4
e    5
dtype: int64


Une série est comme un dictionnaire de taille fixe en ce sens que vous pouvez obtenir et définir des valeurs de la série par étiquette d'index.

In [17]:
import pandas as pd
s = pd.Series([1,2,3,4,5],index = ['a','b','c','d','e'])

#Récupère l'élément qui correspond à l'index 'a'
print (s['a'])

1


In [19]:
import pandas as pd
s = pd.Series([1,2,3,4,5],index = ['a','b','c','d','e'])

#Récupère plusieurs éléments
print(s[['a','c','d']])

a    1
c    3
d    4
dtype: int64


## Opérations sur des séries
<p>
On peut utiliser des opérations sur des séries, comme sur les array numpy 
</p>

In [10]:
import pandas as pd
s1=pd.Series([1.3, 2, 5.3, 17])
s2=pd.Series([10, 20, 30, 40])
print(s1+s2)
print(s1*s2)
print(s1+100)

0    11.3
1    22.0
2    35.3
3    57.0
dtype: float64
0     13.0
1     40.0
2    159.0
3    680.0
dtype: float64
0    101.3
1    102.0
2    105.3
3    117.0
dtype: float64


## Quelques Méthodes
<p>
On peut aussi utiliser les méthodes offertes (voir <a href="https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.html">Liens</a>) : abs(), add(), between(), ...
</p>

In [22]:
import pandas as pd
s=pd.Series([1.3, -2, 5.3, 17])
#les valeurs absolues
print(s.abs())

0     1.3
1     2.0
2     5.3
3    17.0
dtype: float64


In [23]:
import pandas as pd
s1=pd.Series([1.3, 2, 5.3, 17])
s2=pd.Series([10, 20, 30, 40])
#La somme de deux matrices
print(s1.add(s2))

0    11.3
1    22.0
2    35.3
3    57.0
dtype: float64


In [25]:
import pandas as pd
s=pd.Series([1.3, 2, 5.3, 17])
#Les valeurs comprises entre 5 et 10
print(s.between(5, 10))

0    False
1    False
2     True
3    False
dtype: bool


In [29]:
import pandas as pd
s1=pd.Series([1.3, 2, 5.3, 17])
s2=pd.Series([10, 20, 30, 40])
#Produit éléments par élément
print(s1*s2)
#Produit de deux vecteurs
print(s1.dot(s2))

0     13.0
1     40.0
2    159.0
3    680.0
dtype: float64
892.0


In [3]:
import pandas as pd
s=pd.Series([1.3, 2, 1.3, 17, 17, 17])
#Les valeurs redondantes
print(s.duplicated())

0    False
1    False
2     True
3    False
4     True
5     True
dtype: bool


In [2]:
import pandas as pd
s=pd.Series([1.3, 2, 1.3, 17,17,17])
#Eliminer les valeurs redondantes
print(s.drop_duplicates())

0     1.3
1     2.0
3    17.0
dtype: float64
