# Présentation des Series

![series.png](attachment:series.png)

## Analyse du type de variable

En termes très généraux, les données peuvent être classées comme continues ou catégorielles.

**Continu** les données sont toujours numériques et représentent un type de mesure, comme la taille, le salaire, ou salaire. Les données continues peuvent prendre un nombre infini de possibilités.

**Données catégorielles**,  représente des quantités discrètes et finies de valeurs telles que la couleur de la voiture, le type de poker. ou de la marque de céréales.
Pandas ne classe pas les données de façon générale comme étant continues ou catégorielles. Au lieu de cela, il a des définitions techniques précises pour de nombreux types de données distinctes. Le tableau suivant contient toutes les données de l types de données pandas, avec leurs équivalents en chaîne, et quelques notes sur chaque type :



|  Données  | Objet NumPy/pandas    | Nom Pandas | Notes  |
|---|---|---|---|
|  Boolean  | np.bool  | bool  | Stocké sous la forme d'un octet unique.   |
| Entier  | np.int  | int  |  Par défaut à 64 bits. Non signé également disponible |
| Flottant  | np.float  | float  | Par défaut : 64 bits.  |
| Complex  | np.complex  | complex   | rarement utilisé  |
| Objet   | np.object  | O, object  | Typiquement des chaînes de caractères mais est un fourre-tout pour les colonnes à plusieurs colonnes. différents types ou d'autres Python les objets (tuples, listes, dictons et etc.).  |
| Date Heure  | np.datetime64, pd.Timestamp | dateime64  | Moment spécifique dans le temps avec précision de l'ordre de la nanoseconde  |
| Heure delta  | np.timedelta64, pd.Timedelta  | timedelta64  | Une quantité de temps  |
| Categorie  | pd.Categorical  | category  | Utile pour les colonnes d'objets avec relativement peu de valeurs uniques  |
|   |   |   |   |

La sortie visuelle de la série est moins stylisée que le DataFrame. Il s'agit d'une seule colonne de données. En plus de l'index et des valeurs, l'édition affiche le nom, la longueur et l'adresse. du type de données de la série.


L'utilisation de la série unidimensionnelle fait partie intégrante de l'analyse de toutes les données sur les pandas. Un flux de travail typique vous fera aller et venir entre l'exécution d'états sur les séries et les DataFrames.


# L'objet Series  panda

<h3>Création et initialisation d'une série et de son index</h3>

In [16]:
import pandas as pd
import numpy as np

In [2]:
# Création d'une série avec un seul élément
s1 = pd.Series(2)
print(s1)

0    2
dtype: int64


In [3]:
# plusieurs éléments
s1 = pd.Series(['a','b','c','d'])
print(s1)

0    a
1    b
2    c
3    d
dtype: object


In [15]:
#Création index
s1 = pd.Series(['a','b','c','d'],index=[10, 11, 12, 13])
s1

10    a
11    b
12    c
13    d
dtype: object

In [4]:
#Création d'une série depuis un nombre
s1 = pd.Series(5, index=[0, 1, 2, 3])
print(s1)

0    5
1    5
2    5
3    5
dtype: int64


In [17]:
#Création d'une série depuis un numpy
data = np.array(['a','b','c','d'])
s1 = pd.Series(data)
s1

0    a
1    b
2    c
3    d
dtype: object

In [5]:
#Avec un index alphabétique
s1 = pd.Series(range(1, 15, 3), index=[x for x in 'abcde'])
print(s1)

a     1
b     4
c     7
d    10
e    13
dtype: int64


In [6]:
# Avec des nombres au hasard
import random
s1 = pd.Series(random.sample(range(100), 6))
print(s1)


0    98
1     9
2    42
3    39
4    77
5     3
dtype: int64


En Python, chaque variable est un objet, et tous les objets ont des attributs et des méthodes qui renvoient des objets. L'invocation séquentielle des méthodes utilisant la notation par points est appelée enchaînement de méthodes.

Pandas est une bibliothèque qui se prête bien à l'enchaînement de méthodes, car de nombreuses méthodes Series et DataFrame renvoient plus de Series et de DataFrames, sur lesquelles des méthodes peuvent être appelées.

Pour motiver l'enchaînement des méthodes, prenons une phrase simple e et traduisons la chaîne d'événements en une chaîne de méthodes.

Considérez la phrase suivante : Une personne se rend en voiture au magasin pour acheter de la nourriture, puis rentre chez elle et prépare, cuisine, sert et mange la nourriture avant de nettoyer la vaisselles.

En python on pourrait écrire quelque chose comme

# Modification du type

In [7]:
maseries=pd.Series([100,200,300,400,500,600,700,800,900])

In [8]:
print(maseries.dtypes)

int64


In [9]:
maseries_float = maseries.astype(float)
print(maseries_float)

0    100.0
1    200.0
2    300.0
3    400.0
4    500.0
5    600.0
6    700.0
7    800.0
8    900.0
dtype: float64


In [10]:
maseries2 = pd.Series(["€100","€200","€300","€400","€500","€600","€700","€800","€900"])
print(maseries2)

0    €100
1    €200
2    €300
3    €400
4    €500
5    €600
6    €700
7    €800
8    €900
dtype: object


In [11]:
print(maseries2.dtypes)

object


In [13]:
# On remplace le symbole "€" par la valeur vide en texte ""
# Et on transforme l'ensemble. En int. 
maseries2.replace("€","").astype(int)


ValueError: invalid literal for int() with base 10: '€100'

# Comment trier un objet Series depuis son index

header : header=None que notre premiere ligne ne contient pas d'en tête

squeeze : Si les données analysées ne contiennent qu’une seule colonne, retourner une série.


In [None]:
s1=pd.read_csv('chien.csv', header=None, squeeze=True)
print(s1.head(10))

## trier par valeur

In [None]:
s1.sort_values().head(10) 

In [None]:
s1.sort_values(ascending=False).head(10)

In [None]:
s1.sort_values(ascending=True).tail(10)

In [None]:
print(s1.head(10))

In [None]:
s1.sort_values(inplace=True)
print(s1.head(10))

## trier par index

In [None]:
s1.sort_index().head(10) 

# Alignement via des étiquettes d'index
Une différence fondamentale entre une série NumPy ndarray et une série pandas est la capacité d'une série d'aligner automatiquement les données d'une autre série en fonction des valeurs d'étiquette avant d'effectuer une opération.


In [None]:
# 1° série
s1 = pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd'])

# 2° série
s2 = pd.Series([40, 30, 20, 10], index=['d', 'c', 'b', 'a'])

# Addiitonnnons les séries
s1 + s2

Le processus d'ajout de deux objets Serie diffère du processus d'ajout de tableaux car il aligne d'abord les données en fonction des valeurs des étiquettes d'index au lieu d'appliquer simplement l'opération aux éléments dans la même position.

Ceci devient très puissant lorsque vous utilisez les Series pour combiner des données basées sur des étiquettes.

# Découper une série

Les objets Series de pandas Series prennent en charge le découpage des données. Tout comme les tableaux NumPy, vous pouvez passer un objet slice à l'opérateur [] de la série pour obtenir les valeurs spécifiées.

Les tranches fonctionnent également avec les propriétés .loc[], .iloc[], et .ix et les accesseurs.

In [None]:
import numpy as np
s = pd.Series(np.arange(50,60), index=np.arange(10,20))
print(s)

In [None]:
#Prenons les items de la position 1 à la position 7 avec un delta de 2
s[1:9:2]


In [None]:
#On peut aussi simuler la même résultat que la fonction head
s[:5]

In [None]:
# Idem pour la fonciotn tail
s[-5:]

In [None]:
# Si on veut tout à partir d'une position donnée
s[6:]

In [None]:
# si on veut tout à partir de l'indice 3 avec un pas de 2
s[3::2]


In [None]:
# Une possibilité très utile pour inverser la série
s[::-1]

In [None]:
# Tout sauf les 3 derniers
s[:-3]

In [None]:
# Que les 3 derniers
s[-3:]


In [None]:
# On peut combiner les deux pour ne garder que les 3 premiers des 4 derniers
s[-4:-1]


# Sélection avec des booléens

Les éléments d'une série peuvent être sélectionnés par l'utilisation d'une sélection booléenne.

Une sélection booléenne applique une expression logique aux valeurs de la série et renvoie une nouvelle série de valeurs booléennes représentant le résultat pour chaque valeur. Le code suivant montre comment identifier les articles d'une série dont les valeurs sont supérieures à 8



In [None]:
# Quelles sont les lignes avec une valeur supérieure à 8
s = pd.Series(np.arange(0, 15))
s > 8

Pour obtenir les lignes de la Serie où l'expression logique est Vrai, il suffit de passer le résultat de l'expression booléenne à l'opérateur [] de la Serie.

Le résultat sera une nouvelle série avec une copie de l'index et de la valeur des lignes sélectionnées :

In [None]:
logicalResults = s > 8
s[logicalResults]


In [None]:
s[s > 8]

In [None]:
s[(s > 2) & (s < 6)]



In [None]:
# Supérieur à 3
(s >= 3).all()

In [None]:
# Supérieur à zéro
(s >= 0).all()

In [None]:
# Ai je des valeurs > à 3 ?
s[s >=3].any()


Il y a une information importante qui vaut d'être mentionnée.

Le résultat de ces expressions logiques est une sélection booléenne, une série de valeurs Vrai et Faux. Le .sum() d'une série, lorsqu'on lui donne une série de valeurs booléennes, traitera True comme 1 et False comme 0.

On peut ainsi facilement connaître le nombre de valeur correspondants à notre recherche.

In [None]:
#Combien de valeur sont inférieures à 5 ?
(s < 5).sum()

# Modifier une série InPlace

Il y a plusieurs façons de modifier une série existante.

La modification d'une série est un sujet légèrement controversé. Dans la mesure du possible, il est préférable d'effectuer des opérations sur une nouvelle Série avec les modifications représentées dans la nouvelle Série. Cependant, il est possible pour modifier les valeurs et ajouter/supprimer des lignes sur place, et elles seront brièvement expliquées ici. Un nouvel élément peut être ajouté à une série en attribuant une valeur à une étiquette d'index qui n'en a pas.

Le code suivant crée un objet Séries et ajoute un nouvel élément au fichier série :

In [None]:
import pandas as pd
import numpy as np

In [None]:
# Génération d'une série aléatoire d e3 lignes
np.random.seed(123456)
s = pd.Series(np.random.randn(3), index=['a', 'b', 'c'])
print(s)

In [None]:
# On va créer une nouvelle ligne
s['d'] = 100
print(s)


In [None]:
# on peut modifier cette valeur
s['d'] = -100
print(s)


In [None]:
#  On peut supprimer un item en utilisant la fonction del
del(s['d'])
print(s)

# Opérations arithmétiques sur un objet Series

In [None]:
import pandas as pd

In [None]:
s1 = pd.Series([10,11,12,13],index=['a','b','c','d'])

In [None]:
s1*3


In [None]:
# 2° série
# La valeur de l'index e n'existe pas dans s1
s2 = pd.Series([40, 30, 20, 10,52], index=['d', 'c', 'b', 'a', 'e'])
s2+s1

Puisque s2 a une étiquette 'e' et que s1 n'en a pas, le résultat est NaN. La valeur par défaut est NaN. Ce résultat dans toute opération arithmétique où une étiquette d'index ne s'aligne pas avec les autres séries.

Il est essentiel de bien comprendre ce foncitonnement pour l'utilisation de Pandas.

Les tâches accomplies avec pandas en utilisant des objets série (et DataFrame) sont souvent tels que de multiples ensembles de données n'ont pas forcément les mêmes étiquettes. S'il n'y a pas d'étiquettes correspondantes pendant la fusion, alors l'opération ne va pas échouée.

Par conséquent, Pandas retournent toujours NaN dans ces situations.

Regardons maintenant un nouveau cas de figure.

In [None]:
s1 = pd.Series([1.0, 2.0, 3.0], index=['a', 'a', 'b'])
s2 = pd.Series([4.0, 5.0, 6.0], index=['a', 'a', 'c'])

Vous remarquez que des étiquettes 'a' sont présentes plusieurs fois. Comment pandas va t il se comporter durant cette addition ?

In [None]:
s1 + s2

Le résultat peut paraitre quelque peu surprenant. La raison en est que pendant l'addition, pandas réalise en fait un produit cartésien de tous les ensembles d'étiquettes d'index uniques dans les deux objets de la série, et applique ensuite les valeurs spécifiées sur tous les articles des produits.

## Pour expliquer pourquoi il y a quatre valeurs d'indice 'a'

s1 contient deux étiquettes 'a', et s2 contient également deux étiquettes 'a'. Chaque combinaison de 'a'. dans chaque cas, les étiquettes seront calculées, ce qui donnera quatre étiquettes 'a'.

Chaque La combinaison des valeurs de " a " dans les deux séries est calculée, ce qui donne les quatre valeurs : 1+4 1+5 2+4 2+5
Il y a une étiquette 'b' dans s1 et une étiquette 'c' dans s2. Puisqu'il n'y a pas d'étiquette correspondante pour l'un ou l'autre, ils ne donnent lieu qu'à une seule ligne dans l'objet Series résultant.

Ainsi, n'oubliez pas qu'un index peut avoir des étiquettes en double, et pendant l'addition, il en résultera un nombre d'étiquettes d'index équivalent aux produits du nombre d'étiquettes de chaque étiquette de la Serie.


## Fonctions disponibles

Les series possèdent également des fonctions pour ajouter, soustraire, multiplier et diviser

In [None]:
s1 = pd.Series([1,1,1,1])
s2 = pd.Series([2,3,4,5])

In [None]:
#ajouter
s1.add(s2)

In [None]:
#soustraire
s1.sub(s2)

In [None]:
#soustraire
# Une autre manière
s1.subtract(s2)

In [None]:
#Multiplication
s1.mul(s2)

In [None]:
#Multiplication
# Una utre manière
s1.multiply(s2)

In [None]:
#les divisions
s1.div(s2)

In [None]:
#les divisions
# une autre manière
s1.div(s2)

# Méthode mathématique pour les series

In [None]:
maseries = pd.Series(np.random.randint(100, size=321))

In [None]:
# Visualiser les 1° lignes
maseries.head()

In [None]:
# Combien avons nous de lignes version pandas
maseries.count()

In [None]:
# Combien avons nous de lignes version python
len(maseries)

In [None]:
#Que se passe t il si il y a un nan ?
maseries[0]=np.nan
print(maseries.head())

In [None]:
maseries.count()

In [None]:
len(maseries)

In [None]:
# Somme de tous mes éléments
maseries.sum()

In [None]:
# moyenne des éléments
maseries.mean()

In [None]:
# ou bien à l'ancienne
maseries.sum()/maseries.count()

In [None]:
#min
maseries.min()

In [None]:
#max
maseries.max()

In [None]:
maseries.median()

In [None]:
maseries.mode()

## describe

Cette fonction vous donne plusieurs choses utiles en même temps. Par exemple, vous obtiendrez les trois quartiles, la moyenne, le nombre, les valeurs minimales et maximales et l'écart-type. C'est très utile, en particulier pour l'analyse exploratoire des données.

count    320.000000  # Total 

mean      51.768750  # la moyenne

std       28.928454  # l'écart-type la dispersion d'une valeur par rapport a sa moyenne

min        0.000000  # minimale

25%       29.750000  

50%       51.500000  

75%       77.000000  

max       99.000000  # maximales

dtype: float64

In [None]:
maseries.describe()

Vous pouvez également choisir des percentiles spécifiques à inclure dans la sortie de la méthode de description en ajoutant l'argument percentiles et en spécifiant. Vous pouvez changer le nombre de percentiles que vous demandez comme bon vous semble - 4 percentiles ne sont qu'un exemple.

In [None]:
maseries.describe(percentiles=[.10,.30,.65,.8])

Note : Si votre objet n'est pas numérique, les statistiques sommaires seront légèrement différentes. Elles comprendront le nombre, la fréquence, le nombre de valeurs uniques et la valeur maximale. Si votre objet contient à la fois des valeurs numériques et non numériques, la méthode de description ne comprendra que des statistiques sommaires des valeurs numériques.

In [None]:
s = pd.Series(['p', 'p', 'q', 'r','p','g'])
s.describe()

# count     4 # 4 lettre
# unique    3 # unique lettre 3 pqr
# top       p # top lettre is p
# freq      2 # p has
# dtype: objec

# Réindexation d'un objet Serie

La réindexation dans pandas est un processus qui permet de faire correspondre les données d'une série ou d'une DataFrame à un fichier un ensemble donné d'étiquettes.

Ceci est au cœur de la fonctionnalité de pandas car il permet l'alignement des étiquettes à travers plusieurs objets, qui peuvent à l'origine avoir des schémas d'indexation différents.

Ce processus d'exécution comprend les étapes suivantes :

Réorganiser les données existantes pour qu'elles correspondent à un ensemble d'étiquettes.
Insertion de marqueurs NaN là où il n'existe pas de données pour une étiquette.
Eventuellement, remplir les données manquantes pour une étiquette en utilisant un certain type de logique (par défaut en ajoutant les valeurs NaN).
Voici un exemple simple de réindexation d'une série. La série suivante a un indice avec et l'index est modifié pour être alphabétique par simple assignation d'une liste de valeurs numériques.à la propriété .index.

Ceci rend les valeurs accessibles via les étiquettes de caractères dans le nouvel index :

In [None]:
import pandas as pd
import numpy as np

s1 = pd.Series([10,20,30,40,50,60,70,80,90])
print(s1)


Là tout va bien notre index correspond à nos valeurs et il n'y a aucun doublon.

Dans l'exemple suivant on va concatèner deux objets de la série, ce qui va donner lieu à des étiquettes d'index en double.

In [None]:
# Graine du générateur de nombre aléatoire
# np.random.seed(123456)

# # création de deux séries
s2 = pd.Series([1,2,3,4,5,6])

# #on concatène les 2 séries
combined = pd.concat([s1, s2])

print(combined)



De suite c'est moins bien...

In [None]:
# # réordonner l'index
# combined.index = np.arange(0, len(combined))
# combined

Une plus grande flexibilité dans la création d'un nouvel index est fournie en utilisant la méthode .reindex().

Un exemple de la flexibilité de .reindex() sur l'affectation directe de la propriété .index est que la liste fournie à .reindex() peut être d'une longueur différente du nombre de lignes de la série

In [None]:
# réordonner l'index
s3 = pd.Series([10,20,30,40],index=['a', 'b', 'c', 'd'])
s4 = pd.Series(['a', 'c', 'i'])
print(s3)
s5 = s3.reindex(s4 )
print(s5)

Il y a plusieurs choses qu'il est important de souligner à propos de .reindex().

Premièrement, le résultat d'une méthode .reindex() est une nouvelle série. Cette nouvelle série est dotée d'un indice qui est fournis comme paramètre de .reindex(). Pour chaque élément de la nouvelle série, si la série d'origine contient cette étiquette, la valeur est attribuée à cette étiquette.

Si l'étiquette n'existe pas dans la série originale, pandas attribue une valeur NaN. Une rangée dans la série initiale sans étiquette spécifiée dans le paramètre .reindex() n'est alors pas inclus dans le fichier le résultat.

La réindexation est également utile lorsque vous souhaitez aligner deux séries pour effectuer une opération sur les éléments correspondants de chaque série.

Cependant, si pour une raison quelconque, les deux séries ont des étiquettes d'index différentes on peut avoir de gros problèmes.

In [None]:
#Différents types d'index
# et la conséquence...
s1 = pd.Series([1, 2, 3], index=[0, 1, 2])

# Les index sous forme de chaines
s2 = pd.Series([4, 5, 6], index=['0', '1', '2'])
s1 + s2

Oups gros problème

Il s'agit d'un échec catastrophique dans le but que nous souaitons atteindre. Cela illustre bien l'exemple de la problématique d'un scénario où les données peuvent avoir été récupérées à partir de deux systèmes différents. Chacun a utilisé différentes représentations pour les étiquettes d'index. Pourquoi pandas fonctionne comme cela ?

Pandas essaie d'abord d'aligner les index et ne trouve aucune correspondance, donc il copie l'index. de la première série et tente d'ajouter les index de la deuxième série.
Cependant, comme il s'agit d'un type différent, il revient par défaut à un nombre entier basé sur zéro. qui se traduit par des valeurs en double.
Enfin, toutes les valeurs sont NaN parce que l'opération tente d'ajouter l'item dans la première série s1 avec l'étiquette entière 0, qui a une valeur de 0, mais ne peut pas trouver l'élément dans les autres et donc, le résultat est NaN (et ceci échoue six fois dans ce cas).

In [None]:
# réindexation en castant le type de l'index
s2.index = s2.index.values.astype(int)
s1 + s2

Dans le code ci-dessus nous avons indiqué à Pandas de convertir le type de l'index de la serie s2 en entier. Ainsi l'addition se réalise sans problème.

Vous pouvez personnaliser un peu plus les résultats de pandas.

Comme nous l'avons vu précédement NaN est utilisé comme valeur manquante lors de la réindexation. On peut modifiée cette valeur par défaut en utilisant le paramètre fill_value de la méthode.

In [None]:
# On remplace par 0
s3 = s2.copy()
s3.reindex([0, 5], fill_value=0)

# Recherche de valeurs dans un objet Serie

In [None]:
import pandas as pd
import numpy as np

Les valeurs d'un objet Serie peuvent être récupérées à l'aide de l'opérateur [] et en passant soit une seule étiquette d'index, soit une liste d'étiquettes d'index.

Le code suivant récupère la valeur associée à l'étiquette d'index 'a' :



In [None]:

ind = np.array(['a','b','c','d','e','f','g','h','i','j'])
data = np.array([12,52,41,16,43,85,74,74,95,23])
s1 = pd.Series(data, index=ind)



In [None]:
print(s1)

In [None]:
s1['a']

In [None]:
#Accès à cette série à l'aide d'une valeur entière 
s1[2]

Pour récupérer plusieurs éléments, vous pouvez passer une liste d'étiquettes d'index via l'opérateur [].

En retour, le résultat sera une nouvelle série avec des étiquettes d'index et des valeurs, et des données copiées à partir de la série originale.

In [None]:
s1[['b', 'd']]

Pour réduire la confusion potentielle dans la détermination de la recherche basée sur l'étiquette par rapport à la recherche basée sur la position, la recherche basée sur l'index peut être appliquée à l'aide de l'accesseur .loc[]

In [None]:
s1 = pd.Series([1, 2, 3], index=[10, 11, 12])

s1.loc[11]


# Extraire une série en fonction de son index


In [None]:
import pandas as pd
import numpy as np

In [None]:
# Avec un dictionnaire
data = {'a' : 0., 'b' : 1., 'c' : 2.}
maserie=pd.Series(data,index=['b','c','d','a'])
print(maserie)