# Introduction à Pandas
L'objectif est de fournir quelques outils pour représenter les données à l'aide de la librairie pandas. 

## Pandas

**pandas** est une librairie de python adaptée aux structures de données et à la manipulation et à l'analyse de données.
Cette librairie implémente des modèle essentiellement linéaires, pour aller au-delà on pourra utiliser autres librairies comme **statsmodels** et **scikit-learn**.
**pandas** est adaptée à différents types de données:

* les tableaux (comme des tables SQL ou Excel)
* des données temporelles ordonnées ou non
* des matrices

Les structures primaires en pandas sont les *Series* (1D) et les *DataFrame* (2D) (feuille de données avec différents champs texte et /ou chiffres, c'est une collection d'objets de type *Series*)(analogie avec listes et matrices). 

**pandas** permet:
* de gérer les données manquantes ( marqueur: NaN)
* d'insérer ou de supprimer des données
* Aligner les données
* Grouper par fonctionnalité
* Fusionner les données
* Labéliser de façon hiérarchique que les axes



In [1]:
import pandas
import numpy
import matplotlib
import matplotlib.pyplot

### La structure **Series**
C'est un tableau "1D" qui peut contenir n'importe quel type de données, le premier paramètre d'entrée correspond à l'index (la clé du dictionnaire) et le second les valeurs assignées à cet index, c'est un peu comme un dictionnaire de taille fixée. Mais ce sont deux objets de classes différentes!

In [2]:
exemple_dictionnaire = {"a":numpy.random.randn(1), "b":numpy.random.randn(1), "c":numpy.random.randn(1)}

In [3]:
type(exemple_dictionnaire) # type de l'objet exemple_dictionnaire 

dict

In [4]:
print(exemple_dictionnaire) # affichage du contenu de cet objet

{'a': array([0.25082921]), 'b': array([0.59272225]), 'c': array([-0.17488637])}


In [5]:
print(exemple_dictionnaire['b']) # affichage de la valeur assignée à la clé 'b'

[0.59272225]


### Création d'une *Series* à partir d'un dictionnaire:

In [6]:
exemple_serie1 = pandas.Series({"a":numpy.random.randn(1), "b":numpy.random.randn(1), "c":numpy.random.randn(1)})

In [7]:
type(exemple_serie1)

pandas.core.series.Series

In [8]:
print(exemple_serie1)

a    [0.38944701172307195]
b    [-0.5939131937620746]
c     [0.5605073945228269]
dtype: object


In [9]:
print(exemple_serie1.index)

Index(['a', 'b', 'c'], dtype='object')


**Series** a le comportement d'un dictionnaire:

In [10]:
print(exemple_serie1['b'])

[-0.59391319]


### Création d'une *Series* sans dictionnaire
On crée un objet Series sans l'utilisation d'un dictionnaire

In [11]:
exemple_serie2 = pandas.Series(numpy.random.randn(10), index = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j'])


In [12]:
type(exemple_serie2) # Type de l'objet: ce n'est plus un dictionnaire mais un objet Pandas de type Series

pandas.core.series.Series

In [13]:
print(exemple_serie2)

a   -0.292135
b    1.337725
c   -0.019497
d    2.507446
e   -0.830552
f   -0.185404
g    0.921515
h   -0.642075
i    3.204941
j   -2.242112
dtype: float64


In [14]:
print(exemple_serie2['b']) # affiche la valeur associée à la clé 'b'

1.3377247764880413


In [15]:
print(exemple_serie2.index) # affiche les index de la Series

Index(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j'], dtype='object')


#### Similarité avec ndarray

**Series** est très similaire à **ndarray** et peut donc être utilisé avec les fonctions **Numpy** qui acceptent **ndarray**:

In [16]:
print(exemple_serie1)

a    [0.38944701172307195]
b    [-0.5939131937620746]
c     [0.5605073945228269]
dtype: object


In [17]:
print(exemple_serie1.median()) # calcule la médiane des valeurs contenues dans la Series

TypeError: Cannot convert [array([0.38944701]) array([-0.59391319]) array([0.56050739])] to numeric

In [None]:
print(exemple_serie1[exemple_serie1 > exemple_serie1.median()])
# affiche les index et valeurs de exemple_serie1 qui sont > à la valeur médiane

In [None]:
print(exemple_serie2)

In [None]:
print(exemple_serie2[0])# affiche la valeur en position 0

In [None]:
print(exemple_serie2.median())# calcule la médiane des valeurs contenues dans la Series

In [None]:
print(exemple_serie2[exemple_serie2 > exemple_serie2.median()])
# affiche les index et valeurs de exemple_serie2 qui sont > à la valeur médiane

#### Somme de Series
de même taille

In [None]:
print(exemple_serie1 + exemple_serie1)

In [None]:
print(exemple_serie2 + exemple_serie2)

de taille différentes: on somme les valeurs ayant le même index.

In [None]:
print(exemple_serie1 + exemple_serie2)

Une grande différence avec **ndarray** est que les additions se font en alignant les index:

In [None]:
dictionnaire2 = {"c":numpy.random.randn(1), "d":numpy.random.randn(1), "a":numpy.random.randn(1)}

In [None]:
print(dictionnaire2)

In [None]:
exemple_serie3 = pandas.Series(dictionnaire2)

In [None]:
print(exemple_serie2 + exemple_serie3)

### Transformer en liste la Serie 

In [None]:
print(exemple_serie2)
colonne_1=exemple_serie2.index.tolist() # on met les index dans une liste
colonne_2=exemple_serie2.tolist() # on met les valeurs dans une liste
print(colonne_1)
print(colonne_2)

### Attribut nom
On peut donner un nom à la série:

In [None]:
exemple_serie = pandas.Series(numpy.random.randn(10), index = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j'], name = "mes_nombres_aleatoires")

In [None]:
print(exemple_serie.name)

### La structure DataFrame
C'est un tableau à '2D' avec des colonnes de types potentiellement différents. C'est une collection de **Series**. 
**DataFrame** accepte différentes entrées:
* un dictionnaire 1D de **ndarrays** de listes ou de **Series**
* un tableau 2D **numpy.ndarray**
* une **Series**
* une autre **DataFrame**

* un dictionnaire de **Series**

In [None]:
dictionn_dataframe = {'aleatoire': pandas.Series(numpy.random.randn(3), 
                                                 index=['a', 'b', 'c']),
                      'entier': pandas.Series([1., 2., 3., 4.], 
                                              index=['a', 'b', 'c', 'd'])}

In [None]:
exemple_dataframe = pandas.DataFrame(dictionn_dataframe)
print(exemple_dataframe)

In [None]:
print(exemple_dataframe.columns) # affichage des noms des colonnes
print(exemple_dataframe.index)# affichage des index

* un dictionnaire de **ndarrays** 

In [None]:
dictionn2_dataframe = {'float': [0.18, 0.24, 0.34, 0.45],'entier': [1., 2., 3., 4.]}

In [None]:
exemple_dataframe2 = pandas.DataFrame(dictionn2_dataframe)

In [None]:
print(exemple_dataframe2)

* avec un dictionnaire d'objets constitués de différents éléments: des  *Series*, des array numpy...

In [None]:
bd1 = pandas.DataFrame({'Etape': 1.,
   ...:                     'Date': (pandas.Timestamp('20241125'),pandas.Timestamp('20241126'),pandas.Timestamp('20241127'),pandas.Timestamp('20241128')),
   ...:                     'coefficient': pandas.Series(1, index=list(range(4)), dtype='float32'),
   ...:                     'periode': numpy.array([3] * 4, dtype='int32'),
   ...:                     'Sexe': pandas.Categorical(["homme", "homme", "femme", "enfant"]),
   ...:                     'Donnees': ('non valid','valid','valid','valid')})
   ...: 

In [None]:
print(bd1)

* Pour connaître les différents types d'objets:

In [None]:
bd1.dtypes

* Autre exemple de génération de dates

In [None]:
dates = pandas.date_range('2024-01-01', periods=12)
print(dates)


In [None]:
bd2 = pandas.DataFrame(numpy.random.randn(12, 12), index=dates, columns=list('ABCDEFGHIJKL'))
print(bd2)

## Lecture de fichiers Coma Separated Value .csv 
Beaucoup de données sont enregistrées en .csv (https://www.data.gouv.fr/, https://catalog.data.gov/dataset?res_format=CSV, http://donnees.ville.montreal.qc.ca ...).
Prenons par exemple la base de ***ind_sudpaca_agglo.csv*** extraite à l'adresse: https://www.data.gouv.fr/fr/datasets/indices-de-qualite-de-l-air-des-principales-agglomerations-de-la-region-sud-pour-un-an-glissant-et-j/.
Cette base contient les indices de qualité de l'air des principales agglomérations de la région Sud.

### Pour les utilisateurs de Colab
rajouter 

from google.colab import files

uploaded = files.upload()

In [None]:
data = pandas.read_csv("ind_sudpaca_agglo.csv")
data

In [None]:
print(data)

### Affichage d'une ligne

In [None]:
print(data.loc[238]) #ligne 238

data est un objet de type ***DataFrame***:

In [None]:
print(type(data))

##### Taille de l'objet

In [None]:
print(data.shape)

##### Premières lignes du jeu de données

In [None]:
print(data.head())

##### Dernières lignes du jeu de données

In [None]:
print(data.tail())

##### Listes des colonnes

In [None]:
print(data.columns)

##### Type de chaque colonne

In [None]:
print(data.dtypes)

##### Informations sur les données

In [None]:
print(data.info())

## Manipulation des variables

### Accès à une colonne

In [None]:
data_valeur=data['valeur'] # colonne d'index valeur

In [None]:
print(data_valeur)

In [None]:
data_zones=data['lib_zone']# colonne d'index lib_zone

In [None]:
print(data_zones)

* Autre syntaxe

In [None]:
print(data.lib_zone)

### Accès à plusieurs colonnes

In [None]:
data[['lib_zone', 'valeur']] # colonnes d'index lib_zone et valeur

### Statistiques descriptives d'une colonne

In [None]:
print(data['valeur'].describe()) 

In [None]:
print(data['valeur'].mean()) # moyenne

In [None]:
print(data['valeur'].std())# écart-type

### Comptage des valeurs:
On veut par exemple décompter combien de données on été enregistrées dans chaque ville.

In [None]:
print(data['lib_zone'].value_counts()) 

#### Tri du champ  valeur de façon croissante:

In [None]:
print(data['valeur'].sort_values())

#### Indices des valeurs triées

In [None]:
print(data['valeur'].argsort())

In [None]:
print(data['lib_zone'].argsort()) # indice des valeurs triées par ordre alphabétique

## Les requêtes

On cherche à extraire toutes les données concernant la ville de Marseille dans le champ lib_zone:

In [None]:
print(data['lib_zone']=="Marseille")

Seuls les champs True seront considérés par ***.loc***

In [None]:
donnees_Marseille = data.loc[data['lib_zone']=="Marseille"]
print(donnees_Marseille)

On peut ensuite réaliser des comptes, des statistiques sur ce tableau:

In [None]:
print(donnees_Marseille['valeur'].value_counts())
 

In [None]:
print(donnees_Marseille['valeur'].mean())
 

#### Extraction de données ayant des caractéristiques particulières:
On peut chercher à extraire des données de Marseille, les colonnes correspondants aux valeurs des indices 3 et 4.
On commence par regarder si le tableau contient les valeurs souhaitées ( 3 et 4) avec la fonction 'is in': **isin**

In [None]:
print(donnees_Marseille['valeur'].isin([3,4]))

On peut ensuite extraire le sous-tableau contenant ces indices:

In [None]:
print(donnees_Marseille.loc[donnees_Marseille['valeur'].isin([3,4])])

### Utilisation d'opérateurs logiques pour extraire des données:
On veut par exemple extraite un sous-tableau contenant les données à Marseille où les indices de l'air  sont égaux à trois ET (puis OU)  l'indice du dioxyde d'azote est égal à 3. 

In [None]:
print(donnees_Marseille.loc[(donnees_Marseille['valeur'] == 3) & (donnees_Marseille['val_no2'] == 3)] )

In [None]:
print(donnees_Marseille.loc[(donnees_Marseille['valeur'] == 3) | (donnees_Marseille['val_no2'] == 3)] )

On veut récupérer dans toute notre BDD les données qui ont un indice de dioxyde d'azote > 3 et n'afficher pour ces données extraites que les champs lib_zone et val_no2

In [None]:
selection_indices_n02 = data[data.val_no2>3]
print(selection_indices_n02[["lib_zone", "val_no2"]])

## Croisement des variables
Il est possible de croiser des variables et d'effectuer simultanément des calculs (comptage et statistiques).

Création d'un tableau contenant le nombre de fois où le couple (val_no2,valeur) apparaît dans les datas.

In [None]:
print(pandas.crosstab(data['valeur'], data['val_no2']))

On peut réaliser un tableau croisé avec la moyenne des indices de l'air par exemple, (la moyenne se fait sur le champ 'values')

In [None]:
print(pandas.crosstab(data['lib_zone'], data['val_no2'], values = data['valeur'], aggfunc = pandas.Series.mean))

### Utilisation de groupby
Cette fonction permet de créer un objet en regroupant les données suivant le critère/ la classe précisé(e),
ici on regroupe les données par 'lib_zone' et on réalise une moyenne des autres champs: 'valeur', 'code_zone'....

In [None]:
tab_moy_champ_lib_zone = data.groupby('lib_zone').mean()

In [None]:
type(tab_moy_champ_lib_zone) # objet de type data frame

In [None]:
tab_moy_champ_lib_zone.values.tolist()

In [None]:
print(tab_moy_champ_lib_zone)

Si l'on veut ne faire une moyenne que selon le champ 'valeur':

In [None]:
tab_zone = data.groupby('lib_zone')
print(tab_zone['valeur'].mean())

Et si l'on veut extraire deux groupes:

In [None]:
tab_zone_et_valeur = data.groupby(['lib_zone','valeur'])
print(tab_zone_et_valeur.count())

In [None]:
print(tab_zone_et_valeur['type_zone'].count())

### Tables pivot:
Il est possible de restructurer le tableau de données de sorte à lui donner les attributs et dimensions pertinents pour notre étude.

In [None]:
TP = pandas.pivot_table(data, values = ['val_no2', 'val_pm10', 'val_o3'], index = 'lib_zone', aggfunc = numpy.mean)
print(TP)

## Chainage des opérations
Cette méthode permet de rendre le code lisible et modifiable facilement.

In [None]:
tab_zone = data.groupby('lib_zone')
print(tab_zone['valeur'].mean())

peut se ré-écrire de façon chainée avec:

In [None]:
(data
    .groupby(['lib_zone'])['valeur'].mean()
    
)

In [None]:
tab_zone_et_valeur = data.groupby(['lib_zone','valeur'])
print(tab_zone_et_valeur['type_zone'].count())

peut se ré-écrire de façon chainée avec:

In [None]:
(data
    .groupby(['lib_zone','valeur'])['type_zone'].count()
    
)

# Exemple de mise en forme d'une base de données pour qu'elle soit exploitable: 

On trouve sur la toile des bases de données mais elles doivent être souvent modifiés pour être exploitables.
On prendra l'exemple de données sur le Vendée Globe 2020. Le site officiel: https://www.vendeeglobe.org fournit des données en format excel.
On pourra télécharger le fichier "vendeeglobe_20201123_080000.xlsx"

### Lecture du fichier xlsx

### Pour les utilisateurs de Colab
rajouter 

from google.colab import files

uploaded = files.upload()

In [None]:
vendee_globe = pandas.read_excel("vendeeglobe_20201123_080000.xls")
display(vendee_globe)

### Suppression de lignes

In [None]:
suppression_ligne_debut = vendee_globe.drop(vendee_globe.index[0:2])
display (suppression_ligne_debut)

In [None]:
suppression_ligne_fin = suppression_ligne_debut.drop(suppression_ligne_debut.index[34:40])
display (suppression_ligne_fin)

### Suppression de colonnes

In [None]:
suppression_colonne = suppression_ligne_fin.drop(suppression_ligne_fin.columns[[0]], axis='columns')
display (suppression_colonne)

### Renommer les colonnes 

Nom des colonnes actuelles

In [None]:
suppression_colonne.columns.tolist()

On renomme avec des noms plus explicites!

In [None]:
suppression_colonne.rename(columns={'Unnamed: 1': 'Rang', 'Unnamed: 2': 'Nationalité','Unnamed: 3' : 'Skipper','Unnamed: 4': 'Heure', 'Unnamed: 5': 'Latitude', 'Unnamed: 6': 'Longitude', 'Unnamed: 7': 'Cap_30', 'Unnamed: 8': 'Vitesse_30', 'Unnamed: 9': 'VMG_30', 'Unnamed: 10': 'Distance_30','Unnamed: 11': 'Cap_last','Unnamed: 12': 'Vitesse_last', 'Unnamed: 13': 'VMG_last','Unnamed: 14': 'Distance_last','Unnamed: 15': 'Cap_24','Unnamed: 16': 'Vitesse_24', 'Unnamed: 17': 'VMG_24','Unnamed: 18': 'Distance_24','Unnamed: 19': 'DTF', 'Unnamed: 20': 'DTL' }, inplace=True)
suppression_colonne.columns.tolist()

On supprime les deux premières lignes inutiles:

In [None]:
base_finale = suppression_colonne.drop(suppression_colonne.index[0:2])
display (base_finale)

### Extraction des données à représenter

In [None]:
donnees = base_finale[['Skipper', 'DTF']]
display(donnees)

### Représentation

In [None]:
matplotlib.pyplot.plot(donnees['Skipper'], donnees['DTF'] )

In [None]:
### Suppression des unités (exemple nm dans la colonne DTF)

In [None]:
base_finale['DTF'].replace('nm','',regex=True,inplace=True) 
display(base_finale)

In [None]:
donnees = base_finale[['Skipper', 'DTF']]
display(donnees)
matplotlib.pyplot.plot(donnees['Skipper'], donnees['DTF'] )

Les noms sont trop longs, on va plutôt exploiter le champ "Nationalité" en supprimant le caractère "/n"

In [None]:
base_finale['Nationalité'].replace('\n','',regex=True,inplace=True) 
display(base_finale)

In [None]:
donnees = base_finale[['Nationalité', 'DTF']]
display(donnees)
fig = matplotlib.pyplot.figure(figsize=(30,10)) # pour augmenter la taille de la figure (vu plus tard)
matplotlib.pyplot.plot(donnees['Nationalité'], donnees['DTF'])

Autres données représentées: la vitesse en fonction du skipper, avant il faut supprimer l'unité "kts"

In [None]:
base_finale['Vitesse_last'].replace('kts','',regex=True,inplace=True) 
display(base_finale)

In [None]:
donnees2 = base_finale[['Nationalité', 'Vitesse_last']]
display(donnees2)
fig = matplotlib.pyplot.figure(figsize=(30,10))
matplotlib.pyplot.plot(donnees2['Nationalité'], donnees2['Vitesse_last'])

# Exercice

La base de données "elections-presidentielles-2017-1ertour.csv" extraite du site https://opendata.paris.fr/explore/dataset/elections-presidentielles-2017-1ertour/information/?disjunctive.id_bvote&disjunctive.num_circ&disjunctive.num_quartier&disjunctive.num_arrond contient les résultats du 1er tour des élections présidentielles du 23 avril 2017 par bureau de vote, quartier, arrondissement et circonscription.

### Pour les utilisateurs de Colab
rajouter 

from google.colab import files

uploaded = files.upload()

In [None]:
data_presidentielles = pandas.read_csv("elections-presidentielles-2017-1ertour.csv",  sep =';')

In [None]:
print(data_presidentielles)

1. Extraire le nombre de voix pour le candidat Jean-Luc MÉLENCHON

2. Représenter sous forme d'histogramme le nombre de voix obtenues par Jean-Luc MÉLENCHON.

3. Compter le nombre de bureaux de vote par arrondissement.

4. Extraire le nombre de voix obtenues par Benoît Hamon dans chaque bureau de vote.

5. Extraire le nombre de voix obtenues par chaque candidat et par arrondissement.

6. Représenter sous forme de camembert, de barres le nombre de voix des 4 candidats 'LE PEN Marine', 'MACRON Emmanuel','MÉLENCHON Jean-Luc', 'FILLON François', par arrondissement. Quelle représentation vous semble être la plus adaptée?

7. Représenter sous forme graphique d'autres données extraites de ce tableau. Vous choisirez celles qui vous paraissent représentatives.
