# Cours - Traitement des données en table
# Fiche 3 - Manipulation de tables avec la bibliothèque Pandas


## 1. Lecture de fichiers

De façon classique en Python, nous allons commencer par charger le module.

In [1]:
 import pandas


La lecture d’un fichier csv se fait alors aisément grâce à la commande:

In [2]:
villes = pandas.read_csv("villes_virgule.csv", delimiter=",", keep_default_na=False)


**Remarques :**

* "," : délimiteur du fichier CSV
* keep_default_na=True : si une cellule contient la valeur NA, pandas la convertit en NaN (Not a Nombre)
* keep_default_na=False : si une cellule contient la valeur NA, il n'y a pas de conversion, NA est conservé



Affichages de test

In [4]:
villes.head(4) # affiche les premières entrées de la table

Unnamed: 0,dep,nom,cp,nb_hab_2010,nb_hab_1999,nb_hab_2012,dens,surf,long,lat,alt_min,alt_max
0,1,Ozan,1190,618,469,500,93,6.6,4.91667,46.3833,170,205
1,1,Cormoranche-sur-Saône,1290,1058,903,1000,107,9.85,4.83333,46.2333,168,211
2,1,Plagne,1130,129,83,100,20,6.2,5.73333,46.1833,560,922
3,1,Tossiat,1250,1406,1111,1400,138,10.17,5.31667,46.1333,244,501


In [6]:
villes.sample(7) #affiche 7 enregistrements de la table pris au hasard

Unnamed: 0,dep,nom,cp,nb_hab_2010,nb_hab_1999,nb_hab_2012,dens,surf,long,lat,alt_min,alt_max
25774,63,Rentières,63420,103,106,100,6,15.59,3.1,45.4167,520,1095
25482,63,Sainte-Agathe,63120,197,207,200,10,18.31,3.61667,45.8167,439,1091
31324,77,Bréau,77720,351,343,400,259,1.35,2.87806,48.5617,87,113
33093,81,Le Margnès,81260,44,49,0,2,17.89,2.60111,43.6412,736,1070
35008,88,Plombières-les-Bains,88370,1824,1902,1900,67,27.2,6.48333,47.9667,335,576
2594,8,Flaignes-Havys,8260,114,133,100,8,13.7,4.40139,49.8187,203,298
27422,67,Schiltigheim,67300,30952,30824,31100,4056,7.63,7.75,48.6,133,152


 affiche les dernières entrées de la table

In [8]:
villes.tail(4) # affiche les premières entrées de la table

Unnamed: 0,dep,nom,cp,nb_hab_2010,nb_hab_1999,nb_hab_2012,dens,surf,long,lat,alt_min,alt_max
36696,976,Tsingoni,97680,10454,10454,10454,300,34.76,45.107,-12.7897,,
36697,971,Saint-Barthélemy,97133,8938,8938,8938,372,24.0,-62.8333,17.9167,,
36698,971,Saint-Martin,97150,36979,36979,36979,695,53.2,18.0913,-63.0829,,
36699,975,Saint-Pierre-et-Miquelon,97500,6080,6080,6080,25,242.0,46.7107,1.71819,,


In [9]:
villes.columns #retourne la liste des champs

Index(['dep', 'nom', 'cp', 'nb_hab_2010', 'nb_hab_1999', 'nb_hab_2012', 'dens',
       'surf', 'long', 'lat', 'alt_min', 'alt_max'],
      dtype='object')

In [10]:
 villes.dtypes #affiche la liste des champs avec, à chaque fois, le type de données correspondant

dep             object
nom             object
cp              object
nb_hab_2010      int64
nb_hab_1999      int64
nb_hab_2012      int64
dens             int64
surf           float64
long           float64
lat            float64
alt_min         object
alt_max         object
dtype: object

**Remarque :**

On remarque en particulier que pandas a reconnu que les champs latitude, longitude et nombre d'habitants correspondent à des données numériques, et le traîtent comme tels.

On peut aussi avoir des données statistiques.

In [11]:
villes.describe()


Unnamed: 0,nb_hab_2010,nb_hab_1999,nb_hab_2012,dens,surf,long,lat
count,36700.0,36700.0,36700.0,36700.0,36700.0,36700.0,36700.0
mean,1768.011,1644.065,1751.08,154.996049,17.257375,2.786424,46.691117
std,14756.22,13975.27,14607.75,704.510109,143.746399,2.966138,5.751918
min,0.0,0.0,0.0,0.0,0.04,-62.8333,-63.0829
25%,194.0,176.0,200.0,18.0,6.4,0.7,45.15
50%,430.0,381.0,400.0,39.0,10.755,2.65,47.3833
75%,1061.0,937.0,1000.0,91.0,18.37,4.88333,48.8333
max,2243833.0,2125851.0,2211000.0,26660.0,18360.0,49.4436,55.6972


**Remarque :**

Les statistiques correspondent à des séries numériques.


**Notation :**

* std : écart-type
* 25% : premier quartile
* 50% : médiane
* 75% : troisième quartile


Enfin, on peut facilement ne conserver que les champs qui nous intéressent. Par exemple, si l’on ne veut que les noms des villes et leurs coordonnées, on utilise :


In [12]:
villes[['nom', 'long', 'lat']]


Unnamed: 0,nom,long,lat
0,Ozan,4.91667,46.38330
1,Cormoranche-sur-Saône,4.83333,46.23330
2,Plagne,5.73333,46.18330
3,Tossiat,5.31667,46.13330
4,Pouillat,5.43333,46.33330
...,...,...,...
36695,Sada,45.10470,-12.84860
36696,Tsingoni,45.10700,-12.78970
36697,Saint-Barthélemy,-62.83330,17.91670
36698,Saint-Martin,18.09130,-63.08290


**Exercice :**

Afficher les statistiques des supericies des villes uniquement :


**Dataframes et series**

Les **tables** lues dans les **fichiers csv** sont stockés par pandas sous forme de **dataframes**. On peut les voir comme un tableau de p-uplets nommés. 

**Exemple :** 

L’enregistrement (objet, p-uplet) numéro 4 s’obtient en utilisant la commande **loc** :


In [None]:
villes.loc[4]

L'affichage de plusieurs enregistrements  s’obtient en exécutant :


In [None]:
villes.loc[[4, 10]]

**Remarques**

Les données précédentes ne sont pas du même type.

In [None]:
type(villes.loc[4]), type(villes.loc[[4, 10]])


L'affichage de la valeur de l'attribut nom s’obtient comme pour un dictionnaire :


In [None]:
villes.loc[4]['nom']

**Une série** est ce que l’on obtient à partir d’un dataframe en ne sélectionnant qu’un **seul champ**.


In [None]:
 villes['nom']

In [None]:
type(villes['nom'])

Lors de la **sélection d’un unique champ**, pandas permet d’utiliser une syntaxe légère en n’écrivant que **villes.nom** plutôt que **villes['nom']**.

Il convient, pour finir, de différentier :

- la serie villes['nom'] (ou ville.name, donc) et
- le dataframe à un seul champ villes[['nom']].


In [None]:
villes.nom

In [None]:
villes[['nom']]

In [None]:
villes[['nom', 'dep']]

**Exercice :**
    
Afficher la densité de l'enregistrement 100.

**Exercice :**
    
Afficher le nom et la densité des enregistrements 100 et 101.

## 2. Interrogations simples

Nous allons afficher les enregsitrements qui correspondent au département des Landes.


In [None]:
villes[villes.dep == '40']

**Exercice :**

Afficher les villes qui au moins 200 000 habitants en 2012.

**Exercice :**

Compter le nombre de villes qui ont au moins 200 000 habitants en 2012.

## 3. Tris

Les méthodes **nlargerst** et **nsmallest** permettent de déterminer **les plus grands** et **plus petits éléments** selon un critère donné. 

Ainsi, pour obtenir les villes les plus grandes en superficie et celles les moins peuplées en 2012, on peut écrire :


In [None]:
villes.nlargest(5, 'surf')

In [None]:
villes.nsmallest(4, 'nb_hab_2012')

**Exercice :**

Afficher les 6 villes dont la densité est la plus élevée en 1999.

Le **tri d’un dataframe** s’effectue à l’aide de la méthode **sort_values**, comme par exemple :


In [None]:
villes.sort_values(by='surf')


On peut trier selon **plusieurs critères**, en spécifiant éventuellement les monotonies. 

**Exemple :**

* on construit un dataframe avec les villages qui ont au plus 500 habiatnts en 2012;
* affichage par ordre décroissant du nombre d'habitants en 2012;
* affichage par ordre croissant de surperficie.
* on sélectionne les champs à afficher : nom, nb_hab_2012, surf


In [None]:
villages = villes[villes.nb_hab_2012 <= 500]
villages.sort_values(by=['nb_hab_2012', 'surf'], ascending=[False, True])[['nom', 'nb_hab_2012', 'surf']]

**Exercice :**

Sélectionner les villes qui ont au moins 600 habitants en 2012.

Les critères d'affichage :

* habitants en 2012 par ordre croissant;
* superficie par ordre croissant.

Les champs affichés seront les suivants :

* le numéro du département;
* le nom de la ville;
* le nombre d'habitants;
* la superficie.
   


## 3. Manipulation de données

Après ce survol des méthodes de base pour extraire et ordonner les données contenue dans une table, nous allons pour finir voir
quelques méthodes de manipulation de tables.

## 3.1. Création d’un nouveau champ

Il est très facile de créer de nouveaux champs à partir d’anciens. 

Par exemple, pour calculer l'évolution de la population, il suffit d’exécuter :


In [None]:
villes['evolution_2010'] =  villes.nb_hab_2010 - villes.nb_hab_1999

On affiche le résultat avec la commande suivante :

In [None]:
villes[['nom', 'nb_hab_1999', 'nb_hab_2010', 'nb_hab_2012', 'evolution_2010']]

Les séries peuvent être utilisées avec le **module numpy**. 
Ainsi, on peut réaliser une carte des villes utilisant la [projection de Mercator](https://fr.wikipedia.org/wiki/Projection_de_Mercator) en effectuant :


In [None]:
import numpy
villes['projection_y'] = numpy.arcsinh(numpy.tan(villes.lat * numpy.pi / 180))
villes.plot.scatter(x='long', y='projection_y')


## 3.2. Fusion de tables

Nous allons fusionner les deux tables ci-dessous :

**TableNotes** 

| Nom   | Anglais | NSI  | Math |
|:-:    |:-:      |:-:   |:-:   |
| Paul  | 10      | 15   | 10   |
| Marie | 15      | 12   | 18   |
| Alice | 11      | 15   | 18   |


**TableInformations**

| NomEleve | Age     | Mail          |
|:-:    |:-:      |:-:            |
| Paul  | 17      | paul@ici.net  |
| Marie | 15      | marie@ici.net |
| Alice | 15      | alice@ici.net |


Pour que le résultat de la fusion soit correct, il faut vérifier deux conditions :

* chaque table doit avoir une colonne qui permet de repérer quaque ligne de manière unique (clé primaire dans le vocabulaire des bases de données);
* les deux tables doivent avoir une colonne avec des informations communes et de même nature.

La fusion se fait à l’aide de la fonction merge :


In [None]:
elevesNotes = pandas.read_csv("eleves_notes.csv", delimiter=",", keep_default_na=False)
elevesNotes.head() # affiche les premières entrées de la table

In [None]:
elevesInformations = pandas.read_csv("eleves_informations.csv", delimiter=";", keep_default_na=False)
elevesInformations.head() # affiche les premières entrées de la table

In [None]:
nouvelleTable = pandas.merge(elevesNotes, elevesInformations, left_on='Nom', right_on='NomEleve')

In [None]:
>>> nouvelleTable

### (pour aller plus loin) Modifer les noms des colonnes.

Il est possible de modifier le nom des colonnes soit pour éviter les conflits de noms, soit pour améliorer la lisibilité.

**Exemple de renommage**

In [None]:
elevesInformations


In [None]:
elevesInformations[['Age', 'Mail']].rename(columns={'Age': 'Âge', 'Mail': 'E-mail'})

**Exemple : renommage et fusion des tables.**

In [None]:
elevesInformations = pandas.read_csv("eleves_informations.csv", delimiter=";", keep_default_na=False)


nouvelleTable = pandas.merge(
    elevesNotes[['Nom', 'NSI', 'Anglais', 'Math']],
    elevesInformations[['NomEleve', 'Age', 'Mail']].rename(
         columns={'Mail' : 'E-mail'}),
    left_on='Nom', right_on='NomEleve')

In [None]:
>>> nouvelleTable

**Exercice :**

Dans cette nouvelle table, afficher les élèves qui 15 ans et moins.

**Exercice :**

Afficher uniquement les colonnes Nom, Age et E-mail des élèves de 15 ans et moins.

## 4. Conclusion

La bibliothèque pandas que nous avons présentée dans ce document est un outil intéressant pour s’initier à la manipulation de
données. En particulier, le rôle central qu’y jouent les dataframes permet de manipuler les enregistrements quasiment comme s’il
s’agissait de p-uplet nommés.
Cette approche permet aussi de préparer la transition avec le programme de Terminale et le chapitre sur les bases de données.
En effet, bien que ce thème apporte des problématiques spécifiques, et bien que les syntaxes diffèrent grandement entre des
instructions pandas et une requête SQL, il existe de nombreux points communs entre les deux approches concernant la façon
dont les données sont représentées et peuvent être exploitées et manipulées.
