# Tutoriel sur Pandas
Les **DataFrames** en Python sont très similaires à ceux dans R: ils sont fournis avec la bibliothèque `pandas` et ils sont définis comme des structures de données étiquetées bidimensionnelles avec des colonnes de types différents.


## 1. Importer pandas
L'étape la plus importante est d'importer les bibliothèques nécessaires:

In [1]:
import pandas as pd
import numpy as np
from pandas import DataFrame,read_csv

## 2. Charger des données

In [2]:
#Emplacement des compteurs avec la correspondance pour les noms dans les fichiers de comptage.
#http://donnees.ville.montreal.qc.ca/dataset/f170fecc-18db-44bc-b4fe-5b0b6d2c7297/resource/c7d0546a-a218-479e-bc9f-ce8f13ca972c/download/localisation_des_compteurs_velo.csv

compteurFichier = './donnees/localisation_des_compteurs_velo.csv'
compteur = pd.read_csv(compteurFichier)

#cars
carsFichier = './donnees/cars.txt'
cars = pd.read_csv(carsFichier, sep=',')


In [3]:
# .head() affiche les 5 premieres lignes seulement
compteur.head()

Unnamed: 0,ID,Ancien_ID,Nom,Statut,Latitude,Longitude,Annee_implante
0,100041114,,Eco-Display Parc Stanley,Actif,45.557593,-73.673222,2018.0
1,100002880,10.0,Pont Jacques-Cartier,Actif,45.525508,-73.554422,2011.0
2,100003032,3.0,Berri1,Actif,45.516216,-73.56297,2010.0
3,100003034,6.0,Rachel / Papineau_VAS_DirectionOuestSeulement,Unidirectionnel,45.530448,-73.56954,2007.0
4,100003039,5.0,Maisonneuve_2_EnMaintenance,En maintenance,45.500507,-73.57497,2008.0


### 2.1 Charger des colonnes spécifiques

In [4]:
colonnes_selectionnees = ['Nom', 'Statut']
compteur = pd.read_csv(compteurFichier, sep=",", usecols = colonnes_selectionnees)
compteur.head()

Unnamed: 0,Nom,Statut
0,Eco-Display Parc Stanley,Actif
1,Pont Jacques-Cartier,Actif
2,Berri1,Actif
3,Rachel / Papineau_VAS_DirectionOuestSeulement,Unidirectionnel
4,Maisonneuve_2_EnMaintenance,En maintenance


### 2.2 Charger une colonne en index
L'**index** est comme une adresse, il permet d'accéder à un point de données de la DataFrame ou de la série. Les lignes et les colonnes ont toutes deux des index: les index des lignes sont appelés index tandis que pour les colonnes ce sont ses noms de colonnes.

In [66]:
# mettre les noms des compteurs en index
compteur = pd.read_csv(compteurFichier, index_col = 0)
compteur.head()

Unnamed: 0_level_0,Ancien_ID,Nom,Statut,Latitude,Longitude,Annee_implante
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
100041114,,Eco-Display Parc Stanley,Actif,45.557593,-73.673222,2018.0
100002880,10.0,Pont Jacques-Cartier,Actif,45.525508,-73.554422,2011.0
100003032,3.0,Berri1,Actif,45.516216,-73.56297,2010.0
100003034,6.0,Rachel / Papineau_VAS_DirectionOuestSeulement,Unidirectionnel,45.530448,-73.56954,2007.0
100003039,5.0,Maisonneuve_2_EnMaintenance,En maintenance,45.500507,-73.57497,2008.0


Dans cet exemple, en chargant la colonne 'ID' en index, cela permet de faciliter l'accès aux données selon le numéro du ID.

In [71]:
#acceder a une ligne particuliere
compteur.loc[100035409]

Ancien_ID                                         NaN
Nom               Christophe-Colomb_PisteEnSitePropre
Statut                                          Actif
Latitude                                      45.5577
Longitude                                    -73.6466
Annee_implante                                   2017
Name: 100035409, dtype: object

## 3. Charger un fichier sans header

In [6]:
fichierNoHead = './donnees/localisation_des_compteurs_velo_noheader.csv'
noHead = pd.read_csv(fichierNoHead, sep=';', header=None)
noHead.head()

Unnamed: 0,0,1,2,3,4,5,6
0,100041114,,Eco-Display Parc Stanley,Actif,45.557593,-73.673222,2018.0
1,100002880,10.0,Pont Jacques-Cartier,Actif,45.525508,-73.554422,2011.0
2,100003032,3.0,Berri1,Actif,45.516216,-73.56297,2010.0
3,100003034,6.0,Rachel / Papineau_VAS_DirectionOuestSeulement,Unidirectionnel,45.530448,-73.56954,2007.0
4,100003039,5.0,Maisonneuve_2_EnMaintenance,En maintenance,45.500507,-73.57497,2008.0


### 3.1 Fournir un header
* Avec `names`
* Avec `.columns`
* Avec `.rename()`

In [7]:
#avec names
noHead = pd.read_csv(fichierNoHead, sep=';', header=None, names = ['ID', 'Ancien ID', 'Nom', 'Statut', 'Latitude', 'Longitude', 'Annee implantee'])
noHead.head()

Unnamed: 0,ID,Ancien ID,Nom,Statut,Latitude,Longitude,Annee implantee
0,100041114,,Eco-Display Parc Stanley,Actif,45.557593,-73.673222,2018.0
1,100002880,10.0,Pont Jacques-Cartier,Actif,45.525508,-73.554422,2011.0
2,100003032,3.0,Berri1,Actif,45.516216,-73.56297,2010.0
3,100003034,6.0,Rachel / Papineau_VAS_DirectionOuestSeulement,Unidirectionnel,45.530448,-73.56954,2007.0
4,100003039,5.0,Maisonneuve_2_EnMaintenance,En maintenance,45.500507,-73.57497,2008.0


In [8]:
# avec .columns
noHead.columns = ['A', 'B', 'C', 'D', 'E', 'F', 'G']
noHead.head()

Unnamed: 0,A,B,C,D,E,F,G
0,100041114,,Eco-Display Parc Stanley,Actif,45.557593,-73.673222,2018.0
1,100002880,10.0,Pont Jacques-Cartier,Actif,45.525508,-73.554422,2011.0
2,100003032,3.0,Berri1,Actif,45.516216,-73.56297,2010.0
3,100003034,6.0,Rachel / Papineau_VAS_DirectionOuestSeulement,Unidirectionnel,45.530448,-73.56954,2007.0
4,100003039,5.0,Maisonneuve_2_EnMaintenance,En maintenance,45.500507,-73.57497,2008.0


In [9]:
# avec .rename()
nom = pd.DataFrame({"ID": [100041114, 100002880, 100003032], "Ancien_ID": ["NaN", 10.0, 3.0], "Nom": ["Eco-Display Parc Stanley", "Pont Jacques-Cartier", "Berri"]})
# Ancien_ID à Ancien ID
nom.rename(columns={"Ancien_ID": "Ancien ID"})

Unnamed: 0,ID,Ancien ID,Nom
0,100041114,,Eco-Display Parc Stanley
1,100002880,10.0,Pont Jacques-Cartier
2,100003032,3.0,Berri


In [10]:
nom[:3].rename(index={0: "Premier", 1: "Deuxieme", 2: "Troisieme"})

Unnamed: 0,ID,Ancien_ID,Nom
Premier,100041114,,Eco-Display Parc Stanley
Deuxieme,100002880,10.0,Pont Jacques-Cartier
Troisieme,100003032,3.0,Berri


In [11]:
nom[:3].rename(str.lower, axis='columns')

Unnamed: 0,id,ancien_id,nom
0,100041114,,Eco-Display Parc Stanley
1,100002880,10.0,Pont Jacques-Cartier
2,100003032,3.0,Berri


In [12]:
nom[:3].rename({0: 1, 1: 2, 2: 3}, axis='index')

Unnamed: 0,ID,Ancien_ID,Nom
1,100041114,,Eco-Display Parc Stanley
2,100002880,10.0,Pont Jacques-Cartier
3,100003032,3.0,Berri


## 4. Convertir des data types
Un type de donnée est essentiellement une construction interne qu'un langage de programmation utilise pour comprendre comment stocker et manipuler des données.

Les types de données de `pandas` sont:
* object
* int64
* float64: 
* bool
* datetime64
* timedelta[ns]
* category

In [13]:
# les types de donnees de chaque colonne du compteur
compteur.dtypes

ID                  int64
Ancien_ID         float64
Statut             object
Latitude          float64
Longitude         float64
Annee_implante    float64
dtype: object

### 4.1 Convertir avec `astype()`

In [14]:
# convertir la colonne Annee_implante de float64 a int32
compteur = compteur.fillna(0) #remplacer les NaN en 0
compteur = compteur.astype({"Annee_implante": int})
compteur = compteur.astype({"Ancien_ID": int})
compteur.head()

Unnamed: 0_level_0,ID,Ancien_ID,Statut,Latitude,Longitude,Annee_implante
Nom,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Eco-Display Parc Stanley,100041114,0,Actif,45.557593,-73.673222,2018
Pont Jacques-Cartier,100002880,10,Actif,45.525508,-73.554422,2011
Berri1,100003032,3,Actif,45.516216,-73.56297,2010
Rachel / Papineau_VAS_DirectionOuestSeulement,100003034,6,Unidirectionnel,45.530448,-73.56954,2007
Maisonneuve_2_EnMaintenance,100003039,5,En maintenance,45.500507,-73.57497,2008


### 4.2 Convertir avec les fonctions de pandas

In [48]:
#convertir en numerique
serie = pd.Series(['1.0', '2', -3])
pd.to_numeric(serie)

0    1.0
1    2.0
2   -3.0
dtype: float64

In [60]:
#convertir en datetime
date = pd.DataFrame({'day': [20, 21], 'month': [6, 7], 'year': [2019, 2020]})
pd.to_datetime(date)

0   2019-06-20
1   2020-07-21
dtype: datetime64[ns]

## 5. Sélectionner des données

In [19]:
#selectionner les donnees apres 2010
compteur[compteur.Annee_implante>=2010]

Unnamed: 0_level_0,ID,Ancien_ID,Statut,Latitude,Longitude,Annee_implante
Nom,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Eco-Display Parc Stanley,100041114,0,Actif,45.557593,-73.673222,2018
Pont Jacques-Cartier,100002880,10,Actif,45.525508,-73.554422,2011
Berri1,100003032,3,Actif,45.516216,-73.56297,2010
Pierre-Dupuy,100003040,12,Actif,45.50127,-73.54441,2010
CSC (Côte Sainte-Catherine)_EnMaintenance,100003041,8,En maintenance,45.5149,-73.607506,2010
Parc,100003042,22,Actif,45.51385,-73.58151,2010
Eco-Display - Métro Laurier,100007390,37,Actif,45.527772,-73.588832,2013
Saint-Antoine,100011747,14,Actif,45.50625,-73.557785,2013
René-Lévesque_EnMaintenance,100011748,36,En maintenance,45.516968,-73.55404,2013
Maisonneuve_3,100011783,17,Actif,45.470493,-73.609566,2013


In [73]:
# plusieurs conditions
critere1 = compteur['Ancien_ID'] > 0
critere2 = compteur['Annee_implante'] > 2010

In [75]:
compteur[critere1].dtypes

Ancien_ID         float64
Nom                object
Statut             object
Latitude          float64
Longitude         float64
Annee_implante    float64
dtype: object

In [21]:
tout_critere = critere1 & critere2
compteur[tout_critere]

Unnamed: 0_level_0,ID,Ancien_ID,Statut,Latitude,Longitude,Annee_implante
Nom,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Pont Jacques-Cartier,100002880,10,Actif,45.525508,-73.554422,2011
Eco-Display - Métro Laurier,100007390,37,Actif,45.527772,-73.588832,2013
Saint-Antoine,100011747,14,Actif,45.50625,-73.557785,2013
René-Lévesque_EnMaintenance,100011748,36,En maintenance,45.516968,-73.55404,2013
Maisonneuve_3,100011783,17,Actif,45.470493,-73.609566,2013
Rachel / HôteldeVille_VAS_DirectionOuestSeulement,100012217,23,Unidirectionnel,45.51962,-73.58025,2013
Boyer,100012218,29,Actif,45.53365,-73.59459,2013
University,100017441,7,Actif,45.506134,-73.57587,2013
Saint-Urbain,100017523,1,Actif,45.519395,-73.588663,2014
Notre-Dame,100001753,18,Actif,45.530216,-73.544426,2013


In [22]:
compteur[(compteur['Statut']=='Actif') & (compteur['Annee_implante']==2019)]

Unnamed: 0_level_0,ID,Ancien_ID,Statut,Latitude,Longitude,Annee_implante
Nom,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Pont Ile Bizard,100052601,0,Actif,45.486222,-73.866064,2019
Pont Le Gardeur,100052602,0,Actif,45.700896,-73.483252,2019
Piste Des Carrières,100052603,0,Actif,45.53416,-73.591464,2019
Estacade,100052604,0,Actif,45.466751,-73.533825,2019
Notre Dame 3 (Bellerive),100052605,0,Actif,45.591929,-73.510007,2019
Bennett,100052606,0,Actif,45.555084,-73.538819,2019
Sainte-Croix,100053055,0,Actif,45.511742,-73.672531,2019
Valois,100053059,0,Actif,45.546844,-73.542388,2019
Souligny,100053210,0,Actif,45.595538,-73.520435,2019
16e Avenue (@Bélanger),100054073,0,Actif,45.560713,-73.590636,2019


In [23]:
#retourne les années implantées > 2015 ou tout les ancien ID > 0
compteur[(compteur['Annee_implante'] > 2015) | (compteur['Ancien_ID'] > 0)].head()

Unnamed: 0_level_0,ID,Ancien_ID,Statut,Latitude,Longitude,Annee_implante
Nom,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Eco-Display Parc Stanley,100041114,0,Actif,45.557593,-73.673222,2018
Pont Jacques-Cartier,100002880,10,Actif,45.525508,-73.554422,2011
Berri1,100003032,3,Actif,45.516216,-73.56297,2010
Rachel / Papineau_VAS_DirectionOuestSeulement,100003034,6,Unidirectionnel,45.530448,-73.56954,2007
Maisonneuve_2_EnMaintenance,100003039,5,En maintenance,45.500507,-73.57497,2008


## Utiliser l'index

In [24]:
compteur[:3]

Unnamed: 0_level_0,ID,Ancien_ID,Statut,Latitude,Longitude,Annee_implante
Nom,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Eco-Display Parc Stanley,100041114,0,Actif,45.557593,-73.673222,2018
Pont Jacques-Cartier,100002880,10,Actif,45.525508,-73.554422,2011
Berri1,100003032,3,Actif,45.516216,-73.56297,2010


In [25]:
compteur[5::-1]

Unnamed: 0_level_0,ID,Ancien_ID,Statut,Latitude,Longitude,Annee_implante
Nom,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Pierre-Dupuy,100003040,12,Actif,45.50127,-73.54441,2010
Maisonneuve_2_EnMaintenance,100003039,5,En maintenance,45.500507,-73.57497,2008
Rachel / Papineau_VAS_DirectionOuestSeulement,100003034,6,Unidirectionnel,45.530448,-73.56954,2007
Berri1,100003032,3,Actif,45.516216,-73.56297,2010
Pont Jacques-Cartier,100002880,10,Actif,45.525508,-73.554422,2011
Eco-Display Parc Stanley,100041114,0,Actif,45.557593,-73.673222,2018


## Charger les statistiques

In [26]:
cars

Unnamed: 0,Country,Car,MPG,Weight,Drive_Ratio,Horsepower,Displacement,Cylinders
0,U.S.,Buick Estate Wagon,16.9,4.36,2.73,155,350,8
1,U.S.,Ford Country Squire Wagon,15.5,4.054,2.26,142,351,8
2,U.S.,Chevy Malibu Wagon,19.2,3.605,2.56,125,267,8
3,U.S.,Chrysler LeBaron Wagon,18.5,3.94,2.45,150,360,8
4,U.S.,Chevette,30.0,2.155,3.7,68,98,4
5,Japan,Toyota Corona,27.5,2.56,3.05,95,134,4
6,Japan,Datsun 510,27.2,2.3,3.54,97,119,4
7,U.S.,Dodge Omni,30.9,2.23,3.37,75,105,4
8,Germany,Audi 5000,20.3,2.83,3.9,103,131,5
9,Sweden,Volvo 240 GL,17.0,3.14,3.5,125,163,6


In [27]:
# moyenne
cars['Weight'].mean()

2.862894736842105

In [28]:
# mediane
cars[['Drive_Ratio', 'Horsepower']].median()

Drive_Ratio      3.08
Horsepower     100.00
dtype: float64

In [29]:
# quantile
cars['Weight'].quantile()

2.685

In [30]:
# std
cars['Horsepower'].std()

26.444929223767478

In [31]:
# describe
cars[['Drive_Ratio', 'Horsepower', 'Displacement', 'Cylinders']].describe()

Unnamed: 0,Drive_Ratio,Horsepower,Displacement,Cylinders
count,38.0,38.0,38.0,38.0
mean,3.093421,101.736842,177.289474,5.394737
std,0.517657,26.444929,88.876747,1.603029
min,2.26,65.0,85.0,4.0
25%,2.695,78.5,105.0,4.0
50%,3.08,100.0,148.5,4.5
75%,3.625,123.75,229.5,6.0
max,3.9,155.0,360.0,8.0


In [32]:
cars[['Country']].describe()

Unnamed: 0,Country
count,38
unique,6
top,U.S.
freq,22


In [33]:
# aggregation
cars.agg({'MPG': ['min', 'max', 'median', 'skew'], 'Weight': ['min', 'max', 'median', 'mean']})

Unnamed: 0,MPG,Weight
max,37.3,4.36
mean,,2.862895
median,24.25,2.685
min,15.5,1.915
skew,0.196782,


## Groupby

In [34]:
cars[['Country', 'MPG']].groupby('Country').mean()

Unnamed: 0_level_0,MPG
Country,Unnamed: 1_level_1
France,16.2
Germany,27.14
Italy,37.3
Japan,29.6
Sweden,19.3
U.S.,22.995455


In [35]:
groupe = cars.groupby('Car')
groupe.aggregate(np.sum)

Unnamed: 0_level_0,MPG,Weight,Drive_Ratio,Horsepower,Displacement,Cylinders
Car,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
AMC Concord D/L,18.1,3.41,2.73,120,258,6
AMC Spirit,27.4,2.67,3.08,80,121,4
Audi 5000,20.3,2.83,3.9,103,131,5
BMW 320i,21.5,2.6,3.64,110,121,4
Buick Century Special,20.6,3.38,2.73,105,231,6
Buick Estate Wagon,16.9,4.36,2.73,155,350,8
Buick Skylark,28.4,2.67,2.53,90,151,4
Chevette,30.0,2.155,3.7,68,98,4
Chevy Caprice Classic,17.0,3.84,2.41,130,305,8
Chevy Citation,28.8,2.595,2.69,115,173,6


In [36]:
groupe = cars.groupby('Country')
groupe['Weight'].agg([np.max, np.min, np.mean, np.sum, np.std])

Unnamed: 0_level_0,amax,amin,mean,sum,std
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
France,3.41,3.41,3.41,3.41,
Germany,2.83,1.925,2.307,11.535,0.393535
Italy,2.13,2.13,2.13,2.13,
Japan,2.815,1.915,2.245714,15.72,0.334582
Sweden,3.14,2.795,2.9675,5.935,0.243952
U.S.,4.36,2.155,3.184545,70.06,0.682818


## Sauvegarder des données en CSV

In [37]:
data = pd.DataFrame({'Veh leger': [1, 2], 'Veh lourd': [5, 10], 'TC': [8, 10], 'Pietons': [2, 3]})
data.to_csv('fichierDonnees1.csv', index=False, sep='\t')

## Créer des graphiques

In [38]:
import matplotlib as plt