
<img src="./figures/pandas.png" alt="pandas" width="30%" height="30%">


<h1> La librairie Pandas:</h1> 

Pandas est une bibliothèque spécialisée dans la manipulation de données. 
Cette bibliothèque regroupe un ensemble de fonctions optimisées pour manipuler de gros jeux de données.
Elle permet de créer et exporter des tables de données à partir de fichiers textes (séparateurs, .csv, format fixe, compressés), binaires (HDF5 avec Pytable), HTML, XML, JSON, MongoDB, SQL...


Une nouvelle structure de donnée est utilisée avec cette bibliothèque: le DataFrame . 
Il existe deux types de données  avec pandas: les séries et les dataframes. 


- un dataframe est un tableau qui est crée avec des dictionnaires ou des listes 
- ils sont basés sur des tableaux Numpy ou ndarray
- ils peuvent avoir des noms de colonnes et des noms de lignes
- ils ont la particularité de pouvoir mélanger les types de données: str, float, Nan, Int...

- on peut les visualiser comme une feuille excell mais avec un nombre important de volumes de données ainsi qu'un nombre importants de fonctions et attributs.  




# - Introduction sur les séries - 

Une série est un objet unidimensionnel. Les séries représentent les valeurs d'une variable statistique. 
Variables quantitatives ou des variables qualitatives. 


In [1]:
# on va charger la librairie pandas 
import pandas as pd      # création d'un alias pour alléger les codes 

On va créer une série. On peut soit utiliser des listes, soit des dictionnaires.

In [2]:
serie = pd.Series([11,15,12,13,14])
print(serie)

0    11
1    15
2    12
3    13
4    14
dtype: int64


Nous avons dans les séries, les index et les valeurs. On peut remplacer ces index par du texte avec l'option index. Attention, le nombre d'index doit correspondre au nombre de valeurs. 

In [3]:
serie = pd.Series([11,15,12,13,14], index=["Montréal", "Ottawa", "Toronto", "Gatineau", "Québec"])

In [4]:
print(serie)

Montréal    11
Ottawa      15
Toronto     12
Gatineau    13
Québec      14
dtype: int64


La méthode describe() nous donne la distribution de nos données dans la série. 

In [5]:
serie.describe()

count     5.000000
mean     13.000000
std       1.581139
min      11.000000
25%      12.000000
50%      13.000000
75%      14.000000
max      15.000000
dtype: float64

On peut accéder à une valeur en utilisant l'index. 

In [6]:
serie["Montréal"]

11

Mais on peut toujours utiliser le numéro de l'index. 

In [7]:
serie[3]

13

On peut accéder à plusieurs index. 

In [8]:
serie[["Montréal", "Québec", "Toronto"]]

Montréal    11
Québec      14
Toronto     12
dtype: int64

Il exite d'autres méthodes intéressantes pour faire des calculs sur la série. 

In [9]:
serie.min()

11

In [10]:
serie.max()

15

On peut utiliser des opérateurs de comparaison. 

In [11]:
serie[serie>12]

Ottawa      15
Gatineau    13
Québec      14
dtype: int64

In [12]:
serie>12 # c est l'ensemble de booléens.

Montréal    False
Ottawa       True
Toronto     False
Gatineau     True
Québec       True
dtype: bool

## Les dataframes 
<h1> 8- Les dataframes:</h1> 

Un dataframe est un tableau avec des observations ou individus sur les lignes et des attributs sur les colonnes qui décrivent les individus. 

![pandas-dataframe-shadow.png](attachment:pandas-dataframe-shadow.png)

Les attributs peuvent être soit qualitatif soit quantitatif.  

<h2> 8.1- Création d'un Dataframe:</h2> 

<h3> 8.1.1- Création d'un DataFrame à partir d'un array Numpy:</h3> 


In [17]:
import numpy as np  # on importe la librairie numpy
stations = np.genfromtxt("./DATA/DATA_Barrage_1963_2017_5.csv", delimiter=",", dtype='float')   # on assigne une variable. 
stations

array([[  39.7       ,   39.09      ,   39.55645161,   23.23      ,
          22.5       ,   22.85903226, 2390.52612903, 3164.97      ,
        1673.8       ],
       [  41.16      ,   40.96      ,   41.08806452,   23.22      ,
          22.43      ,   22.7583871 , 2227.28290323, 3008.18      ,
        1697.87      ],
       [  41.15      ,   41.05      ,   41.11322581,   23.35      ,
          22.87      ,   23.15548387, 2851.27419355, 3231.8       ,
        2367.85      ],
       [  41.09      ,   40.61      ,   40.9683871 ,   23.78      ,
          22.7       ,   23.03258065, 2635.03774194, 3967.33      ,
        2069.65      ],
       [  41.09      ,   39.6       ,   40.26967742,   24.24      ,
          22.87      ,   23.64580645, 3924.23451613, 5407.32      ,
        2417.89      ]])

Pour créer le dataframe, on utilise la fonction <b>DataFrame()</b> de pandas. C'est à cette étape qu'on définit le nom de nos colonnes.  En entrée on met le tableau Numpy . 

In [18]:
dataframe = pd.DataFrame(stations, columns=["Amont Max", "Amont Min", "Amont Moyen", "Aval Max", "Aval Max", "Aval Moyen", "Debit Moyen", "Debit Max","Debit Min"])
dataframe

Unnamed: 0,Amont Max,Amont Min,Amont Moyen,Aval Max,Aval Max.1,Aval Moyen,Debit Moyen,Debit Max,Debit Min
0,39.7,39.09,39.556452,23.23,22.5,22.859032,2390.526129,3164.97,1673.8
1,41.16,40.96,41.088065,23.22,22.43,22.758387,2227.282903,3008.18,1697.87
2,41.15,41.05,41.113226,23.35,22.87,23.155484,2851.274194,3231.8,2367.85
3,41.09,40.61,40.968387,23.78,22.7,23.032581,2635.037742,3967.33,2069.65
4,41.09,39.6,40.269677,24.24,22.87,23.645806,3924.234516,5407.32,2417.89


<h3> 8.1.2- Création d'un DataFrame à partir de series:</h3> 

On a vu précédemment comment créer une Série. On peut s'en servir pour créer des Dataframes. 

Lors de la création d'un DataFrame, chaque série définira une colonne. 


In [19]:
# on crée une première série 
groupe1=pd.Series([11,15,12,13], index=["Fred", "Jeanne", "Julie", "Julien"])

In [20]:
groupe1

Fred      11
Jeanne    15
Julie     12
Julien    13
dtype: int64

In [21]:
# on crée une deuxième série mais avec des nouveaux élèves en plus et des élèves absents.   
groupe2=pd.Series([11,15,15,11], index=["Fred", "Jeanne", "Damien", "Samuel"])

On crée notre DataFrame avec nos deux séries. 
Pour cela on utilise des dictionnaire pour créer un dataframe avec des séries, donc on utilise des {}, avec des clés et des valeurs. 

In [22]:
dataframe = pd.DataFrame({"Groupe1" : groupe1, "Groupe2" : groupe2})

In [23]:
dataframe

Unnamed: 0,Groupe1,Groupe2
Damien,,15.0
Fred,11.0,11.0
Jeanne,15.0,15.0
Julie,12.0,
Julien,13.0,
Samuel,,11.0


NaN: la valeur n'est pas disponible. 

<h3> 8.1.3- Création d'un DataFrame à partir d'un fichier csv: fonctions <b>read_table()</b> ou <b>read_csv():</h3> 


<b>read_table()</b> et <b>read_csv()</b> sont les fonctions les plus utiles sous Pandas pour lire des fichiers textes et générer un objet de type DataFrame. 

On va travailler avec un jeu de données issu d'un barrage hydraulique.  
Notre fichier csv possède 9 variables, la première ligne nous renvoie les noms des variables (ou labels).

On peut lire un document csv avec la fonction <b>read_table()</b> , en mettant en attribut le séparateur ",".

In [25]:
barrage = pd.read_table("./DATA/DATA_EXTREME_Carillon_1963_2017_5.csv", sep=",")
barrage.head()

  """Entry point for launching an IPython kernel.


Unnamed: 0,Amont_max,Amont_min,Amont_moyen,Aval_max,Aval_min,Aval_moyen,Debit_Moyen,Debit_max,Debit_min
0,39.7,39.09,39.556452,23.23,22.5,22.859032,2390.526129,3164.97,1673.8
1,41.16,40.96,41.088065,23.22,22.43,22.758387,2227.282903,3008.18,1697.87
2,41.15,41.05,41.113226,23.35,22.87,23.155484,2851.274194,3231.8,2367.85
3,41.09,40.61,40.968387,23.78,22.7,23.032581,2635.037742,3967.33,2069.65
4,41.09,39.6,40.269677,24.24,22.87,23.645806,3924.234516,5407.32,2417.89


Cependant, si on sait que notre fichier à lire est un csv, on peut utiliser une fonction plus simple de Pandas qui est <b>read_csv()</b>.

Pas besoin de l'option sep='' . Il trouvera le séparateur par défault.

In [26]:
barrage = pd.read_csv("./DATA/DATA_EXTREME_Carillon_1963_2017_5.csv")
barrage.head()

Unnamed: 0,Amont_max,Amont_min,Amont_moyen,Aval_max,Aval_min,Aval_moyen,Debit_Moyen,Debit_max,Debit_min
0,39.7,39.09,39.556452,23.23,22.5,22.859032,2390.526129,3164.97,1673.8
1,41.16,40.96,41.088065,23.22,22.43,22.758387,2227.282903,3008.18,1697.87
2,41.15,41.05,41.113226,23.35,22.87,23.155484,2851.274194,3231.8,2367.85
3,41.09,40.61,40.968387,23.78,22.7,23.032581,2635.037742,3967.33,2069.65
4,41.09,39.6,40.269677,24.24,22.87,23.645806,3924.234516,5407.32,2417.89


In [27]:
#help(pd.read_csv)

Plusieurs options sont mises à disposition de la fonction read_csv(). Il est important de connaître la liste des possibilités et options offertes par cette simple commande. 

<table border="1" class="docutils">
<colgroup>
<col width="27%">
<col width="57%">
</colgroup>
<tbody valign="top">

<tr><td><tt class="docutils literal"><span class="pre"><b>path</b></span></tt></td>
<td>Chemin ou non du fichier ou URL</td>
</tr>
<tr><td><tt class="docutils literal"><span class="pre"><b>sep</b></span></tt></td>
<td>délimiteur comme , ; | \t ou \s+ pour un nombre variable d’espaces</td>
</tr>
<tr><td><tt class="docutils literal"><span class="pre"><b>header</b></span></tt></td>
<td>défaut 0, la première ligne contient le nom des variables ; si None les noms sont générés ou définis par ailleurs</td>
</tr>
<tr><td><tt class="docutils literal"><span class="pre"><b>index_col</b></span></tt></td>
<td>Noms ou numéros de colonnes définissant les index de lignes, index pouvant être hiérarchisés comme les facteurs d’un plan d’expérience.</td>
</tr>
<tr><td><tt class="docutils literal"><span class="pre"><b>names</b></span></tt></td>
<td>Si header=None, liste des noms des variables.</td>
</tr>
<tr><td><tt class="docutils literal"><span class="pre"><b>nrows</b></span></tt></td>
<td>Utile pour tester et limiter le nombre de ligne à lire</td>
</tr>
<tr><td><tt class="docutils literal"><span class="pre"><b>skiprow</b></span></tt></td>
<td>Liste de lignes à sauter en lecture</td>
</tr>
<tr><td><tt class="docutils literal"><span class="pre"><b>skip_footer</b></span></tt></td>
<td>Nombre de lignes à sauter en fin de fichier</td>
</tr>
<tr><td><tt class="docutils literal"><span class="pre"><b>na_values</b></span></tt></td>
<td>Définition du ou des codes signalant des valeurs manquantes. Ils
peuvent être définis dans un dictionnaire pour associer variables et codes
de valeurs manquantes spécifiques</td>
</tr>
<tr><td><tt class="docutils literal"><span class="pre"><b>usecols</b></span></tt></td>
<td>Sélectionne une liste des variable à lire pour éviter de lire des
champs ou variables volumineuses et inutiles</td>
</tr>
<tr><td><tt class="docutils literal"><span class="pre"><b>skip_blank_lines</b></span></tt></td>
<td>Si <b>True</b>, on saute les lignes blanches </td>
</tr>
<tr><td><tt class="docutils literal"><span class="pre"><b>thousand</b></span></tt></td>
<td>Séparateur des miliers : "." ou ",".</td>
</tr>
</tbody>
</table>


In [28]:
file1 = "./DATA/DATA_EXTREME_Carillon_1963_2017_5.csv"
col_names = ['Variable1', 'Variable2', 'Variable3']
df2 = pd.read_csv(file1, skiprows=1, usecols=[0, 1, 3], names=col_names)

In [29]:
df2.head()

Unnamed: 0,Variable1,Variable2,Variable3
0,39.7,39.09,23.23
1,41.16,40.96,23.22
2,41.15,41.05,23.35
3,41.09,40.61,23.78
4,41.09,39.6,24.24


<h3> 8.1.4- Création d'un DataFrame à partir d'un fichier txt:</h3> 

In [31]:
with open('./DATA/Daily_Precipitation_1963-2017.txt', 'r') as file:
        rows = file.read()      
dataset = [float(row) for row in rows.split()]   
df3 = pd.DataFrame({"Precipitation" : dataset})

In [32]:
df3.head()

Unnamed: 0,Precipitation
0,0.0
1,0.0
2,0.0
3,0.0
4,0.0



<h3> 8.1.5- Création d'un DataFrame à partir d'un fichier excell ou (.xls): fonction <b>read_excel()</b></h3> 

Nous allons ouvrir ici un fichier excell (d'extension .xls). Ce fichier est une base de données contenant de l'information sur toutes les stations homogénéisées de température d'Environnement et Changement Climatique Canada. 

Cette base de données présente 11 colonnes avec des données commençant à la 4 ème ligne. 

On va définir la colonne Province comme index de notre DataFrame.  

In [34]:
df4 = pd.read_excel("./DATA/Homog_Temperature_Stations.xls", index_col=0,skiprows = range(0, 3))
df4.head()

Unnamed: 0_level_0,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes
Prov,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
BC,AGASSIZ,1100120,1893,1,2017,12,49.25,-121.77,15,N
BC,ATLIN,1200560,1905,8,2017,12,59.57,-133.7,674,N
BC,BARKERVILLE,1090660,1888,2,2015,3,53.07,-121.52,1265,N
BC,BEAVERDELL,1130771,1939,1,2006,9,49.48,-119.05,838,Y
BC,BELLA COOLA,1060841,1895,5,2017,11,52.37,-126.68,18,Y



<h2> 8.2- Accéder aux éléments d'un DataFrame:</h2> 


In [35]:
dataframe = pd.read_excel("./DATA/Homog_Temperature_Stations.xls", skiprows = range(0, 3))
dataframe.head()

Unnamed: 0,Prov,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes
0,BC,AGASSIZ,1100120,1893,1,2017,12,49.25,-121.77,15,N
1,BC,ATLIN,1200560,1905,8,2017,12,59.57,-133.7,674,N
2,BC,BARKERVILLE,1090660,1888,2,2015,3,53.07,-121.52,1265,N
3,BC,BEAVERDELL,1130771,1939,1,2006,9,49.48,-119.05,838,Y
4,BC,BELLA COOLA,1060841,1895,5,2017,11,52.37,-126.68,18,Y


Avant exploration d'un Dataframe, on peut modifier l'index pour faciliter l'analyse d'un jeu de données. Pour cela, on utilise la fonction <b>.set_index()</b> . On doit créer un nouvel objet.

In [36]:
dataframe_Prov_index = dataframe.set_index("Prov").head()

In [37]:
dataframe_Prov_index.head()

Unnamed: 0_level_0,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes
Prov,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
BC,AGASSIZ,1100120,1893,1,2017,12,49.25,-121.77,15,N
BC,ATLIN,1200560,1905,8,2017,12,59.57,-133.7,674,N
BC,BARKERVILLE,1090660,1888,2,2015,3,53.07,-121.52,1265,N
BC,BEAVERDELL,1130771,1939,1,2006,9,49.48,-119.05,838,Y
BC,BELLA COOLA,1060841,1895,5,2017,11,52.37,-126.68,18,Y


Pour accéder à un élément dans un dataframe, il existe deux méthodes:

   - la méthode <b>iloc()</b> pour accéder aux données à partir des numéros d'index
   
   - la méthode <b>loc()</b> pour accéder aux données à partir des labels
   
   ![loc-iloc.png](attachment:loc-iloc.png)

<h3> 8.2.1-  La méthode iloc():</h3> 


In [38]:
# iloc:  on veut les extraire les valeurs localiées à la colonne d'index 1 et ligne d'index 4 [row, column]
dataframe_Prov_index.iloc[4,1]      

1060841

In [39]:
# iloc: pour accéder aux 4 premières lignes et toutes les colonnes de notre DataFrame. 
dataframe_Prov_index.iloc[0:4,:]

Unnamed: 0_level_0,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes
Prov,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
BC,AGASSIZ,1100120,1893,1,2017,12,49.25,-121.77,15,N
BC,ATLIN,1200560,1905,8,2017,12,59.57,-133.7,674,N
BC,BARKERVILLE,1090660,1888,2,2015,3,53.07,-121.52,1265,N
BC,BEAVERDELL,1130771,1939,1,2006,9,49.48,-119.05,838,Y


In [40]:
# iloc: pour accéder aux 4 premières colonnes et toutes les lignes de notre DataFrame. 
dataframe_Prov_index.iloc[:,0:4]

Unnamed: 0_level_0,Nom de station,stnid,année déb.,mois déb.
Prov,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
BC,AGASSIZ,1100120,1893,1
BC,ATLIN,1200560,1905,8
BC,BARKERVILLE,1090660,1888,2
BC,BEAVERDELL,1130771,1939,1
BC,BELLA COOLA,1060841,1895,5


In [41]:
# Slicing sur les colonnes et les lignes: on veut les lignes d'index 2 à 5 et les colonnes d'index 3 à 8
dataframe_Prov_index.iloc[2:5,3:8]

Unnamed: 0_level_0,mois déb.,année fin.,mois fin.,lat (deg),long (deg)
Prov,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
BC,2,2015,3,53.07,-121.52
BC,1,2006,9,49.48,-119.05
BC,5,2017,11,52.37,-126.68



   <h3> 8.2.2-  La méthode loc():</h3> 
   

In [42]:
# loc: On veut extraire pour accéder à toutes les valeurs d'un index, utilisation du slicing. 
dataframe_Prov_index.loc["BC","stnid"]

Prov
BC    1100120
BC    1200560
BC    1090660
BC    1130771
BC    1060841
Name: stnid, dtype: object

In [43]:
# loc: pour accéder à toutes les valeurs d'un index, utilisation du slicing. 
dataframe_Prov_index.loc["BC",:]

Unnamed: 0_level_0,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes
Prov,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
BC,AGASSIZ,1100120,1893,1,2017,12,49.25,-121.77,15,N
BC,ATLIN,1200560,1905,8,2017,12,59.57,-133.7,674,N
BC,BARKERVILLE,1090660,1888,2,2015,3,53.07,-121.52,1265,N
BC,BEAVERDELL,1130771,1939,1,2006,9,49.48,-119.05,838,Y
BC,BELLA COOLA,1060841,1895,5,2017,11,52.37,-126.68,18,Y


In [44]:
# loc pour sélectionner toutes les lignes de 3 labels . 
dataframe_Prov_index.loc[:,["Nom de station", "année déb.", "année fin."]].head()

Unnamed: 0_level_0,Nom de station,année déb.,année fin.
Prov,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
BC,AGASSIZ,1893,2017
BC,ATLIN,1905,2017
BC,BARKERVILLE,1888,2015
BC,BEAVERDELL,1939,2006
BC,BELLA COOLA,1895,2017


 <h2> 8.3-  Modifier un DataFrame:</h2> 

In [45]:
dataframe_Prov_index.head()

Unnamed: 0_level_0,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes
Prov,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
BC,AGASSIZ,1100120,1893,1,2017,12,49.25,-121.77,15,N
BC,ATLIN,1200560,1905,8,2017,12,59.57,-133.7,674,N
BC,BARKERVILLE,1090660,1888,2,2015,3,53.07,-121.52,1265,N
BC,BEAVERDELL,1130771,1939,1,2006,9,49.48,-119.05,838,Y
BC,BELLA COOLA,1060841,1895,5,2017,11,52.37,-126.68,18,Y


 <h3> 8.3.1-  Création d'une variable depuis un DataFrame:</h3> 


In [46]:
delta_year = (dataframe_Prov_index["année fin."] - dataframe_Prov_index["année déb."]) + 1

In [47]:
delta_year.head()

Prov
BC    125
BC    113
BC    128
BC     68
BC    123
dtype: int64

<h3> 8.3.2- Ajout d'une variable dans un DataFrame:</h3> 

In [48]:
dataframe_Prov_index["total année"] = delta_year#### b- La méthode loc():

In [49]:
dataframe_Prov_index.head()

Unnamed: 0_level_0,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes,total année
Prov,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
BC,AGASSIZ,1100120,1893,1,2017,12,49.25,-121.77,15,N,125
BC,ATLIN,1200560,1905,8,2017,12,59.57,-133.7,674,N,113
BC,BARKERVILLE,1090660,1888,2,2015,3,53.07,-121.52,1265,N,128
BC,BEAVERDELL,1130771,1939,1,2006,9,49.48,-119.05,838,Y,68
BC,BELLA COOLA,1060841,1895,5,2017,11,52.37,-126.68,18,Y,123


   <h3> 8.3.3- Suppression d'une variable dans un DataFrame:</h3> 
   
   
   - méthode <b>drop()</b>, en entrée on spécifie une liste

In [43]:
dataframe_Prov_index.drop(["stns jointes"], axis=1)

Unnamed: 0_level_0,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),total année
Prov,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
BC,AGASSIZ,1100120,1893,1,2017,12,49.25,-121.77,15,125
BC,ATLIN,1200560,1905,8,2017,12,59.57,-133.7,674,113
BC,BARKERVILLE,1090660,1888,2,2015,3,53.07,-121.52,1265,128
BC,BEAVERDELL,1130771,1939,1,2006,9,49.48,-119.05,838,68
BC,BELLA COOLA,1060841,1895,5,2017,11,52.37,-126.68,18,123


<h3> 8.3.4- Jointure de DataFrames:</h3> 


Il s’agit de "jointer" deux tables partageant la même clef ou encore de concaténer horizontalement les lignes en faisant correspondre les valeurs d’une variable clef qui peuvent ne pas être uniques.

In [50]:
# tables
df1 = pd.DataFrame({"key": ["b", "b", "a", "c",
"a","a", "b"],"data1": range(7)})
df2 = pd.DataFrame({"key": ["a", "b", "d"],
"data2": range(3)})
pd.merge(df1,df2,on="key")


Unnamed: 0,key,data1,data2
0,b,0,1
1,b,1,1
2,b,6,1
3,a,2,0
4,a,4,0
5,a,5,0


In [51]:
# valeurs manquantes
pd.merge(df1,df2,on="key", how="outer")

Unnamed: 0,key,data1,data2
0,b,0.0,1.0
1,b,1.0,1.0
2,b,6.0,1.0
3,a,2.0,0.0
4,a,4.0,0.0
5,a,5.0,0.0
6,c,3.0,
7,d,,2.0


<h3> 8.3.5- Concatenation de DataFrames:</h3> 

Concaténation verticale (axis=0) ou horizontales (axis=1) de tables. La
concaténation horizontale est similaire à la jointure (option outer).


In [52]:
# tables
import pandas as pd
df1 = pd.DataFrame({"key": ["b", "b", "a", "c",
"a", "a", "b"],"var": range(7)})
df2 = pd.DataFrame({"key": ["a", "b", "d"],
"var": range(3)})
# concaténation verticales
pd.concat([df1,df2],axis=0)
# concaténation horizontale
pd.concat([df1,df2],axis=1)

Unnamed: 0,key,var,key.1,var.1
0,b,0,a,0.0
1,b,1,b,1.0
2,a,2,d,2.0
3,c,3,,
4,a,4,,
5,a,5,,
6,b,6,,


### 4-  Manipuler et explorer un DataFrame

Il existe plusieurs fonctions, méthodes ou attributs qu'on peut appliquer sur les DataFrame: 

https://pandas.pydata.org/pandas-docs/version/0.23.4/generated/pandas.DataFrame.html

Nous allons présenter quelques fonctions utiles lors de l'exploration d'un jeu de données. 


In [47]:
dataframe = pd.read_csv("./DATA/Climato_Stations_ECCC_1981_2010_YEAR.csv", encoding='latin-1')
dataframe.head()

Unnamed: 0.1,Unnamed: 0,Prov,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes,Tmax,Tmax90p,Tmin,Tmin10p,DG0
0,0,BC,AGASSIZ,1100120,1893,1,2017,12,49.25,-121.77,15,N,,,,,
1,1,BC,ATLIN,1200560,1905,8,2017,12,59.57,-133.7,674,N,5.630427,18.903333,-3.46052,-19.235,860.083333
2,2,BC,BARKERVILLE,1090660,1888,2,2015,3,53.07,-121.52,1265,N,,,,,
3,3,BC,BEAVERDELL,1130771,1939,1,2006,9,49.48,-119.05,838,Y,12.628017,23.641667,4.017479,-3.646,1798.093333
4,4,BC,BLIND CHANNEL,1021480,1958,7,2016,2,50.42,-125.5,23,N,12.155616,20.200667,6.776893,1.094667,2518.68


- La méthode <b>.shape</b> : retourne un tuple sur la dimension de notre DataFrame

In [48]:
dataframe.shape # nous avons donc 289 lignes et 17 colonnes dans notre base de données.

(289, 17)

- La méthode <b>.columns</b>: retourne les noms des colonnes de notre DataFrame

In [49]:
dataframe.columns

Index(['Unnamed: 0', 'Prov', 'Nom de station', 'stnid', 'année déb.',
       'mois déb.', 'année fin.', 'mois fin.', 'lat (deg)', 'long (deg)',
       'élév (m)', 'stns jointes', 'Tmax', 'Tmax90p', 'Tmin', 'Tmin10p',
       'DG0'],
      dtype='object')

   - La méthode <b>.isnull</b>:  nous informe si la valeur est NaN ou non 

 On va imbriquer deux méthodes pour connaître le nombre de valeurs manquantes. 

    - .isnull(): nous informe si la valeur est NaN ou non 

    - .sum(): effectue la somme. 

In [50]:
dataframe.isnull().sum() # information sur la somme des NaN par catégorie

Unnamed: 0          0
Prov                0
Nom de station      0
stnid               0
année déb.          0
mois déb.           0
année fin.          0
mois fin.           0
lat (deg)           0
long (deg)          0
élév (m)            0
stns jointes        0
Tmax              117
Tmax90p           117
Tmin              118
Tmin10p           118
DG0               118
dtype: int64

   - La méthode <b>.dropna</b>: pour supprimer les NaN 

In [51]:
dataframe_sans_NaN = dataframe.dropna() # On supprime les lignes avec des NaN

In [52]:
dataframe_sans_NaN.isnull().sum()

Unnamed: 0        0
Prov              0
Nom de station    0
stnid             0
année déb.        0
mois déb.         0
année fin.        0
mois fin.         0
lat (deg)         0
long (deg)        0
élév (m)          0
stns jointes      0
Tmax              0
Tmax90p           0
Tmin              0
Tmin10p           0
DG0               0
dtype: int64

In [53]:
dataframe_sans_NaN.shape # nouvelle dimension de notre tableau 

(169, 17)

 - La méthode <b>sort_values</b>: Pour trier notre tableau suivant une catégorie

In [54]:
dataframe.head()

Unnamed: 0.1,Unnamed: 0,Prov,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes,Tmax,Tmax90p,Tmin,Tmin10p,DG0
0,0,BC,AGASSIZ,1100120,1893,1,2017,12,49.25,-121.77,15,N,,,,,
1,1,BC,ATLIN,1200560,1905,8,2017,12,59.57,-133.7,674,N,5.630427,18.903333,-3.46052,-19.235,860.083333
2,2,BC,BARKERVILLE,1090660,1888,2,2015,3,53.07,-121.52,1265,N,,,,,
3,3,BC,BEAVERDELL,1130771,1939,1,2006,9,49.48,-119.05,838,Y,12.628017,23.641667,4.017479,-3.646,1798.093333
4,4,BC,BLIND CHANNEL,1021480,1958,7,2016,2,50.42,-125.5,23,N,12.155616,20.200667,6.776893,1.094667,2518.68


In [55]:
# On veut trier notre tableau en fonction de notre catégorie " Prov. "
dataframe.sort_values(by="Tmin").head()

Unnamed: 0.1,Unnamed: 0,Prov,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes,Tmax,Tmax90p,Tmin,Tmin10p,DG0
87,87,NU,EUREKA,2401200,1947,5,2016,2,79.98,-85.93,10,N,-15.366463,7.637667,-21.935075,-42.886667,174.633333
74,74,NU,ALERT,2400305,1950,7,2017,12,82.5,-62.33,65,Y,-14.017303,4.741667,-20.641489,-38.155667,58.616667
94,94,NU,RESOLUTE,2403498,1947,10,2017,12,74.72,-94.98,67,Y,-12.598809,5.601,-18.184695,-36.895333,107.34
78,78,NU,CAMBRIDGE BAY,2400600,1940,1,2015,2,69.1,-105.13,27,N,-10.301986,10.764,-16.838712,-37.170667,336.75
88,88,NU,HALL BEACH,2402354,1957,1,2017,12,68.78,-81.25,8,Y,-9.737036,8.097,-16.485249,-37.710333,211.246667


- La méthode <b>.describe()</b>:  permet d'avoir un apperçu de notre DataFrame

In [56]:
dataframe.describe()

Unnamed: 0.1,Unnamed: 0,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),Tmax,Tmax90p,Tmin,Tmin10p,DG0
count,289.0,289.0,289.0,289.0,289.0,289.0,289.0,289.0,172.0,172.0,171.0,171.0,171.0
mean,144.0,1919.321799,5.775087,2016.546713,10.816609,52.749446,-96.597405,338.314879,7.916314,23.565035,-2.277538,-18.611343,1397.741326
std,83.571327,23.992119,3.600916,1.301201,2.58285,7.343452,23.670766,314.663568,5.52463,4.396326,5.255046,9.053867,544.37324
min,0.0,1840.0,1.0,2006.0,1.0,42.03,-140.2,2.0,-15.366463,4.741667,-21.935075,-42.886667,58.616667
25%,72.0,1905.0,2.0,2017.0,12.0,48.33,-116.98,64.0,7.364646,22.565917,-4.030637,-23.640167,1106.848333
50%,144.0,1916.0,6.0,2017.0,12.0,50.7,-99.28,251.0,8.988052,24.530667,-2.229597,-19.855333,1366.136667
75%,216.0,1940.0,9.0,2017.0,12.0,54.82,-75.55,546.0,11.018241,26.074583,0.691542,-12.633833,1676.23
max,288.0,1960.0,12.0,2017.0,12.0,82.5,-52.75,1580.0,16.105511,30.876667,7.016292,1.949,2807.09


On peut faire directement des statistiques sur des variables quantitatives.

In [57]:
dataframe["Tmin"].describe()

count    171.000000
mean      -2.277538
std        5.255046
min      -21.935075
25%       -4.030637
50%       -2.229597
75%        0.691542
max        7.016292
Name: Tmin, dtype: float64

- La méthode <b>.dtypes()</b>:  nous fournit les types de variables de notre DataFrame.

In [58]:
dataframe.dtypes

Unnamed: 0          int64
Prov               object
Nom de station     object
stnid              object
année déb.          int64
mois déb.           int64
année fin.          int64
mois fin.           int64
lat (deg)         float64
long (deg)        float64
élév (m)            int64
stns jointes       object
Tmax              float64
Tmax90p           float64
Tmin              float64
Tmin10p           float64
DG0               float64
dtype: object

Mais si on veut appliquer la méthode .describe() sur toutes les catégories, on peut ajouter l'option include="all".

google_app_sans_NaN.describe(include="all")

In [59]:
#dataframe.describe(include="all")

- La méthode <b>.apply()</b>: Cette méthode permet d'appliquer une fonction sur l'ensemble des valeurs d'une colonnes.
 
Création d'une fonction ponctuel avec lambda: .apply(lambda x: x.replace("N", "NaN") : pour chaque x on remplace la valeur.

In [60]:
dataframe = pd.read_csv("./DATA/Climato_Stations_ECCC_1981_2010_YEAR.csv", encoding='latin-1')
dataframe["stns jointes"]=dataframe["stns jointes"].apply(lambda x: x.replace("N", "NaN"))
dataframe["stns jointes"]=dataframe["stns jointes"].apply(lambda x: x.replace("Y", "1"))
dataframe.head()

Unnamed: 0.1,Unnamed: 0,Prov,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes,Tmax,Tmax90p,Tmin,Tmin10p,DG0
0,0,BC,AGASSIZ,1100120,1893,1,2017,12,49.25,-121.77,15,,,,,,
1,1,BC,ATLIN,1200560,1905,8,2017,12,59.57,-133.7,674,,5.630427,18.903333,-3.46052,-19.235,860.083333
2,2,BC,BARKERVILLE,1090660,1888,2,2015,3,53.07,-121.52,1265,,,,,,
3,3,BC,BEAVERDELL,1130771,1939,1,2006,9,49.48,-119.05,838,1.0,12.628017,23.641667,4.017479,-3.646,1798.093333
4,4,BC,BLIND CHANNEL,1021480,1958,7,2016,2,50.42,-125.5,23,,12.155616,20.200667,6.776893,1.094667,2518.68


In [61]:
dataframe_sans_NaN["Tmin"]=dataframe_sans_NaN["Tmin"].apply(lambda x: round(x,2))
dataframe_sans_NaN["Tmax"]=dataframe_sans_NaN["Tmax"].apply(lambda x: int(x))
dataframe_sans_NaN.head()

Unnamed: 0.1,Unnamed: 0,Prov,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes,Tmax,Tmax90p,Tmin,Tmin10p,DG0
1,1,BC,ATLIN,1200560,1905,8,2017,12,59.57,-133.7,674,N,5,18.903333,-3.46,-19.235,860.083333
3,3,BC,BEAVERDELL,1130771,1939,1,2006,9,49.48,-119.05,838,Y,12,23.641667,4.02,-3.646,1798.093333
4,4,BC,BLIND CHANNEL,1021480,1958,7,2016,2,50.42,-125.5,23,N,12,20.200667,6.78,1.094667,2518.68
5,5,BC,BLUE RIVER,1160899,1946,9,2017,12,52.13,-119.28,683,Y,10,25.991667,-1.13,-12.582333,987.363333
9,9,BC,COMOX,1021830,1935,11,2017,12,49.72,-124.9,26,Y,13,23.102333,6.42,-0.526,2444.393333


- Méthode <b>.loc()</b>: Méthode permettant de filtrer des données

Exemple: on veut filtrer toutes les données mais avec une condition sur une colonne.

In [62]:
dataframe_sans_NaN.loc[dataframe_sans_NaN["DG0"]>2500,:]

Unnamed: 0.1,Unnamed: 0,Prov,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes,Tmax,Tmax90p,Tmin,Tmin10p,DG0
4,4,BC,BLIND CHANNEL,1021480,1958,7,2016,2,50.42,-125.5,23,N,12,20.200667,6.78,1.094667,2518.68
27,27,BC,MCINNES ISLAND,1065010,1955,1,2017,12,52.27,-128.72,26,N,11,17.164,7.02,1.949,2587.876667
44,44,BC,VANCOUVER,1108395,1896,2,2017,12,49.2,-123.18,4,Y,13,22.404,7.01,-0.182667,2673.563333
190,190,ON,HARROW,6130257,1917,4,2017,12,42.03,-82.9,182,Y,14,29.053333,5.39,-8.037333,2655.173333
210,210,ON,TORONTO,6158355,1840,3,2017,12,43.67,-79.4,113,Y,13,27.074333,5.92,-7.532,2807.09
211,211,ON,VINELAND,6139148,1924,10,2017,12,43.18,-79.68,79,Y,13,27.575667,5.12,-7.636333,2551.13
214,214,ON,WINDSOR,6139527,1940,8,2017,12,42.27,-82.97,190,Y,14,28.795333,5.88,-7.384667,2803.45


In [63]:
# On veut toutes les valeurs mais uniquement pour une Province
dataframe_sans_NaN.loc[dataframe_sans_NaN["Prov"]=="NB",:]

Unnamed: 0.1,Unnamed: 0,Prov,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes,Tmax,Tmax90p,Tmin,Tmin10p,DG0
256,256,NB,CHATHAM MIRA.,8100989,1873,1,2017,12,47.02,-65.47,33,Y,10,26.085333,-0.49,-16.959667,1564.133333
258,258,NB,FREDERICTON,8101505,1871,12,2017,12,45.87,-66.53,21,Y,11,26.306,0.7,-14.820667,1747.27
259,259,NB,MONCTON,8103201,1898,5,2017,12,46.1,-64.68,71,Y,10,25.392,0.84,-13.948333,1715.35
260,260,NB,SAINT JOHN,8104901,1871,1,2017,12,45.32,-65.88,109,Y,10,23.051333,0.31,-14.555333,1548.77


In [64]:
#dataframe_sans_NaN["Prov"]=="NB"

On peut faire plusieurs comparaisons dans notre filtre.

In [65]:
dataframe_sans_NaN.loc[(dataframe_sans_NaN["Prov"]=="QC") & (dataframe_sans_NaN["Tmin"]>0),:]

Unnamed: 0.1,Unnamed: 0,Prov,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes,Tmax,Tmax90p,Tmin,Tmin10p,DG0
224,224,QC,DRUMMONDVILLE,7022160,1913,11,2017,8,45.88,-72.48,82,N,11,26.611667,1.62,-15.863333,2110.86
240,240,QC,NICOLET,7025440,1913,11,2017,8,46.2,-72.62,30,N,10,25.949667,0.06,-18.14,1767.576667
243,243,QC,QUEBEC,701S001,1875,8,2017,12,46.8,-71.38,74,Y,9,25.518,0.68,-16.706333,1888.113333
248,248,QC,ST JEROME,7037400,1932,5,2017,8,45.8,-74.05,170,N,10,26.185,0.49,-17.13,1847.783333


In [66]:
dataframe_sans_NaN.loc[(dataframe_sans_NaN["Prov"]=="QC") & (dataframe_sans_NaN["Tmin"]>0) & (dataframe_sans_NaN["année fin."]==2017),:]

Unnamed: 0.1,Unnamed: 0,Prov,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes,Tmax,Tmax90p,Tmin,Tmin10p,DG0
224,224,QC,DRUMMONDVILLE,7022160,1913,11,2017,8,45.88,-72.48,82,N,11,26.611667,1.62,-15.863333,2110.86
240,240,QC,NICOLET,7025440,1913,11,2017,8,46.2,-72.62,30,N,10,25.949667,0.06,-18.14,1767.576667
243,243,QC,QUEBEC,701S001,1875,8,2017,12,46.8,-71.38,74,Y,9,25.518,0.68,-16.706333,1888.113333
248,248,QC,ST JEROME,7037400,1932,5,2017,8,45.8,-74.05,170,N,10,26.185,0.49,-17.13,1847.783333


### 5-  Grouper un DataFrame sur une ou plusieurs colonnes (groupby)

In [67]:
dataframe = pd.read_csv("./DATA/Climato_Stations_ECCC_1981_2010_YEAR.csv", encoding='latin-1')
dataframe.head()

Unnamed: 0.1,Unnamed: 0,Prov,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes,Tmax,Tmax90p,Tmin,Tmin10p,DG0
0,0,BC,AGASSIZ,1100120,1893,1,2017,12,49.25,-121.77,15,N,,,,,
1,1,BC,ATLIN,1200560,1905,8,2017,12,59.57,-133.7,674,N,5.630427,18.903333,-3.46052,-19.235,860.083333
2,2,BC,BARKERVILLE,1090660,1888,2,2015,3,53.07,-121.52,1265,N,,,,,
3,3,BC,BEAVERDELL,1130771,1939,1,2006,9,49.48,-119.05,838,Y,12.628017,23.641667,4.017479,-3.646,1798.093333
4,4,BC,BLIND CHANNEL,1021480,1958,7,2016,2,50.42,-125.5,23,N,12.155616,20.200667,6.776893,1.094667,2518.68


En observant le DataFrame ci-dessus, nous voyons qu'il y a, au minimum, 3 variables que nous pouvons utiliser pour grouper notre jeu de données. On peut par exemple grouper nos données par province (Prov) , par année de début d'enregistrement ou année de fin d'enregistrement . 

Nous allons utiliser le module groupeby de Pandas pour grouper nos données. 

- Méthode <b>.unique()</b> : méthode permet d'extraire les valeurs uniques d'une colonne. On peut ainsi s'assurer que notre variable à grouper possède plusieurs catégories.

In [68]:
dataframe["Prov"].unique() 

array(['BC', 'YT', 'N   YT', 'NT', 'NU', 'AB', 'SK', 'MB', 'ON', 'QC',
       'NB', 'NS', 'PE', 'NL'], dtype=object)

- Méthode <b> .groupby()</b>:

In [69]:
df_Prov = dataframe.groupby('Prov')

In [70]:
df_Prov.groups

{'AB': Int64Index([ 96,  97,  98,  99, 100, 101, 102, 103, 104, 105, 106, 107, 108,
             109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121,
             122, 123, 124, 125, 126, 127, 128, 129, 130],
            dtype='int64'),
 'BC': Int64Index([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
             17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
             34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49,
             50],
            dtype='int64'),
 'MB': Int64Index([156, 157, 158, 159, 160, 161, 162, 163, 164, 165, 166, 167, 168,
             169, 170, 171, 172, 173, 174, 175],
            dtype='int64'),
 'N   YT': Int64Index([52], dtype='int64'),
 'NB': Int64Index([254, 255, 256, 257, 258, 259, 260, 261], dtype='int64'),
 'NL': Int64Index([275, 276, 277, 278, 279, 280, 281, 282, 283, 284, 285, 286, 287,
             288],
            dtype='int64'),
 'NS': Int64Index([262, 263, 264, 265, 266, 267,

- Méthode <b>.get_group()</b>

In [71]:
df_Prov.get_group('QC').head()

Unnamed: 0.1,Unnamed: 0,Prov,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes,Tmax,Tmax90p,Tmin,Tmin10p,DG0
216,216,QC,AMOS,709CEE9,1913,6,2017,8,48.57,-78.13,305,Y,,,,,
217,217,QC,BAGOTVILLE,7060400,1880,11,2017,12,48.33,-71.0,159,Y,8.28139,25.297333,-1.833594,-20.811667,1528.413333
218,218,QC,BEAUCEVILLE,7027283,1913,8,2017,8,46.15,-70.7,168,Y,10.551494,26.078333,-1.376339,-19.628333,1509.36
219,219,QC,BROME,7020840,1890,9,2014,7,45.18,-72.57,206,N,11.140937,26.176667,-0.294151,-17.56,1676.226667
220,220,QC,CAUSAPSCAL,7051200,1913,11,2017,8,48.37,-67.23,168,N,,,,,


La colonne "Category" est une variable catégorielle. On a en effet des valeurs dans cette variable catégorielle qui se répètent et qui vont permettre de faire des groupes pour les classer. On va grouper les valeurs avec la méthode .groupby()


In [72]:
dataframe.groupby('Prov').describe()

Unnamed: 0_level_0,DG0,DG0,DG0,DG0,DG0,DG0,DG0,DG0,Tmax,Tmax,...,mois fin.,mois fin.,élév (m),élév (m),élév (m),élév (m),élév (m),élév (m),élév (m),élév (m)
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
Prov,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
AB,19.0,1104.605439,176.952912,750.37,1050.023333,1126.333333,1167.125,1563.866667,19.0,8.784219,...,12.0,12.0,35.0,814.571429,289.036664,238.0,662.0,779.0,961.5,1580.0
BC,36.0,1573.886944,599.572523,602.033333,1101.433333,1504.306667,2112.725,2673.563333,36.0,11.074481,...,12.0,12.0,51.0,451.509804,365.791983,4.0,43.5,445.0,690.5,1323.0
MB,15.0,1347.261333,283.375771,700.723333,1294.756667,1407.933333,1534.616667,1681.17,15.0,6.280372,...,12.0,12.0,20.0,273.4,92.609196,29.0,224.0,268.5,327.5,469.0
N YT,0.0,,,,,,,,0.0,,...,12.0,12.0,1.0,596.0,,596.0,596.0,596.0,596.0,596.0
NB,4.0,1643.880833,101.985123,1548.77,1560.2925,1639.741667,1723.33,1747.27,4.0,10.824989,...,12.0,12.0,8.0,87.5,52.019227,21.0,52.5,81.0,120.0,163.0
NL,9.0,1291.77,341.86502,756.073333,1133.42,1406.243333,1474.82,1710.17,9.0,7.38087,...,12.0,12.0,14.0,81.071429,142.77118,5.0,15.25,29.5,57.25,551.0
NS,5.0,1889.074667,138.659871,1735.59,1749.416667,1928.016667,2013.103333,2019.246667,5.0,11.310885,...,12.0,12.0,12.0,45.166667,37.576185,5.0,23.0,35.5,53.0,145.0
NT,6.0,1049.655556,171.419928,710.863333,1080.2375,1103.183333,1107.416667,1199.286667,6.0,0.913327,...,12.0,12.0,13.0,107.692308,69.048756,2.0,73.0,87.0,168.0,206.0
NU,10.0,263.965333,150.363451,58.616667,130.568333,273.998333,352.531667,473.203333,10.0,-9.581286,...,12.0,12.0,22.0,177.0,222.212254,8.0,24.0,51.5,380.75,642.0
ON,29.0,1821.846897,530.222146,1019.44,1390.366667,1648.663333,2329.38,2807.09,29.0,10.407066,...,12.0,12.0,40.0,248.85,116.583534,10.0,188.0,240.5,343.5,447.0


On a des statistiques sur nos variables quantitatives mais par catégorie.

On peut faire un .groupeby() sur plusieurs catégories.

In [73]:
dataframe.groupby(["Prov", "année fin."])["Tmin"].describe().head()

Unnamed: 0_level_0,Unnamed: 1_level_0,count,mean,std,min,25%,50%,75%,max
Prov,année fin.,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
AB,2011,0.0,,,,,,,
AB,2013,1.0,-4.216529,,-4.216529,-4.216529,-4.216529,-4.216529,-4.216529
AB,2016,1.0,-2.490207,,-2.490207,-2.490207,-2.490207,-2.490207,-2.490207
AB,2017,17.0,-3.015346,1.450265,-6.544206,-3.422267,-3.117089,-2.92727,-0.1559
BC,2006,1.0,4.017479,,4.017479,4.017479,4.017479,4.017479,4.017479


In [74]:
dataframe.groupby('Prov').count()
#dataframe.groupby('Prov').size()
#dataframe.shape

Unnamed: 0_level_0,Unnamed: 0,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes,Tmax,Tmax90p,Tmin,Tmin10p,DG0
Prov,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
AB,35,35,35,35,35,35,35,35,35,35,35,19,19,19,19,19
BC,51,51,51,51,51,51,51,51,51,51,51,36,36,36,36,36
MB,20,20,20,20,20,20,20,20,20,20,20,15,15,15,15,15
N YT,1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0
NB,8,8,8,8,8,8,8,8,8,8,8,4,4,4,4,4
NL,14,14,14,14,14,14,14,14,14,14,14,9,9,9,9,9
NS,12,12,12,12,12,12,12,12,12,12,12,5,5,5,5,5
NT,13,13,13,13,13,13,13,13,13,13,13,6,6,6,6,6
NU,22,22,22,22,22,22,22,22,22,22,22,10,10,10,10,10
ON,40,40,40,40,40,40,40,40,40,40,40,29,29,29,29,29


In [75]:
df_Prov['Tmin','Tmax','DG0'].mean().reset_index()

Unnamed: 0,Prov,Tmin,Tmax,DG0
0,AB,-3.050928,8.784219,1104.605439
1,BC,1.578024,11.074481,1573.886944
2,MB,-4.4939,6.280372,1347.261333
3,N YT,,,
4,NB,0.34175,10.824989,1643.880833
5,NL,-1.324334,7.38087,1291.77
6,NS,2.542629,11.310885,1889.074667
7,NT,-8.518655,0.913327,1049.655556
8,NU,-16.522658,-9.581286,263.965333
9,ON,0.03197,10.407066,1821.846897


### 6-  Écrire un DataFrame: 

Pour l’écriture d'un DataFrame on utilise les fonctions <b>.to_csv</b> ou <b>_table</b> avec des options similaires que read_csv() vues précédemment.

In [81]:
dataframe.to_csv("./DATA/mon_nouveau_dataframe.csv", index = False, header = True, sep = ',')

### 7-  Formater des dates avec le module Datetime:

Python fournit ne nombreuses fonctionnalités pour travailler avec des dates et le temps de manière plus générale.

Datetime est un module qui permet de manipuler des dates et des durées sous forme d’objets. L’idée est simple: vous manipulez l’objet pour faire tous vos calculs, et quand vous avez besoin de l’afficher, vous formatez l’objet en chaîne de caractères.

https://docs.python.org/2/library/datetime.html


On peut créer artificiellement un objet datetime suivant les paramètres suivant:

        datetime(année, mois, jour, heure, minute, seconde, microseconde, fuseau horaire)

Les paramètres “année”, “mois” et “jour” sont obligatoires.

Le module datetime fournit les classes suivantes:
<table border="1" class="docutils">
<colgroup>
<col width="27%">
<col width="57%">
</colgroup>
<tbody valign="top">
   <tr>
    <th>Classe</th>
    <th>Description</th>
  </tr>
<tr><td><tt class="docutils literal"><span class="pre"><b>datetime.date</b></span></tt></td>
<td>Une instance de date représente une date</td>
</tr>
<tr><td><tt class="docutils literal"><span class="pre"><b>datetime.datetime</b></span></tt></td>
<td>Une instance de datetime représente une date et l'heure selon le calendrier Gregorian
</td>
</tr>
<tr><td><tt class="docutils literal"><span class="pre"><b>datetime.time</b></span></tt></td>
<td>Une instance de time représente le temps (time), à l'exception de la date (date).</td>
</tr>
<tr><td><tt class="docutils literal"><span class="pre"><b>datetime.timedelta</b></span></tt></td>
<td>La classe timedelta est utilisée pour conserver les différences entre deux objets temporels ou datés.</td>
</tr>
<tr><td><tt class="docutils literal"><span class="pre"><b>datetime.tzinfo</b></span></tt></td>
<td>La classe tzinfo est utilisée pour implémenter la prise en charge du fuseau horaire pour les objets time et datetime.</td>
</tr>
</tbody>
</table>



Nous allons voir dans ce qui suit quelques exemples d'utilisation de DateTime et de ses classes.  Par la suite, nous verrons qu'une combinaise du module de datetime nous offre une grande aisance dans le traitement des données. 


#### 1-  La classe <b>datetime</b> du module datetime

<b>-a Création d'un objet datetime</b>

In [77]:
from datetime import datetime
datetime(2019, 3, 1)       # ceci est une instance de datetime

datetime.datetime(2019, 3, 1, 0, 0)

In [78]:
maintenant = datetime.now()
maintenant

datetime.datetime(2019, 5, 6, 13, 47, 28, 223182)

In [83]:
maintenant = datetime.utcnow()
maintenant

datetime.datetime(2019, 5, 6, 17, 47, 48, 154220)

Lors de l'ouverture d'un fichier csv ou text, nous avons une information sur la date et le temps des mesures mais sous forme de chaînes de caractères: "2018-11-01 15:20" ou "2017/12/1 16:35:22" ... 

Il est possible lors de la lecture de convertir ces chaînes de caractères en objet datetime. 

In [87]:
dt = datetime.strptime("2018/11/01 15:20", "%Y/%m/%d %H:%M")
dt

datetime.datetime(2018, 11, 1, 15, 20)

In [84]:
dt = datetime.strptime("2017/12/1 16:35:22", "%Y/%m/%d %H:%M:%S")
dt

datetime.datetime(2017, 12, 1, 16, 35, 22)

In [85]:
dt = datetime.strptime("01/11/19 10-35:22", "%d/%m/%y %H-%M:%S")
dt


datetime.datetime(2019, 11, 1, 10, 35, 22)

In [86]:
dt = datetime.strptime("1Mar 2019 à 09h35", "%d%b %Y à %Hh%M")
dt

datetime.datetime(2019, 3, 1, 9, 35)

<b>b- Manipuler un objet datetime</b>

Depuis un objet ou instance de datetime, on peut récupérer l'heure et la date. 

In [88]:
maintenant.year
#maintenant.month
#maintenant.day
#maintenant.hour
maintenant.minute
#maintenant.second
#maintenant.microsecond

47

On peut modifier une instance datetime.

In [89]:
maintenant.replace(year=1995) # on créer un nouvel objet

datetime.datetime(1995, 5, 6, 17, 47, 48, 154220)

In [90]:
maintenant.replace(month=1)

datetime.datetime(2019, 1, 6, 17, 47, 48, 154220)

On peut ensuite écrire en format string un objet datetime

In [91]:
d = datetime.now(); print(d)

2019-05-06 13:48:37.136319


In [92]:
#Heures et minutes
d.strftime("%H:%M"), d.strftime("%Hh%Mmin")

('13:48', '13h48min')

In [93]:
#Année ,mois , heure
d.strftime("%Y-%m %H:%M")

'2019-05 13:48'

In [94]:
'Nous sommes le {0:%d} {0:%B} et il est {0:%Hh%Mmin} '.format(d, "day", "month", "time")

'Nous sommes le 06 May et il est 13h48min '

- Les classes <b>date</b> et <b>time</b>

Ces deux classes peuvent être utilisées pour créer une instance datetime

In [95]:
from datetime import datetime, date, time
d = date(2005, 7, 14)
t = time(12, 30)

In [96]:
datetime.combine(d, t)

datetime.datetime(2005, 7, 14, 12, 30)

In [97]:
maintenant = datetime.utcnow()
maintenant.date()
maintenant.time()


datetime.time(17, 48, 41, 301326)

- La classe <b>timedelta</b> du module datetime

Cette classe permet de calculer la différence entre deux dates. 

In [98]:
from datetime import timedelta
delta = timedelta(days=3, seconds=100)    # on crée notre propre timedelta

In [99]:
datetime.now() + delta

datetime.datetime(2019, 5, 9, 13, 50, 23, 351329)

In [100]:
datetime.now() + timedelta(days=2, hours=4, minutes=3, seconds=12)

datetime.datetime(2019, 5, 8, 17, 51, 55, 759331)

In [101]:
duree = datetime(2010, 12, 31) - datetime(1981, 12, 31)
duree

datetime.timedelta(10592)

On peut ainsi générer des dates pour des séries temporelles avec un pas de temps arbitraire:

In [102]:
from datetime import timedelta
dt = timedelta(days = 5, hours = 6, minutes = 25)
d0 = datetime(2000, 2, 21)
[str(d0 + i * dt) for i in range(10)]

['2000-02-21 00:00:00',
 '2000-02-26 06:25:00',
 '2000-03-02 12:50:00',
 '2000-03-07 19:15:00',
 '2000-03-13 01:40:00',
 '2000-03-18 08:05:00',
 '2000-03-23 14:30:00',
 '2000-03-28 20:55:00',
 '2000-04-03 03:20:00',
 '2000-04-08 09:45:00']