
<img src="./figures/pandas.png" alt="pandas" width="30%" height="30%">


<h1> La librairie Pandas:</h1> 

Pandas est une bibliothèque spécialisée dans la manipulation de données. 
Cette bibliothèque regroupe un ensemble de fonctions optimisées pour manipuler de gros jeux de données.
Elle permet de créer et exporter des tables de données à partir de fichiers textes (séparateurs, .csv, format fixe, compressés), binaires (HDF5 avec Pytable), HTML, XML, JSON, MongoDB, SQL...


Une nouvelle structure de donnée est utilisée avec cette bibliothèque: le DataFrame . 
Il existe deux types de données  avec pandas: les séries et les dataframes. 


- un dataframe est un tableau qui est crée avec des dictionnaires ou des listes 
- ils sont basés sur des tableaux Numpy ou ndarray
- ils peuvent avoir des noms de colonnes et des noms de lignes
- ils ont la particularité de pouvoir mélanger les types de données: str, float, Nan, Int...

- on peut les visualiser comme une feuille excell mais avec un nombre important de volumes de données ainsi qu'un nombre importants de fonctions et attributs.  




# - Introduction sur les séries - 

Une série est un objet unidimensionnel. Les séries représentent les valeurs d'une variable statistique. 
Variables quantitatives ou des variables qualitatives. 


In [4]:
# on va charger la librairie pandas 
import pandas as pd      # création d'un alias pour alléger les codes 

On va créer une série. On peut soit utiliser des listes, soit des dictionnaires.

In [5]:
serie = pd.Series([11,15,12,13,14])
print(serie)

0    11
1    15
2    12
3    13
4    14
dtype: int64


Nous avons dans les séries, les index et les valeurs. On peut remplacer ces index par du texte avec l'option index. Attention, le nombre d'index doit correspondre au nombre de valeurs. 

In [6]:
serie = pd.Series([11,15,12,13,14], index=["Montréal", "Ottawa", "Toronto", "Gatineau", "Québec"])

In [7]:
print(serie)

Montréal    11
Ottawa      15
Toronto     12
Gatineau    13
Québec      14
dtype: int64


La méthode describe() nous donne la distribution de nos données dans la série. 

In [8]:
serie.describe()

count     5.000000
mean     13.000000
std       1.581139
min      11.000000
25%      12.000000
50%      13.000000
75%      14.000000
max      15.000000
dtype: float64

On peut accéder à une valeur en utilisant l'index. 

In [9]:
serie["Montréal"]

11

Mais on peut toujours utiliser le numéro de l'index. 

In [10]:
serie[3]

13

On peut accéder à plusieurs index. 

In [11]:
serie[["Montréal", "Québec", "Toronto"]]

Montréal    11
Québec      14
Toronto     12
dtype: int64

Il exite d'autres méthodes intéressantes pour faire des calculs sur la série. 

In [12]:
serie.min()

11

In [13]:
serie.max()

15

On peut utiliser des opérateurs de comparaison. 

In [14]:
serie[serie>12]

Ottawa      15
Gatineau    13
Québec      14
dtype: int64

In [15]:
serie>12 # c est l'ensemble de booléens.

Montréal    False
Ottawa       True
Toronto     False
Gatineau     True
Québec       True
dtype: bool

## Les dataframes 
<h1> 8- Les dataframes:</h1> 

Un dataframe est un tableau avec des observations ou individus sur les lignes et des attributs sur les colonnes qui décrivent les individus. 
Un DataFrame est une structure de données tabulaire bidimensionnelle à taille variable, potentiellement hétérogène avec des axes étiquetés (lignes et colonnes). 

Un dataframe est un tableau avec des observations ou individus sur les lignes et des attributs sur les colonnes qui décrivent les individus. 
 

<img src="./figures/pandas-dataframe-shadow.png" alt="pandas" >

Les attributs peuvent être soit qualitatif soit quantitatif.  

<h2> 8.1- Création d'un Dataframe:</h2> 


Dans le monde réel, un Pandas DataFrame sera créé en chargeant les jeux de données à partir du stockage existant, le stockage peut être par exemple une base de données SQL, un fichier CSV ou un fichier Excel. Pandas DataFrame peut être créé à partir des listes, du dictionnaire et d'une liste de dictionnaires, etc. Le Dataframe peut être créé de différentes manières. Voici quelques façons de créer un dataframe:

<h3> 8.1.1- Création d'un DataFrame à partir d'un array Numpy:</h3> 


In [138]:
import numpy as np  # on importe la librairie numpy
stations = np.genfromtxt("./DATA/DATA_Barrage_1963_2017_5.csv", delimiter=",", dtype='float')   # on assigne une variable. 
stations

array([[  39.7       ,   39.09      ,   39.55645161,   23.23      ,
          22.5       ,   22.85903226, 2390.52612903, 3164.97      ,
        1673.8       ],
       [  41.16      ,   40.96      ,   41.08806452,   23.22      ,
          22.43      ,   22.7583871 , 2227.28290323, 3008.18      ,
        1697.87      ],
       [  41.15      ,   41.05      ,   41.11322581,   23.35      ,
          22.87      ,   23.15548387, 2851.27419355, 3231.8       ,
        2367.85      ],
       [  41.09      ,   40.61      ,   40.9683871 ,   23.78      ,
          22.7       ,   23.03258065, 2635.03774194, 3967.33      ,
        2069.65      ],
       [  41.09      ,   39.6       ,   40.26967742,   24.24      ,
          22.87      ,   23.64580645, 3924.23451613, 5407.32      ,
        2417.89      ]])

Pour créer le dataframe, on utilise la fonction <b>DataFrame()</b> de pandas. C'est à cette étape qu'on définit le nom de nos colonnes.  En entrée on met le tableau Numpy . 

In [139]:
dataframe = pd.DataFrame(stations, columns=["Amont Max", "Amont Min", "Amont Moyen", "Aval Max", "Aval Max", "Aval Moyen", "Debit Moyen", "Debit Max","Debit Min"])
dataframe

Unnamed: 0,Amont Max,Amont Min,Amont Moyen,Aval Max,Aval Max.1,Aval Moyen,Debit Moyen,Debit Max,Debit Min
0,39.7,39.09,39.556452,23.23,22.5,22.859032,2390.526129,3164.97,1673.8
1,41.16,40.96,41.088065,23.22,22.43,22.758387,2227.282903,3008.18,1697.87
2,41.15,41.05,41.113226,23.35,22.87,23.155484,2851.274194,3231.8,2367.85
3,41.09,40.61,40.968387,23.78,22.7,23.032581,2635.037742,3967.33,2069.65
4,41.09,39.6,40.269677,24.24,22.87,23.645806,3924.234516,5407.32,2417.89


<h3> 8.1.2- Création d'un DataFrame à partir de series:</h3> 

On a vu précédemment comment créer une Série. On peut s'en servir pour créer des Dataframes. 

Lors de la création d'un DataFrame, chaque série définira une colonne. 


In [140]:
# on crée une première série 
groupe1=pd.Series([11,15,12,13], index=["Fred", "Jeanne", "Julie", "Julien"])

In [141]:
groupe1

Fred      11
Jeanne    15
Julie     12
Julien    13
dtype: int64

In [142]:
# on crée une deuxième série mais avec des nouveaux élèves en plus et des élèves absents.   
groupe2=pd.Series([11,15,15,11], index=["Fred", "Jeanne", "Damien", "Samuel"])

On crée notre DataFrame avec nos deux séries. 
Pour cela on utilise des dictionnaire pour créer un dataframe avec des séries, donc on utilise des {}, avec des clés et des valeurs. 

In [143]:
dataframe = pd.DataFrame({"Groupe1" : groupe1, "Groupe2" : groupe2})

In [144]:
dataframe

Unnamed: 0,Groupe1,Groupe2
Damien,,15.0
Fred,11.0,11.0
Jeanne,15.0,15.0
Julie,12.0,
Julien,13.0,
Samuel,,11.0


NaN: la valeur n'est pas disponible. 

<h3> 8.1.3- Création d'un DataFrame à partir d'un fichier csv: fonctions <b>read_table()</b> ou <b>read_csv():</h3> 


<b>read_table()</b> et <b>read_csv()</b> sont les fonctions les plus utiles sous Pandas pour lire des fichiers textes et générer un objet de type DataFrame. 

On va travailler avec un jeu de données issu d'un barrage hydraulique.  
Notre fichier csv possède 9 variables, la première ligne nous renvoie les noms des variables (ou labels).

On peut lire un document csv avec la fonction <b>read_table()</b> , en mettant en attribut le séparateur ",".

In [23]:
barrage = pd.read_table("./DATA/DATA_EXTREME_Carillon_1963_2017_5.csv", sep=",")
barrage.head()

  """Entry point for launching an IPython kernel.


Unnamed: 0,Amont_max,Amont_min,Amont_moyen,Aval_max,Aval_min,Aval_moyen,Debit_Moyen,Debit_max,Debit_min
0,39.7,39.09,39.556452,23.23,22.5,22.859032,2390.526129,3164.97,1673.8
1,41.16,40.96,41.088065,23.22,22.43,22.758387,2227.282903,3008.18,1697.87
2,41.15,41.05,41.113226,23.35,22.87,23.155484,2851.274194,3231.8,2367.85
3,41.09,40.61,40.968387,23.78,22.7,23.032581,2635.037742,3967.33,2069.65
4,41.09,39.6,40.269677,24.24,22.87,23.645806,3924.234516,5407.32,2417.89


Cependant, si on sait que notre fichier à lire est un csv, on peut utiliser une fonction plus simple de Pandas qui est <b>read_csv()</b>.

Pas besoin de l'option sep='' . Il trouvera le séparateur par défault.

In [145]:
barrage = pd.read_csv("./DATA/DATA_EXTREME_Carillon_1963_2017_5.csv")
barrage.head()

Unnamed: 0,Amont_max,Amont_min,Amont_moyen,Aval_max,Aval_min,Aval_moyen,Debit_Moyen,Debit_max,Debit_min
0,39.7,39.09,39.556452,23.23,22.5,22.859032,2390.526129,3164.97,1673.8
1,41.16,40.96,41.088065,23.22,22.43,22.758387,2227.282903,3008.18,1697.87
2,41.15,41.05,41.113226,23.35,22.87,23.155484,2851.274194,3231.8,2367.85
3,41.09,40.61,40.968387,23.78,22.7,23.032581,2635.037742,3967.33,2069.65
4,41.09,39.6,40.269677,24.24,22.87,23.645806,3924.234516,5407.32,2417.89


In [146]:
#help(pd.read_csv)

Plusieurs options sont mises à disposition de la fonction read_csv(). Il est important de connaître la liste des possibilités et options offertes par cette simple commande. 

<table border="1" class="docutils">
<colgroup>
<col width="27%">
<col width="57%">
</colgroup>
<tbody valign="top">

<tr><td><tt class="docutils literal"><span class="pre"><b>path</b></span></tt></td>
<td>Chemin ou non du fichier ou URL</td>
</tr>
<tr><td><tt class="docutils literal"><span class="pre"><b>sep</b></span></tt></td>
<td>délimiteur comme , ; | \t ou \s+ pour un nombre variable d’espaces</td>
</tr>
<tr><td><tt class="docutils literal"><span class="pre"><b>header</b></span></tt></td>
<td>défaut 0, la première ligne contient le nom des variables ; si None les noms sont générés ou définis par ailleurs</td>
</tr>
<tr><td><tt class="docutils literal"><span class="pre"><b>index_col</b></span></tt></td>
<td>Noms ou numéros de colonnes définissant les index de lignes, index pouvant être hiérarchisés comme les facteurs d’un plan d’expérience.</td>
</tr>
<tr><td><tt class="docutils literal"><span class="pre"><b>names</b></span></tt></td>
<td>Si header=None, liste des noms des variables.</td>
</tr>
<tr><td><tt class="docutils literal"><span class="pre"><b>nrows</b></span></tt></td>
<td>Utile pour tester et limiter le nombre de ligne à lire</td>
</tr>
<tr><td><tt class="docutils literal"><span class="pre"><b>skiprow</b></span></tt></td>
<td>Liste de lignes à sauter en lecture</td>
</tr>
<tr><td><tt class="docutils literal"><span class="pre"><b>skip_footer</b></span></tt></td>
<td>Nombre de lignes à sauter en fin de fichier</td>
</tr>
<tr><td><tt class="docutils literal"><span class="pre"><b>na_values</b></span></tt></td>
<td>Définition du ou des codes signalant des valeurs manquantes. Ils
peuvent être définis dans un dictionnaire pour associer variables et codes
de valeurs manquantes spécifiques</td>
</tr>
<tr><td><tt class="docutils literal"><span class="pre"><b>usecols</b></span></tt></td>
<td>Sélectionne une liste des variable à lire pour éviter de lire des
champs ou variables volumineuses et inutiles</td>
</tr>
<tr><td><tt class="docutils literal"><span class="pre"><b>skip_blank_lines</b></span></tt></td>
<td>Si <b>True</b>, on saute les lignes blanches </td>
</tr>
<tr><td><tt class="docutils literal"><span class="pre"><b>thousand</b></span></tt></td>
<td>Séparateur des miliers : "." ou ",".</td>
</tr>
</tbody>
</table>


In [147]:
file1 = "./DATA/DATA_EXTREME_Carillon_1963_2017_5.csv"
col_names = ['Variable1', 'Variable2', 'Variable3']
df2 = pd.read_csv(file1, skiprows=1, usecols=[0, 1, 3], names=col_names)

In [148]:
df2.head()

Unnamed: 0,Variable1,Variable2,Variable3
0,39.7,39.09,23.23
1,41.16,40.96,23.22
2,41.15,41.05,23.35
3,41.09,40.61,23.78
4,41.09,39.6,24.24


<h3> 8.1.4- Création d'un DataFrame à partir d'un fichier txt:</h3> 

In [28]:
with open('./DATA/Daily_Precipitation_1963-2017.txt', 'r') as file:
        rows = file.read()      
dataset = [float(row) for row in rows.split()]   
df3 = pd.DataFrame({"Precipitation" : dataset})

In [29]:
df3.head()

Unnamed: 0,Precipitation
0,0.0
1,0.0
2,0.0
3,0.0
4,0.0



<h3> 8.1.5- Création d'un DataFrame à partir d'un fichier excell ou (.xls): fonction <b>read_excel()</b></h3> 

Nous allons ouvrir ici un fichier excell (d'extension .xls). Ce fichier est une base de données contenant de l'information sur toutes les stations homogénéisées de température d'Environnement et Changement Climatique Canada. 

Cette base de données présente 11 colonnes avec des données commençant à la 4 ème ligne. 

On va définir la colonne Province comme index de notre DataFrame.  

In [30]:
df4 = pd.read_excel("./DATA/Homog_Temperature_Stations.xls", index_col=0,skiprows = range(0, 3))
df4.head()

Unnamed: 0_level_0,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes
Prov,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
BC,AGASSIZ,1100120,1893,1,2017,12,49.25,-121.77,15,N
BC,ATLIN,1200560,1905,8,2017,12,59.57,-133.7,674,N
BC,BARKERVILLE,1090660,1888,2,2015,3,53.07,-121.52,1265,N
BC,BEAVERDELL,1130771,1939,1,2006,9,49.48,-119.05,838,Y
BC,BELLA COOLA,1060841,1895,5,2017,11,52.37,-126.68,18,Y


<h2> 8.2- Premiers pas sur un DataFrame:</h2> 

Une fois le dataframe crée, on peut appliquer quelques fonctions et méthodes pour effectuer une première exploration du jeu de données. 

Il existe plusieurs fonctions, méthodes ou attributs qu'on peut appliquer sur les DataFrame:

https://pandas.pydata.org/pandas-docs/version/0.23.4/generated/pandas.DataFrame.html

Nous allons présenter quelques fonctions utiles lors de l'exploration d'un jeu de données.


In [31]:
dataframe = pd.read_csv("./DATA/Climato_Stations_ECCC_1981_2010_YEAR.csv", encoding='latin-1')
dataframe.head()

Unnamed: 0.1,Unnamed: 0,Prov,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes,Tmax,Tmax90p,Tmin,Tmin10p,DG0
0,0,BC,AGASSIZ,1100120,1893,1,2017,12,49.25,-121.77,15,N,,,,,
1,1,BC,ATLIN,1200560,1905,8,2017,12,59.57,-133.7,674,N,5.630427,18.903333,-3.46052,-19.235,860.083333
2,2,BC,BARKERVILLE,1090660,1888,2,2015,3,53.07,-121.52,1265,N,,,,,
3,3,BC,BEAVERDELL,1130771,1939,1,2006,9,49.48,-119.05,838,Y,12.628017,23.641667,4.017479,-3.646,1798.093333
4,4,BC,BLIND CHANNEL,1021480,1958,7,2016,2,50.42,-125.5,23,N,12.155616,20.200667,6.776893,1.094667,2518.68


- La méthode <b>.info()</b> : 

<table>
<tbody>
<tr style="height: 13px;">
<td style="height: 13px;"><strong>Pandas dtype</strong></td>
<td style="height: 13px;"><strong>Python type</strong></td>
<td style="height: 13px;"><strong>Numpy type</strong></td>
<td style="height: 13px;"><strong>Usage</strong></td>
</tr>
<tr style="height: 13px;">
<td style="height: 13px;">object</td>
<td style="height: 13px;">str or mixed</td>
<td style="height: 13px;">string_,unicode_,mixed types</td>
<td style="height: 13px;">Text or mixed numeric and non-numeric values</td>
</tr>
<tr style="height: 13px;">
<td style="height: 13px;">int64</td>
<td style="height: 13px;">int</td>
<td style="height: 13px;">int_,int8,int16,int32,int64,uint8,uint16,uint32,uint64</td>
<td style="height: 13px;">Integer numbers</td>
</tr>
<tr style="height: 13px;">
<td style="height: 13px;">float64</td>
<td style="height: 13px;">float</td>
<td style="height: 13px;">float_, float16, float32, float64</td>
<td style="height: 13px;">Floating point numbers</td>
</tr>
<tr style="height: 13px;">
<td style="height: 13px;">bool</td>
<td style="height: 13px;">bool</td>
<td style="height: 13px;">bool_</td>
<td style="height: 13px;">True/False values</td>
</tr>
<tr style="height: 13px;">
<td style="height: 13px;">datetime64</td>
<td style="height: 13px;">NA</td>
<td style="height: 13px;">datetime64[ns]</td>
<td style="height: 13px;">Date and time values</td>
</tr>
<tr style="height: 13px;">
<td style="height: 13px;">timedelta[ns]</td>
<td style="height: 13px;">NA</td>
<td style="height: 13px;">NA</td>
<td style="height: 13px;">Differences between two datetimes</td>
</tr>
<tr style="height: 13px;">
<td style="height: 13px;">category</td>
<td style="height: 13px;">NA</td>
<td style="height: 13px;">NA</td>
<td style="height: 13px;">Finite list of text values</td>
</tr>
</tbody>
</table>

In [32]:
dataframe.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 289 entries, 0 to 288
Data columns (total 17 columns):
Unnamed: 0        289 non-null int64
Prov              289 non-null object
Nom de station    289 non-null object
stnid             289 non-null object
année déb.        289 non-null int64
mois déb.         289 non-null int64
année fin.        289 non-null int64
mois fin.         289 non-null int64
lat (deg)         289 non-null float64
long (deg)        289 non-null float64
élév (m)          289 non-null int64
stns jointes      289 non-null object
Tmax              172 non-null float64
Tmax90p           172 non-null float64
Tmin              171 non-null float64
Tmin10p           171 non-null float64
DG0               171 non-null float64
dtypes: float64(7), int64(6), object(4)
memory usage: 38.5+ KB


- La méthode <b>.dtypes()</b>:  nous fournit les types de variables de notre DataFrame.

In [33]:
dataframe.dtypes

Unnamed: 0          int64
Prov               object
Nom de station     object
stnid              object
année déb.          int64
mois déb.           int64
année fin.          int64
mois fin.           int64
lat (deg)         float64
long (deg)        float64
élév (m)            int64
stns jointes       object
Tmax              float64
Tmax90p           float64
Tmin              float64
Tmin10p           float64
DG0               float64
dtype: object

In [34]:
dataframe.Prov.dtypes

dtype('O')

- La méthode <b>.shape</b> : retourne un tuple sur la dimension de notre DataFrame

In [35]:
dataframe.shape # nous avons donc 289 lignes et 17 colonnes dans notre base de données.

(289, 17)

- La méthode <b>.columns</b>: retourne les noms des colonnes de notre DataFrame

In [36]:
dataframe.columns

Index(['Unnamed: 0', 'Prov', 'Nom de station', 'stnid', 'année déb.',
       'mois déb.', 'année fin.', 'mois fin.', 'lat (deg)', 'long (deg)',
       'élév (m)', 'stns jointes', 'Tmax', 'Tmax90p', 'Tmin', 'Tmin10p',
       'DG0'],
      dtype='object')

   - La méthode <b>.isnull</b>:  nous informe si la valeur est NaN ou non 
   
On va imbriquer deux méthodes pour connaître le nombre de valeurs manquantes. 

    - .isnull(): nous informe si la valeur est NaN ou non 

    - .sum(): effectue la somme. 

In [37]:
dataframe.isnull().sum() # information sur la somme des NaN par catégorie

Unnamed: 0          0
Prov                0
Nom de station      0
stnid               0
année déb.          0
mois déb.           0
année fin.          0
mois fin.           0
lat (deg)           0
long (deg)          0
élév (m)            0
stns jointes        0
Tmax              117
Tmax90p           117
Tmin              118
Tmin10p           118
DG0               118
dtype: int64

- La méthode <b>.describe()</b>:  permet d'avoir un apperçu de notre DataFrame

In [38]:
dataframe.describe()

Unnamed: 0.1,Unnamed: 0,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),Tmax,Tmax90p,Tmin,Tmin10p,DG0
count,289.0,289.0,289.0,289.0,289.0,289.0,289.0,289.0,172.0,172.0,171.0,171.0,171.0
mean,144.0,1919.321799,5.775087,2016.546713,10.816609,52.749446,-96.597405,338.314879,7.916314,23.565035,-2.277538,-18.611343,1397.741326
std,83.571327,23.992119,3.600916,1.301201,2.58285,7.343452,23.670766,314.663568,5.52463,4.396326,5.255046,9.053867,544.37324
min,0.0,1840.0,1.0,2006.0,1.0,42.03,-140.2,2.0,-15.366463,4.741667,-21.935075,-42.886667,58.616667
25%,72.0,1905.0,2.0,2017.0,12.0,48.33,-116.98,64.0,7.364646,22.565917,-4.030637,-23.640167,1106.848333
50%,144.0,1916.0,6.0,2017.0,12.0,50.7,-99.28,251.0,8.988052,24.530667,-2.229597,-19.855333,1366.136667
75%,216.0,1940.0,9.0,2017.0,12.0,54.82,-75.55,546.0,11.018241,26.074583,0.691542,-12.633833,1676.23
max,288.0,1960.0,12.0,2017.0,12.0,82.5,-52.75,1580.0,16.105511,30.876667,7.016292,1.949,2807.09


In [39]:
dataframe.describe(include="all")

Unnamed: 0.1,Unnamed: 0,Prov,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes,Tmax,Tmax90p,Tmin,Tmin10p,DG0
count,289.0,289,289,289.0,289.0,289.0,289.0,289.0,289.0,289.0,289.0,289,172.0,172.0,171.0,171.0,171.0
unique,,14,288,289.0,,,,,,,,2,,,,,
top,,BC,WOODSTOCK,7041382.0,,,,,,,,Y,,,,,
freq,,51,2,1.0,,,,,,,,224,,,,,
mean,144.0,,,,1919.321799,5.775087,2016.546713,10.816609,52.749446,-96.597405,338.314879,,7.916314,23.565035,-2.277538,-18.611343,1397.741326
std,83.571327,,,,23.992119,3.600916,1.301201,2.58285,7.343452,23.670766,314.663568,,5.52463,4.396326,5.255046,9.053867,544.37324
min,0.0,,,,1840.0,1.0,2006.0,1.0,42.03,-140.2,2.0,,-15.366463,4.741667,-21.935075,-42.886667,58.616667
25%,72.0,,,,1905.0,2.0,2017.0,12.0,48.33,-116.98,64.0,,7.364646,22.565917,-4.030637,-23.640167,1106.848333
50%,144.0,,,,1916.0,6.0,2017.0,12.0,50.7,-99.28,251.0,,8.988052,24.530667,-2.229597,-19.855333,1366.136667
75%,216.0,,,,1940.0,9.0,2017.0,12.0,54.82,-75.55,546.0,,11.018241,26.074583,0.691542,-12.633833,1676.23


On peut faire directement des statistiques sur des variables quantitatives.

In [40]:
dataframe["Tmin"].describe()

count    171.000000
mean      -2.277538
std        5.255046
min      -21.935075
25%       -4.030637
50%       -2.229597
75%        0.691542
max        7.016292
Name: Tmin, dtype: float64


<h2> 8.3- Naviguer dans un Dataframe et accéder aux éléments:</h2> 


In [41]:
dataframe = pd.read_excel("./DATA/Homog_Temperature_Stations.xls", skiprows = range(0, 3))
dataframe.head()

Unnamed: 0,Prov,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes
0,BC,AGASSIZ,1100120,1893,1,2017,12,49.25,-121.77,15,N
1,BC,ATLIN,1200560,1905,8,2017,12,59.57,-133.7,674,N
2,BC,BARKERVILLE,1090660,1888,2,2015,3,53.07,-121.52,1265,N
3,BC,BEAVERDELL,1130771,1939,1,2006,9,49.48,-119.05,838,Y
4,BC,BELLA COOLA,1060841,1895,5,2017,11,52.37,-126.68,18,Y


Avant exploration d'un Dataframe, on peut modifier l'index pour faciliter l'analyse d'un jeu de données. Pour cela, on utilise la fonction <b>.set_index()</b> . On doit créer un nouvel objet.

In [42]:
dataframe_Prov_index = dataframe.set_index("Prov").head()

In [43]:
dataframe_Prov_index.head()

Unnamed: 0_level_0,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes
Prov,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
BC,AGASSIZ,1100120,1893,1,2017,12,49.25,-121.77,15,N
BC,ATLIN,1200560,1905,8,2017,12,59.57,-133.7,674,N
BC,BARKERVILLE,1090660,1888,2,2015,3,53.07,-121.52,1265,N
BC,BEAVERDELL,1130771,1939,1,2006,9,49.48,-119.05,838,Y
BC,BELLA COOLA,1060841,1895,5,2017,11,52.37,-126.68,18,Y


Pour accéder à un élément dans un dataframe, il existe deux méthodes:

   - la méthode <b>iloc()</b> pour accéder aux données à partir des numéros d'index
   
   - la méthode <b>loc()</b> pour accéder aux données à partir des labels
   
    <img src="./figures/Pandas-selections-and-indexing-768x549.png" alt="loc-iloc" >

<h3> 8.3.1-  La méthode iloc():</h3> 

- iloc:  on veut les extraire les valeurs localiées à la colonne d'index 1 et ligne d'index 4 [row, column]

In [44]:
dataframe_Prov_index.iloc[4,1]      

1060841

- iloc: pour accéder aux 4 premières lignes et toutes les colonnes de notre DataFrame. 

In [45]:
dataframe_Prov_index.iloc[0:4,:]

Unnamed: 0_level_0,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes
Prov,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
BC,AGASSIZ,1100120,1893,1,2017,12,49.25,-121.77,15,N
BC,ATLIN,1200560,1905,8,2017,12,59.57,-133.7,674,N
BC,BARKERVILLE,1090660,1888,2,2015,3,53.07,-121.52,1265,N
BC,BEAVERDELL,1130771,1939,1,2006,9,49.48,-119.05,838,Y


- iloc: pour accéder aux 4 premières colonnes et toutes les lignes de notre DataFrame.

In [46]:
dataframe_Prov_index.iloc[:,0:4]

Unnamed: 0_level_0,Nom de station,stnid,année déb.,mois déb.
Prov,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
BC,AGASSIZ,1100120,1893,1
BC,ATLIN,1200560,1905,8
BC,BARKERVILLE,1090660,1888,2
BC,BEAVERDELL,1130771,1939,1
BC,BELLA COOLA,1060841,1895,5


- Slicing sur les colonnes et les lignes: on veut les lignes d'index 2 à 5 et les colonnes d'index 3 à 8

In [47]:
dataframe_Prov_index.iloc[2:5,3:8]

Unnamed: 0_level_0,mois déb.,année fin.,mois fin.,lat (deg),long (deg)
Prov,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
BC,2,2015,3,53.07,-121.52
BC,1,2006,9,49.48,-119.05
BC,5,2017,11,52.37,-126.68



   <h3> 8.3.2-  La méthode loc():</h3> 

- loc: On veut extraire pour accéder à toutes les valeurs d'un index, utilisation du slicing. 

In [48]:
dataframe_Prov_index.loc["BC","stnid"]

Prov
BC    1100120
BC    1200560
BC    1090660
BC    1130771
BC    1060841
Name: stnid, dtype: object

In [170]:
dataframe_Prov_index.loc["BC",:]

Unnamed: 0_level_0,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes,total année
Prov,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
BC,AGASSIZ,1100120,1893,1,2017,12,49.25,-121.77,15,N,125
BC,ATLIN,1200560,1905,8,2017,12,59.57,-133.7,674,N,113
BC,BARKERVILLE,1090660,1888,2,2015,3,53.07,-121.52,1265,N,128
BC,BEAVERDELL,1130771,1939,1,2006,9,49.48,-119.05,838,Y,68
BC,BELLA COOLA,1060841,1895,5,2017,11,52.37,-126.68,18,Y,123


- loc pour sélectionner toutes les lignes de 3 labels . 

In [171]:
dataframe_Prov_index.loc[:,["Nom de station", "année déb.", "année fin."]].head()

Unnamed: 0_level_0,Nom de station,année déb.,année fin.
Prov,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
BC,AGASSIZ,1893,2017
BC,ATLIN,1905,2017
BC,BARKERVILLE,1888,2015
BC,BEAVERDELL,1939,2006
BC,BELLA COOLA,1895,2017


<h3> 8.3.3-  Faire des boucles dans un dataframe:</h3> 

In [177]:
for row_index,row in dataframe_Prov_index.head(5).iterrows():
    print (row_index)
    print(row['année déb.'])

BC
1893
BC
1905
BC
1888
BC
1939
BC
1895


In [175]:
for key,value in dataframe_Prov_index.head(2).iteritems():
    print(key)
    print(value)

Nom de station
Prov
BC    AGASSIZ
BC      ATLIN
Name: Nom de station, dtype: object
stnid
Prov
BC    1100120
BC    1200560
Name: stnid, dtype: object
année déb.
Prov
BC    1893
BC    1905
Name: année déb., dtype: int64
mois déb.
Prov
BC    1
BC    8
Name: mois déb., dtype: int64
année fin.
Prov
BC    2017
BC    2017
Name: année fin., dtype: int64
mois fin.
Prov
BC    12
BC    12
Name: mois fin., dtype: int64
lat (deg)
Prov
BC    49.25
BC    59.57
Name: lat (deg), dtype: float64
long (deg)
Prov
BC   -121.77
BC   -133.70
Name: long (deg), dtype: float64
élév (m)
Prov
BC     15
BC    674
Name: élév (m), dtype: int64
stns jointes
Prov
BC    N
BC    N
Name: stns jointes, dtype: object
total année
Prov
BC    125
BC    113
Name: total année, dtype: int64


<h2> 8.4- "Data cleaning" d'un dataframe:</h2> 

In [90]:
dataframe = pd.read_csv("./DATA/Climato_Stations_ECCC_1981_2010_YEAR.csv", encoding='latin-1')
dataframe.head(3)

Unnamed: 0.1,Unnamed: 0,Prov,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes,Tmax,Tmax90p,Tmin,Tmin10p,DG0
0,0,BC,AGASSIZ,1100120,1893,1,2017,12,49.25,-121.77,15,N,,,,,
1,1,BC,ATLIN,1200560,1905,8,2017,12,59.57,-133.7,674,N,5.630427,18.903333,-3.46052,-19.235,860.083333
2,2,BC,BARKERVILLE,1090660,1888,2,2015,3,53.07,-121.52,1265,N,,,,,


- La méthode <b>.replace()</b> : 

In [91]:
dataframe.replace('N',np.nan, inplace=True)
dataframe.head(3)

Unnamed: 0.1,Unnamed: 0,Prov,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes,Tmax,Tmax90p,Tmin,Tmin10p,DG0
0,0,BC,AGASSIZ,1100120,1893,1,2017,12,49.25,-121.77,15,,,,,,
1,1,BC,ATLIN,1200560,1905,8,2017,12,59.57,-133.7,674,,5.630427,18.903333,-3.46052,-19.235,860.083333
2,2,BC,BARKERVILLE,1090660,1888,2,2015,3,53.07,-121.52,1265,,,,,,


- La méthode <b>.isnull()</b> : 

In [92]:
dataframe.isnull().head(3)

Unnamed: 0.1,Unnamed: 0,Prov,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes,Tmax,Tmax90p,Tmin,Tmin10p,DG0
0,False,False,False,False,False,False,False,False,False,False,False,True,True,True,True,True,True
1,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,True,True,True,True,True,True


In [93]:
dataframe.isnull().sum()

Unnamed: 0          0
Prov                0
Nom de station      0
stnid               0
année déb.          0
mois déb.           0
année fin.          0
mois fin.           0
lat (deg)           0
long (deg)          0
élév (m)            0
stns jointes       65
Tmax              117
Tmax90p           117
Tmin              118
Tmin10p           118
DG0               118
dtype: int64

In [95]:
dataframe.isnull().sum()/len(dataframe)

Unnamed: 0        0.000000
Prov              0.000000
Nom de station    0.000000
stnid             0.000000
année déb.        0.000000
mois déb.         0.000000
année fin.        0.000000
mois fin.         0.000000
lat (deg)         0.000000
long (deg)        0.000000
élév (m)          0.000000
stns jointes      0.224913
Tmax              0.404844
Tmax90p           0.404844
Tmin              0.408304
Tmin10p           0.408304
DG0               0.408304
dtype: float64

- La méthode <b>.fillna()</b> : 

In [96]:
dataframe.fillna(0).head(5)

Unnamed: 0.1,Unnamed: 0,Prov,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes,Tmax,Tmax90p,Tmin,Tmin10p,DG0
0,0,BC,AGASSIZ,1100120,1893,1,2017,12,49.25,-121.77,15,0,0.0,0.0,0.0,0.0,0.0
1,1,BC,ATLIN,1200560,1905,8,2017,12,59.57,-133.7,674,0,5.630427,18.903333,-3.46052,-19.235,860.083333
2,2,BC,BARKERVILLE,1090660,1888,2,2015,3,53.07,-121.52,1265,0,0.0,0.0,0.0,0.0,0.0
3,3,BC,BEAVERDELL,1130771,1939,1,2006,9,49.48,-119.05,838,Y,12.628017,23.641667,4.017479,-3.646,1798.093333
4,4,BC,BLIND CHANNEL,1021480,1958,7,2016,2,50.42,-125.5,23,0,12.155616,20.200667,6.776893,1.094667,2518.68


- La méthode <b>.dropna()</b> : 

In [97]:
dataframe.dropna(axis=1).head(5)

Unnamed: 0.1,Unnamed: 0,Prov,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m)
0,0,BC,AGASSIZ,1100120,1893,1,2017,12,49.25,-121.77,15
1,1,BC,ATLIN,1200560,1905,8,2017,12,59.57,-133.7,674
2,2,BC,BARKERVILLE,1090660,1888,2,2015,3,53.07,-121.52,1265
3,3,BC,BEAVERDELL,1130771,1939,1,2006,9,49.48,-119.05,838
4,4,BC,BLIND CHANNEL,1021480,1958,7,2016,2,50.42,-125.5,23


In [98]:
dataframe.dropna(axis=0).head(5)

Unnamed: 0.1,Unnamed: 0,Prov,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes,Tmax,Tmax90p,Tmin,Tmin10p,DG0
3,3,BC,BEAVERDELL,1130771,1939,1,2006,9,49.48,-119.05,838,Y,12.628017,23.641667,4.017479,-3.646,1798.093333
5,5,BC,BLUE RIVER,1160899,1946,9,2017,12,52.13,-119.28,683,Y,10.440754,25.991667,-1.125014,-12.582333,987.363333
9,9,BC,COMOX,1021830,1935,11,2017,12,49.72,-124.9,26,Y,13.737613,23.102333,6.42485,-0.526,2444.393333
10,10,BC,CRANBROOK,1152105,1901,1,2017,12,49.62,-115.78,940,Y,11.960029,27.320333,0.403836,-11.355333,1383.26
12,12,BC,DARFIELD,1162265,1913,12,2017,11,51.3,-120.18,412,Y,12.890234,27.691667,1.823729,-8.123333,1525.713333


In [99]:
dataframe.dtypes

Unnamed: 0          int64
Prov               object
Nom de station     object
stnid              object
année déb.          int64
mois déb.           int64
année fin.          int64
mois fin.           int64
lat (deg)         float64
long (deg)        float64
élév (m)            int64
stns jointes       object
Tmax              float64
Tmax90p           float64
Tmin              float64
Tmin10p           float64
DG0               float64
dtype: object

- La méthode <b>.map()</b> : 

In [100]:
dataframe['Tmax'] = dataframe['Tmax'].map(int,na_action='ignore')

- La méthode <b>.unique()</b> : 

In [101]:
len(dataframe['Prov'].unique())

14

In [102]:
def multiple_unique(liste):
    if len(liste) == 0:
        result = np.nan
    elif len(liste) == 1:
        result = 'unique'
    else:
        result = 'multiples'
    return result

In [103]:
dataframe['Prov'] = multiple_unique(dataframe['Prov'])
dataframe['Prov'].unique()
#Ne fonctionne pas car il prend toute la colonne en tant que liste

array(['multiples'], dtype=object)

In [104]:
dataframe['uniq'] = dataframe['Prov'].apply(lambda x: multiple_unique(x))
dataframe['uniq'].value_counts()

multiples    289
Name: uniq, dtype: int64

- La méthode <b>.sort_values()</b> : 

In [105]:
dataframe.sort_values(['Prov'] ,ascending=False).head()

Unnamed: 0.1,Unnamed: 0,Prov,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes,Tmax,Tmax90p,Tmin,Tmin10p,DG0,uniq
0,0,multiples,AGASSIZ,1100120,1893,1,2017,12,49.25,-121.77,15,,,,,,,multiples
145,145,multiples,PILGER,4056120,1911,10,2011,9,52.42,-105.15,552,,7.0,25.419,-3.863422,-23.695,1270.166667,multiples
197,197,multiples,MINE CENTRE,6025205,1915,2,2017,12,48.8,-92.6,361,Y,,,,,,multiples
196,196,multiples,MADAWASKA,6080192,1915,8,2017,12,45.5,-77.98,316,Y,,,,,,multiples
195,195,multiples,LONDON,6144478,1883,3,2017,12,43.03,-81.15,278,Y,13.0,27.68,4.213576,-9.208333,2377.226667,multiples


- Quelques méthodes sur les chaînes de caractères: <b>.lower()</b>, <b>.upper()</b>, <b>.len()</b>, <b>.contains()</b>: 

In [106]:
dataframe['Nom de station'].str.lower().head(5)

0          agassiz
1            atlin
2      barkerville
3       beaverdell
4    blind channel
Name: Nom de station, dtype: object

In [107]:
dataframe['Nom de station'].str.upper().head(5)

0          AGASSIZ
1            ATLIN
2      BARKERVILLE
3       BEAVERDELL
4    BLIND CHANNEL
Name: Nom de station, dtype: object

In [108]:
dataframe['Nom de station'].str.len().head(5)

0     7
1     5
2    11
3    10
4    13
Name: Nom de station, dtype: int64

In [109]:
dataframe[dataframe['Nom de station'].str.contains('CRANBROOK')]

Unnamed: 0.1,Unnamed: 0,Prov,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes,Tmax,Tmax90p,Tmin,Tmin10p,DG0,uniq
10,10,multiples,CRANBROOK,1152105,1901,1,2017,12,49.62,-115.78,940,Y,11.0,27.320333,0.403836,-11.355333,1383.26,multiples


In [110]:
dataframe['Nom de station'].str.strip().head(5)

0          AGASSIZ
1            ATLIN
2      BARKERVILLE
3       BEAVERDELL
4    BLIND CHANNEL
Name: Nom de station, dtype: object

In [111]:
dataframe['Nom de station'].str.split(',').head(5)

0          [AGASSIZ]
1            [ATLIN]
2      [BARKERVILLE]
3       [BEAVERDELL]
4    [BLIND CHANNEL]
Name: Nom de station, dtype: object

 <h2> 8.5-  Modifier un DataFrame et introduction au feature modeling:</h2> 
 
 Il existe plusieurs fonctions, méthodes ou attributs qu'on peut appliquer sur les DataFrame: 

https://pandas.pydata.org/pandas-docs/version/0.23.4/generated/pandas.DataFrame.html

Nous allons présenter quelques fonctions utiles lors de l'exploration d'un jeu de données. 


In [112]:
dataframe_Prov_index.head()

Unnamed: 0_level_0,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes,total année
Prov,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
BC,AGASSIZ,1100120,1893,1,2017,12,49.25,-121.77,15,N,125
BC,ATLIN,1200560,1905,8,2017,12,59.57,-133.7,674,N,113
BC,BARKERVILLE,1090660,1888,2,2015,3,53.07,-121.52,1265,N,128
BC,BEAVERDELL,1130771,1939,1,2006,9,49.48,-119.05,838,Y,68
BC,BELLA COOLA,1060841,1895,5,2017,11,52.37,-126.68,18,Y,123


 <h3> 8.5.1-  Création d'une variable depuis un DataFrame:</h3> 


In [113]:
delta_year = (dataframe_Prov_index["année fin."] - dataframe_Prov_index["année déb."]) + 1

In [114]:
delta_year.head()

Prov
BC    125
BC    113
BC    128
BC     68
BC    123
dtype: int64

<h3> 8.5.2- Ajout d'une variable dans un DataFrame:</h3> 

In [115]:
dataframe_Prov_index["total année"] = delta_year

In [116]:
dataframe_Prov_index.head()

Unnamed: 0_level_0,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes,total année
Prov,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
BC,AGASSIZ,1100120,1893,1,2017,12,49.25,-121.77,15,N,125
BC,ATLIN,1200560,1905,8,2017,12,59.57,-133.7,674,N,113
BC,BARKERVILLE,1090660,1888,2,2015,3,53.07,-121.52,1265,N,128
BC,BEAVERDELL,1130771,1939,1,2006,9,49.48,-119.05,838,Y,68
BC,BELLA COOLA,1060841,1895,5,2017,11,52.37,-126.68,18,Y,123


   <h3> 8.5.3- Suppression d'une variable dans un DataFrame:</h3> 
   
   
   - méthode <b>drop()</b>, en entrée on spécifie une liste

In [152]:
dataframe_Prov_index.drop(["stns jointes"], axis=1)

Unnamed: 0_level_0,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),total année
Prov,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
BC,AGASSIZ,1100120,1893,1,2017,12,49.25,-121.77,15,125
BC,ATLIN,1200560,1905,8,2017,12,59.57,-133.7,674,113
BC,BARKERVILLE,1090660,1888,2,2015,3,53.07,-121.52,1265,128
BC,BEAVERDELL,1130771,1939,1,2006,9,49.48,-119.05,838,68
BC,BELLA COOLA,1060841,1895,5,2017,11,52.37,-126.68,18,123


- méthode <b>pop()</b>

In [153]:
print ("Deleting 'stnid' column using POP function:")
dataframe = pd.read_excel("./DATA/Homog_Temperature_Stations.xls", skiprows = range(0, 3))
dataframe.pop('stnid')
dataframe.head()

Deleting 'stnid' column using POP function:


Unnamed: 0,Prov,Nom de station,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes
0,BC,AGASSIZ,1893,1,2017,12,49.25,-121.77,15,N
1,BC,ATLIN,1905,8,2017,12,59.57,-133.7,674,N
2,BC,BARKERVILLE,1888,2,2015,3,53.07,-121.52,1265,N
3,BC,BEAVERDELL,1939,1,2006,9,49.48,-119.05,838,Y
4,BC,BELLA COOLA,1895,5,2017,11,52.37,-126.68,18,Y


- fonction <b>del()</b>

In [154]:
print ("Deleting 'stns jointes' column using DEL function:")
del dataframe['stns jointes']
dataframe.head()

Deleting 'stns jointes' column using DEL function:


Unnamed: 0,Prov,Nom de station,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m)
0,BC,AGASSIZ,1893,1,2017,12,49.25,-121.77,15
1,BC,ATLIN,1905,8,2017,12,59.57,-133.7,674
2,BC,BARKERVILLE,1888,2,2015,3,53.07,-121.52,1265
3,BC,BEAVERDELL,1939,1,2006,9,49.48,-119.05,838
4,BC,BELLA COOLA,1895,5,2017,11,52.37,-126.68,18


<h3> 8.5.4- Appliquer des fonctions:</h3> 

Pour appliquer vos propres fonctions ou celles d'une autre bibliothèque à des objets Pandas, vous devez connaître les trois méthodes importantes. La méthode appropriée à utiliser dépend du fait que votre fonction prévoit de fonctionner sur un DataFrame entier, par ligne ou par colonne ou par élément.

- Application d'une fonction au niveau de la table: <b> .pipe () </b>

- Application d'une fonction de ligne ou de colonne: <b> .apply () </b>

- Application d'une fonction par élément: <b> .applymap () </b>

<h4> 8.5.4.1- La méthode <b>.apply()</b>:</h4> 

- La méthode <b>.apply()</b> permet d'appliquer une fonction sur l'ensemble des valeurs d'une colonnes.
 

Des fonctions arbitraires peuvent être appliquées le long des axes d'un DataFrame ou d'un Panel à l'aide de la méthode apply (), qui, comme les méthodes de statistiques descriptives, prend un argument d'axe facultatif. Par défaut, l'opération s'effectue en colonnes, en prenant chaque colonne comme un tableau.


In [155]:
dataframe = pd.read_csv("./DATA/Climato_Stations_ECCC_1981_2010_YEAR.csv", encoding='latin-1')
dataframe["stns jointes"]=dataframe["stns jointes"].apply(lambda x: x.replace("N", "NaN"))
dataframe["stns jointes"]=dataframe["stns jointes"].apply(lambda x: x.replace("Y", "1"))
dataframe = dataframe.dropna() 
dataframe.head()

Unnamed: 0.1,Unnamed: 0,Prov,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes,Tmax,Tmax90p,Tmin,Tmin10p,DG0
1,1,BC,ATLIN,1200560,1905,8,2017,12,59.57,-133.7,674,,5.630427,18.903333,-3.46052,-19.235,860.083333
3,3,BC,BEAVERDELL,1130771,1939,1,2006,9,49.48,-119.05,838,1.0,12.628017,23.641667,4.017479,-3.646,1798.093333
4,4,BC,BLIND CHANNEL,1021480,1958,7,2016,2,50.42,-125.5,23,,12.155616,20.200667,6.776893,1.094667,2518.68
5,5,BC,BLUE RIVER,1160899,1946,9,2017,12,52.13,-119.28,683,1.0,10.440754,25.991667,-1.125014,-12.582333,987.363333
9,9,BC,COMOX,1021830,1935,11,2017,12,49.72,-124.9,26,1.0,13.737613,23.102333,6.42485,-0.526,2444.393333


In [156]:
dataframe = dataframe.dropna(axis=0)
dataframe["Tmin"]=dataframe["Tmin"].apply(lambda x: int(x))
dataframe.head()

Unnamed: 0.1,Unnamed: 0,Prov,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes,Tmax,Tmax90p,Tmin,Tmin10p,DG0
1,1,BC,ATLIN,1200560,1905,8,2017,12,59.57,-133.7,674,,5.630427,18.903333,-3,-19.235,860.083333
3,3,BC,BEAVERDELL,1130771,1939,1,2006,9,49.48,-119.05,838,1.0,12.628017,23.641667,4,-3.646,1798.093333
4,4,BC,BLIND CHANNEL,1021480,1958,7,2016,2,50.42,-125.5,23,,12.155616,20.200667,6,1.094667,2518.68
5,5,BC,BLUE RIVER,1160899,1946,9,2017,12,52.13,-119.28,683,1.0,10.440754,25.991667,-1,-12.582333,987.363333
9,9,BC,COMOX,1021830,1935,11,2017,12,49.72,-124.9,26,1.0,13.737613,23.102333,6,-0.526,2444.393333


<h3> 8.5.5- Filtrer des données:</h3> 


In [129]:
#On veut toutes les valeurs mais uniquement pour une Province
dataframe.loc[dataframe["Prov"]=="NB",:]

Unnamed: 0.1,Unnamed: 0,Prov,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes,Tmax,Tmax90p,Tmin,Tmin10p,DG0
256,256,NB,CHATHAM MIRA.,8100989,1873,1,2017,12,47.02,-65.47,33,1,10.0,26.085333,0,-16.959667,1564.133333
258,258,NB,FREDERICTON,8101505,1871,12,2017,12,45.87,-66.53,21,1,11.0,26.306,0,-14.820667,1747.27
259,259,NB,MONCTON,8103201,1898,5,2017,12,46.1,-64.68,71,1,10.0,25.392,0,-13.948333,1715.35
260,260,NB,SAINT JOHN,8104901,1871,1,2017,12,45.32,-65.88,109,1,10.0,23.051333,0,-14.555333,1548.77


In [130]:
dataframe.loc[dataframe["DG0"]>=2500,:]

Unnamed: 0.1,Unnamed: 0,Prov,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes,Tmax,Tmax90p,Tmin,Tmin10p,DG0
4,4,BC,BLIND CHANNEL,1021480,1958,7,2016,2,50.42,-125.5,23,,12.0,20.200667,6,1.094667,2518.68
27,27,BC,MCINNES ISLAND,1065010,1955,1,2017,12,52.27,-128.72,26,,11.0,17.164,7,1.949,2587.876667
44,44,BC,VANCOUVER,1108395,1896,2,2017,12,49.2,-123.18,4,1.0,13.0,22.404,7,-0.182667,2673.563333
190,190,ON,HARROW,6130257,1917,4,2017,12,42.03,-82.9,182,1.0,14.0,29.053333,5,-8.037333,2655.173333
210,210,ON,TORONTO,6158355,1840,3,2017,12,43.67,-79.4,113,1.0,13.0,27.074333,5,-7.532,2807.09
211,211,ON,VINELAND,6139148,1924,10,2017,12,43.18,-79.68,79,1.0,13.0,27.575667,5,-7.636333,2551.13
214,214,ON,WINDSOR,6139527,1940,8,2017,12,42.27,-82.97,190,1.0,14.0,28.795333,5,-7.384667,2803.45


On peut combiner des filtres:

In [131]:
dataframe.loc[(dataframe["Prov"]=="QC") & (dataframe["Tmin"]>0),:]

Unnamed: 0.1,Unnamed: 0,Prov,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes,Tmax,Tmax90p,Tmin,Tmin10p,DG0
224,224,QC,DRUMMONDVILLE,7022160,1913,11,2017,8,45.88,-72.48,82,,11.0,26.611667,1,-15.863333,2110.86


 <h3> 8.5.6- Grouper un DataFrame sur une ou plusieurs colonnes (groupby):</h3> 

Toute opération groupby implique l'une des opérations suivantes sur l'objet d'origine. Ce sont -

    - Fractionner l'objet

    - Application d'une fonction

    - Combiner les résultats


Dans de nombreuses situations, nous divisons les données en ensembles et nous appliquons certaines fonctionnalités à chaque sous-ensemble. Nous pouvons effectuer les opérations suivantes -

    - Agrégation - calcul d'une statistique récapitulative

    - Transformation - effectuer une opération spécifique au groupe

    - Filtration - rejet des données avec certaines conditions

Créons maintenant un objet DataFrame et effectuons toutes les opérations dessus -

In [157]:
dataframe = pd.read_csv("./DATA/Climato_Stations_ECCC_1981_2010_YEAR.csv", encoding='latin-1')
dataframe.head()

Unnamed: 0.1,Unnamed: 0,Prov,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes,Tmax,Tmax90p,Tmin,Tmin10p,DG0
0,0,BC,AGASSIZ,1100120,1893,1,2017,12,49.25,-121.77,15,N,,,,,
1,1,BC,ATLIN,1200560,1905,8,2017,12,59.57,-133.7,674,N,5.630427,18.903333,-3.46052,-19.235,860.083333
2,2,BC,BARKERVILLE,1090660,1888,2,2015,3,53.07,-121.52,1265,N,,,,,
3,3,BC,BEAVERDELL,1130771,1939,1,2006,9,49.48,-119.05,838,Y,12.628017,23.641667,4.017479,-3.646,1798.093333
4,4,BC,BLIND CHANNEL,1021480,1958,7,2016,2,50.42,-125.5,23,N,12.155616,20.200667,6.776893,1.094667,2518.68


En observant le DataFrame ci-dessus, nous voyons qu'il y a, au minimum, 3 variables que nous pouvons utiliser pour grouper notre jeu de données. On peut par exemple grouper nos données par province (Prov) , par année de début d'enregistrement ou année de fin d'enregistrement . 

Nous allons utiliser le module groupeby de Pandas pour grouper nos données.

- Méthode <b>.unique()</b> : méthode permet d'extraire les valeurs uniques d'une colonne. On peut ainsi s'assurer que notre variable à grouper possède plusieurs catégories.

In [158]:
dataframe["Prov"].unique() 

array(['BC', 'YT', 'N   YT', 'NT', 'NU', 'AB', 'SK', 'MB', 'ON', 'QC',
       'NB', 'NS', 'PE', 'NL'], dtype=object)

#### Fractionner les données en groupes:

In [135]:
df_Prov = dataframe.groupby('Prov')
df_Prov.groups

{'AB': Int64Index([ 96,  97,  98,  99, 100, 101, 102, 103, 104, 105, 106, 107, 108,
             109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121,
             122, 123, 124, 125, 126, 127, 128, 129, 130],
            dtype='int64'),
 'BC': Int64Index([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
             17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
             34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49,
             50],
            dtype='int64'),
 'MB': Int64Index([156, 157, 158, 159, 160, 161, 162, 163, 164, 165, 166, 167, 168,
             169, 170, 171, 172, 173, 174, 175],
            dtype='int64'),
 'N   YT': Int64Index([52], dtype='int64'),
 'NB': Int64Index([254, 255, 256, 257, 258, 259, 260, 261], dtype='int64'),
 'NL': Int64Index([275, 276, 277, 278, 279, 280, 281, 282, 283, 284, 285, 286, 287,
             288],
            dtype='int64'),
 'NS': Int64Index([262, 263, 264, 265, 266, 267,

- Sélectionner un groupe: méthode <b>.get_group()</b>

In [162]:
df_Prov.get_group('QC').head()

Unnamed: 0.1,Unnamed: 0,Prov,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes,Tmax,Tmax90p,Tmin,Tmin10p,DG0
216,216,QC,AMOS,709CEE9,1913,6,2017,8,48.57,-78.13,305,Y,,,,,
217,217,QC,BAGOTVILLE,7060400,1880,11,2017,12,48.33,-71.0,159,Y,8.28139,25.297333,-1.833594,-20.811667,1528.413333
218,218,QC,BEAUCEVILLE,7027283,1913,8,2017,8,46.15,-70.7,168,Y,10.551494,26.078333,-1.376339,-19.628333,1509.36
219,219,QC,BROME,7020840,1890,9,2014,7,45.18,-72.57,206,N,11.140937,26.176667,-0.294151,-17.56,1676.226667
220,220,QC,CAUSAPSCAL,7051200,1913,11,2017,8,48.37,-67.23,168,N,,,,,


On peut faire un .groupeby() sur plusieurs catégories.

In [163]:
dataframe.groupby(["Prov", "année fin."])["Tmin"].describe().head()

Unnamed: 0_level_0,Unnamed: 1_level_0,count,mean,std,min,25%,50%,75%,max
Prov,année fin.,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
AB,2011,0.0,,,,,,,
AB,2013,1.0,-4.216529,,-4.216529,-4.216529,-4.216529,-4.216529,-4.216529
AB,2016,1.0,-2.490207,,-2.490207,-2.490207,-2.490207,-2.490207,-2.490207
AB,2017,17.0,-3.015346,1.450265,-6.544206,-3.422267,-3.117089,-2.92727,-0.1559
BC,2006,1.0,4.017479,,4.017479,4.017479,4.017479,4.017479,4.017479


#### Itérer au travers des  groupes:


In [164]:
grouped = dataframe.groupby('Prov')

for name,group in grouped:
   print(name)
   print(group)

AB
     Unnamed: 0 Prov   Nom de station    stnid  année déb.  mois déb.  \
96           96   AB        ATHABASCA  3060L20        1918          6   
97           97   AB            BANFF  3050519        1887         11   
98           98   AB      BEAVERLODGE  3070600        1913          4   
99           99   AB          CALGARY  3031092        1885          1   
100         100   AB           CALMAR  3011120        1915         11   
101         101   AB          CAMPSIE  3061200        1912          9   
102         102   AB          CAMROSE  3011240        1946          3   
103         103   AB           CARWAY  3031402        1914          8   
104         104   AB        COLD LAKE  3081680        1925          7   
105         105   AB       CORONATION  3011887        1924          4   
106         106   AB         EDMONTON  3012216        1880          7   
107         107   AB            EDSON  3062246        1914          2   
108         108   AB         ENTRANCE  306A009  

#### Fonctions dites d'agrégation

Une fonction agrégée renvoie une seule valeur agrégée pour chaque groupe. Une fois le groupe par objet créé, plusieurs opérations d'agrégation peuvent être effectuées sur les données groupées.


In [165]:
dataframe = pd.read_csv("./DATA/Climato_Stations_ECCC_1981_2010_YEAR.csv", encoding='latin-1')
grouped = dataframe.groupby('Prov')
grouped['Tmin'].agg(np.mean)

Prov
AB        -3.050928
BC         1.578024
MB        -4.493900
N   YT          NaN
NB         0.341750
NL        -1.324334
NS         2.542629
NT        -8.518655
NU       -16.522658
ON         0.031970
PE         1.986827
QC        -1.992695
SK        -3.208984
YT        -8.995421
Name: Tmin, dtype: float64

#### Appliquer plusieurs fonctions

In [166]:
grouped['Tmin'].agg([np.min, np.mean, np.max, np.std])

Unnamed: 0_level_0,amin,mean,amax,std
Prov,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AB,-6.544206,-3.050928,-0.1559,1.401326
BC,-6.06858,1.578024,7.016292,3.896384
MB,-10.094295,-4.4939,-1.980265,2.618348
N YT,,,,
NB,-0.491043,0.34175,0.840796,0.598429
NL,-8.024778,-1.324334,1.812748,3.425846
NS,1.214131,2.542629,3.75946,0.982653
NT,-12.451845,-8.518655,-6.683226,2.16937
NU,-21.935075,-16.522658,-12.233232,3.049096
ON,-7.484845,0.03197,5.918716,3.647877


#### Transformations

La transformation sur un groupe ou une colonne renvoie un objet indexé de la même taille que celui en cours de regroupement. Par conséquent, la transformation doit renvoyer un résultat de la même taille que celui d'un bloc de groupe.

In [167]:
grouped = dataframe.groupby('Prov')
and_stand = lambda x: (x - x.mean()) / x.std()
grouped['Tmin'].transform(and_stand).head()

0         NaN
1   -1.293133
2         NaN
3    0.626082
4    1.334280
Name: Tmin, dtype: float64

#### Filtration

La filtration filtre les données selon des critères définis et renvoie le sous-ensemble de données. La fonction filter () est utilisée pour filtrer les données.

In [168]:
dataframe.groupby('Prov').filter(lambda x: len(x) == 1)

Unnamed: 0.1,Unnamed: 0,Prov,Nom de station,stnid,année déb.,mois déb.,année fin.,mois fin.,lat (deg),long (deg),élév (m),stns jointes,Tmax,Tmax90p,Tmin,Tmin10p,DG0
52,52,N YT,HAINES JUNCTIO,2100630,1944,10,2017,12,60.75,-137.5,596,N,,,,,
274,274,PE,CHARLOTTETOWN,8300301,1872,11,2017,12,46.28,-63.13,49,Y,10.00633,23.768333,1.986827,-12.036667,1912.156667


<h2> 8.6-  Rassembler plusieurs Dataframes:</h2> 

<h3> 8.6.1- Jointure de DataFrames:</h3> 


Il s’agit de "jointer" deux tables partageant la même clef ou encore de concaténer horizontalement les lignes en faisant correspondre les valeurs d’une variable clef qui peuvent ne pas être uniques.

<img src="./figures/join.png" alt="loc-iloc" >


In [178]:
left_dataframe = pd.DataFrame({
   'id':[1,2,3,4],
   'Nom de station': ['MONTREAL TAVISH', 'QUEBEC', 'TADOUSSAC','OKA'],
   'variable':['var1','var2','var6','var5']})

right_dataframe = pd.DataFrame(
   {'id':[1,2,3,4],
   'Nom de station': ['TORONTO', 'OTTAWA', 'KINGSTON','CHAPLEAU'],
   'variable':['var3','var1','var6','var5']})
left_dataframe

Unnamed: 0,id,Nom de station,variable
0,1,MONTREAL TAVISH,var1
1,2,QUEBEC,var2
2,3,TADOUSSAC,var6
3,4,OKA,var5


In [179]:
right_dataframe

Unnamed: 0,id,Nom de station,variable
0,1,TORONTO,var3
1,2,OTTAWA,var1
2,3,KINGSTON,var6
3,4,CHAPLEAU,var5


#### a-  Assembler deux DataFrames sur une clé

In [182]:
data=pd.merge(left_dataframe,right_dataframe,on='id')
data

Unnamed: 0,id,Nom de station_x,variable_x,Nom de station_y,variable_y
0,1,MONTREAL TAVISH,var1,TORONTO,var3
1,2,QUEBEC,var2,OTTAWA,var1
2,3,TADOUSSAC,var6,KINGSTON,var6
3,4,OKA,var5,CHAPLEAU,var5


In [183]:
data=pd.merge(left_dataframe,right_dataframe,on=['id','variable'])
data

Unnamed: 0,id,Nom de station_x,variable,Nom de station_y
0,3,TADOUSSAC,var6,KINGSTON
1,4,OKA,var5,CHAPLEAU


#### c- Fusionner deux DataFrames en utilisant l'argument 'How'

L'argument how permet de  déterminer les clés à inclure dans la table résultante. Si aucune combinaison de clés n'apparaît dans les tableaux de gauche ou de droite, les valeurs du tableau joint seront NaN.

In [185]:
# Left Join
data=pd.merge(left_dataframe, right_dataframe, on='variable', how='left')
data

Unnamed: 0,id_x,Nom de station_x,variable,id_y,Nom de station_y
0,1,MONTREAL TAVISH,var1,2.0,OTTAWA
1,2,QUEBEC,var2,,
2,3,TADOUSSAC,var6,3.0,KINGSTON
3,4,OKA,var5,4.0,CHAPLEAU


In [186]:
# right Join
data=pd.merge(left_dataframe, right_dataframe, on='variable', how='right')
data

Unnamed: 0,id_x,Nom de station_x,variable,id_y,Nom de station_y
0,1.0,MONTREAL TAVISH,var1,2,OTTAWA
1,3.0,TADOUSSAC,var6,3,KINGSTON
2,4.0,OKA,var5,4,CHAPLEAU
3,,,var3,1,TORONTO


In [187]:
# inner Join
data=pd.merge(left_dataframe, right_dataframe, on='variable', how='inner')
data

Unnamed: 0,id_x,Nom de station_x,variable,id_y,Nom de station_y
0,1,MONTREAL TAVISH,var1,2,OTTAWA
1,3,TADOUSSAC,var6,3,KINGSTON
2,4,OKA,var5,4,CHAPLEAU


In [188]:
# outer Join
data=pd.merge(left_dataframe, right_dataframe, on='variable', how='outer')
data

Unnamed: 0,id_x,Nom de station_x,variable,id_y,Nom de station_y
0,1.0,MONTREAL TAVISH,var1,2.0,OTTAWA
1,2.0,QUEBEC,var2,,
2,3.0,TADOUSSAC,var6,3.0,KINGSTON
3,4.0,OKA,var5,4.0,CHAPLEAU
4,,,var3,1.0,TORONTO


<h3> 8.6.2- Concatenation de DataFrames:</h3> 


Pandas offre diverses fonctionnalités pour combiner facilement des objets DataFrame.

<table border="1" class="docutils">
<colgroup>
<col width="27%">
<col width="57%">
</colgroup>
<tbody valign="top">

<tr><td><tt class="docutils literal"><span class="pre">objs</span></tt></td>
<td>This is a sequence or mapping of Series, DataFrame objects.</td>
</tr>
<tr><td><tt class="docutils literal"><span class="pre">axis</span></tt></td>
<td> {0, 1, ...}, default 0. This is the axis to concatenate along.</td>
</tr>
<tr><td><tt class="docutils literal"><span class="pre">join</span></tt></td>
<td>{‘inner’, ‘outer’}, default ‘outer’. How to handle indexes on other axis(es). Outer for union and inner for intersection.</td>
</tr>
<tr><td><tt class="docutils literal"><span class="pre">ignore_index</span></tt></td>
<td>boolean, default False. If True, do not use the index values on the concatenation axis. The resulting axis will be labeled 0, ..., n - 1.</td>
</tr>
<tr><td><tt class="docutils literal"><span class="pre">join_axes</span></tt></td>
<td> This is the list of Index objects. Specific indexes to use for the other (n-1) axes instead of performing inner/outer set logic.</td>

</tbody>
</table>    


In [190]:
dataframe1 = pd.DataFrame({
   'id':[1,2,3,4],
   'Nom de station': ['MONTREAL TAVISH', 'QUEBEC', 'TADOUSSAC','OKA'],
   'variable':['var1','var2','var6','var5']})

dataframe2 = pd.DataFrame(
   {'id':[1,2,3,4],
   'Nom de station': ['TORONTO', 'OTTAWA', 'KINGSTON','CHAPLEAU'],
   'variable':['var3','var1','var6','var5']})

data=pd.concat([dataframe1,dataframe2])
data

Unnamed: 0,id,Nom de station,variable
0,1,MONTREAL TAVISH,var1
1,2,QUEBEC,var2
2,3,TADOUSSAC,var6
3,4,OKA,var5
0,1,TORONTO,var3
1,2,OTTAWA,var1
2,3,KINGSTON,var6
3,4,CHAPLEAU,var5


In [191]:
data=pd.concat([dataframe1,dataframe2],keys=['QC','ON'])
data

Unnamed: 0,Unnamed: 1,id,Nom de station,variable
QC,0,1,MONTREAL TAVISH,var1
QC,1,2,QUEBEC,var2
QC,2,3,TADOUSSAC,var6
QC,3,4,OKA,var5
ON,0,1,TORONTO,var3
ON,1,2,OTTAWA,var1
ON,2,3,KINGSTON,var6
ON,3,4,CHAPLEAU,var5


In [192]:
data=pd.concat([dataframe1,dataframe2],axis=1)
data

Unnamed: 0,id,Nom de station,variable,id.1,Nom de station.1,variable.1
0,1,MONTREAL TAVISH,var1,1,TORONTO,var3
1,2,QUEBEC,var2,2,OTTAWA,var1
2,3,TADOUSSAC,var6,3,KINGSTON,var6
3,4,OKA,var5,4,CHAPLEAU,var5



#### Concaténation avec append

Un raccourci utile pour concatérer sont les méthodes d'instance d'ajout sur DataFrame. Ils concaténent le long de l'axe = 0, à savoir l'indice

In [193]:
data=dataframe1.append(dataframe2)
data

Unnamed: 0,id,Nom de station,variable
0,1,MONTREAL TAVISH,var1
1,2,QUEBEC,var2
2,3,TADOUSSAC,var6
3,4,OKA,var5
0,1,TORONTO,var3
1,2,OTTAWA,var1
2,3,KINGSTON,var6
3,4,CHAPLEAU,var5


<h2> 9-  Écrire un DataFrame:</h2> 

Pour l’écriture d'un DataFrame on utilise les fonctions <b>.to_csv</b> ou <b>_table</b> avec des options similaires que read_csv() vues précédemment.

In [81]:
dataframe.to_csv("./DATA/mon_nouveau_dataframe.csv", index = False, header = True, sep = ',')

<h2> 10- Les dates:</h2> 

En utilisant la fonction <b> date.range () </b>, nous pouvons créer la série de dates. 

In [194]:
pd.date_range('1/1/2011', periods=5)

DatetimeIndex(['2011-01-01', '2011-01-02', '2011-01-03', '2011-01-04',
               '2011-01-05'],
              dtype='datetime64[ns]', freq='D')

We can change the date frequency:

In [195]:
pd.date_range('1/1/2011', periods=5,freq='M')

DatetimeIndex(['2011-01-31', '2011-02-28', '2011-03-31', '2011-04-30',
               '2011-05-31'],
              dtype='datetime64[ns]', freq='M')

<b>bdate_range()</b> permet de travailler avec des ours ouvrés. 

In [196]:
pd.bdate_range('1/1/2011', periods=10)

DatetimeIndex(['2011-01-03', '2011-01-04', '2011-01-05', '2011-01-06',
               '2011-01-07', '2011-01-10', '2011-01-11', '2011-01-12',
               '2011-01-13', '2011-01-14'],
              dtype='datetime64[ns]', freq='B')

In [197]:
start = pd.datetime(2011, 1, 1)
end = pd.datetime(2011, 1, 5)
pd.date_range(start, end)

DatetimeIndex(['2011-01-01', '2011-01-02', '2011-01-03', '2011-01-04',
               '2011-01-05'],
              dtype='datetime64[ns]', freq='D')

<h2> 11- Formater des dates avec le module Datetime:</h2>   

Python fournit ne nombreuses fonctionnalités pour travailler avec des dates et le temps de manière plus générale.

Datetime est un module qui permet de manipuler des dates et des durées sous forme d’objets. L’idée est simple: vous manipulez l’objet pour faire tous vos calculs, et quand vous avez besoin de l’afficher, vous formatez l’objet en chaîne de caractères.

https://docs.python.org/2/library/datetime.html


On peut créer artificiellement un objet datetime suivant les paramètres suivant:

        datetime(année, mois, jour, heure, minute, seconde, microseconde, fuseau horaire)

Les paramètres “année”, “mois” et “jour” sont obligatoires.

Le module datetime fournit les classes suivantes:
<table border="1" class="docutils">
<colgroup>
<col width="27%">
<col width="57%">
</colgroup>
<tbody valign="top">
   <tr>
    <th>Classe</th>
    <th>Description</th>
  </tr>
<tr><td><tt class="docutils literal"><span class="pre"><b>datetime.date</b></span></tt></td>
<td>Une instance de date représente une date</td>
</tr>
<tr><td><tt class="docutils literal"><span class="pre"><b>datetime.datetime</b></span></tt></td>
<td>Une instance de datetime représente une date et l'heure selon le calendrier Gregorian
</td>
</tr>
<tr><td><tt class="docutils literal"><span class="pre"><b>datetime.time</b></span></tt></td>
<td>Une instance de time représente le temps (time), à l'exception de la date (date).</td>
</tr>
<tr><td><tt class="docutils literal"><span class="pre"><b>datetime.timedelta</b></span></tt></td>
<td>La classe timedelta est utilisée pour conserver les différences entre deux objets temporels ou datés.</td>
</tr>
<tr><td><tt class="docutils literal"><span class="pre"><b>datetime.tzinfo</b></span></tt></td>
<td>La classe tzinfo est utilisée pour implémenter la prise en charge du fuseau horaire pour les objets time et datetime.</td>
</tr>
</tbody>
</table>



Nous allons voir dans ce qui suit quelques exemples d'utilisation de DateTime et de ses classes.  Par la suite, nous verrons qu'une combinaise du module de datetime nous offre une grande aisance dans le traitement des données. 


<h3> 11.1- La classe <b>datetime</b> du module datetime:</h3> 

<b>-a Création d'un objet datetime</b>

In [199]:
from datetime import datetime
datetime(2019, 3, 1)       # ceci est une instance de datetime

datetime.datetime(2019, 3, 1, 0, 0)

In [200]:
maintenant = datetime.now()
maintenant

datetime.datetime(2020, 6, 22, 22, 21, 5, 766347)

In [201]:
maintenant = datetime.utcnow()
maintenant

datetime.datetime(2020, 6, 23, 2, 21, 6, 741402)

Lors de l'ouverture d'un fichier csv ou text, nous avons une information sur la date et le temps des mesures mais sous forme de chaînes de caractères: "2018-11-01 15:20" ou "2017/12/1 16:35:22" ... 

Il est possible lors de la lecture de convertir ces chaînes de caractères en objet datetime. 

In [202]:
dt = datetime.strptime("2018/11/01 15:20", "%Y/%m/%d %H:%M")
dt

datetime.datetime(2018, 11, 1, 15, 20)

In [203]:
dt = datetime.strptime("2017/12/1 16:35:22", "%Y/%m/%d %H:%M:%S")
dt

datetime.datetime(2017, 12, 1, 16, 35, 22)

In [204]:
dt = datetime.strptime("01/11/19 10-35:22", "%d/%m/%y %H-%M:%S")
dt


datetime.datetime(2019, 11, 1, 10, 35, 22)

In [205]:
dt = datetime.strptime("1Mar 2019 à 09h35", "%d%b %Y à %Hh%M")
dt

datetime.datetime(2019, 3, 1, 9, 35)

<b>b- Manipuler un objet datetime</b>

Depuis un objet ou instance de datetime, on peut récupérer l'heure et la date. 

In [206]:
maintenant.year
#maintenant.month
#maintenant.day
#maintenant.hour
maintenant.minute
#maintenant.second
#maintenant.microsecond

21

On peut modifier une instance datetime.

In [207]:
maintenant.replace(year=1995) # on créer un nouvel objet

datetime.datetime(1995, 6, 23, 2, 21, 6, 741402)

In [208]:
maintenant.replace(month=1)

datetime.datetime(2020, 1, 23, 2, 21, 6, 741402)

On peut ensuite écrire en format string un objet datetime

In [209]:
d = datetime.now(); print(d)

2020-06-22 22:21:45.784635


In [210]:
#Heures et minutes
d.strftime("%H:%M"), d.strftime("%Hh%Mmin")

('22:21', '22h21min')

In [211]:
#Année ,mois , heure
d.strftime("%Y-%m %H:%M")

'2020-06 22:21'

In [212]:
'Nous sommes le {0:%d} {0:%B} et il est {0:%Hh%Mmin} '.format(d, "day", "month", "time")

'Nous sommes le 22 June et il est 22h21min '

- Les classes <b>date</b> et <b>time</b>

Ces deux classes peuvent être utilisées pour créer une instance datetime

In [213]:
from datetime import datetime, date, time
d = date(2005, 7, 14)
t = time(12, 30)

In [214]:
datetime.combine(d, t)

datetime.datetime(2005, 7, 14, 12, 30)

In [215]:
maintenant = datetime.utcnow()
maintenant.date()
maintenant.time()


datetime.time(2, 21, 48, 477789)

- La classe <b>timedelta</b> du module datetime

Cette classe permet de calculer la différence entre deux dates. 

In [216]:
from datetime import timedelta
delta = timedelta(days=3, seconds=100)    # on crée notre propre timedelta

In [217]:
datetime.now() + delta

datetime.datetime(2020, 6, 25, 22, 23, 30, 365897)

In [218]:
datetime.now() + timedelta(days=2, hours=4, minutes=3, seconds=12)

datetime.datetime(2020, 6, 25, 2, 25, 2, 741919)

In [219]:
duree = datetime(2010, 12, 31) - datetime(1981, 12, 31)
duree

datetime.timedelta(days=10592)

On peut ainsi générer des dates pour des séries temporelles avec un pas de temps arbitraire:

In [220]:
from datetime import timedelta
dt = timedelta(days = 5, hours = 6, minutes = 25)
d0 = datetime(2000, 2, 21)
[str(d0 + i * dt) for i in range(10)]

['2000-02-21 00:00:00',
 '2000-02-26 06:25:00',
 '2000-03-02 12:50:00',
 '2000-03-07 19:15:00',
 '2000-03-13 01:40:00',
 '2000-03-18 08:05:00',
 '2000-03-23 14:30:00',
 '2000-03-28 20:55:00',
 '2000-04-03 03:20:00',
 '2000-04-08 09:45:00']

<h2> 13- bonus : modifier le paramétrage de pandas:</h2>   

In [1]:
pd.set_option("display.max_row",30)  

NameError: name 'pd' is not defined

In [None]:
pd.reset_option("display.max_rows")
#https://www.programcreek.com/python/example/101355/pandas.set_option
#https://pandas.pydata.org/pandas-docs/stable/generated/pandas.set_option.html