# TD sur pandas

# 0) import de la librairie

In [1]:
import pandas as pd

# 1) création d'une dataframe

In [13]:
url = "https://www.data.gouv.fr/fr/datasets/r/b4f8dbb9-9a4d-4203-bd6d-ba26615fa8ee"
url ="https://donneespubliques.meteofrance.fr/donnees_libres/Txt/Marine/marine.20190927.csv"

In [14]:
df = pd.read_csv(url, sep=";")

# 2) regarde des caractéristiques

## 2.1) nb de lignes et de colonnes

In [17]:
df.shape # nb de ligne, nb de colonnes

(166, 37)

## 2.2) entête

In [16]:
df.head(3)

Unnamed: 0,numer_sta,date,lat,lon,t,td,u,dd,ff,pmer,...,nbas,hbas,cl,cm,ch,rafper,per,phenspe1,phenspe2,Unnamed: 36
0,4100300,20190927000000,15.85,-57.49,302.05,296.75,73.0,60.000000,5.200000,101500,...,mq,mq,mq,mq,mq,7.700000,-10,mq,mq,
1,6100001,20190927000000,43.38,7.83,294.55,292.65,89.0,80.000000,2.400000,101730,...,mq,mq,mq,mq,mq,4.000000,-10,mq,mq,
2,6100002,20190927000000,42.06,4.65,295.15,293.65,91.0,mq,mq,101820,...,mq,mq,mq,mq,mq,mq,-10,mq,mq,


## 2.3) transposée => permet souvent de voir toutes les colonnes

In [18]:
df.head(3).T

Unnamed: 0,0,1,2
numer_sta,4100300,6100001,6100002
date,20190927000000,20190927000000,20190927000000
lat,15.85,43.38,42.06
lon,-57.49,7.83,4.65
t,302.050000,294.550000,295.150000
td,296.750000,292.650000,293.650000
u,73.000000,89.000000,91.000000
dd,60.000000,80.000000,mq
ff,5.200000,2.400000,mq
pmer,101500,101730,101820


# 3) chercher les entetes sur la doc 

In [54]:
entetes = """Descriptif Mnémonique type unité
Indicatif OMM station numer_sta car
Date (UTC) date car AAAAMMDDHHMISS
Température t réel K
Point de rosée td réel K
Humidité u int %
Direction du vent moyen 10 mn dd int degré
Vitesse du vent moyen 10 mn ff réel  m/s
Pression au niveau mer pmer int Pa
Température de la mer tmer réel K
Hauteur des vagues de la mer du vent HwaHwa réel m
Période des vagues de la mer du vent PwaPwa réel S
Direction des vagues de la mer du vent dwadwa réel degré
Hauteur des vagues de la houle primaire Hw1Hw1 réel m
Période des vagues de la houle primaire Pw1Pw1 réel S
Direction des vagues de la houle primaire dw1dw1 réel degré
Hauteur des vagues de la houle secondaire Hw2Hw2 réel m
Période des vagues de la houle secondaire Pw2Pw2 réel S
Direction des vagues de la houle secondaire dw2dw2 réel degré
Variation de pression en 3 heures tend int Pa
Type de tendance barométrique cod_tend int code (0200)
Visibilité horizontale vv réel m
Temps présent ww int code (4677)
Temps passé 1 w1 int code (4561)
Temps passé 2 w2 int code (4561)
Nebulosité totale n réel %
Nébulosité des nuages de l'étage inférieur nbas int octa
Hauteur de la base des nuages de l'étage inférieur hbas int mètre
Type des nuages de l'étage inférieur cl int code (0513)
Type des nuages de l'étage moyen cm int code (0515)
Type des nuages de l'étage supérieur ch int code (0509)
Rafales sur une période  rafper réel m/s
Période de mesure de la rafale per réel min
Phénomène spécial phenspeN réel code (3778)"""

In [77]:
lignes_entetes = entetes.split("\n")

In [78]:
len(lignes_entetes)

34

## 3.1) travailler le texte pour en extraire un tableau

In [79]:
df_description = pd.DataFrame(lignes_entetes)

In [80]:
resultats = []
for ligne in lignes_entetes:
    dico = {}
    mots = ligne.split(" ")
    if "code" not in ligne:
        descriptif = " ".join(mots[:-3])
        Mnemonique = mots[-3]
        type_      = mots[-2]
        unite      = mots[-1]
    if "code" in ligne:
        descriptif = " ".join(mots[:-4])
        Mnemonique = mots[-4]
        type_      = mots[-3]
        unite      = " ".join(mots[-2:])
    dico["descriptif"] = descriptif
    dico["Mnemonique"] = Mnemonique
    dico["type_"]      = type_
    dico["unite"]      = unite   
    resultats.append(dico)
df_entete = pd.DataFrame(resultats)    

## 3.2) Afficher les noms des colonnes => attribut "columns" de la dataFrame

In [72]:
df_entete.columns

Index(['Mnemonique', 'descriptif', 'type_', 'unite'], dtype='object')

## 3.3) afficher les colonnes dans un ordre voulu

In [85]:
ordre_voulu_des_colonnes = ['descriptif', 'Mnemonique', 'type_', 'unite']

In [86]:
df_entete[ordre_voulu_des_colonnes].head()

Unnamed: 0,descriptif,Mnemonique,type_,unite
0,Descriptif,Mnémonique,type,unité
1,Indicatif OMM,station,numer_sta,car
2,Date (UTC),date,car,AAAAMMDDHHMISS
3,Température,t,réel,K
4,Point de rosée,td,réel,K


## 3.4) Suppression de lignes / colonnes : drop + axe
Drop permet de supprimer une ligne (axis = 0) ou une colonne (axis=1) correspondant à une valeur recherchée

In [84]:
df_entete[ordre_voulu_des_colonnes].drop("type_", axis=1).head()

Unnamed: 0,descriptif,Mnemonique,unite
0,Descriptif,Mnémonique,unité
1,Indicatif OMM,station,car
2,Date (UTC),date,AAAAMMDDHHMISS
3,Température,t,K
4,Point de rosée,td,K


## 3.5) 

In [87]:
df_entete[ordre_voulu_des_colonnes].head()

Unnamed: 0,descriptif,Mnemonique,type_,unite
0,Descriptif,Mnémonique,type,unité
1,Indicatif OMM,station,numer_sta,car
2,Date (UTC),date,car,AAAAMMDDHHMISS
3,Température,t,réel,K
4,Point de rosée,td,réel,K


## 3.5) filtrer une dataframe sur une valeur cherchée

In [102]:
valeur_cherchee     = df.columns[4]
filtre              = df_entete.Mnemonique == valeur_cherchee
colonne_a_recuperer = "descriptif"
serie               = df_entete[filtre][colonne_a_recuperer]

## 3.6) les dataframes sont composées de séries (les colonnes) qui ont un attribut values qui est un tableau de valeurs (une case par ligne de la colonne)

In [105]:
serie.values[0]

'Température'

## transformons les Mnémoniques par des noms signifiants

In [112]:
dico                = {}
colonne_a_recuperer = "descriptif"
for Mnemonique in df.columns:
    filtre              = df_entete.Mnemonique == Mnemonique
    serie               = df_entete[filtre][colonne_a_recuperer]
    valeur_cherchee     = "".join(serie)
    dico [Mnemonique]   = valeur_cherchee

## en mode "comprehension list"

In [117]:
{ Mnemonique : "".join(df_entete[df_entete.Mnemonique == Mnemonique]["descriptif"].values) for Mnemonique in df.columns}

{'numer_sta': '',
 'Date (UTC)': '',
 'lat': '',
 'lon': '',
 'Température': '',
 'Point de rosée': '',
 'Humidité': '',
 'Direction du vent moyen 10 mn': '',
 'ff': '',
 'Pression au niveau mer': '',
 'Température de la mer': '',
 'Hauteur des vagues de la mer du vent': '',
 'Période des vagues de la mer du vent': '',
 'Direction des vagues de la mer du vent': '',
 'Hauteur des vagues de la houle primaire': '',
 'Période des vagues de la houle primaire': '',
 'Direction des vagues de la houle primaire': '',
 'Hauteur des vagues de la houle secondaire': '',
 'Période des vagues de la houle secondaire': '',
 'Direction des vagues de la houle secondaire': '',
 'Variation de pression en 3 heures': '',
 'Type de tendance barométrique': '',
 'Visibilité horizontale': '',
 'Temps présent': '',
 'Temps passé 1': '',
 'Temps passé 2': '',
 'Nebulosité totale': '',
 "Nébulosité des nuages de l'étage inférieur": '',
 "Hauteur de la base des nuages de l'étage inférieur": '',
 "Type des nuages de 

## on fait plutôt une liste afin de pouvoir l'affecter comme nouveaux noms de colonnes dans la DataFrame

In [114]:
nouvelles_colonnes  = []
colonne_a_recuperer = "descriptif"
for Mnemonique in df.columns:
    filtre              = df_entete.Mnemonique == Mnemonique
    serie               = df_entete[filtre][colonne_a_recuperer]
    valeur_cherchee     = "".join(serie)
    if len(valeur_cherchee)>0:
        nouvelles_colonnes.append(valeur_cherchee)
    else:
        nouvelles_colonnes.append(Mnemonique)


## Affectation de nouveaux noms de colonnes dans la DataFrame

In [116]:
df.columns = nouvelles_colonnes

In [118]:
df.head()

Unnamed: 0,numer_sta,Date (UTC),lat,lon,Température,Point de rosée,Humidité,Direction du vent moyen 10 mn,ff,Pression au niveau mer,...,Nébulosité des nuages de l'étage inférieur,Hauteur de la base des nuages de l'étage inférieur,Type des nuages de l'étage inférieur,Type des nuages de l'étage moyen,Type des nuages de l'étage supérieur,Rafales sur une période,Période de mesure de la rafale,phenspe1,phenspe2,Unnamed: 36
0,4100300,20190927000000,15.85,-57.49,302.050000,296.750000,73.000000,60.000000,5.200000,101500,...,mq,mq,mq,mq,mq,7.700000,-10,mq,mq,
1,6100001,20190927000000,43.38,7.83,294.550000,292.650000,89.000000,80.000000,2.400000,101730,...,mq,mq,mq,mq,mq,4.000000,-10,mq,mq,
2,6100002,20190927000000,42.06,4.65,295.150000,293.650000,91.000000,mq,mq,101820,...,mq,mq,mq,mq,mq,mq,-10,mq,mq,
3,62001,20190927000000,45.2,-5.0,mq,mq,mq,250,11.300000,101640,...,mq,mq,mq,mq,mq,14.400000,-10,710.000000,1114.000000,
4,BATFR03,20190927000000,50.5,-0.8,289.850000,284.850000,72,260,20.100000,100670,...,mq,mq,mq,mq,mq,mq,mq,mq,mq,


In [90]:
df.head()

Unnamed: 0,numer_sta,date,lat,lon,t,td,u,dd,ff,pmer,...,nbas,hbas,cl,cm,ch,rafper,per,phenspe1,phenspe2,Unnamed: 36
0,4100300,20190927000000,15.85,-57.49,302.050000,296.750000,73.000000,60.000000,5.200000,101500,...,mq,mq,mq,mq,mq,7.700000,-10,mq,mq,
1,6100001,20190927000000,43.38,7.83,294.550000,292.650000,89.000000,80.000000,2.400000,101730,...,mq,mq,mq,mq,mq,4.000000,-10,mq,mq,
2,6100002,20190927000000,42.06,4.65,295.150000,293.650000,91.000000,mq,mq,101820,...,mq,mq,mq,mq,mq,mq,-10,mq,mq,
3,62001,20190927000000,45.2,-5.0,mq,mq,mq,250,11.300000,101640,...,mq,mq,mq,mq,mq,14.400000,-10,710.000000,1114.000000,
4,BATFR03,20190927000000,50.5,-0.8,289.850000,284.850000,72,260,20.100000,100670,...,mq,mq,mq,mq,mq,mq,mq,mq,mq,


In [88]:
df.columns

Index(['numer_sta', 'date', 'lat', 'lon', 't', 'td', 'u', 'dd', 'ff', 'pmer',
       'tmer', 'HwaHwa', 'PwaPwa', 'dwadwa', 'Hw1Hw1', 'Pw1Pw1', 'dw1dw1',
       'Hw2Hw2', 'Pw2Pw2', 'dw2dw2', 'tend', 'cod_tend', 'vv', 'ww', 'w1',
       'w2', 'n', 'nbas', 'hbas', 'cl', 'cm', 'ch', 'rafper', 'per',
       'phenspe1', 'phenspe2', 'Unnamed: 36'],
      dtype='object')