# Traiter la donnée -- Dataframes


Pour le réaliser sans installation, depuis un navigateur :
<a href="https://colab.research.google.com/github/eddes/INSA/blob/main/python/tuto_dataframe.ipynb"> ça se passe ici<a>


Dans de nombreux des domaines, la donnée disponible est fournie dans des fichiers texte, où les valeurs des différentes grandeurs sont séparées par des virgules (vos tableurs favoris exporte parfois en `.csv` - acronyme de _comma separated values_.
    
Une librairie particulièrement bien adaptée au traitement de tels fichiers est `pandas`. Dans ce qui suit, nous allons apprendre les bases 
    
## Ouverture et affichage de base

Ouvrons un des fichiers de données météorologiques mesurées près de la ville de Strasbourg en 2023.

In [9]:
import pandas as pd
chemin='./src/meteo_Strasbourg_2023.csv'
donnee = pd.read_csv(chemin)

Pour afficher quelques stats de base sur les données :

In [10]:
donnee.describe()

Unnamed: 0,temp,dwpt,rhum,prcp,snow,wdir,wspd,wpgt,pres,tsun,coco
count,1848.0,1848.0,1848.0,1848.0,608.0,1848.0,1848.0,1848.0,1848.0,0.0,1848.0
mean,19.921916,10.92684,59.792208,0.052489,0.0,170.846861,11.822294,21.776136,1016.550866,,4.145563
std,5.818102,3.669961,19.372118,0.420076,0.0,129.13225,6.827365,9.394996,3.602004,,2.867574
min,4.5,2.1,21.0,0.0,0.0,0.0,0.0,3.7,1007.7,,1.0
25%,15.575,8.5,44.0,0.0,0.0,30.0,6.0,14.8,1014.0,,4.0
50%,19.2,10.5,60.0,0.0,0.0,180.0,11.0,20.4,1016.3,,4.0
75%,24.5,13.6,75.0,0.0,0.0,300.0,16.6,27.8,1018.7,,4.0
max,36.0,21.0,100.0,9.0,0.0,360.0,35.3,57.0,1026.1,,25.0


On peut donc, pour chaque colonne, lire les min/max ainsi que les percentiles de la série.

Ensuite, il est pratique de connaître le nom des données stockées :

In [11]:
donnee.keys()

Index(['time', 'temp', 'dwpt', 'rhum', 'prcp', 'snow', 'wdir', 'wspd', 'wpgt',
       'pres', 'tsun', 'coco'],
      dtype='object')

On constate que le temps et la température sont stockées. On va pouvoir y faire appel simplement par leur nom avec une commande du style :

In [12]:
donnee['temp']

0       10.3
1        9.8
2        9.8
3        9.8
4       10.0
        ... 
1843    21.0
1844    20.0
1845    19.6
1846    18.0
1847    17.0
Name: temp, Length: 1848, dtype: float64

On notera la présence d'un index (colonne de gauche qui est affichée). Cet index est commun à toutes les données stockées, lorsqu'il y en a plusieurs. Il peut aussi être un temps (heure/min/sec j/m/a) ce qui se révèlera pratique par la suite.

Si on souhaite uniquement prendre les valeurs :

In [8]:
T = donnee['temp'].values
print(T)

[ 4.7  4.4  4.8 ... -1.9 -2.  -2. ]


## Sélection de données avec pandas

Il est parfois pratique de connaître/isoler rapidement les valeurs en-dessous ou au-dessus d'un certain seuil. Supposons qu'on veuille connaitre les instants où la température est supérieure à 26°C :

In [16]:
fait_chaud = donnee[ donnee['temp'] > 26]
print(fait_chaud)

                     time  temp  dwpt  rhum  prcp  snow   wdir  wspd  wpgt  \
495   2023-05-21 15:00:00  26.5  14.3  47.0   0.0   0.0   20.0  16.6  41.0   
496   2023-05-21 16:00:00  26.4  13.9  46.0   0.0   NaN   20.0  18.4  25.9   
515   2023-05-22 11:00:00  26.3  15.4  51.0   0.0   NaN   40.0   9.4  20.4   
516   2023-05-22 12:00:00  27.2  15.2  48.0   0.0   0.0  120.0   3.6  24.0   
517   2023-05-22 13:00:00  26.8  15.5  50.0   0.0   NaN  280.0  13.0  24.1   
...                   ...   ...   ...   ...   ...   ...    ...   ...   ...   
1814  2023-07-15 14:00:00  30.0  17.1  46.0   0.0   NaN  170.0  15.0  29.6   
1815  2023-07-15 15:00:00  30.6  19.9  53.0   0.0   0.0   20.0  15.0  31.0   
1816  2023-07-15 16:00:00  29.0  19.0  55.0   0.0   NaN  360.0  19.0  40.8   
1817  2023-07-15 17:00:00  29.0  19.0  55.0   0.0   NaN   10.0  20.0  33.3   
1818  2023-07-15 18:00:00  26.3  18.4  62.0   0.0   0.0  350.0  26.0  37.0   

        pres  tsun  coco  
495   1010.7   NaN   3.0  
496   101

Il y a donc 309 valeurs avec une température supérieure à 26.

Pour pouvoir identifier s'il s'agit du jour ou de la nuit, on peut utiliser l'index :