In [1]:
import pandas as pd
import numpy as np
df = pd.read_csv("public/synop.2024122418.csv", sep=";", dtype={"date": str})

print(df.to_string())

    numer_sta            date    pmer  tend cod_tend   dd    ff           t          td    u     vv  ww  w1  w2    n nbas  hbas  cl  cm  ch    pres niv_bar geop tend24        tn12        tn24        tx12        tx24     tminsol  sw  tw      raf10     rafper  per etat_sol  ht_neige    ssfrai perssfrai        rr1        rr3        rr6       rr12       rr24 phenspe1 phenspe2 phenspe3 phenspe4 nnuage1 ctype1 hnuage1 nnuage2 ctype2 hnuage2 nnuage3 ctype3 hnuage3 nnuage4 ctype4 hnuage4  Unnamed: 59
0        7005  20241224180000  102930   140        1  270   3.7  283.550000  283.550000  100    790  45  mq  mq   mq   mq    mq  mq  mq  mq  102050      mq   mq    400  278.650000          mq  283.650000          mq  278.550000  mq  mq   5.200000   5.800000  -10        1  0.000000        mq        mq   0.000000   0.000000  -0.100000  -0.100000   0.200000       mq       mq       mq       mq      mq     mq      mq      mq     mq      mq      mq     mq      mq      mq     mq      mq          NaN
1   

# Récupération des informations importantes à savoir :
1. Indicatif OMM station : numéro de station `numer_sta` -> `int`
2. Date (UTC) : `date` -> `datetime`
3. Pression au niveau mer : `pmer` -> `int`
4. Variation de pression en 3 heures : `tend` -> `int`
5. Type de tendance barométrique : `cod_tend` -> `int`
6. Direction du vent moyen 10 mn : `dd` -> `int`
7. Vitesse du vent moyen 10 mn : `ff` -> `float`
8. Température : `t` -> `float`
9. Point de rosée : `td` -> `float`
10. Humidité : `u` -> `int`
11. Visibilité horizontale : `vv` -> `float`
12. Temps présent : `ww` -> `int`
13. Nébulosité totale : `n` -> `float`
14. Nébulosité des nuages de l'étage inférieur : `nbas` -> `int`
15. Hauteur de la base des nuages de l'étage inférieur : `hbas` -> `int`
16. Pression station : `pres` -> `int`
17. Variation de pression en 24 heures : `tend24` -> `int`
18. Température minimale sur N heures : `tn12` -> `float`
19. Température maximale sur N heures : `tx12` -> `float`
20. Température minimale du sol sur 12 heures : `tminsol` -> `float`
21. Rafales sur les 10 dernières minutes : `raf10` -> `float`
22. Rafales sur une période : `rafper` -> `float`
23. Période de mesure des rafales : `per` -> `float`
24. Précipitations dans les N dernières heures : `rr12` -> `float`

In [2]:
df = df[['numer_sta', 'date', "pmer", "tend", "cod_tend", "dd", "ff", "t", "td", "u", "vv", "ww", "n", "nbas", "hbas","pres", "tend24", "tn12", "tx12", "tminsol", "raf10", "rafper", "per", "rr12" ]]


print(df.to_string())


    numer_sta            date    pmer  tend cod_tend   dd    ff           t          td    u     vv  ww    n nbas  hbas    pres tend24        tn12        tx12     tminsol      raf10     rafper  per       rr12
0        7005  20241224180000  102930   140        1  270   3.7  283.550000  283.550000  100    790  45   mq   mq    mq  102050    400  278.650000  283.650000  278.550000   5.200000   5.800000  -10  -0.100000
1        7015  20241224180000  102860   110        3  190   2.6  281.650000  281.650000  100   4440  10  100    8   150  102280    450  277.950000  281.650000  278.050000   3.500000   5.300000  -10  -0.100000
2        7020  20241224180000  103010   110        2  280   5.9  284.250000  284.250000  100     mq  mq   mq   mq    mq  102900    400  284.150000  285.750000          mq   7.700000   7.900000  -10   0.000000
3        7027  20241224180000  103050   100        2  240   2.9  284.050000  283.850000   99   4730  10  100    8    80  102230    340  283.650000  285.050000  281.

## Remplacer les valeurs manquantes `mq` par `NaN`

In [3]:
df.replace("mq", np.nan, inplace=True)
print(df.to_string())

    numer_sta            date    pmer  tend cod_tend   dd    ff           t          td    u     vv   ww    n nbas  hbas    pres tend24        tn12        tx12     tminsol      raf10     rafper  per       rr12
0        7005  20241224180000  102930   140        1  270   3.7  283.550000  283.550000  100    790   45  NaN  NaN   NaN  102050    400  278.650000  283.650000  278.550000   5.200000   5.800000  -10  -0.100000
1        7015  20241224180000  102860   110        3  190   2.6  281.650000  281.650000  100   4440   10  100    8   150  102280    450  277.950000  281.650000  278.050000   3.500000   5.300000  -10  -0.100000
2        7020  20241224180000  103010   110        2  280   5.9  284.250000  284.250000  100    NaN  NaN  NaN  NaN   NaN  102900    400  284.150000  285.750000         NaN   7.700000   7.900000  -10   0.000000
3        7027  20241224180000  103050   100        2  240   2.9  284.050000  283.850000   99   4730   10  100    8    80  102230    340  283.650000  285.050000 

# Formattage des dates en datetime

In [4]:
df["date"] = pd.to_datetime(df["date"], format='%Y%m%d%H%M%S')
print(df.to_string())

    numer_sta                date    pmer  tend cod_tend   dd    ff           t          td    u     vv   ww    n nbas  hbas    pres tend24        tn12        tx12     tminsol      raf10     rafper  per       rr12
0        7005 2024-12-24 18:00:00  102930   140        1  270   3.7  283.550000  283.550000  100    790   45  NaN  NaN   NaN  102050    400  278.650000  283.650000  278.550000   5.200000   5.800000  -10  -0.100000
1        7015 2024-12-24 18:00:00  102860   110        3  190   2.6  281.650000  281.650000  100   4440   10  100    8   150  102280    450  277.950000  281.650000  278.050000   3.500000   5.300000  -10  -0.100000
2        7020 2024-12-24 18:00:00  103010   110        2  280   5.9  284.250000  284.250000  100    NaN  NaN  NaN  NaN   NaN  102900    400  284.150000  285.750000         NaN   7.700000   7.900000  -10   0.000000
3        7027 2024-12-24 18:00:00  103050   100        2  240   2.9  284.050000  283.850000   99   4730   10  100    8    80  102230    340  283

## Nettoyages de colonnes non renseignées 

1. Informations générales
	-	Numéro de station : `numer_sta` -> int
	-	Date (UTC) : `date` -> datetime
2. Pression
	-	Pression au niveau mer : `pmer` -> int
	-	Variation de pression en 3 heures : `tend` -> int
	-	Type de tendance barométrique : `cod_tend` -> int
	-	Pression station : `pres` -> int
	-	Variation de pression en 24 heures : `tend24` -> int
3. Vent
	-	Direction du vent moyen 10 mn : `dd` -> int
	-	Vitesse du vent moyen 10 mn : `ff` -> float
	-	Rafales sur les 10 dernières minutes : `raf10` -> float
	-	Rafales sur une période : `rafper` -> float
	-	Période de mesure des rafales : `per` -> float
4. Température
	-	Température : `t` -> float
	-	Point de rosée : `td` -> float
	-	Température minimale sur N heures : `tn12` -> float
	-	Température maximale sur N heures : `tx12` -> float
	-	Température minimale du sol sur 12 heures : `tminsol` -> float
5. Humidité
	-	Humidité : `u` -> int
6. Visibilité
	-	Visibilité horizontale : `vv` -> float
7. Nébulosité et nuages
	-	Nébulosité totale : `n` -> float
	-	Nébulosité des nuages de l’étage inférieur : `nbas` -> int
	-	Hauteur de la base des nuages de l’étage inférieur : `hbas` -> int
8. Précipitations
	-	Précipitations dans les N dernières heures : `rr12` -> float
9. Temps présent
	-	Temps présent : `ww` -> int

In [5]:
df[['dd', 'ff', 'raf10', 'rafper', 'rr12', "per"]] = df[['dd', 'ff', 'raf10', 'rafper', 'rr12', "per"]].fillna(0)

moyenne = ["pmer", "tend", "cod_tend", "pres", "tend24", "t", "td", "tn12", "tx12", "tminsol", "u", "vv", "n", "nbas", "hbas", "ww"]
df[moyenne] = df[moyenne].apply(pd.to_numeric, errors='coerce')

for col in moyenne:
    df[col] = df[col].fillna(df[col].mean())

print(df.to_string())

    numer_sta                date       pmer        tend  cod_tend   dd    ff           t         td           u            vv         ww           n      nbas         hbas      pres       tend24        tn12        tx12     tminsol      raf10     rafper  per       rr12
0        7005 2024-12-24 18:00:00  102930.00  140.000000  1.000000  270   3.7  283.550000  283.55000  100.000000    790.000000  45.000000   94.133333  6.105263   809.677419  102050.0   400.000000  278.650000  283.650000  278.550000   5.200000   5.800000  -10  -0.100000
1        7015 2024-12-24 18:00:00  102860.00  110.000000  3.000000  190   2.6  281.650000  281.65000  100.000000   4440.000000  10.000000  100.000000  8.000000   150.000000  102280.0   450.000000  277.950000  281.650000  278.050000   3.500000   5.300000  -10  -0.100000
2        7020 2024-12-24 18:00:00  103010.00  110.000000  2.000000  280   5.9  284.250000  284.25000  100.000000  19032.045455   9.511628   94.133333  6.105263   809.677419  102900.0   400.0

## Typages des colonnes

In [6]:
df["date"] = pd.to_datetime(df["date"], format='%Y%m%d%H%M%S')

entier = ["numer_sta", "pmer", "tend", "cod_tend", "dd", "u", "ww", "nbas", "hbas", "pres", "tend24"]
for i in entier:
    print(f"{i} -> {df[col].dtype}")
    df[entier] = df[entier].astype(int)
    print(f"{i} -> {df[col].dtype}")
    print("")

double = ['dd', 'ff', 'raf10', 'rafper', 'rr12', "per", "t", "td", "tn12", "tx12", "tminsol", "n", "vv"]
for i in double:
    print(f"{i} -> {df[col].dtype}")
    df[double] = df[double].astype(float)
    print(f"{i} -> {df[col].dtype}")
    print("")

numer_sta -> float64
numer_sta -> int64

pmer -> int64
pmer -> int64

tend -> int64
tend -> int64

cod_tend -> int64
cod_tend -> int64

dd -> int64
dd -> int64

u -> int64
u -> int64

ww -> int64
ww -> int64

nbas -> int64
nbas -> int64

hbas -> int64
hbas -> int64

pres -> int64
pres -> int64

tend24 -> int64
tend24 -> int64

dd -> int64
dd -> int64

ff -> int64
ff -> int64

raf10 -> int64
raf10 -> int64

rafper -> int64
rafper -> int64

rr12 -> int64
rr12 -> int64

per -> int64
per -> int64

t -> int64
t -> int64

td -> int64
td -> int64

tn12 -> int64
tn12 -> int64

tx12 -> int64
tx12 -> int64

tminsol -> int64
tminsol -> int64

n -> int64
n -> int64

vv -> int64
vv -> int64



In [7]:
print(df.to_string())

    numer_sta                date    pmer  tend  cod_tend     dd    ff           t         td    u            vv  ww           n  nbas  hbas    pres  tend24        tn12        tx12     tminsol  raf10  rafper   per  rr12
0        7005 2024-12-24 18:00:00  102930   140         1  270.0   3.7  283.550000  283.55000  100    790.000000  45   94.133333     6   809  102050     400  278.650000  283.650000  278.550000    5.2     5.8 -10.0  -0.1
1        7015 2024-12-24 18:00:00  102860   110         3  190.0   2.6  281.650000  281.65000  100   4440.000000  10  100.000000     8   150  102280     450  277.950000  281.650000  278.050000    3.5     5.3 -10.0  -0.1
2        7020 2024-12-24 18:00:00  103010   110         2  280.0   5.9  284.250000  284.25000  100  19032.045455   9   94.133333     6   809  102900     400  284.150000  285.750000  279.044444    7.7     7.9 -10.0   0.0
3        7027 2024-12-24 18:00:00  103050   100         2  240.0   2.9  284.050000  283.85000   99   4730.000000  10  10

## Conversion des températures de Kelvin en Celcuis

In [8]:
celcuis = ["t", "td", "tn12", "tx12", "tminsol"]
for i in celcuis:
    df[i] = df[i] - 273.15

print(df.to_string())

    numer_sta                date    pmer  tend  cod_tend     dd    ff          t        td    u            vv  ww           n  nbas  hbas    pres  tend24       tn12       tx12    tminsol  raf10  rafper   per  rr12
0        7005 2024-12-24 18:00:00  102930   140         1  270.0   3.7  10.400000  10.40000  100    790.000000  45   94.133333     6   809  102050     400   5.500000  10.500000   5.400000    5.2     5.8 -10.0  -0.1
1        7015 2024-12-24 18:00:00  102860   110         3  190.0   2.6   8.500000   8.50000  100   4440.000000  10  100.000000     8   150  102280     450   4.800000   8.500000   4.900000    3.5     5.3 -10.0  -0.1
2        7020 2024-12-24 18:00:00  103010   110         2  280.0   5.9  11.100000  11.10000  100  19032.045455   9   94.133333     6   809  102900     400  11.000000  12.600000   5.894444    7.7     7.9 -10.0   0.0
3        7027 2024-12-24 18:00:00  103050   100         2  240.0   2.9  10.900000  10.70000   99   4730.000000  10  100.000000     8    80  

## Arrondir tous les decimaux à 2chiffres apes la virgules

In [9]:
df[double] = df[double].round(2)
print(df.to_string())

    numer_sta                date    pmer  tend  cod_tend     dd    ff      t     td    u        vv  ww       n  nbas  hbas    pres  tend24   tn12  tx12  tminsol  raf10  rafper   per  rr12
0        7005 2024-12-24 18:00:00  102930   140         1  270.0   3.7  10.40  10.40  100    790.00  45   94.13     6   809  102050     400   5.50  10.5     5.40    5.2     5.8 -10.0  -0.1
1        7015 2024-12-24 18:00:00  102860   110         3  190.0   2.6   8.50   8.50  100   4440.00  10  100.00     8   150  102280     450   4.80   8.5     4.90    3.5     5.3 -10.0  -0.1
2        7020 2024-12-24 18:00:00  103010   110         2  280.0   5.9  11.10  11.10  100  19032.05   9   94.13     6   809  102900     400  11.00  12.6     5.89    7.7     7.9 -10.0   0.0
3        7027 2024-12-24 18:00:00  103050   100         2  240.0   2.9  10.90  10.70   99   4730.00  10  100.00     8    80  102230     340  10.50  11.9     8.20    4.2     5.4 -10.0   0.6
4        7037 2024-12-24 18:00:00  103020   140        