### External_data

In [3]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import sklearn

In [4]:
%matplotlib inline
sns.set_theme()  # Apply the default theme of seaborn
plt.rcParams["figure.figsize"] = (10, 4)  # Set the figure size for all plots

In [5]:
!pip install -U ydata_profiling # -U is to accept by default the questions of the terminal
import ydata_profiling



In [6]:
external_data = pd.read_csv("data/external_data.csv")

In [7]:
external_data.columns

Index(['numer_sta', 'date', 'pmer', 'tend', 'cod_tend', 'dd', 'ff', 't', 'td',
       'u', 'vv', 'ww', 'w1', 'w2', 'n', 'nbas', 'hbas', 'cl', 'cm', 'ch',
       'pres', 'niv_bar', 'geop', 'tend24', 'tn12', 'tn24', 'tx12', 'tx24',
       'tminsol', 'sw', 'tw', 'raf10', 'rafper', 'per', 'etat_sol', 'ht_neige',
       'ssfrai', 'perssfrai', 'rr1', 'rr3', 'rr6', 'rr12', 'rr24', 'phenspe1',
       'phenspe2', 'phenspe3', 'phenspe4', 'nnuage1', 'ctype1', 'hnuage1',
       'nnuage2', 'ctype2', 'hnuage2', 'nnuage3', 'ctype3', 'hnuage3',
       'nnuage4', 'ctype4', 'hnuage4'],
      dtype='object')

In [8]:
external_data.head()

Unnamed: 0,numer_sta,date,pmer,tend,cod_tend,dd,ff,t,td,u,...,hnuage1,nnuage2,ctype2,hnuage2,nnuage3,ctype3,hnuage3,nnuage4,ctype4,hnuage4
0,7149,2021-01-01 00:00:00,100810,80,1,270,1.8,272.75,272.15,96,...,600.0,,,,,,,,,
1,7149,2021-01-01 03:00:00,100920,110,3,300,1.7,271.25,270.95,98,...,1500.0,2.0,3.0,3000.0,,,,,,
2,7149,2021-01-01 06:00:00,100950,30,3,290,2.6,271.95,271.65,98,...,480.0,4.0,6.0,2000.0,6.0,3.0,3000.0,,,
3,7149,2021-01-01 09:00:00,101100,150,2,280,1.7,272.45,272.05,97,...,1740.0,3.0,3.0,2800.0,,,,,,
4,7149,2021-01-01 12:00:00,101110,30,0,50,1.0,276.95,274.15,82,...,330.0,4.0,6.0,570.0,7.0,6.0,810.0,,,


In [9]:
# Define column renaming dictionary
rename_columns = {
    'numer_sta': 'ID_OMM_station',
    'date': 'date',
    'pmer': 'Pression_au_niveau_mer',
    'tend': 'Variation_de_pression_3h',
    'cod_tend': 'Type_de_tendance_barométrique',
    'dd': 'Direction_du_vent_moyen_10mn',
    'ff': 'Vitesse_du_vent_moyen_10mn',
    't': 'Température_K',
    'td': 'Point_de_rosée_K',
    'u': 'humidity',
    'vv': 'visibility_h',
    'ww': 'Temps_présent',
    'w1': 'Temps_passé_1',
    'w2': 'Temps_passé_2',
    'n': 'Nebulosité_totale',
    'nbas': 'Nebulosité_nuages_inférieurs',
    'hbas': 'Hauteur_base_nuages_inférieurs',
    'cl': 'Type_nuages_inférieurs',
    'cm': 'Type_nuages_moyens',
    'ch': 'Type_nuages_supérieurs',
    'pres': 'Pression_station',
    'niv_bar': 'Niveau_barométrique',
    'geop': 'Géopotentiel',
    'tend24': 'Variation_de_pression_24h',
    'tn12': 'Temp_min_12h_K',
    'tn24': 'Temp_min_24h_K',
    'tx12': 'Temp_max_12h_K',
    'tx24': 'Temp_max_24h_K',
    'tminsol': 'Temp_min_sol_12h_K',
    'sw': 'Méthode_temp_thermomètre_mouillé',
    'tw': 'Temp_thermomètre_mouillé_K',
    'raf10': 'Rafale_10mn',
    'rafper': 'Rafales_période',
    'per': 'Période_mesure_rafale',
    'etat_sol': 'État_du_sol',
    'ht_neige': 'Hauteur_totale_neige',
    'ssfrai': 'Hauteur_neige_fraîche',
    'perssfrai': 'Période_mesure_neige_fraîche',
    'rr1': 'Précipitations_1h',
    'rr3': 'Précipitations_3h',
    'rr6': 'Précipitations_6h',
    'rr12': 'Précipitations_12h',
    'rr24': 'Précipitations_24h',
    'phenspe1': 'Phénomène_spécial_1',
    'phenspe2': 'Phénomène_spécial_2',
    'phenspe3': 'Phénomène_spécial_3',
    'phenspe4': 'Phénomène_spécial_4',
    'nnuage1': 'Nebulosité_couche_1',
    'ctype1': 'Type_nuage_1',
    'hnuage1': 'Hauteur_base_1',
    'nnuage2': 'Nebulosité_couche_2',
    'ctype2': 'Type_nuage_2',
    'hnuage2': 'Hauteur_base_2',
    'nnuage3': 'Nebulosité_couche_3',
    'ctype3': 'Type_nuage_3',
    'hnuage3': 'Hauteur_base_3',
    'nnuage4': 'Nebulosité_couche_4',
    'ctype4': 'Type_nuage_4',
    'hnuage4': 'Hauteur_base_4'
}

# Rename columns
renamed_columns = external_data.rename(columns=rename_columns)

# Display renamed columns
print(renamed_columns.columns)


Index(['ID_OMM_station', 'date', 'Pression_au_niveau_mer',
       'Variation_de_pression_3h', 'Type_de_tendance_barométrique',
       'Direction_du_vent_moyen_10mn', 'Vitesse_du_vent_moyen_10mn',
       'Température_K', 'Point_de_rosée_K', 'humidity', 'visibility_h',
       'Temps_présent', 'Temps_passé_1', 'Temps_passé_2', 'Nebulosité_totale',
       'Nebulosité_nuages_inférieurs', 'Hauteur_base_nuages_inférieurs',
       'Type_nuages_inférieurs', 'Type_nuages_moyens',
       'Type_nuages_supérieurs', 'Pression_station', 'Niveau_barométrique',
       'Géopotentiel', 'Variation_de_pression_24h', 'Temp_min_12h_K',
       'Temp_min_24h_K', 'Temp_max_12h_K', 'Temp_max_24h_K',
       'Temp_min_sol_12h_K', 'Méthode_temp_thermomètre_mouillé',
       'Temp_thermomètre_mouillé_K', 'Rafale_10mn', 'Rafales_période',
       'Période_mesure_rafale', 'État_du_sol', 'Hauteur_totale_neige',
       'Hauteur_neige_fraîche', 'Période_mesure_neige_fraîche',
       'Précipitations_1h', 'Précipitations_3h'

In [10]:
#external_data.profile_report()