# Vérification : Dataset Pluie - Jours sans pluie présents ?

In [1]:
import pandas as pd
import numpy as np

# Charger les données
df_pluie = pd.read_csv('../CSVs/eau_converted.csv', sep=';')

print("Vérification des valeurs de pluie :")
print("="*80)
print(f"Total lignes : {len(df_pluie)}")
print(f"\nValeurs uniques de pluie_mm : {df_pluie['pluie_mm'].unique()[:20]}")
print(f"\nNombre de valeurs uniques : {df_pluie['pluie_mm'].nunique()}")

Vérification des valeurs de pluie :
Total lignes : 5866

Valeurs uniques de pluie_mm : ['0,1' '0,4' '0,3' '1' '2,3' '0,2' '0,5' '0,6' '1,5' '1,4' '0,9' '0,7'
 '1,9' '3' '1,6' '0,8' '1,2' '2,2' '1,1' '3,2']

Nombre de valeurs uniques : 24


In [2]:
# Est-ce qu'il y a des valeurs à 0 ?
print("\nRecherche de valeurs 0 ou '0' :")
print("="*80)
nb_zeros = df_pluie[df_pluie['pluie_mm'] == '0'].shape[0]
nb_zeros_float = df_pluie[df_pluie['pluie_mm'] == '0,0'].shape[0]

print(f"Lignes avec '0' : {nb_zeros}")
print(f"Lignes avec '0,0' : {nb_zeros_float}")

if nb_zeros == 0 and nb_zeros_float == 0:
    print("\n⚠️ CONFIRMATION : Il n'y a AUCUNE ligne avec 0mm de pluie !")
    print("→ Le dataset ne contient QUE les moments où il a plu.")
else:
    print("\n✅ Il y a des lignes avec 0mm de pluie.")


Recherche de valeurs 0 ou '0' :
Lignes avec '0' : 0
Lignes avec '0,0' : 0

⚠️ CONFIRMATION : Il n'y a AUCUNE ligne avec 0mm de pluie !
→ Le dataset ne contient QUE les moments où il a plu.


In [3]:
# Convertir la colonne horodate en datetime pour voir la répartition temporelle
df_pluie['horodate'] = pd.to_datetime(df_pluie['horodate'])

print("\nRépartition temporelle :")
print("="*80)
print(f"Date min : {df_pluie['horodate'].min()}")
print(f"Date max : {df_pluie['horodate'].max()}")
print(f"Nombre total d'enregistrements : {len(df_pluie)}")

# Période attendue : avril 2022 = 30 jours * 24 heures = 720 heures
print("\nSi avril 2022 = 30 jours * 24h = 720 heures théoriques")
print(f"Nous avons seulement {len(df_pluie)} enregistrements")
print(f"→ Soit {len(df_pluie) / 720 * 100:.1f}% du mois couvert")


Répartition temporelle :
Date min : 2022-04-01 00:48:00+02:00
Date max : 2022-04-29 20:18:00+02:00
Nombre total d'enregistrements : 5866

Si avril 2022 = 30 jours * 24h = 720 heures théoriques
Nous avons seulement 5866 enregistrements
→ Soit 814.7% du mois couvert


In [4]:
# Regarder les dates uniques
dates_uniques = df_pluie['horodate'].dt.date.unique()

print("\nJours du mois d'avril où il a plu :")
print("="*80)
print(sorted(dates_uniques))
print(f"\n→ Il y a {len(dates_uniques)} jours différents avec de la pluie")
print(f"→ Sur 30 jours en avril, ça fait {len(dates_uniques)/30*100:.1f}% des jours")


Jours du mois d'avril où il a plu :
[datetime.date(2022, 4, 1), datetime.date(2022, 4, 2), datetime.date(2022, 4, 3), datetime.date(2022, 4, 5), datetime.date(2022, 4, 6), datetime.date(2022, 4, 7), datetime.date(2022, 4, 8), datetime.date(2022, 4, 9), datetime.date(2022, 4, 10), datetime.date(2022, 4, 11), datetime.date(2022, 4, 21), datetime.date(2022, 4, 23), datetime.date(2022, 4, 24), datetime.date(2022, 4, 25), datetime.date(2022, 4, 26), datetime.date(2022, 4, 29)]

→ Il y a 16 jours différents avec de la pluie
→ Sur 30 jours en avril, ça fait 53.3% des jours
