In [None]:
#Importation
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.utils import resample
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score


In [None]:
base_donnees = pd.read_csv("Donnés\BaseDeDonneesPlusComplete1970-2025.csv",index_col = "date")
#creeer une nouvelle colonne pour predire contenant la prediction de s'il va neiger et pleuvoir.
base_donnees["It's raining"] = base_donnees["rain"]>0
base_donnees["It's snowing"] = base_donnees["snow"]>0
del base_donnees["sunset_hhmm"]
del base_donnees["sunrise_hhmm"]
base_donnees = base_donnees.iloc[::-1]
choix_predicteur = input("Vous voulez prédire la neige N ou la pluie P : ")



In [None]:
#Voir les pourcentages de manque de donnes dans chaque colonnes
null_prc = base_donnees.isnull().sum()/base_donnees.shape[0]
null_prc

In [None]:
#Trier les colonnes valide avec peu de manque de donnees.
colonne_valide = base_donnees.columns[null_prc<.05].copy()
colonne_valide.shape[0]

In [None]:
#Creer nouvelle base de donnes nettoyée
base_donnees = base_donnees[colonne_valide]
base_donnees

In [None]:
#Étape pour trouver le manque de données se situe ou.
null_prc = base_donnees.isnull().sum()/base_donnees.shape[0]
null_prc

In [None]:
#Technique de remplissage impeu brute qui remplace les valeurs vide par la valeur de l'ancienne journée
base_donnees = base_donnees.ffill()
#Verification de manque de données aprés remplissage.
null_prc = base_donnees.isnull().sum()/base_donnees.shape[0]
null_prc

In [None]:
base_donnees.info()
#Retire les espaces devant les titres des columns pour réduire l'espace utilisé
base_donnees.columns = base_donnees.columns.str.strip()

In [None]:
base_donnees.info()

In [None]:
#Transformer mes valeurs de True/False de it's raining & it's snowing pour 1/0.
base_donnees["It's raining"] = base_donnees["It's raining"].map({True:1,False:0})
base_donnees["It's snowing"] = base_donnees["It's snowing"].map({True:1,False:0})
base_donnees

In [None]:
#Parametrer les graphes.
sns.set_style(style="whitegrid")
base_donnees.describe()

In [None]:
base_donnees.dtypes
base_donnees.columns

In [None]:
#Voir la comparaison entre le nombre de jour qu'il pleu/pleu pas et le nombre de jour ou il neige/il neige pas.

plt.figure(figsize=(6,4))

sns.countplot(x="It's raining",data = base_donnees)
plt.title("Repartition de la pluie")
plt.show()
sns.countplot(x="It's snowing",data = base_donnees)
plt.title("Repartition de la tombé de neige")
plt.show()





In [None]:
#La corrélation de chaque parametre.
plt.figure(figsize=(30,24))
sns.heatmap(base_donnees.corr(),annot=True,cmap="coolwarm",fmt=".2f")
plt.title("Corrélation de chaque données")
plt.show()

Traitement des données

In [None]:
base_donnees = base_donnees.drop(columns=['avg_hourly_temperature', 'avg_temperature','avg_hourly_dew_point','avg_dew_point','max_pressure_sea', 'avg_hourly_pressure_sea', 'avg_pressure_sea',
       'min_pressure_sea', 'max_pressure_station',
       'avg_hourly_pressure_station', 'avg_pressure_station',
       'min_pressure_station','growdegdays_5', 'growdegdays_7', 'growdegdays_10'])


In [None]:
#Séparer les données en majoritaire et minoritaire de It's raining et It's snowing.
base_donnees_majoriatire_pluie = base_donnees[base_donnees["It's raining"]==0]
base_donnees_minoritaire_pluie = base_donnees[base_donnees["It's raining"]==1]

base_donnees_majoriatire_neige = base_donnees[base_donnees["It's snowing"]==0]
base_donnees_minoritaire_neige = base_donnees[base_donnees["It's snowing"]==1]


In [None]:
print(base_donnees_majoriatire_pluie.shape)
print(base_donnees_minoritaire_pluie.shape)
print(base_donnees_majoriatire_neige.shape)
print(base_donnees_minoritaire_neige.shape)


In [None]:
#On égalise le nombre de données minoritaire a nos données majoritaire.

base_donnees_majoritaire_pluie_diminuee = resample(base_donnees_majoriatire_pluie,replace=False,n_samples=len(base_donnees_minoritaire_pluie),random_state=42)
base_donnees_majoritaire_neige_diminuee = resample(base_donnees_majoriatire_neige,replace=False,n_samples=len(base_donnees_minoritaire_neige),random_state=42)


In [None]:
base_donnees_diminuee_pluie = pd.concat([base_donnees_majoritaire_pluie_diminuee,base_donnees_minoritaire_pluie])
base_donnees_diminuee_neige = pd.concat([base_donnees_majoritaire_neige_diminuee,base_donnees_minoritaire_neige])
base_donnees_diminuee_neige.shape


In [None]:
#Mélanger mes données pour pas que mon modèle n'ai pas d'ordre en mémoire.
base_donnees_diminuee_pluie = base_donnees_diminuee_pluie.sample(frac=1,random_state=42).reset_index(drop=True)
base_donnees_diminuee_neige = base_donnees_diminuee_neige.sample(frac=1,random_state=42).reset_index(drop=True)
base_donnees_diminuee_pluie.head()

In [None]:
base_donnees_diminuee_pluie["It's raining"].value_counts()
base_donnees_diminuee_neige["It's snowing"].value_counts()


Création données de test et données pour l'entrainement

In [None]:
X_pluie = base_donnees_diminuee_pluie.drop(columns="It's raining")
y_pluie = base_donnees_diminuee_pluie["It's raining"]
print(X_pluie.shape[1])
print(y_pluie.shape[0])

X_neige = base_donnees_diminuee_neige.drop(columns="It's snowing")
y_neige = base_donnees_diminuee_neige["It's snowing"]

In [None]:
#Séparer les bases de données d'entrainement et de test
X_train_pluie,X_test_pluie,y_train_pluie,y_test_pluie = train_test_split(X_pluie,y_pluie,test_size=0.2,random_state=42)

X_train_neige,X_test_neige,y_train_neige,y_test_neige = train_test_split(X_neige,y_neige,test_size=0.2, random_state=42)


***Entrainement du model de predicteur***


In [None]:
#Création de mon model et entrainement du model.
rf_model = RandomForestClassifier(random_state=42)
param_grid_rf = {"n_estimators":[100,200],
                 "max_features":["sqrt"],
                 "max_depth":[None,10],
                 "min_samples_split":[2,5]
                 }



In [None]:
#Renforcement du model d'entrainement
grid_search_rf = GridSearchCV(estimator=rf_model, param_grid=param_grid_rf, cv=5, n_jobs=-1,verbose=2)
grid_search_rf.fit(X_train_pluie,y_train_pluie)
grid_search_rf.fit(X_train_neige,y_train_neige)

***Nouveau model condensée Grid+RandomForest***

In [None]:
meilleur_model_rf = grid_search_rf.best_estimator_
print("Meilleur parametres du model Random Forest : ",grid_search_rf.best_params_)


Évaluation du model

In [None]:
cv_score_pluie = cross_val_score(meilleur_model_rf,X_pluie,y_pluie,cv=5)
cv_score_neige = cross_val_score(meilleur_model_rf,X_neige,y_neige,cv=5)
print("Score pluie : ",np.mean(cv_score_pluie))
print("means score pluie : ", np.mean(cv_score_pluie))
print("Score neige : ",cv_score_neige)
print("means score neige : ", np.mean(cv_score_neige))

Test pour voir la véracité du model

In [None]:
y_pred = None
if choix_predicteur == "S":
   y_pred  = meilleur_model_rf.predict(X_test_pluie)
   print("Test de la vérocité des données pluie : ",accuracy_score(y_test_pluie,y_pred))
   print("Test des confusions dans la matrix pluie : \n ",confusion_matrix(y_test_pluie,y_pred))
   print("Test probleme de classification : \n",classification_report(y_test_pluie,y_pred))
elif choix_predicteur == "N":
    y_pred = meilleur_model_rf.predict(X_test_neige)
    print("Test de la vérocité des données neige : ",accuracy_score(y_test_neige,y_pred))
    print("Test des confusions dans la matrix neige : \n ",confusion_matrix(y_test_neige,y_pred))
    print("Test probleme de classification : \n",classification_report(y_test_neige,y_pred))


else:
    print("Erreur dans la prédiction")


In [None]:
input_data = []