# DEMO

## Import librairies

In [8]:
import os
import sys
import pandas as pd
import mlflow
from dotenv import load_dotenv
load_dotenv()
wd = os.getenv("working_directory")
sys.path.append(f'{wd}/src/fonctions')
from fonctions.fonctions_gen_dataframe import load_train_by_year, load_train_concat_year, load_predict_for_year
from fonctions.fonctions_mlflow_tracking import train_and_track_models, clear_experiment_runs
from fonctions.fonctions_mlflow_prediction import predict, get_experiment


## Generation des datasets

In [9]:
# Generation datasets de train par année. Dans le répertoire mlops_projet/data/train_data_year
load_train_by_year()
# Generation datasets concat pour année. de 1992 à 1993, de 1992 à 1994, ..., de 1992 à 2022. Dans le répertoire mlops_projet/data/train_concat_year
load_train_concat_year()
# Generation datasets pour les prédictions. 2021, 2022 et 2023. Dans le répertoire mlops_projet/data/predict_year
years = [2021, 2022, 2023]
load_predict_for_year(years)

## Entraînement des modeles et Tracking grâce à MLFLOW

In [10]:
# L'exécution de cette fonction prend du temps (15/20 minutes). L'entiereté des modèles sont deja dans le répertoire mlops_projet/src/fonctions/mlruns

# Le serveur Mlflow peut être executé sans lancer ces commandes python car les modèles sont deja chargés dans mlruns

#Si vous lancez les commandes, les runs précedents seront supprimés et il faudra attendre la fin de l'execution pour consulter les modèles sur l'application MLFLOW

mlruns_path = f"{wd}/src/fonctions/mlruns"
experiment_id = get_experiment()
clear_experiment_runs(experiment_id, mlruns_path)
train_and_track_models()

DKHousing_1992_2020




RFR_DKHousing_1992_2020 
 GridSearchCV(cv=4, estimator=RandomForestRegressor(random_state=42), n_jobs=6,
             param_grid={'bootstrap': [False],
                         'criterion': ['squared_error', 'friedman_mse'],
                         'max_depth': [20, 30], 'max_features': ['sqrt'],
                         'min_samples_split': [3, 4, 5],
                         'n_estimators': [200]},
             scoring='r2') 
 {'bootstrap': False, 'ccp_alpha': 0.0, 'criterion': 'friedman_mse', 'max_depth': 20, 'max_features': 'sqrt', 'max_leaf_nodes': None, 'max_samples': None, 'min_impurity_decrease': 0.0, 'min_samples_leaf': 1, 'min_samples_split': 5, 'min_weight_fraction_leaf': 0.0, 'monotonic_cst': None, 'n_estimators': 200, 'n_jobs': None, 'oob_score': False, 'random_state': 42, 'verbose': 0, 'warm_start': False} 
 {'R2': 0.47234773432133814, 'RMSE': 1238139.4034899913, 'MAE': 684416.0287101041, 'MAPE': 56.071405000143606}
Run ID: 5e69da3f8673417d9707dd2e5f7fb3e7
DKHousing_1992



RFR_DKHousing_1992_2021 
 GridSearchCV(cv=4, estimator=RandomForestRegressor(random_state=42), n_jobs=6,
             param_grid={'bootstrap': [False],
                         'criterion': ['squared_error', 'friedman_mse'],
                         'max_depth': [20, 30], 'max_features': ['sqrt'],
                         'min_samples_split': [3, 4, 5],
                         'n_estimators': [200]},
             scoring='r2') 
 {'bootstrap': False, 'ccp_alpha': 0.0, 'criterion': 'friedman_mse', 'max_depth': 20, 'max_features': 'sqrt', 'max_leaf_nodes': None, 'max_samples': None, 'min_impurity_decrease': 0.0, 'min_samples_leaf': 1, 'min_samples_split': 5, 'min_weight_fraction_leaf': 0.0, 'monotonic_cst': None, 'n_estimators': 200, 'n_jobs': None, 'oob_score': False, 'random_state': 42, 'verbose': 0, 'warm_start': False} 
 {'R2': 0.5116782248113787, 'RMSE': 1222681.6544049443, 'MAE': 694339.5235395661, 'MAPE': 54.488822463328056}
Run ID: a9eacd6f3659411aa1f57e4e7548265d
DKHousing_1992_



RFR_DKHousing_1992_2022 
 GridSearchCV(cv=4, estimator=RandomForestRegressor(random_state=42), n_jobs=6,
             param_grid={'bootstrap': [False],
                         'criterion': ['squared_error', 'friedman_mse'],
                         'max_depth': [20, 30], 'max_features': ['sqrt'],
                         'min_samples_split': [3, 4, 5],
                         'n_estimators': [200]},
             scoring='r2') 
 {'bootstrap': False, 'ccp_alpha': 0.0, 'criterion': 'squared_error', 'max_depth': 20, 'max_features': 'sqrt', 'max_leaf_nodes': None, 'max_samples': None, 'min_impurity_decrease': 0.0, 'min_samples_leaf': 1, 'min_samples_split': 5, 'min_weight_fraction_leaf': 0.0, 'monotonic_cst': None, 'n_estimators': 200, 'n_jobs': None, 'oob_score': False, 'random_state': 42, 'verbose': 0, 'warm_start': False} 
 {'R2': 0.5198119313647839, 'RMSE': 1217863.6282995918, 'MAE': 706788.4248720035, 'MAPE': 55.07642766510492}
Run ID: ae56381ba24246cb85551f458c74aca4


### Lancement du Serveur MLFLOW pour consulter les modèles

Exécuter le script launch_server.sh.

Si l'utilisateur ne peut pas lancer le script bash car sur windows par exemple: 

executer la commande suivante "mlflow server --host localhost --port 5000 --backend-store-uri file:<absolute/path/to/mlops_projet>/src/fonctions/mlruns"


## Predictions

In [11]:
# Prédictions sur les données .parquet des années 2021, 2022 et 2023. La prediction de 2021 se fait avec le modele de 2020
# Chargement des dataframes de prediction dans le repertoire mlops_projet/data/prediction_year

for year in [2021, 2022, 2023]:
        predict(year)

Modèle (Run ID: 5e69da3f8673417d9707dd2e5f7fb3e7) chargé avec succès !
    house_type    sales_type  year_build  no_rooms    sqm                area   region  nom_interest_rate%  dk_ann_infl_rate%  yield_on_mortgage_credit_bonds%  Mois   Annee Quarter  Anciennete  Prediction_2021
0        Villa  regular_sale      2022.0       7.0  197.0       South jutland  Jutland                 0.0               1.85                             1.47  12.0  2021.0      Q4        -1.0     1.216001e+06
1         Farm   family_sale      1984.0      10.0  339.0       Other islands  Zealand                 0.0               1.85                             1.47  12.0  2021.0      Q4        37.0     7.254849e+06
2        Villa  regular_sale      1971.0      10.0  215.0  East & mid jutland  Jutland                 0.0               1.85                             1.47  12.0  2021.0      Q4        50.0     3.120336e+06
3    Apartment   family_sale      1963.0       4.0   87.0       South jutland  Jutland   