In [24]:
# autoreload reloads modules automatically before entering the execution of code typed at the IPython prompt.
%reload_ext autoreload
%autoreload 2
%aimport feature_preprocessing_pipeline
%aimport build_model_by_brand
%aimport build_model
%aimport build_model_for_merged_data
%aimport prepare_data
%aimport bs_lib.bs_preprocess_lib
%aimport constants

In [75]:
from sklearn import set_config
from os import system
from os.path import join, isfile
from joblib import dump, load
from feature_preprocessing_pipeline import categorize, extract_features, clean_variables
from sklearn import tree
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
from sklearn import tree
from sklearn.metrics import make_scorer, mean_squared_error
from build_model_by_brand import evaluate_all_models,evaluate_all_refitted_models, get_set_split,get_best_estimators_params
from build_model import get_one_model_for_all_iterative,evaluate_prediction, get_model
import build_model_for_merged_data as bmmd #import evaluate_model,get_best_estimator
from prepare_data import load_prepared_file
from bs_lib.bs_preprocess_lib import plot_validation_curve,get_learning_curve,plot_learning_curve
import constants as cnst
#from dtreeviz.trees import dtreeviz

In [81]:

from IPython.core.display import display, HTML 
from sklearn.utils import estimator_html_repr 
set_config(display='diagram') 

In [4]:
dataset_directory_path = 'dataset/'
model_directory_path = 'model/'

In [57]:
model_name = 'mercedes_optimize_rmse_2427'
model_filename = f'{model_name}.joblib'
model_path = join(cnst.MODEL_DIR_PATH, model_filename)
model = load(model_path)

In [82]:
X_test = pd.read_csv(join(dataset_directory_path, 'X_test.csv'), index_col=0)
y_test = pd.read_csv(join(dataset_directory_path, 'y_test.csv'), index_col=0)

## Description du model 

### Variables

In [78]:
rfr = model[2]
print(f"Le model {rfr} a {rfr.n_features_in_} variables")

Le model RandomForestRegressor(max_depth=50, max_features=None, min_samples_split=6,
                      n_estimators=10, n_jobs=-1, verbose=False) a 57 variables


### Durée d'entraînement

In [64]:
print(f"Test set:\n X {X_test.shape} y {y_test.shape}")


Test set:
 X (7824, 9) y (7824, 1)


<center><img src="./assets/one_model_by_brand_overview.svg"/></center>

### Traitement des fichiers sources
<center><img src="./assets/file_processing.svg"/></center>

### Préparation des données

<center><img src="./assets/prepare_data.svg"/></center>

#### Suppression ou Imputation des *anomalies*

<center><img src="./assets/outliers.svg"/></center>

### Séparation des données

<center><img src="./assets/split_data.svg"/></center>

### Création du Modèle

<center><img src="./assets/build_model.svg"/></center>

#### Extract Features

Création de nouvelles variables:
1. `age`: $max(year)-year$
1. `model_count`: nombre d'occurence du modèle dans le dataset
1. `occurence_relative`: $\frac{count(model)}{count(allmodel)}$
1. `mileage_per_year`: $\frac{mileage}{age}$
1. `mpg_per_year`: $\frac{mpg}{age}$
1. `tax_per_year`: $\frac{tax}{age}$
1. `engine_size_per_year`: $\frac{enginesize}{age}$
1. `esoteric_composite_ratio`

Suivant la marque de voiture et/ou le modèle de prédiction créé, certaines améliorent le score de prédictions.

#### Transform Features
1. `PolynomialFeature` pour les variables numériques.
1. `KBinsDiscretizer` pour les variables `mpg`, `tax`, `engine_size`, `year`.
1. `OneHotEncoder` ou `OrdinalEncoder` pour les variables `model`, `brand`, `transmission`, `fuel_type`. 

Pour l'`OrdinalEncoder`, les catégories ont été triées relativement à la variable dépendante `price` par **ordre ascendant**.


#### Échelle discrète

##### MPG

<center><img src="./assets/mpg_histplot.png"/></center>

##### Tax

<center><img src="./assets/tax_vs_price_relation_plot.png"/></center>

##### Engine Size

<center><img src="./assets/engine_size_histplot.png"/></center>

### Pipeline

<center><img src="./assets/pipeline.svg"/></center>

### Valeurs des paramètres du pipeline

<center><img src="./assets/best_params_search.svg"/></center>

## Recherche de Modèles

1. Un modèle par marque
1. Un modèle pour toutes les marques
1. Un modèle incrémental pour toutes les marques

### Couches d'optimisation du modèle

<center><img src="./assets/optimization.svg"/></center>

### Par marques

Création d'un modèle par marques

#### Évaluation du modèle de base

In [89]:
evaluate_all_models(search_term='base-model',exclude=['base_score','all_brand'])

#### Optimisation des transformations

In [57]:
evaluate_all_models(search_term='optimize', exclude=['rmse'])

#### Optimisation de l'estimateur

In [91]:
# Modèle avec pipeline et estimateur optimisé
#get_best_estimators_params(search_term='optimize_rmse', exclude_term=['estimator'], verbose=True)
evaluate_all_models(search_term='estimator',exclude=['all_brand'])

#### Optimisation des transformations (avec permutation)

In [92]:
evaluate_all_models(search_term='perm', exclude=[])

In [94]:
#get_best_estimators_params(search_term='perm', exclude_term=[],prefix='perm', verbose=True)
evaluate_all_models(search_term='perm-estimator', exclude=[])

#### Refit?

In [61]:
# load performance
evaluate_all_refitted_models(base_model_search_term='model', 
                             params_search_term='rmse',
                             model_exclude=['base_score_model.joblib','all_brand'],
                             params_exclude=[])
# Refit toyota_model.joblib using toyota.csv with parameters from toyota_optimize_rmse_919.json

#### Essais de prédictions

In [95]:
brand = 'opel'
model_name = 'opel_perm-estimator_707'
model_filename = f'{model_name}.joblib'
model_path = join(cnst.MODEL_DIR_PATH, model_filename)
model = load(model_path)
filename = f"{brand}.csv"
df = load_prepared_file(filename=filename)
X_train, X_val, X_test, y_train, y_val, y_test = get_set_split(df, target='price')
evaluate_prediction(model, X_test, y_test,sample=10,add_columns=['model','transmission','fuel_type'])

RMSE: 1030.7270273679117


#### Courbe d'apprentissage

In [None]:

from sklearn.model_selection import StratifiedKFold
mse = make_scorer(mean_squared_error, greater_is_better=False)
skf = StratifiedKFold(n_splits=5,random_state=1, shuffle=True)
plot_learning_curve(model, 'opel', X_train, y_train, axes=None, ylim=None, cv=sk,
                        n_jobs=2, train_sizes=np.linspace(.1, 1.0, 10), show=True,savefig=False)

Le premier graphique montre les courbes d'apprentissage pour l'entraînement et la validation.

Le deuxième graphique montre la durée d'entraînement du modèle relativement à la taille des données d'entraînement. 

Le troisième graphique montre les scores obtenus relativement au temps d'entraînement du modèle.

#### Nombre de variables

In [97]:
rfr = model[2]
print(f"Le model {rfr} a {rfr.n_features_in_} variables")

Le model RandomForestRegressor(max_depth=50, max_features=None, min_samples_split=6,
                      n_estimators=10, n_jobs=-1, verbose=False) a 131 variables


### Toutes marques

1. fusion des données en une seule source de données

In [62]:
bmmd.evaluate_model(model_filename='all_brands.joblib', data_filename='all_brands.csv',verbose=False)

Loading all_brands.joblib


In [14]:
bmmd.get_best_estimator(model_filename='all_brands.joblib', data_filename='all_brands.csv',verbose=False)

Loading all_brands.joblib
Model all_brands_estimator_optimized_rmse_2096 saved @ ./model/all_brands_estimator_optimized_rmse_2096.joblib


In [63]:
bmmd.evaluate_model(model_filename='all_brands_estimator_optimized_rmse_2096.joblib',data_filename='all_brands.csv',verbose=False)

Loading all_brands_estimator_optimized_rmse_2096.joblib


In [84]:
model = bmmd.get_model(model_filename='all_brands.joblib', data_filename='all_brands.csv',verbose=False)
df = bmmd.get_data('all_brands.csv')
X_train, X_val, X_test, y_train, y_val, y_test = bmmd.get_split_sets(df)
evaluate_prediction(model, X_test, y_test,sample=10,add_columns=['brand','model','transmission','fuel_type'])

Loading all_brands.joblib
RMSE: 3398.386598062283


### Entraînement Incrémental

Le model est entrainé sur chaque jeu de données en conservant les arbres précédemment créés.

In [73]:
iterative_model = get_one_model_for_all_iterative(model_to_dump=True, evaluation=True, verbose=False)

In [74]:
bmmd.get_best_estimator(model_filename='all_brand_model_6930.0.joblib', data_filename='all_brands.csv',verbose=False)

Loading all_brand_model_6930.0.joblib
Model all_brand_model_6930_estimator_optimized_rmse_1642 saved @ ./model/all_brand_model_6930_estimator_optimized_rmse_1642.joblib


In [76]:
iterative_model = get_model(model_path_to_load='./model/all_brand_model_6930_estimator_optimized_rmse_1642.joblib')
df = bmmd.get_data('all_brands.csv')
X_train, X_val, X_test, y_train, y_val, y_test = bmmd.get_split_sets(df)

In [81]:
bmmd.evaluate_model(model_filename='all_brand_model_6930_estimator_optimized_rmse_1642.joblib', data_filename='all_brands.csv',verbose=False)

Loading all_brand_model_6930_estimator_optimized_rmse_1642.joblib


In [83]:
evaluate_prediction(iterative_model, X_test, y_test,sample=10,add_columns=['brand','model','transmission','fuel_type'])

RMSE: 2712.2443298190624
