### Synthèse de la pré-étude de 4 modèles de Régression appliqués au Projet GouvImmo ======

#### Introduction :

Ce notebook à pour but de produire une première synthèse des résultats obtenus par l'application de 4 modèles de Régression différents dans le cadre du Projet fil rouge "GouvImmo" chez Datascientest.
Seront étudiés successivement les modèles, Regression Linéaire Multiple, Lasso, Ridge et ElasticNeT.

Le but du modèle de régression est de déterminer la variable cible "Valeur foncière".

#### Jeu de données :

Le dataframe comporte les données de ventes immobilières de la région Ile de France, de 2019 à 2021. Il comporte des variables relatives à la localisation du bien, au type de bien vendu, à sa valeur et à ses carractéristiques (surface, nombre de pièces, nombre de dépendances, ...).

Une vente est appellée "mutation", et est identifiée par un numéro unique "id_mutation". Chaque mutation comporte au moins un "bien primaire", c'est à dire une maison, un appartement ou un terrain à bâtir. Une mutation peut également comporter un ou plusieurs biens secondaires, c'est à dire 1 à 2 "terrain autre" (aussi appelé "terrain secondaire") et / ou 1 à 2 dépendances.

Les données utilisées en entrée de cette étape ont été visualisées et traitées dans le notebook nommé gouvimmo_project_part3 (DataViz) et sauvegardées dans un fichier csv nommé IDF_2019_to_2021_v3.csv

#### Objectifs de l'étape :

Cette étape a pour but de tester, relativement simplement dans un premier temps, 4 modèles de régression et 
différentes pistes d'améliorations des résultats, afin d'être en mesure de poursuivre l'étape suivante du
projet avec les meilleures options possibles.

#### Regression Linéaire Multiple ======================

Le notebook relatif à cette étude se nomme : gouvimmo_project_part4_LinearRegression.ipynb

#### Synthèse et conclusions =========================

Bien que les variables prix au m2 aient été conservées dans cette première analyse, les résultats obtenus
par régression linéaire ne sont pas très encourageants (Score R2 : 0,81). Avec les mêmes hypothèses de départ,
les 3 autres modèles de régression font mieux (Score R2 : 0,99). Nous ne poursuivrons pas l'étape suivante
avec ce modèle.

#### Regression Lasso ==============================

Le notebook relatif à cette étude se nomme : gouvimmo_project_part4_Lasso.ipynb

#### Synthèse et conclusions =========================

Le modèles lasso montre des résultats correctes mais encore insuffisants. Le modèle n'arrive pas à traiter 
correctement les variables de localisation en l'état. La dichotomisation des codes départements et 
le pré-traitement polynomial se sont montrés efficaces pour améliorer les performances du modèle.

La prochaine étape consistera à trouver une méthode efficace pour traiter les variables de localisation 
avant d'entrainer le modèle. Une piste consisterait à dichotomiser les codes commune, et 
d'apliquer des méthodes de réduction de dimentions comme l'ACP pour réduire la taille du dataset 
après dichotomisation.

Par la suite, nous chercherons à optimiser les hyperparamètres de notre modèle grâce à GridSearchCV ou 
en utilisant le modèle LassoCV.

#### Regression Ridge ==============================

Le notebook relatif à cette étude se nomme : gouvimmo_project_part4_Ridge.ipynb

#### Synthèse et conclusions =========================

les 7 premières itérations menées ont permis de faire progresser le score de 0,43 à 0,80. La MAE reste toujours importante.
On voit ici l'importance de la standardisation avant l'application de tout autre type d'algorithme.
La normalisation polynomiale et l'encodage ont permis de faire progresser le score.
L'étude détaillée des résultats nous montre que le modèle n'est pas encore suffisamment performant.
Le découpage du DataSet en fonction du type de bien permet également une légère amélioration du score (0,828).
Enfin, l'encodage de 3 variables de localisation associé à une réduction de dimension et la sélection d'un type de bien ont permis d'obtenir le meilleur résultat (0,839).

Pour aller encore plus loin avec le modèle Ridge, il faudrait tester d'autres features selections ou réductions de dimension afin de profiter pleinement de l'encodage des variables de localisation sans trop dégrader le modèle.
L'objectif est toujours de s'appuyer sur ces données afin de remplacer le prix au m2, base essentielle de l'évaluation de la valeur foncière.
Il faudra probablement enterriner le fait d'organiser la solution autour de 3 Datasets et 3 Modèles (1 par type de bien)

#### Regression ElasticNet ===========================

Le notebook relatif à cette étude se nomme : gouvimmo_project_part4_ElasticNet.ipynb

#### Synthèse et conclusions =========================

un score de

train_set Score : 0.7386784400463458
test_set Score : 0.7422812345460255

est obtenu.

L'application de model ElasticNet sur nos données a pemis d'avoir un score aux alentour 74 % avec un leger overfiting entre train_set et test_set

le RMSE

RSME train_set : 148486.1487509462
RMSE test_set : 146287.34129065787

une première modélisation permet d'avoir des résultats acceptables mais en dessous de l'objectif.

les données de localisation disponibles ne sont pas encore directement utilisables, la prochaine étape consistera à construire des représentations ou des transformations des données de localisation d'origine.

L'application des connaissances de domaine supplémentaires aux informations brutes afin de les structurer d'une manière significative pour notre modèle, en partant sur le principe que les choses qui sont proches les unes des autres sont souvent liées

#### Synthèse et conclusions générales ===============

Compte tenu des résultats obtenus lors de cette première étape de pré-évaluation de la performance des 4 modèles de régression ciblés, nous poursuivrons l'étude sans :
la Régression Linéaire (scores plus faibles que les autres modèles même avec les prix au m2), 
ElasticNet (de base moins bien placé que Lasso),
Ridge ( poussé un peu plus loin il semble déjà atteindre ses limites)
Pour l’itération suivante, nous croiserons les différentes pistes déjà testées, plus de nouvelles (ACP, …) avec le modèle de régression Lasso, qui sur la base des premiers tests semble être le plus prometteur.