In [4]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.ensemble import RandomForestRegressor
from xgboost import XGBRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
import warnings
import os

# Ignorer les avertissements FutureWarning
warnings.filterwarnings("ignore", category=FutureWarning)

# Charger les données nettoyées
data = pd.read_csv('../data/data_processed/cleaned_quebec_house_price.csv')

# Prétraitement : Encodage des variables catégoriques et gestion des valeurs infinies
non_numeric_cols = data.select_dtypes(include=['object']).columns
data = pd.get_dummies(data, columns=non_numeric_cols, drop_first=True)

data.replace([float('inf'), float('-inf')], pd.NA, inplace=True)
data.dropna(inplace=True)

# Division des données en variables explicatives et cible
X = data.drop('prix', axis=1)
y = data['prix']

# Division des données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Définir les modèles et les hyperparamètres
models = {
    'Linear Regression': LinearRegression(),
    'Random Forest': RandomForestRegressor(random_state=42),
    'XGBoost': XGBRegressor(objective='reg:squarederror', random_state=42)
}

param_grids = {
    'Random Forest': {'n_estimators': [100, 300], 'max_depth': [5, 10, 15]},
    'XGBoost': {'n_estimators': [100, 300], 'learning_rate': [0.1, 0.2], 'max_depth': [3, 5]}
}

# Entraînement et évaluation des modèles
best_models = {}
results = {}
output_dir = '../reports/figures/'
os.makedirs(output_dir, exist_ok=True)

for name, model in models.items():
    if name in param_grids:
        grid_search = GridSearchCV(model, param_grids[name], cv=5, scoring='r2', n_jobs=-1, verbose=2)
        grid_search.fit(X_train, y_train)
        best_models[name] = grid_search.best_estimator_
        model = grid_search.best_estimator_
    else:
        model.fit(X_train, y_train)
        best_models[name] = model
    
    y_pred = model.predict(X_test)
    mae = mean_absolute_error(y_test, y_pred)
    mse = mean_squared_error(y_test, y_pred)
    rmse = mean_squared_error(y_test, y_pred, squared=False)
    r2 = r2_score(y_test, y_pred)
    results[name] = {'MAE': mae, 'MSE': mse, 'RMSE': rmse, 'R²': r2}
    
    # Visualisation des résultats
    plt.figure(figsize=(10, 6))
    sns.scatterplot(x=y_test, y=y_pred, alpha=0.5)
    plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], '--r', linewidth=2)
    plt.title(f'{name} : Prédictions vs Valeurs Réelles')
    plt.xlabel('Valeurs Réelles')
    plt.ylabel('Prédictions')
    plt.grid(True)
    plt.savefig(f'{output_dir}{name}_predictions_vs_actual.png')
    plt.close()

# Importance des caractéristiques pour Random Forest et XGBoost
for model_name in ['Random Forest', 'XGBoost']:
    feature_importance = pd.Series(best_models[model_name].feature_importances_, index=X.columns)
    plt.figure(figsize=(10, 6))
    feature_importance.nlargest(10).sort_values().plot(kind='barh', color='teal')
    plt.title(f'{model_name} : Importance des Caractéristiques')
    plt.xlabel('Score')
    plt.savefig(f'{output_dir}{model_name}_feature_importance.png')
    plt.close()

# Générer un rapport final
report = f"""
# Rapport Final : Analyse du Marché Immobilier au Québec

## Introduction

Ce projet vise à analyser le marché immobilier au Québec en identifiant les facteurs clés influençant les prix des propriétés et en construisant des modèles prédictifs précis.

## Analyse Exploratoire des Données

### Matrice de Corrélation
![Matrice de Corrélation](../reports/figures/matrice_correlation.png)

**Interprétation :** 
- La matrice de corrélation montre une relation modérée positive (0.38) entre la **surface habitable** et le **prix**. Cela indique que les propriétés avec des surfaces habitables plus grandes ont tendance à être plus chères.
- Les **taxes municipales** (corrélation de 0.22) influencent également les prix des propriétés, bien que cet effet soit moins prononcé. Cela peut être lié au fait que des propriétés de grande valeur sont souvent situées dans des zones avec des infrastructures et des services coûteux.
- Une corrélation faible entre le **nombre de chambres** (0.26) et le **prix** montre que cette caractéristique n'est pas toujours déterminante, probablement en raison d'autres facteurs comme l'emplacement et la surface totale.

Ces relations mettent en évidence les variables clés à prendre en compte lors de la modélisation prédictive.

### Distribution des Prix
![Distribution des Prix](../reports/figures/distribution_prix_corrected.png)

**Interprétation :**  
- La distribution des prix est asymétrique avec une longue queue à droite, reflétant la présence de quelques propriétés de luxe extrêmement coûteuses.
- La majorité des propriétés ont des prix situés entre 100 000 $ et 500 000 $, ce qui représente des maisons accessibles à la plupart des acheteurs.

Cette asymétrie indique un marché dominé par des biens résidentiels abordables, avec un segment de niche pour les propriétés haut de gamme.

### Relation Surface Habitable vs Prix
![Relation Surface Habitable vs Prix](../reports/figures/relation_surface_prix_corrected.png)

**Interprétation :**  
- Une relation linéaire positive est clairement visible entre la **surface habitable** et le **prix**. Les propriétés avec des surfaces plus grandes tendent à afficher des prix plus élevés.
- Cependant, la variabilité pour des tailles similaires montre que d'autres facteurs, comme l'emplacement, jouent un rôle important dans la détermination des prix.

Cette relation confirme que la **surface habitable** est un facteur clé influençant les prix et justifie son inclusion dans les modèles prédictifs.

### Boxplot des Prix par Région
![Boxplot des Prix par Région](../reports/figures/prix_par_region_corrected.png)

**Interprétation :**  
- Les régions métropolitaines comme **Montréal** et **Laval** affichent des prix médians significativement plus élevés, reflétant une forte demande et une densité urbaine.
- En revanche, des régions comme **Abitibi-Témiscamingue** et **Bas-Saint-Laurent** présentent des prix médians beaucoup plus bas, souvent liés à leur caractère rural et à une demande plus faible.
- La large dispersion des prix dans certaines régions indique une diversité des propriétés en termes de taille, d'emplacement et de type.

Ces disparités régionales sont essentielles pour orienter des politiques adaptées à chaque zone géographique.

## Modélisation

Nous avons testé plusieurs modèles, notamment la Régression Linéaire,Random Forest et XGBoost.

### Résultats des Modèles

| Modèle               | MAE           | MSE            | RMSE          | R²              |
|----------------------|---------------|----------------|---------------|-----------------|
"""

for name, metrics in results.items():
    report += f"| {name} | {metrics['MAE']:.2f} | {metrics['MSE']:.2f} | {metrics['RMSE']:.2f} | {metrics['R²']:.4f} |\n"

report += f"""
### Meilleur Modèle : XGBoost

- **MAE** : {results['XGBoost']['MAE']:.2f}
- **MSE** : {results['XGBoost']['MSE']:.2f}
- **RMSE** : {results['XGBoost']['RMSE']:.2f}
- **R²** : {results['XGBoost']['R²']:.4f}

**Interprétation :**  
- Le modèle XGBoost est le plus performant parmi les modèles testés, avec les meilleures métriques :
  - **MAE (Erreur Absolue Moyenne)** : {results['XGBoost']['MAE']:.2f}, indiquant une faible erreur moyenne entre les prédictions et les valeurs réelles.
  - **R² (Coefficient de Détermination)** : {results['XGBoost']['R²']:.4f}, montrant que le modèle explique une grande part de la variance des prix.

Ces performances démontrent que XGBoost capture efficacement les relations complexes entre les variables explicatives et le prix.

### Importance des Caractéristiques
![Random Forest Feature Importance](../reports/figures/Random Forest_feature_importance.png)
![XGBoost Feature Importance](../reports/figures/XGBoost_feature_importance.png)

**Interprétation :**  
- Les deux modèles, Random Forest et XGBoost, identifient la **surface habitable** comme la variable la plus importante, suivie des **taxes municipales** et de la **région**.
- Les résultats mettent en évidence que l'emplacement et les caractéristiques financières sont des déterminants majeurs des prix.

Ces informations peuvent guider les décideurs pour cibler les politiques sur ces variables.

## Conclusion

Le modèle **XGBoost** a montré les meilleures performances pour prédire les prix des propriétés, avec un **R²** élevé de {results['XGBoost']['R²']:.4f}. Les analyses confirment que la surface habitable, les taxes municipales et la localisation régionale sont des facteurs déterminants des prix.

### Recommandations
1. **Pour les décideurs politiques** :
   - Encourager des politiques pour augmenter l'offre de propriétés abordables, en particulier dans les régions métropolitaines.
   - Réviser les taxes municipales dans les zones où elles influencent fortement les prix pour rendre le logement plus accessible.

2. **Pour les urbanistes** :
   - Prioriser des projets de logements de tailles modérées, qui répondent à la majorité des besoins du marché.
   - Développer des infrastructures dans les régions moins coûteuses pour équilibrer la demande.

3. **Pour les acteurs du marché immobilier** :
   - Mettre en avant la surface habitable et les caractéristiques régionales dans les campagnes marketing.
   - Identifier les niches de marché dans les régions avec une forte variabilité des prix.

Les résultats obtenus offrent des bases solides pour orienter les décisions stratégiques dans le secteur immobilier au Québec.
""" 

# Sauvegarder le rapport
with open('../reports/final_report.md', 'w', encoding='utf-8') as f:
    f.write(report)

print("Rapport final généré et sauvegardé dans ../reports/final_report.md")


Fitting 5 folds for each of 6 candidates, totalling 30 fits
Fitting 5 folds for each of 8 candidates, totalling 40 fits
Rapport final généré et sauvegardé dans ../reports/final_report.md
