# OpenClassrooms - Projet 8 - Analysez l'évolution des prix de l'immobilier avec Python
## Abstract :
      Client : Les plus beaux logis de Paris ;
      Secteur : Gestion immobilière sur Paris intra-murros ;
      Segments : Appartements et locaux commerciaux ;
      Objectif du client : Vendre une partie des actifs provenant du secteur le moins rentable afin de constituer une réserve de trésorerie.
      Notre Objectif :  
        Effectuer une analyse exploratoire des données de marché des années passées à partir de l’historique des transactions ;  
        Entraîner un modèle de prédiction régressif sur ce même jeu de données ;  
        Appliquer le modèle de prédiction sur le portefeuille des logements non valorisés, par segment ;  
        Conclure avec une réponse appropriée à l’objectif du client, basée sur les résultats de l’analyse exploratoire et de l’application du modèle.  
## Sommaire :
    1- Préparations du Notebook
      1. Introduction
      2. Importations
        2.1 Import du script
        2.2 Import des données dans un dataframe
      3. Amélioration de lecture
    2- Pré-processus des jeux de données
      1. Nettoyage des données (Data Cleaning)
        1.1 Analyse des Lignes/Cellules/Valeurs manquantes
        2.2
      2. Modification des types de données
      3. Modification de la variable temporelle
    3- Analyses Statistiques
      1. Analyse Descriptive
      2. Analyse Exploratoire
        1.2. Analyse uni/multivariée
      2. Analyse Inférentielle
        2.1. Etude des correlations
        2.2. Conclusion d'analyse
    4- Machine Learning
      1. Analyse prédictive Supervisée Régressive
        1.1.1. Entraînement des modèles
          1.1.1.1. Pré-processus des données
          1.1.1.2. Les différents modèles et leurs hyper-paramètres
          1.1.1.3. Résultats des modèles
          1.1.1.4. Conclusion sur les limites
        1.1.2. Prédiction de la variable de la valeur foncière dans le portefeuille
      2. Analyse Préscriptive
      3. Analyse prédictive Non-supervisée
        3.3.1. Pré-processus de l'échantillon
        3.3.2. Modèle de clustering
        3.3.3. Matrice de corrélation
        3.3.4. Conclusion sur les limites
## 1- Préparations du Notebook
### 1. Introduction :
      Cette partie concerne :
        L'importation du fichier script.py, contenant :
          Librairies importés et Fonctions employées :
            Regroupant une série de méthodes provenant de Pandas ;
            Créant des jeux de données filtrés ;
            Concernant l'emploi, l'erreur, et l'affichage des prédictions et leur résultats ;
        L'importation des données excel, que l'on va exploiter via la librairie "Panda" nommé "pd" ;
        L'amélioration de lecture des tableaux de données retournés.
### 2. Importations
#### 2.1 Import du script :
        Contenant les librairies permettant l'analyse, manipulation, calculs et prédictions de données, et de visualisation sur graphique d'une part ;  
        Et contenant l'ensemble des fonctions employées à l'avenir d'autre part ;

In [None]:
from Scripts.script import *

#### 2.2 Import des données dans un dataframe :
        Nous allons importer les données dans le notebook via la bibliothèque Panda, nommé "pd", et sa méthode "read_excel", afin d'exploiter les jeux de données.  

In [None]:
histo = pd.read_excel('docs/historique_immobilier_paris_2017_2021_vdef2.xlsx')
sample = pd.read_excel('docs/echantillon_a_classer.xlsx')
sample_soluce = pd.read_excel('docs/echantillon_a_classer_solution.xlsx')
wallet = pd.read_excel('docs/portefeuille_actifs.xlsx')

### 3. Amélioration de lecture :
        Via l'affichage des colonnes, selon la longueur des valeurs, et de tirets afin d'espacer certaines phrases sans rapport direct :

In [None]:
pd.set_option('display.width', None)
pd.set_option('display.max_columns', None)
pd.set_option('compute.use_bottleneck', False)
pd.set_option('compute.use_numexpr', False)
separe = '-'*75

## 1- Pré-processus des données

        Dans cette première partie, nous allons analyser le jeu de données que nous avons à notre disposition dans sa forme.  
        Notre objectif est de repérer, corriger et modifier, les variables, valeurs et types de données.
        Grâce à ce travail, nous pourrons traiter sous toute couture, chacune des analyses et prédictions, sans aucune conséquence d'altération.
### 1. Nettoyage des données (Data Cleaning)

In [None]:
dataframes = [
    (histo, 'Historique', ['date_mutation'], ['type_local', 'code_type_local']),
    (wallet, 'Portefeuille', None, None),
    (sample, 'Echantillon', ['valeur_fonciere'], None)
]

for df, name, columns, groupby in dataframes:
    get_table_info(df, name)
    analyze_dataframe(df, name, columns, groupby)
    print(separe)
    print(separe)

        Dans la table historique, se trouve deux catégories, les colonnes code_type_local, et type_local, classant les données en deux groupes distincts :
            2, semblant être associé à Appartement, et 4, semblant être associé à Local industriel. commercial ou assimilé.
        Par contre, il s'y trouve, 16 lignes dupliquées.
        Dans la table portefeuille, se trouve la même colonne code_type_local.
#### 1.1 Création de nouveaux jeu de données sans duplications :

In [None]:
tables = [('Historique', histo), ('Portefeuille', wallet)]
for name, table in tables:
    duplicates = table[table.duplicated(keep=False)].copy()
    if name == 'Historique':
        # Compter le nombre de lignes dupliquées pour chaque groupe
        duplicates['count_even_row'] = duplicates.groupby(duplicates.columns.tolist())['valeur_fonciere'].transform('count')
        # Grouper les lignes par valeur_fonciere et surface_reelle, et afficher la première ligne de chaque groupe
        display(duplicates.groupby(['valeur_fonciere', 'surface_reelle']).first())
        duplicates_mask = table.duplicated(keep='first')
        # Créer une nouvelle table sans les lignes dupliquées
        histo_clean = table[~duplicates_mask]
        histo_clean = histo_clean.reset_index(drop=True)
        # Afficher les lignes de la table sans doublons
        analyze_dataframe(histo_clean, name, ['date_mutation'], ['type_local', 'code_type_local'])
    elif name == 'Portefeuille':
        # Marquer les lignes dupliquées
        duplicates.loc[:, 'count_even_row'] = True
        # Afficher les lignes dupliquées
        display(duplicates)
        duplicates = duplicates.drop_duplicates(keep='first')
        # Supprimer les doublons de la dataframe wallet
        wallet_clean = table[~table.index.isin(duplicates.index)]
        wallet_clean = wallet_clean.reset_index(drop=True)
        analyze_dataframe(wallet_clean, name)

        Le nettoyage étant terminé, nous allons procéder à un pré-traitement des données.
        Mais vérifions les dates d'historiques de transactions :

### 2. Modification des types de données (Transformation des DataTypes)
        Affichage des types de données de chaque tables :

In [None]:
tables = [('Historique', histo_clean), ('Portefeuille', wallet_clean), ('Échantillon à classer', sample), ('Échantillon soluce', sample_soluce)]
for name, table in tables:
    display(name)
    display(table.info())
    print(separe)

        Dans chacun des jeux de données, beaucoups de types attribués sont trop puissant pour des données aussi imprécises.  
        La modification des types de données, permettront un allégement drastique du poids des jeux de données.

### 4. Analyse de la variable qualitative "Type de bien", avec la date
Regardons les différents types de biens immobiliers, leur clés associées que nous avons dans nos données, et ce, avec l'historique de transactions :

In [None]:
correspondance = histo_clean.groupby(['type_local', 'code_type_local']).size().reset_index(name='count').sort_values(by='count', ascending=False)
# Calculer le nombre total de transactions
total = correspondance['count'].agg('sum')
# Ajouter une ligne avec le nombre total de transactions
correspondance = pd.concat([correspondance, pd.DataFrame({'type_local': ['total'], 'code_type_local': [''], 'count': [total]})], ignore_index=True)
# Obtenir la date minimale et la date maximale de la colonne de dates
date_min = histo_clean['date_mutation'].min().strftime('%Y-%m-%d')
date_max = histo_clean['date_mutation'].max().strftime('%Y-%m-%d')
# Ajouter un titre au-dessus du tableau
correspondance = correspondance.style.set_caption(f"Le nombre de transactions du {date_min} au {date_max}:")
# Afficher le tableau
display(correspondance)

#### 2.1. Changement des Dtypes des trois datasets :

In [None]:
# Ajouter 'date_mutation' à votre dictionnaire de conversions
conversions = {
    'code_postal': 'category',
    'nom_commune': 'category',
    'surface_reelle': 'uint',
    'surface_reelle_bati': 'uint',
    'surface_carrez': 'float32',
    'code_commune': 'category',
    'nombre_pieces_principales': 'uint',
    'adresse_numero': 'uint',
    'adresse_nom_voie': 'category',
    'code_type_local': 'category',
    'type_local': 'category',
    'valeur_fonciere': 'float32',
    'longitude': 'float32',
    'latitude': 'float32',
}

dataframes = [
    (histo_clean, 'Historique'),
    (wallet_clean, 'Portefeuille'),
    (sample, 'Échantillon'),
    (sample_soluce, "Solution de l'échantillon")
]
# Convertir les colonnes
for df, name in dataframes:
    convert_columns_inplace(df, conversions)
    display(name)
    display(df.info())
    print(separe)

        Nous nous retrouvons donc avec des données correspondantes permettant aux jeux de données :  
            Un changement de type de données en cohérence avec les valeurs présentes :  
        Exemple: les catégories ;
            J'ai attribué le type de données "category", auprès des colonnes contenant un jeu de valeurs non distincts, permettant de trier les différents profils.
            type_local contient deux valeurs, différentes bien qu'elles soient des Strings(chaînes de caractères) à l'origine, elles font office de catégorie ;
            De même pour le code_type_local, dont ses valeurs sont des Integers(nombres entiers non relatifs) ;
            Ou encore le code_postal, et le nom_commune.  
        Avec un allègement du poids, passant donc :
            Historique : D'un poids de 1.8+ MBytes à 753.5 kBytes, soit près de 2.5 fois moins lourd ;
            Portefeuille : D'un poids de 25.9+ kBytes à 21.7 kBytes ;  
            Echantillon : D'un poids de 1.4+ kBytes à 764.0 Bytes, soit quasi 2 fois moins lourd ;
            Echantillon_soluce : D'un poids de 2.0+ kBytes à 1.1 kBytes, soit quasi 2 fois moins lourd ;
        Nous avons donc économisé sur un total de 1872.5 kB (1872.5 kB), 1.095 MB, soit près de 58.5% du poids de départ via la conversion de données.  

### 3. Modification des données (Data Transform/Normalize)

In [None]:
histo_m2 = histo_clean.copy()
histo_m2['prix_m2'] = (histo_m2.valeur_fonciere / histo_m2.surface_reelle).astype('float32')
histo_m2['year_mutation'] = histo_m2.date_mutation.dt.year
histo_m2['ordinal_mutation'] = histo_m2.date_mutation.apply(lambda date: np.uint32(date.toordinal()))
display(histo_m2.info())

In [None]:
prediction_date = dt.datetime(2022, 12, 31)
wallet_clean['year_mutation'] = prediction_date.year
wallet_clean['year_mutation'] = wallet_clean['year_mutation'].astype('uint32')
wallet_m2 = wallet_clean.rename(columns={"surface_reelle_bati": "surface_reelle"})
wallet_m2['ordinal_mutation'] = wallet_m2.year_mutation.apply(lambda year: dt.datetime(year, 1, 1).toordinal())

display(wallet_m2.info())


In [None]:
sample_pred = sample.copy()
sample_pred['prix_m2'] = (sample_pred.valeur_fonciere / sample_pred.surface_reelle).astype('float32')
display(sample_pred.info())

In [None]:
sample_soluce = sample_soluce.copy()
sample_soluce['prix_m2'] = (sample_soluce.valeur_fonciere / sample_soluce.surface_reelle).astype('float32')
display(sample_soluce.info())

### 4. Occurrence des jeux de données :

In [None]:
tables = [('Historique', histo), ('Portefeuille', wallet_clean), ('Échantillon', sample)]
for i, (name1, table1) in enumerate(tables):
    for name2, table2 in tables[i+1:]:
        occur = (table1.columns).intersection(table2.columns)
        print(f"Colonnes {name1} {name2} occurrentes:")
        print(occur)
        print(separe)

Nous nous retrouvons donc avec 4 colonnes communes que sont la valeur_foncière, le code_postal, le nom_commune, et la surface_reelle.  
Aucune valeur des deux datasets sont nulles.

### 5. Préparation des jeux de données filtrés :

In [None]:
filtered_apartments_and_commercial = request_analyze_graph(histo_m2, 'historique prix au m2', None, None, False)
formatted_values = ' et '.join(filtered_apartments_and_commercial.type_local.unique())
print(f"Les types de biens inclus dans ce jeu de données sont de types : {formatted_values}.")
# Voici le dataframe trié pour ne retourner que les appartements :
filtered_apartments = request_analyze_graph(histo_m2, 'historique prix au m2', {'type_local': 'Appartement'}, None, False)
formatted_values = ', '.join(filtered_apartments.type_local.unique())
print(f"Les types de biens inclus dans ce jeu de données sont de types : {formatted_values}.")
# Voici le dataframe trié pour ne retourner que les locaux commerciaux :
filtered_corpo = request_analyze_graph(histo_m2, 'historique prix au m2', {'type_local': 'Local industriel. commercial ou assimilé'}, None, False)
formatted_values = ', '.join(filtered_apartments.type_local.unique())
print(f"Les types de biens inclus dans ce jeu de données sont de types : {formatted_values}.")

## 2- Analyses Descriptive
        Maintenant nous allons analyser les données historiques pour les 2 différents types de biens immobiliers en essayant d'identifier les relations entre les variables.
### 1. Analyse Exploratoire
#### 1.1. L'évolution de la moyenne par année de la valeur foncière, du prix au mètre carré, et de la surface, de chaque type de bien :

In [None]:
# Créer une figure avec 3 subplots
fig = make_subplots(rows=3, cols=1, subplot_titles=('La valeur foncière', 'Le prix au m²', 'La surface'), vertical_spacing=0.1)

# Liste des colonnes à tracer
columns = ['valeur_fonciere', 'prix_m2', 'surface_reelle']
titles_y = ['Valeur foncière (en millions d\'euros)', 'Metre carré des biens', 'Surface moyenne des biens']

# Pour chaque colonne
for i, column in enumerate(columns):
    df = pd.DataFrame()
    # Pour chaque type de local
    for type_local in filtered_apartments_and_commercial['type_local'].unique():
        # Filtrer le DataFrame par type de local
        filtered_df = request_analyze_graph(filtered_apartments_and_commercial, None, {'type_local': type_local}, [column], True)
        temp_df = pd.DataFrame(filtered_df[column])
        temp_df['type_local'] = type_local
        df = pd.concat([df, temp_df])

    for type_local in df['type_local'].unique():
        fig.add_trace(
            go.Scatter(x=df[df['type_local'] == type_local].index, y=df[df['type_local'] == type_local][column], mode='lines', name=f'{type_local} {column}'),
            row=i+1,
            col=1
        )

    fig.update_yaxes(title_text=titles_y[i], row=i+1, col=1)

# Mettre à jour les axes et le titre
fig.update_layout(title_text="Evolution de la moyenne par année selon le type de bien de :", height=1200, width=1300)
fig.update_xaxes(title_text='Années de vente des biens', tickvals=filtered_apartments_and_commercial.index)

# Afficher le graphique
fig.show()

        Nous pouvons determiner que la valeur foncière des locaux commerciaux, est 2.5x plus élevé que celle des appartements.  
        Et cela peut s'expliquer, non seulement via un prix au mètre carré 1.5x plus élevé ;
        Et aussi via une surface 2x plus élevée.

        Cependant, nous pouvons noter qu'en 2019, au sujet de la surface, les locaux commerciaux étaient en décroissance sur l'année 2018-2019 ;
        Néanmoins, la croissance est bien plus importante au sujet du prix au mètre carré entre l'année 2017 et 2019 ;
        Enfin, à partir du courant de l'année 2019, la surface s'accroit de nouveau.
        Du fait d'une infime croissance du prix au mètre carré, la valeur foncière du bien s'offre une croissance absolument non négligeable.

        En contrepartie, du coté des appartements, la surface des biens proposés décroissait très légèrement jusqu'à commencer à remonter à partir de 2020 ;
        Le prix au mètre carré avait suivi proportionnellement la même progression que les locaux, jusqu'à décroitre à partir de 2020 assez fortement ;
        Cela représente logiquement la diminution infime que subit la valeur foncière des appartements.

#### 1.2. Analyse graphique de l'évolution moyenne des appartements par année incluant les différents arrondissement :

In [None]:
# Dataframe contenant la liste des codes postaux :
filtered_all_cp = request_analyze_graph(histo_m2, 'historique prix au m2', None, {'code_postal'}, False)

# Créer une figure avec 2 subplots pour les appartements
fig1 = make_subplots(rows=3, cols=1, subplot_titles=('Valeur foncière', ' prix au m²', 'surface'), vertical_spacing=0.06)

# Liste des colonnes à tracer
columns = ['valeur_fonciere', 'prix_m2', 'surface_reelle']
titles_y = ['Valeur foncière', 'Metre carré des appartements', 'surface en mètre carré']

# Pour chaque colonne
for i, column in enumerate(columns):
    df = pd.DataFrame()
    # Pour chaque code postal, triés dans l'ordre alphanumérique
    for code_postal in sorted(filtered_all_cp['code_postal'].unique()):
        # Filtrer le DataFrame par code postal et type de local
        mean_data_by_arrondissement = request_analyze_graph(filtered_apartments[filtered_apartments['type_local'] == 'Appartement'], None, {'code_postal': code_postal}, [column])
        
        temp_df = pd.DataFrame(mean_data_by_arrondissement)
        temp_df['code_postal'] = code_postal
        df = pd.concat([df, temp_df])

    for code_postal in sorted(df['code_postal'].unique()):
        fig1.add_trace(
            go.Scatter(x=df[df['code_postal'] == code_postal].index, y=df[df['code_postal'] == code_postal][column], mode='lines', name=f'{code_postal} {column}'),
            row=i+1,
            col=1
        )

    fig1.update_yaxes(title_text=titles_y[i], row=i+1, col=1)

# Mettre à jour les axes et le titre pour les appartements
fig1.update_layout(title_text="Evolution de la moyenne des appartements dans chaque arrondissement par année :", height=1500, width=1300)
fig1.update_xaxes(title_text='Années de vente des appartements', tickvals=filtered_apartments_and_commercial.index)

# Afficher le graphique pour les appartements
fig1.show()

        Nous pouvons remarquer que les 75006, 75007, 75008 et 75016 sont les arrondissements aux valeurs les plus élevées ;
        Chacun de ces arrondissements suivent une progression, croissante durant les 2 premières années pour les 75006, 75008, et 75016, et décroissante pour le 75007 ;

        Le pic le plus élevé en 2019 est détenu par le 75008 ;
        Alors même que le prix au mètre carré du 75008 se situe dans la moyenne haute parmi les différents arrondissement ;
        Néanmois, il a pu profiter jusqu'en 2019, des appartements aux plus grandes surfaces, en concurrence avec le 75016 ;
        A partir du courant 2019, une decroissance s'effectue, le plaçant second dans l'offre d'appartements aux plus grandes surfaces ;

        A partir de courant 2020, le prix au mètre carré des appartements du 75006 est strictement supérieur aux autre arrondissements, tout en restant stable.
        Contrairement au 75008, il semble que dans le cas du 75006, la variable prix au mètre carré est donc assujeti à un ou des facteurs semblant l'impacter.

#### 1.3. Analyse graphique de l'évolution moyenne des locaux par année incluant les différents arrondissement :

In [None]:
# Créer une figure avec 3 subplots pour les locaux commerciaux
fig2 = make_subplots(rows=3, cols=1, subplot_titles=('Valeur foncière', ' prix au m²', 'surface'), vertical_spacing=0.06)

# Liste des colonnes à tracer
columns = ['valeur_fonciere', 'prix_m2', 'surface_reelle']
titles_y = ['Valeur foncière (en millions d\'euros)', 'Metre carré des locaux commerciaux', 'surface en mètre carré']

# Pour chaque colonne
for i, column in enumerate(columns):
    df = pd.DataFrame()
    # Pour chaque code postal, triés dans l'ordre alphanumérique
    for code_postal in sorted(filtered_all_cp['code_postal'].unique()):
        # Filtrer le DataFrame par code postal et type de local
        mean_data_by_arrondissement = request_analyze_graph(filtered_corpo[filtered_corpo['type_local'] == 'Local industriel. commercial ou assimilé'], None, {'code_postal': code_postal}, [column])
        
        temp_df = pd.DataFrame(mean_data_by_arrondissement)
        temp_df['code_postal'] = code_postal
        df = pd.concat([df, temp_df])

    for code_postal in sorted(df['code_postal'].unique()):
        fig2.add_trace(
            go.Scatter(x=df[df['code_postal'] == code_postal].index, y=df[df['code_postal'] == code_postal][column], mode='lines', name=f'{code_postal} {column}'),
            row=i+1,
            col=1
        )

    fig2.update_yaxes(title_text=titles_y[i], row=i+1, col=1)

# Mettre à jour les axes et le titre pour les locaux commerciaux
fig2.update_layout(title_text="Evolution de la moyenne des locaux commerciaux dans chaque arrondissement par année :", height=1500, width=1300)
fig2.update_xaxes(title_text='Années de vente des locaux commerciaux', tickvals=filtered_apartments_and_commercial.index)

# Afficher le graphique pour les locaux commerciaux
fig2.show()

        Il semblerait, que le prix au mètre carré des locaux commerciaux pour chacun des arrondissement, suive la même tendence d'évolution que pour les appartements ;
        Seulement, les surfaces proposées sont majoritairement plus élevées ;
        Il semblerait, que les surfaces les plus petites, des locaux commerciaux, sont aussi grands que la moyenne des surfaces des appartements ;

        De part une tendance semblant identique entre locaux commerciaux, et appartement, du prix au mètre carré ;
        Tout en étant d'un prix supérieur ;
        Couplé à une surface accrue majoritairement ;
        Cela donne donc une valeur foncière moyenne d'un ordre de grandeur supérieur ;

### 2. Analyse Multivariée

In [None]:
corr_histo = request_analyze_graph(histo_m2, 'historique prix au m2', None, ['valeur_fonciere', 'surface_reelle', 'prix_m2', 'year_mutation', 'ordinal_mutation', 'code_postal', 'type_local'], False)
corr_histo_flat = request_analyze_graph(histo_m2, 'historique prix au m2', {'type_local': 'Appartement'}, ['valeur_fonciere', 'surface_reelle', 'prix_m2', 'year_mutation', 'ordinal_mutation', 'code_postal', 'type_local'], False)
corr_histo_corpo = request_analyze_graph(histo_m2, 'historique prix au m2', {'type_local': 'Local industriel. commercial ou assimilé'}, ['valeur_fonciere', 'surface_reelle', 'prix_m2', 'year_mutation', 'ordinal_mutation', 'code_postal', 'type_local'], False)

#### 2. Analyse via la description
##### 2.1. Affichage des caractéristiques quantitative des appartements :

In [None]:
def describe_selected_stats(df, columns):
    stats = df.describe()[columns]
    filtered_stats = stats.loc[['mean', 'min', '50%', 'max']]
    return filtered_stats

print(f"Le prix total des ventes d'appartements de l'historique est de {corr_histo_flat['valeur_fonciere'].sum():.2f}€")
print(f"Parmi les {len(corr_histo.year_mutation)} transactions total, nous avons {len(corr_histo_flat.index)} transactions d'appartements, soit {len(corr_histo_flat.index) / len(corr_histo.year_mutation) * 100:.2f}% des transactions.")
describe_selected_stats(corr_histo_flat, ['surface_reelle', 'prix_m2', 'valeur_fonciere', 'year_mutation'])

##### 2.2. Affichage des caractéristiques quantitative des locaux commerciaux :

In [None]:
print(f"Le prix total des ventes de locaux commerciaux de l'historique est de {corr_histo_corpo['valeur_fonciere'].sum():.2f}€")
print(f"Parmi les {len(corr_histo.year_mutation)} transactions total, nous avons {len(corr_histo_corpo.index)} transactions d'appartements, soit {len(corr_histo_corpo.index) / len(corr_histo.year_mutation) * 100:.2f}% des transactions.")
describe_selected_stats(corr_histo_corpo, ['surface_reelle', 'prix_m2', 'valeur_fonciere', 'year_mutation'])

##### 2.2. Affichage des caractéristiques quantitative des biens :

In [None]:
print(f"Le prix total des ventes de biens de l'historique est de {corr_histo['valeur_fonciere'].sum():.2f}€")
print(f"Les {len(corr_histo.index)} biens, représentent les {len(corr_histo.index) / len(corr_histo.year_mutation) * 100:.2f}% des transactions.")
describe_selected_stats(corr_histo, ['surface_reelle', 'prix_m2', 'valeur_fonciere', 'year_mutation'])

In [None]:
print(f"La participation des locaux commerciaux sur le total des ventes en pourcentage s'élève à {(corr_histo_corpo['valeur_fonciere'].sum() / corr_histo['valeur_fonciere'].sum())*100:.2f}%, celle des appartements est donc de {(corr_histo_flat['valeur_fonciere'].sum() / corr_histo['valeur_fonciere'].sum())*100:.2f}%")

#### 2.3. Analyses basée sur les variables qualitatives "Code Postal", et "Date de transaction"

In [None]:
print(f'Liste des codes postaux dans nos données : {list(filtered_all_cp.code_postal.sort_values().unique())}')

### 3. Analyse du facteur offre face à la demande du 75006 pour les appartements

In [None]:
# Dataframe contenant l'historique de transaction des appartements dans le 6e arrondissement :
filtered_apartment_date06 = request_analyze_graph(corr_histo_flat, 'historique appartements', {'code_postal': 75006}, {'surface_reelle', 'prix_m2', 'valeur_fonciere', 'year_mutation', 'type_local'}, False)

print(f"Parmi les {len(filtered_apartments.index)} transactions total, nous avons {len(filtered_apartment_date06.index)} transactions dans le 6ème arrondissement, soit {len(filtered_apartment_date06.index) / len(filtered_apartments.index) * 100:.2f}% des transactions.")

#### 3.1. Précédente analyse pour les biens corporates

In [None]:
# Dataframe contenant l'historique de transaction des appartements dans le 6e arrondissement :
filtered_corpo_date06 = request_analyze_graph(corr_histo_corpo, 'historique appartements', {'code_postal': 75006}, {'surface_reelle', 'prix_m2', 'valeur_fonciere', 'year_mutation', 'type_local'}, False)

print(f"Parmi les {len(filtered_corpo.index)} transactions total, nous avons {len(filtered_corpo_date06.index)} transactions dans le 6ème arrondissement, soit {len(filtered_corpo_date06.index) / len(filtered_corpo.index) * 100:.2f}% des transactions.")

#### 3.2. Précédente analyse pour tous les biens

In [None]:
# Dataframe contenant l'historique de transaction des appartements dans le 6e arrondissement :
filtered_date06 = request_analyze_graph(corr_histo, 'historique appartements', {'code_postal': 75006}, {'surface_reelle', 'prix_m2', 'valeur_fonciere', 'year_mutation', 'type_local'}, False)

print(f"Parmi les {len(corr_histo.index)} transactions total, nous avons {len(filtered_date06.index)} transactions dans le 6ème arrondissement, soit {len(filtered_date06.index) / len(corr_histo.index) * 100:.2f}% des transactions.")

        Ne connaissant pas la disponibilité des appartements du 75006, je ne peux que continuer sur ma supposition ;
        2.91% des appartements représentent une part extrêmement faible, sur un total de 20 arrondissement.
        Si cela est dû à une offre restreinte, alors la demande peut facilement devenir élevée, et donc voir ses prix au mètre carré plus élevé.

        Cependant, ce prix élevé pourrait être dû à des seuils impactant à tort, la moyenne ;
        Dans le cas de moins de 1000 appartements, sur un total de 24.338, l'impact serait non négligeable.

        On peut d'ailleurs se servir des appartements du 75007, dont le prix au mètre carré, la surface et la valeur foncière est similaire au 75006. 

#### 3.3. Analyse comparatif des statistiques descriptives du 75006 face au 75007 pour les appartements

In [None]:
def describe_selected_stats2(df, columns):
    stats = df.describe()[columns]
    filtered_stats = stats.loc[['mean', 'min', '25%', '50%', '75%', 'max']]
    return filtered_stats

# Dataframe contenant l'historique de transaction des appartements dans le 6e arrondissement :
filtered_apartment_date07 = request_analyze_graph(corr_histo_flat, 'historique appartements', {'code_postal': 75007}, {'surface_reelle', 'prix_m2', 'valeur_fonciere', 'year_mutation', 'type_local'}, False)

print(f"Parmi les {len(filtered_apartments.index)} transactions total, nous avons {len(filtered_apartment_date07.index)} transactions dans le 7ème arrondissement, soit {len(filtered_apartment_date07.index) / len(filtered_apartments.index) * 100:.2f}% des transactions.")

print("Describe 75006 :")
display(describe_selected_stats2(filtered_apartment_date06, ['surface_reelle', 'prix_m2', 'valeur_fonciere']))
print("Describe 75007 :")
display(describe_selected_stats2(filtered_apartment_date07, ['surface_reelle', 'prix_m2', 'valeur_fonciere']))

#### 3.4. Analyse comparatif des statistiques descriptives du 75006 face au 75007 pour les biens corporates

In [None]:
def describe_selected_stats2(df, columns):
    stats = df.describe()[columns]
    filtered_stats = stats.loc[['mean', 'min', '25%', '50%', '75%', 'max']]
    return filtered_stats

# Dataframe contenant l'historique de transaction des appartements dans le 6e arrondissement :
filtered_corpo_date07 = request_analyze_graph(corr_histo_corpo, 'historique appartements', {'code_postal': 75007}, {'surface_reelle', 'prix_m2', 'valeur_fonciere', 'year_mutation', 'type_local'}, False)

print(f"Parmi les {len(filtered_corpo.index)} transactions total, nous avons {len(filtered_corpo_date07.index)} transactions dans le 7ème arrondissement, soit {len(filtered_corpo_date07.index) / len(filtered_corpo.index) * 100:.2f}% des transactions.")

print("Describe 75006 :")
display(describe_selected_stats2(filtered_corpo_date06, ['surface_reelle', 'prix_m2', 'valeur_fonciere']))
print("Describe 75007 :")
display(describe_selected_stats2(filtered_corpo_date07, ['surface_reelle', 'prix_m2', 'valeur_fonciere']))

#### 3.5. Analyse comparatif des statistiques descriptives du 75006 face au 75007 pour tous biens

In [None]:
def describe_selected_stats2(df, columns):
    stats = df.describe()[columns]
    filtered_stats = stats.loc[['mean', 'min', '25%', '50%', '75%', 'max']]
    return filtered_stats

# Dataframe contenant l'historique de transaction des appartements dans le 6e arrondissement :
filtered_date07 = request_analyze_graph(corr_histo, 'historique appartements', {'code_postal': 75007}, {'surface_reelle', 'prix_m2', 'valeur_fonciere', 'year_mutation', 'type_local'}, False)

print(f"Parmi les {len(corr_histo.index)} transactions total, nous avons {len(filtered_date07.index)} transactions dans le 7ème arrondissement, soit {len(filtered_date07.index) / len(corr_histo.index) * 100:.2f}% des transactions.")

print("Describe 75006 :")
display(describe_selected_stats2(filtered_date06, ['surface_reelle', 'prix_m2', 'valeur_fonciere']))
print("Describe 75007 :")
display(describe_selected_stats2(filtered_date07, ['surface_reelle', 'prix_m2', 'valeur_fonciere']))

        Le nombre de ventes de biens du 75007 est significativement similaire à celui du 75006 ;
        Il se trouve que non seulement, les prix min et max du 75006 sont respectivement de 800€ et 700€ environ le mètre carré plus élevés ;

        Ceci permet de confirmer à minima, que dans l'évaluation d'une moyenne, son nombre restreint de transactions induit des extrêmes agissant bien plus facilement.
        Cependant, la médiane de chaque bien, selon l'arrondissement, bien moins assujetie que la moyenne, par les extrêmes voit sa différence à près de 400€ ;

        De ce fait, le prix des appartements comme des locaux dans le 75006, n'est pas anormalement élevé, donc la première hypothèse (l'offre face à la demande), n'est surtout pas à exclure, mais reste impossible à vérifier ;
        Nous avons exclusivement l'historique de vente, mais pas le catalogue de vente, si possible, incluant l'historique de vente.

        Néanmoins, ses extrêmes bas et haut sont plus élevés que la moyenne des extrêmes des autres arrondissements, agissant donc sur sa propre moyenne

## 3- Analyse Inférentielle
### 1. Identification des variables à correler
        Prix au mètre carré (Variable quantitative) ;
        Valeur foncière (Variable quantitative) ;
        Surface (Variable quantitative) ;
        Types de bien (Variable qualitative) ;
        Code postal (Variable qualitative) ;
        Date de transaction (Variable temporelle).
### 1.1 Choix des méthodes de calcul et d'analyse de corrélation
        L'objectif étant de pouvoir comparer les deux secteurs (Appartements et Locaux commerciaux), provenant d'un jeu de données dans lequel nous devrons effectuer une prédiction, cela signifie que :
          Nous devons prédire la valeur foncière
        Donc nous allons déterminer le choix des méthodes, afin de non seulement conserver, mais aussi verifier, les variables l'influençant :
          La méthode de Pearson, utilisée dans la méthode corr de Pandas, elle calcule le coefficient de correlation interquantitative ;
          La méthode de Spearman, Permet de comparer une variable temporelle, et une variable quantitative ;
          L'analyse bivariée, ANOVA, analyse la relation entre une variable qualitattive, et quantitative ;
          

In [None]:
# Mettre à jour les listes de colonnes
quant_cols = ['prix_m2', 'valeur_fonciere', 'surface_reelle', 'ordinal_mutation']
qual_cols = ['code_type_local', 'code_postal']
temporal_cols = ['year_mutation']

name_mapping = {
    'prix_m2': 'Prix au mètre carré',
    'valeur_fonciere': 'Valeur foncière',
    'surface_reelle': 'Surface réelle',
    'code_type_local': 'Type de bien',
    'code_postal': 'Code postal',
    'ordinal_mutation': 'Année de transaction ordinale',
    'year_mutation': 'Année de transaction annuelle'
}

### 2. La corrélation linéaire quantitative de Pearson
        Cette méthode représente le calcul de corrélation par défaut, pour toute variable quantitative.

##### 2.1 Expression simplifiée mathématique

In [None]:
# Définir les symboles
x, y, x_bar, y_bar, n = smp.symbols('x y x_bar y_bar n')
# Formule du coefficient de corrélation de Pearson
pearson = smp.Sum((x - x_bar)*(y - y_bar), (x, 1, n)) / smp.sqrt(smp.Sum((x - x_bar)**2, (x, 1, n)) * smp.Sum((y - y_bar)**2, (y, 1, n)))

display(pearson)

        Cette équation donne en résultat r, étant le coefficient.
        x et y étant les variables ;
        i devant suivre ces variables, afin de déterminer les valeurs individuelles ;
        xbar et ybar étant les moyennes de x et y ;
        Sigma étant la somme de l'addition pour toutes les valeurs de i.
        n étant le nombre total d'observations, en l'occurrence 26180.

##### 2.2. Calcul de correlation

In [None]:
# Créez un DataFrame pour stocker les résultats
pearson_corr = pd.DataFrame(columns=['Variables influençables', 'Coefficient de corrélation avec la valeur foncière', 'Probabilité'])

for i, col in enumerate(quant_cols):
    if col != 'valeur_fonciere':  # Évitez de corréler la variable avec elle-même
        corr, p_value = pearsonr(histo_m2['valeur_fonciere'], histo_m2[col])
        pearson_corr.loc[i] = [name_mapping[col], corr, p_value]  # Ajoutez une nouvelle ligne avec loc

display(pearson_corr.round(2))

        Il y a une faible corrélation positive entre le prix au mètre carré et la valeur foncière.
            La valeur p est inférieure à 0,05, ce qui signifie que cette corrélation est statistiquement significative.
        Il y a une très faible corrélation positive entre le prix au mètre carré et la surface réelle.
            Cette corrélation est également statistiquement significative.
        Il y a une très forte corrélation positive entre la valeur foncière et la surface réelle, ce qui est statistiquement significatif.

        En comparant avec l'année de transaction ordinale, nous pouvons remarquer une faible corrélation, similaire à celle des deux premières correlations ;
            Cependant, comparée à la surface réelle, la p-value étant significativement élevée, le coefficient du calcul ne semble pas être fondé.
        
        Pour conclure, la surface réelle semble véritablement être une influence sur la valeur d'un bien.

### 3. La corrélation non linéaire via la méthode de Spearman

        La méthode de Spearman s'appuie sur ce que l'on nomme les rangs de valeurs ;
        Son objectif est de mesurer la relation entre plusieurs variables dont leur croissance sont monotones.

        Dans le cas d'une monotonie décroissante, lorsque une variable augmente, l'autre diminue ;
        Dans le cas contraire, les deux variables augmentent.

        Cependant, le rythme d'évolution des dites variables, n'est pas nécessairement équivalente. 

##### 3.1. Calcul de correlation

In [None]:
from scipy.stats import spearmanr

# Créez un DataFrame pour stocker les résultats
spearman_corr = pd.DataFrame(columns=['Variable influençable', 'Corrélation de Spearman avec Valeur foncière', 'Probabilité'])

corr, p_value = spearmanr(histo_m2['valeur_fonciere'], histo_m2['ordinal_mutation'])
spearman_corr.loc[0] = ['Année de transaction ordinale', corr, p_value]

display(spearman_corr.round(2))


### 4. La corrélation via l'analyse de la variance d'ANOVA
        Cette analyse permet d'étudier les moyennes des variables quantitatives, dans chaque groupes appartenant aux différentes variables qualitatives.

##### 4.1. Expression simplifiée mathématique

In [None]:
# Définir les symboles
mu, alpha_i, epsilon_ij = smp.symbols('mu alpha_i epsilon_ij')
# Formule de l'ANOVA
Y_ij = mu + alpha_i + epsilon_ij

display(Y_ij)

##### 4.2. Analyse de la variance

In [None]:
# Créez un DataFrame pour stocker les résultats
anova_results = pd.DataFrame(columns=['Variables', 'Sum-Squared', 'degrees Freedom', 'Mean-Squared', 'F Statistic', 'PR[>F]'])

for i, qual_col in enumerate(qual_cols):
    model = ols('valeur_fonciere ~ C({})'.format(qual_col), data=histo_m2).fit()
    anova_table = sm.stats.anova_lm(model, typ=2)
    ss = anova_table.loc['C({})'.format(qual_col), 'sum_sq']
    df = anova_table.loc['C({})'.format(qual_col), 'df']
    ms = ss / df  # Calculez la moyenne des carrés
    f_value = anova_table.loc['C({})'.format(qual_col), 'F']
    p_value = anova_table.loc['C({})'.format(qual_col), 'PR(>F)']
    anova_results.loc[i] = [name_mapping[qual_col], ss, df, ms, f_value, p_value]

display(anova_results.round(2))

### 5. Matrices de corrélation

In [None]:
display(quant_cols)
display(qual_cols)
display(temporal_cols)

In [None]:
# Calculer la matrice de corrélation
corr_matrix = histo_m2[quant_cols + qual_cols + temporal_cols].corr()
# Créer un graphe à partir de la matrice de corrélation
G = nx.Graph()
for i in range(len(corr_matrix.columns)):
    for j in range(i+1, len(corr_matrix.columns)):  # On ne considère que la moitié supérieure de la matrice
        # Ajouter une arête entre chaque paire de variables, pondérée par leur corrélation
        G.add_edge(corr_matrix.columns[i], corr_matrix.columns[j], weight=abs(corr_matrix.iloc[i, j]))
# Créer une figure avec une largeur spécifique
plt.figure(figsize=(10, 6))
# Dessiner le graphe avec une disposition circulaire pour une meilleure visibilité
pos = nx.circular_layout(G)
edges = G.edges()
weights = [G[u][v]['weight']*5 for u,v in edges]  # Multiplier les poids par 5 pour les rendre plus visibles
nx.draw(G, pos, with_labels=True, width=weights)

plt.show()

        Conclusion :
        Les différentes variables qualitatives que sont le type_local, et le code_postal, sont pertinentes afin de trouver la valeur foncière ;
        De même pour la variable temporelle, comme quantitative discrète, year_mutation, et ordinal_mutation ;
        Enfin, la variable quantitative surface_réelle serait la clé permettant de déployer l'intêret des variables autres.
        Nous excluons du jeu de donnée le prix au mètre carré, étant le résultat de la valeur foncière divisée par la surface, cela fausserait la prédiction.

        Nous pouvons donc nous atteler à la phase de l'analyse prédictive dans le chapitre suivant

## 4- Analyse prédictive
        Dans cette section nous allons maintenant entraîner un algorithme à prédire la valeur foncière d'un bien immobilier.  
        Pour cela nous allons utiliser l'algorithme de régression linéaire.  
        On commence par préparer nos données en transformant les colonnes catégoriques du code postal et du type de local grâce au one hot encoder (sklearn) / get_dummies (pandas).
### 1. Dataset :
#### 1.1. Préprocessus des données

In [None]:
data = ['ordinal_mutation', 'year_mutation', 'code_postal', 'code_type_local', 'surface_reelle', 'valeur_fonciere']
dummies = ['code_postal', 'code_type_local']
histo_train = prepare_df_model(histo_m2, 'histo_train', data, dummies)
analyze_dataframe(histo_train, 'histo_train')

#### 1.2. Création des variables d'entrainements et de la cible :

In [None]:
X = histo_train.drop(['valeur_fonciere'], axis=1)
y = histo_train['valeur_fonciere']
get_table_info(histo_train, 'Jeu de donnée prévu pour l\'entraînement')
get_table_info(X, 'Jeu de donnée d\'entraînement')
display(y)

#### 1.3. Mise à l'échelle des variables d'entraînements :

In [None]:
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

#### 1.4. Fonction aggrégatrice fit et predict models :

In [None]:
X_train, X_test, y_train, y_test = tts(X_scaled, y, test_size=0.33, random_state=2)

### 2. Modèles :
        Nous allons maintenant mettre en place différents modèles algorithmiques, dans le but de tirer la meilleure prédiction possible.  
        Nous avons un jeu de donnée de 24 colonnes contenant chacune, 26196 valeurs ; Nous avons donc un jeu de donnée surpassant largement les 100 000 valeurs !  
        De plus, nous comptons prédire, des valeurs quantitatives !  
        De ce fait, nous pouvons donc utiliser des algorithmes prévus pour les gros jeux, afin d'éviter ce que l'on nomme l'over, et l'under, fitting.  
        Néanmoins, la cible étant quantitative, nous parlons donc d'un problème de régression :  
<img src="https://scikit-learn.org/stable/_static/ml_map.png" alt="Machine Learning Mind Map provenant du site Sci-Kit Learn" width="900"/>  

        Voici donc une liste des algorithmes et selon ce que ce dernier offre, des méthodes, que nous allons tester, comparer.  
        Nous pourrons donc retenir celui affectant le moins d'erreur moyenne en pourcentage :  
        LLS (Linear Least Squared - La méthode des moindres carrés):
            Régression Linéaire ordinaire (OLS) ;  
            LASSO ;  
            Ridge ;  
            Scholastic Gradient Descent (SGDR) ;  
        Les méthodes Lasso et Ridge, fonctionnent différemment de la méthode ordinaire. La différence se trouve via l'argument alpha, couplé aux nombres d'itérations maximum.  
        Cela revient au même que la méthode Gradient Descent, mettre en place un algorithme de minimisation, qui se base sur la fonction coût.  
        L'alpha représente un pas d'apprentissage, dont son but, via un nombre d'itérations donné, de minimiser la fonction coût, c'est à dire de minimiser l'erreur.  
            KNN (K-Near Neighbors) ;  
            NLR (Non-Linear Regression - Régression non linéaire) :  
                Random Forest;  

In [None]:
models = [lR(fit_intercept=True, copy_X=True, n_jobs=None), #Régression linéaire - OLS
        l1(max_iter=100000, fit_intercept=True, copy_X=True, random_state=0), #Régression linéaire - Lasso
        l2(max_iter=100000, fit_intercept=True, copy_X=True, random_state=0), #Régression linéaire - Ridge
        sgdR(alpha=0.064, loss='squared_error', penalty='elasticnet', fit_intercept=True,
            learning_rate='constant', early_stopping=False, validation_fraction=0.1,
            n_iter_no_change=5, warm_start=False, average=False, random_state=5), #Régression linéaire - Stochastic Gradient Descent
        rfR(max_depth=None, min_samples_split=2, min_samples_leaf=1,
            n_jobs=12, random_state=0,warm_start=False,
            ccp_alpha=0.0,max_samples=None,n_estimators=100), #Forêt d'arbres aléatoire
        knnR(algorithm='auto', leaf_size=30,
            metric='minkowski',metric_params=None,n_jobs=4,p=2,
            weights='uniform'),#K-Near Neighbors
        ]
model_names = ['linearR','lasso', 'ridge', 'sgdR', 'randomfR', 'knearnR']

### 3. Résultats :

In [None]:
results, trained_models, y_preds = train_and_evaluate_models(models, model_names, X_train, y_train, X_test, y_test, [1, 3, 5], [1, 10])

for key, value in results.items():
    print(f"{key}: {len(value)}")
best_model, comparison_df = create_comparison_table(results)
display(comparison_df)

        Création d'une nouvelle table pour stocker les données y_preds et y_test

### 4. Représentation graphique :

In [None]:
data = pd.DataFrame()
data['valeurs_réelles'] = y_test

# Ajout des données y_preds à la table data
model_names = list(y_preds.keys())
for model_name in model_names:
    for j in range(len(y_preds[model_name])):
        column_name = model_name
        if model_name == 'knearnR':
            hyperparam_name = 'n_neighbors'
            hyperparam_value = results[hyperparam_name][j]
            column_name = f"{model_name}_{hyperparam_value}"
        elif model_name == 'lasso' or model_name == 'ridge':
            hyperparam_name = 'alpha'
            hyperparam_value = results[hyperparam_name][j]
            column_name = f"{model_name}_{hyperparam_value}"
        column_name = f"y_pred_{column_name}"
        data[column_name] = y_preds[model_name][j]

# Création du graphique
fig = px.box(data.melt(var_name='model', value_name='value'), x='value', y='model', orientation='h', points='outliers')
fig.update_layout(title='Distribution des valeurs prédites de chaque modèles et des valeurs réelles', xaxis_title='Valeurs foncière', yaxis_title='Modèles')
fig.show()

        Notre algorithme fait donc 8.72% d'erreur en moyenne sur la prédiction de la valeur foncière.
        Mes conclusions sur ce résultat et comment j'aurais pu aller plus loin :
            En ayant une un résultat d'une moyenne d'erreur à 8.72%, je me retrouve avec un pourcentage au-delà de l'acceptable ;
            Mais 33% du jeu de données peut ne pas être suffisant, de ce fait, en accédant à 100% du jeu de données, le modèle sera plus entraîné, cependant, nous provoquerions le phénomène d'overfitting (le sur entraînement).
            Je pense qu'hormis en modifiant le type d'algorithme, via un modèle non linéaire, tels que l'arbre de décision, une forêt aléatoire ou un réseau de neurones par exemple, mes résultats pourrait croître.

        Maintenant que l'entraînement est terminé, nous pouvons donc effectuer la prédiction dans le portefeuille.

## 5- Prédiction définitive et analyse préscriptive pour le client
        Nous avons récupéré le fichier avec le portefeuille des actifs de la société.  
        Nous allons l'importer puis effectuer la prédiction et statuer sur la branche qui, selon notre prédiction, aura le plus de valeur à la date demandée c'est à dire au 31 décembre 2022.  
        Petite précision, nous souhaitons continuer à utiliser la surface réelle pour faire les calculs et pas la surface carrez.
### 1. Import des données dans un dataframe
        Nous avons la liste des biens immobiliers de l'entreprise. Pour effectuer une prédiction, nous devons mettre ce fichier au même format que le dataframe que nous avons utilisé lors de l'entraînement de l'algorithme.

In [None]:
wallet_prepare = prepare_df_model(wallet_m2, 'wallet_prepare', ['ordinal_mutation','year_mutation', 'code_postal', 'code_type_local', 'surface_reelle'], ['code_postal', 'code_type_local'])

get_table_info(X, 'X_train')
get_table_info(wallet_prepare, 'Portefeuille préparé à la prédiction')
analyze_dataframe(wallet_prepare, 'Portefeuille préparé à la prédiction')

#### 1.1. Mise à l'échelle des variables d'entraînements :

In [None]:
X_scaled2 = scaler.transform(wallet_prepare)
display(X_scaled2)

#### 1.2. Initialisation de la boucle de séléction des modèles de prédiction :

In [None]:
data = {}
for model_name, model in trained_models.items():
    y_pred = model.predict(X_scaled2)
    data[f'{model_name}_pred'] = y_pred

#### 1.3. création un dictionnaire contenant les prédictions de chaque modèle

In [None]:
for model_name, y_pred in data.items():
    print(f'Nombre de valeurs prédites pour le modèle {model_name}:')
    print(len(y_pred))

#### 1.4. Ajouter les prédictions de chaque modèle en tant que nouvelles colonnes du DataFrame

In [None]:
for column_name, column_data in data.items():
    wallet_prepare = wallet_prepare.assign(**{column_name: column_data})

# Afficher les premières lignes du DataFrame mis à jour
display(wallet_prepare.head(10))

### 2. Fusion des variables "Type de bien" et attribution des données "y" (0 pour les "appartements", et 1 pour les "local industriel. commercial ou assimilé")

In [None]:
type_local_columns = ['code_type_local_2', 'code_type_local_4']
conditions = [wallet_prepare[col] == 1 for col in type_local_columns]
choices = ['Appartement', 'Local industriel. commercial ou assimilé']
wallet_prepare['type_local'] = np.select(conditions, choices, default=np.nan)
wallet_prepare['type_local'] = wallet_prepare['type_local'].astype('category')

#### 2.1. Attribution des données "y" dans une nouvelle colonne de type catégorique "Type de bien"

In [None]:
postal_code_columns = [col for col in wallet_prepare.columns if col.startswith('code_postal_')]
conditions = [wallet_prepare[col] == 1 for col in postal_code_columns]
choices = [col.split('_')[-1] for col in postal_code_columns]
wallet_prepare['code_postal'] = np.select(conditions, choices, default=np.nan)
wallet_prepare['code_postal'] = wallet_prepare['code_postal'].astype('category')

wallet_prepare = wallet_prepare.drop(columns=type_local_columns + postal_code_columns) # Suppression des colonnes originales booléennes

### 3. Affichons donc les infos du nouveau dataframe incluant les prédictions :

In [None]:
get_table_info(wallet_prepare, 'Portefeuille avec valeur_foncière prédite')

#### 3.1. Valorisation du portefeuille sur le segment des particuliers
 Liste des noms des colonnes se terminant par '_pred'

In [None]:
pred_columns = [col for col in wallet_prepare.columns if col.endswith('_pred')]

# Dictionnaires pour stocker les résultats pour chaque colonne
total_value = {}
count = {}
mean_value = {}
type_local_choices = ['Appartement', 'Local industriel. commercial ou assimilé']

# Parcourir les noms des colonnes se terminant par '_pred'
for col in pred_columns:
    # Calculer la valeur totale, le compte et la valeur moyenne pour chaque type de propriété
    total_value[col] = [wallet_prepare.loc[wallet_prepare['type_local'] == choice][col].sum() for choice in type_local_choices]
    count[col] = [wallet_prepare.loc[wallet_prepare['type_local'] == choice].shape[0] for choice in type_local_choices]
    mean_value[col] = [wallet_prepare.loc[wallet_prepare['type_local'] == choice][col].mean() for choice in type_local_choices]

#### 3.2. Affichage des résultats :
 Créer un DataFrame contenant les valeurs totales prédites pour chaque type de propriété et pour chaque modèle

In [None]:
total_value_df = pd.DataFrame(total_value)
total_value_df['Type de bien'] = type_local_choices

# Parcourir les noms des modèles
for col in pred_columns:
    print(f"Informations pour le modèle {col}")
    # Afficher les informations pour chaque type de propriété
    for i, choice in enumerate(type_local_choices):
        print(f"Valorisation prédite pour le segment {choice}, (en millions d'euros) est de : {total_value[col][i] / 1000000}")
        print(f"Voici le nombre total de {choice} présents : {count[col][i]}")
        print(f"Voici le prix d'un {choice} selon la valeur foncière prédite : {mean_value[col][i]}")
        print(separe)
    print(separe)

#### 3.3. Affichage via graphique sur la base de la variable qualitative "Type de bien", la variable quantitative "Valeur foncière prédite" :
##### 3.3.1. Analyse de la somme de la variable quantitative :
 Restructurer le DataFrame pour avoir une forme longue

In [None]:
total_value_df = total_value_df.melt(id_vars='Type de bien', var_name='Modèle', value_name='Valeur foncière prédite')

# Créer un graphique à barres montrant la valeur totale prédite pour chaque type de propriété et pour chaque modèle
fig = px.bar(total_value_df, x='Type de bien', y='Valeur foncière prédite', color='Modèle', barmode='group', title='Somme de la valeur de chaque type de bien', height=600, width=1200)
fig.show()

Si vous souhaitez garder qu'une seule prédiction parmi la liste des modèles :
- linear_pred: Regression Linéaire ;
- lasso_pred: Lasso ;
- ridge_pred: Ridge ;
- sgd_pred: Stochastic Gradient Descent ;
- randomf_pred: Random Forest ;
- knear_pred: K-Near Neighbors ;

##### 3.3.2. Analyse de la moyenne de la variable quantitative :
 Créer un DataFrame contenant les valeurs moyennes prédites pour chaque type de propriété et pour chaque modèle

In [None]:
mean_value_df = pd.DataFrame(mean_value)
mean_value_df['Type de bien'] = type_local_choices
# Restructurer le DataFrame pour avoir une forme longue
mean_value_df = mean_value_df.melt(id_vars='Type de bien', var_name='Modèle', value_name='Valeur foncière prédite')
# Créer un graphique à barres montrant la valeur moyenne prédite pour chaque type de propriété et pour chaque modèle
fig = px.bar(mean_value_df, x='Type de bien', y='Valeur foncière prédite', color='Modèle', barmode='group', title='Prix d\'un bien de chaque type', height=600, width=1200)
fig.show()

Mes conclusions sur le segment avec la plus grande valorisation et sur les limites de cette estimation :
- Comme attendu, malgré un nombre de locaux corporates en decà des appartements, la valeur reste plus élevée.
- Le modèle proposant les prix les plus justes semble être le Random Forest.
#### 3.4. Voyons donc la moyenne du prix au mètre carré des différents types de biens

In [None]:
# Veuillez indiquer en commentaire les autres (via le '#'), et retirer le '#' de l'instruction comportant la prédiction souhaitée :
# wallet_prepare['prix_m2'] = wallet_prepare['linearR_pred'] / wallet_prepare['surface_reelle']
# wallet_prepare['prix_m2'] = wallet_prepare['lasso_pred'] / wallet_prepare['surface_reelle']
# wallet_prepare['prix_m2'] = wallet_prepare['ridge_pred'] / wallet_prepare['surface_reelle']
# wallet_prepare['prix_m2'] = wallet_prepare['sgdR_pred'] / wallet_prepare['surface_reelle']
# wallet_prepare['prix_m2'] = wallet_prepare['knearnR_pred'] / wallet_prepare['surface_reelle']
wallet_prepare['prix_m2'] = wallet_prepare['randomfR_pred'] / wallet_prepare['surface_reelle']
display(wallet_prepare.info())

##### 3.4.1. Préparation de la moyenne du prix au mètre carré :

In [None]:
mean_price_per_m2 = {}

# Parcourir les types de biens
for choice in type_local_choices:
    # Calculer la moyenne du prix au mètre carré pour chaque type de bien
    mean_price_per_m2[choice] = wallet_prepare.loc[wallet_prepare['type_local'] == choice]['prix_m2'].mean()

# Créer un DataFrame contenant les résultats
mean_price_per_m2_df = pd.DataFrame(mean_price_per_m2, index=['Prix moyen au mètre carré']).T.reset_index()
mean_price_per_m2_df.columns = ['Type de bien', 'Prix moyen au mètre carré']

##### 3.4.2. Préparation de la moyenne du prix au mètre carré :
 Créer un graphique à barres montrant la moyenne du prix au mètre carré pour chaque type de bien

In [None]:
fig = px.bar(mean_price_per_m2_df, x='Type de bien', y='Prix moyen au mètre carré', title='Prix moyen au mètre carré pour chaque type de bien', height=600, width=600)
fig.show()

Donc si nous comparons les prix moyens au mètre carré pour chaque type de bien, entre ceux du 75006, et ceux de la prédiction :
- la différence de prix entre les deux types de biens s'éléve à 14.86 - 13.12, soit 1740 euros de différence ;
- Du coté de la prédiction, la différence s'élève à 11.74 - 10.35, soit 1390 euros de différence.  
Cela renforce une certaine cohérence dans la différence du prix du mètre carré dans la prédiction.

## 6- Classification des données non-supervisé issues du jeu de test
Dans cette partie nous allons labelliser automatiquement les biens immobiliers comme étant :
- soit des Appartements
- soit des Local industriel. commercial ou assimilé
### 1. L'algorithme KMeans sur le jeu de données partagé par l'entreprise.
Pour que l'algorithme fonctionne, il faut que nous préparions les données.  
Nous supprimons les dimensions inutiles et en nous concentrant sur le facteur discriminant entre les appartements et les locaux commerciaux : 
- la différence dans le prix au mètre carré tel que nous l'avons vu avant.
#### 1.1. Création des variables d'entrainements et de la cible :

In [None]:
cols = ['valeur_fonciere', 'code_postal', 'nom_commune', 'surface_reelle']
merged_df_correspondance = pd.merge(histo_clean, sample, on=cols, how='inner', indicator=True)

display(merged_df_correspondance)

In [None]:
display(sample_pred.info())
X_cluster = sample_pred[['prix_m2']]
display(X.info())

Nous observons dans les données que nous avons des valeurs différentes de prix au mètre carré pour un même arrondissement (ici le 19ème arrondissement).  
Il se peut fort que cela soit notre dimension à utiliser pour attribuer les prix au mètre carré les plus élévé dans un département aux locaux commerciaux, et les prix les plus bas aux appartements.  
Pour effectuer cette opération, nous allons utiliser l'algorithme du Kmeans qui va rechercher 2 centroïdes à travers les données.

In [None]:
y_pred = KMeans(n_clusters=2, n_init=10, random_state=0).fit_predict(X_cluster)

Nous avons obtenu notre prédiction. Nous pouvons changer les labels et remplacer les valeurs à 0 par Local industriel. commercial ou assimilé et les valeurs à +1 par Appartement.
On vérifie les données de la prédiction

In [None]:
y_pred = np.vectorize({0: 'Local industriel. commercial ou assimilé', 1: 'Appartement'}.get)(y_pred)
sample_prediction = X_cluster.copy()
sample_prediction['type_local'] = y_pred
display(sample_prediction.type_local.value_counts())

In [None]:
import seaborn as sns
# Créer le graphique
sns.boxplot(data=sample_prediction, x='type_local', y='prix_m2')

Nous avons donc les résultats renommés en tant que type de bien. Nous allons donc, en nous aidant de la feuille "sample_soluce", créer un tableau croisé dynamique :

In [None]:
display(sample_soluce.head())
sample_soluce['cluster'] = y_pred

In [None]:
display(sample_soluce.head())

In [None]:
ct = pd.crosstab(sample_soluce.type_local, sample_soluce.cluster)
ct.index.name = 'Cluster'
ct.columns.name = 'Type local'
display(ct)


In [None]:
fig = px.imshow(ct, color_continuous_scale='Viridis')
fig.update_layout(title='Heatmap', height=700, width=800)
fig.show()

Afin de faire correspondre notre échantillon, avec la feuille de solution, commençons par réintroduire toutes les colonnes prévues au départ :

In [None]:
sample_prediction = pd.concat([sample, sample_prediction], axis=1)
display(sample_prediction.info())
display(sample_soluce.info())

On affiche les résultats sous forme de graphique de la prédiction, et de la solution :
 Préparation des données

In [None]:
data = pd.concat([sample_prediction.assign(dataset='sample_prediction'), sample_soluce.assign(dataset='sample_soluce')])

# Création du graphique
fig = px.box(data, x='type_local', y='prix_m2', color='dataset', width=700, height=600)
fig.show()

## Milestone 5 - Analyse et présentation des résultats
Mes conclusions sur l'analyse et les limites de l'exercice :
- Kmeans -> non supervisé |Algorithmes supervisés préférables
- Si une variable semble justifier l'usage de clustering, les données à prédire restent catégorielles ; Cependant Kmeans est approprié pour des données continues.
- La différence du prix au mètre carré entre les appartements et les locaux commerciaux est en cohérence aevc les analyses que nous avions fait précédemment.