In [None]:
import pandas as pd
import numpy as np

# Visualisation
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
import matplotlib.image as mpimg

# Préparation des données
from sklearn import preprocessing
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder
from sklearn.model_selection import train_test_split

# Modèles
from sklearn.linear_model import LinearRegression
import statsmodels.api as sm
from sklearn.linear_model import ElasticNet
from sklearn.ensemble import RandomForestRegressor
import keras
from keras.models import Sequential
from keras.layers import Dense
from keras.wrappers.scikit_learn import KerasRegressor
import eli5
from eli5.sklearn import PermutationImportance
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans

from sklearn.metrics import mean_squared_error
from sklearn.inspection import permutation_importance

# Option d'affchage
pd.set_option('display.max_columns', None)


from datetime import datetime


In [None]:
# Importation de la base des données calculées

df0 = pd.read_csv('data/bdd_complete2.csv', sep = ',', encoding = 'latin-1')

# Copie de la base

#df = df0.copy()

# 0. Processing 

In [None]:
df = df[[
       'Date', 'Nature.de.séance',
       'Réplique', 'Didascalie',
       'sexe', 'age',
       'groupe.sigle', 'commissions', 'nb.mandats', 'cabcollab', 'duree.pol',
       'clustRFSP', 'clustVEP', 'hautdip', 'majo',
       'profsigni2', 'Groupe'
        ]]

In [None]:
df['Date'] = df.apply(lambda row: (datetime.strptime(row.Date, '%Y-%m-%d') - datetime(2015, 1, 1, 0, 0)).days, axis = 1)

In [None]:
df['Didascalie'] = df.apply(lambda row: 0 if str(row.Didascalie) == 'nan' else 1, axis =  1)

In [None]:
df['sexe'] = df.apply(lambda row: 0 if row.sexe == 'F' else 1, axis =  1)

In [None]:
df['majo'] = df.apply(lambda row: 1 if row.majo else 0, axis =  1)

In [None]:
df['Groupe'] = df.apply(lambda row: 1 if row.Groupe == 'Exp' else 0, axis =  1)

In [None]:
df['cabcollab'] = df.apply(lambda row: 1 if row.cabcollab else 0, axis =  1)

In [None]:
df.sample(10)

# I. Préparation des données

In [None]:
# Standardisation des données

min_max_scaler = preprocessing.MinMaxScaler()
df[['Date', 'age'
    ]] = min_max_scaler.fit_transform(df[['Date', 'age']])

In [None]:
def one_hot_encode(dataframe, variable):
    
    dataframe[variable] = dataframe[variable].astype(str)


    
    le = LabelEncoder()
    
    var = variable + '_encoded'
    
    dataframe[var] = le.fit_transform(dataframe[variable])

    ohe = OneHotEncoder()

    X = ohe.fit_transform(dataframe[var].values.reshape(-1,1)).toarray()

    dfOneHot = pd.DataFrame(X, columns = [variable + str(int(i)) for i in range(X.shape[1])])
    dataframe = pd.concat([dataframe, dfOneHot], axis=1).drop(columns = [variable, var]).dropna()
    
    return dataframe.copy()

In [None]:
df = one_hot_encode(df, 'Nature.de.séance')
df = one_hot_encode(df, 'groupe.sigle')
df = one_hot_encode(df, 'commissions')
df = one_hot_encode(df, 'clustRFSP')
df = one_hot_encode(df, 'clustVEP')
df = one_hot_encode(df, 'hautdip')
df = one_hot_encode(df, 'profsigni2')

In [None]:
df.sample(10)

In [None]:
#df.to_csv('data/one_hot_encoded_data.csv')
df = pd.read_csv('data/one_hot_encoded_data.csv')

In [None]:
df = df[[i for i in df.columns if not(i[:3] in ['nom', 'Nat', 'Pré'])]]

In [None]:
# On définit la variable objectif

df['Réplique'] = df.apply(lambda row : len(row.Réplique), axis = 1)

In [None]:
y = df[['Réplique']]
X = df.drop(columns = ['Réplique'])

# On choisit un échantillon de validation de 20 %

X_train, X_test, y_train, y_test = train_test_split(X,y,test_size = 0.2)

In [None]:
N = X.shape[1]

# II. Modélisation

In [None]:
# Affichage de la matrice de corrélation

fig, ax = plt.subplots(figsize = (13, 10)) 
fig = sns.heatmap(df.sample(100).corr(), cmap= 'coolwarm', annot = True)

## II.1 Regressions linéaires et polynomiales

### Regression linéaire multiple

On commence par une regression linéaire pour avoir une première idée de l'influence des variables sur le prix

In [None]:
lin_reg = LinearRegression().fit(X_train, y_train)

# On prédit à partir de l'échantillon de test pour calculer les scores

y_pred = lin_reg.predict(X_test)

In [None]:
px.histogram(pd.DataFrame([
    (X.columns[i], lin_reg.coef_[0][i]) for i in range(47)
                    ]).T.rename(index = {0 : 'variable', 1 : 'coeff'}).T, x = 'variable', y = 'coeff', histfunc = 'sum'
            ).show()

print('MSE :', mean_squared_error(y_test, y_pred))

In [None]:
# Affichage des p-values

mod = sm.OLS(y,X)
fii = mod.fit()
p_values = fii.summary2().tables[1]['P>|t|']
pd.DataFrame(p_values).T

On observe que :  

- les variables avec les plus petites p-values sont les score aux commerces et score_monument
- être proche des commerces atypiques mais loin des commerces en général ferait monter le prix
- la variable qui semble être la plus significative est score_monument (p-value la plus basse sans compter les TypeVoie, et coefficient le plus grand)
- score_metro a étonnement un coefficient négatif
- Les p-values concernant TypeVoie ne semblent pas pertinentes, on manque sans doute de données pour certaines modalités

### Regressions polynomiales

Il est très probable que les variables n'aient pas un effet linéaire sur le prix au m<sup>2<sup>.
    
C'est pourquoi on choisit de faire des regressions polynomiales, en augmentant progressivement le degré, et en s'arrêtant dès qu'on observe de l'overfitting sur l'échantillon de test.

In [None]:
def poly_reg(n):
    """
    Cette fonction effectue une regression polynomiale sur la base d'entrainement et affiche 
    la MSE pour l'echantillon de test
    """
    
    # Agrandissement de la base d'entrainement avec l'ajout des degrés successifs
    poly_X = X_train.copy()
    
    for i in range(2, n+1):
        
        index = [str(j) + '^' + str(i) for j in X.columns[:32]]
        poly_X[[str(j) + '^' + str(i) for j in X.columns[:32]]] = poly_X[[j for j in X.columns[:32]]].pow(i)
    
    poly_reg = LinearRegression().fit(poly_X, y_train)
    
    # Agrandissement de la base d'de test avec l'ajout des degrés successifs
    poly_X_test = X_test.copy()
    
    for i in range(2, n+1):
        
        index = [str(j) + '^' + str(i) for j in X.columns[:32]]
        poly_X_test[[str(j) + '^' + str(i) for j in X.columns[:32]]] = poly_X_test[[j for j in X.columns[:32]]].pow(i)
    
    # Regression
    y_pred = poly_reg.predict(poly_X_test)
    MSE = mean_squared_error(y_test, y_pred)
    
    # Affichage des coefficients pour le degré 2
    fig = px.histogram(pd.DataFrame([
        (poly_X.columns[i], poly_reg.coef_[0][i]) for i in range(28 + 32 * (n - 1))
                            ]).T.rename(
        index = {0 : 'variable', 1 : 'coeff'}
                                        ).T.sort_values(by = 'variable'), x = 'variable', y = 'coeff') 
    
    if n == 2:
        
        fig.show()
        
    else:
        
        print('degré : ', n)

    return MSE

In [None]:
# Regressions jusqu'à l'overfitting (MSE > 0.4 sur l'échantillon test)

i = 2
val = poly_reg(2)
list_mse_degree = [val]


while val < .016:
    i += 1
    val = poly_reg(i)
    list_mse_degree.append(val) 
    
    if i > 25:
        break
    

px.line(x = [i + 2 for i in range(len(list_mse_degree))], y = list_mse_degree).show()

On observe que :  
- le degré à partir duquel on observe de l'overfitting dépend beaucoup de l'échantillon de test, qui est choisi au hasard. On a pu observer de l'overfitting au degré 25 comme au degré 8 avec des échantillons différents
- Dans la regression de degré 2, pour presque chaque variable, le coefficient de la variable et de la variable au carré ont un exposant de signe opposé. Cela semble signifier que le premier coeffient "compense" l'effet du deuxième, et donc que l'effet de chaque variable est plus complexe qu'un effet linéaire
- Seul score_monument a significativement deux coefficients positif. Son effet semble clair : plus on est proche des monuments, plus le prix est haut

In [None]:
# Pour obtenir de nouveaux échantillons si échec :  
y = df[['prixm2']]
X = df.drop(columns = ['prixm2'])
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size = 0.2)

## II.2 Regression pénalisée

Etant donnée le grand nombre de variables dont nous disposons, il nous parrait cohérent d'utiliser une regression pénalisée afin de sélectionner les variables les plus significatives.
De plus, certaines de nos variables sont corrélées entre elles.

Ici, on a fait baisser l1_ratio progressivement jusqu'à obtenir 10 variables dont les coefficients sont non nul.

In [None]:
df1 = df.copy()

y = df1[['Réplique']]
X = df1.drop(columns = ['Réplique'])

# On choisit un échantillon de validation de 20 %

X_train, X_test, y_train, y_test = train_test_split(X,y,test_size = 0.2)

In [None]:
EN_reg = ElasticNet(alpha=.3, copy_X=False, fit_intercept = False, l1_ratio=1)

EN_reg.fit(X_train, y_train)

In [None]:
y_pred = EN_reg.predict(X_test)
print('MSE : ', mean_squared_error(y_test, y_pred))

In [None]:
pd.DataFrame([(X.columns[i], EN_reg.coef_[i]) for i in range(N)]).T.rename(index = {0 : 'variable', 1 : 'coeff'})

In [None]:
result = [(EN_reg.coef_[i], X.columns[i]) for i in range(N) if abs(EN_reg.coef_[i]) > 50]

In [None]:
sorted(result)

## II.3 Regression par Random Forest

Dans cette partie, nous allons faire des regressions grâce aux arbres de décision. 
Nous allons rechercher les meilleurs paramètres pour notre regression.
Pour cela, on teste un à un les paramètres suivants :  
- profondeur des arbres  
- nombre d'arbres  
- minimun d'exemples requis pour splitter l'arbre  
- nombre de feuilles maximum par arbre  

In [None]:
# On définit d'abord une fonction qui donne l'importance des variables vis à vis d'un certain modèle

def feat_importance(model, x_train, y_train, X):
    """
    Renvoie le tableau de l'importance des variables vis à vis du modèle par la méthode des permutations
    """

    result = permutation_importance(
                                    model, 
                                    X, 
                                    y, 
                                    n_repeats = 3,
                                    random_state = 0
                                    )['importances_mean']
    
    importance = pd.DataFrame(result, index = X.columns, columns = ["Importance"])
    
    return importance.sort_values(by = ['Importance'], ascending = False)

In [None]:
df

In [None]:
# Création des essembles de tests et d'entrainement, on choisit une taile de test de 30% ici

X = df.drop(['Réplique', 'Unnamed: 0'], axis = 1)
x = np.array(X)
y = np.array(df['Réplique'])

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3, random_state = 41)
# random_state correspond à la graine générant l'échantillon aléatoire

### II.3.1 Profondeur maximale

In [None]:
max_depth_ls = [1, 10, 13, 15, 17, 20, 25, 30] # profondeurs maximales des arbres de décision testées
mse_train_max_depth = []
mse_test_max_depth = []

# Pour chaque profondeur max, on regresse avec random forest

for m in max_depth_ls :
    
    print('Profondeur téstée : ', m)
    
    rf = RandomForestRegressor(
                            max_depth = m, 
                            random_state=0,
                            n_estimators = 30) # nombre d'arbres utilisés
    
    rf = rf.fit(x_train, y_train)
    y_pred_train = rf.predict(x_train)
    y_pred = rf.predict(x_test)
    
    mse_train_max_depth.append(mean_squared_error(y_train, y_pred_train))
    mse_test_max_depth.append(mean_squared_error(y_test, y_pred))

In [None]:
# On affiche ensuite les performances de la regression sur les deux échantillon (train et test)

fig, ax = plt.subplots(figsize = (18, 8))
plt.plot(max_depth_ls, mse_train_max_depth, color = 'red', label = 'Train')
plt.plot(max_depth_ls, mse_test_max_depth, color = 'blue', label = 'Test')
plt.title('MSE en fonction de max_depth')
plt.legend()
plt.show()

On observe que l'overfitting débute après max_depth > 15 (le score sur l'échantillon d'entrainement continue de decroitre alors qu'il commence à croitre sur l'échantillon de test)

In [None]:
#On regarde la valeur qui minimise la MSE sur l'ensemble de test

max_depth_ls[mse_test_max_depth.index(min(mse_test_max_depth))]

**On garde donc max_depth = 15 pour la suite**

### II.3.2 Nombre d'arbres

In [None]:
# On regarde maintenant l'effet du nombre d'arbre sur l'effet de la regression

nb_estimators_ls = [1, 2, 3, 5, 20, 40, 50, 60, 80]
mse_train_nb_estimators = []
mse_test_nb_estimators = []

for m in nb_estimators_ls :
    print("Nombre d'arbres testés : ", m)
    rf = RandomForestRegressor(max_depth = 15, 
                               random_state = 0,
                                n_estimators = m)    
    
    rf = rf.fit(x_train, y_train)
    y_pred_train = rf.predict(x_train)
    y_pred = rf.predict(x_test)
    
    mse_train_nb_estimators.append(mean_squared_error(y_train, y_pred_train))
    mse_test_nb_estimators.append(mean_squared_error(y_test, y_pred))


In [None]:
# On affiche ensuite les performances de la regression sur les deux échantillon (train et test)

fig, ax = plt.subplots(figsize = (18, 8))
plt.plot(nb_estimators_ls, mse_train_nb_estimators, color = 'red', label = 'Train')
plt.plot(nb_estimators_ls, mse_test_nb_estimators, color = 'blue', label = 'Test')
plt.title('MSE en fonction de n_estimators')
plt.legend()
plt.show()

**La courbe semble strictement décroissante, on doit arbitrer entre complexité algorithmique et performance.  
On garde n_estimators = 60 pour la suite**

### II.3.3 Minimun d'exemples requis pour splitter l'arbre  

In [None]:
# On fait varier le nombre minimum d'exemple requis pour créer une feuille/noeud

samples_leaf_ls = [1, 2, 3, 4, 10]
mse_train_samples_leaf = []
mse_test_samples_leaf = []


for m in samples_leaf_ls :
    print('min_samples_leaf testé : ', m)
    rf = RandomForestRegressor( max_depth = 15, 
                                min_samples_leaf = m,
                                n_estimators = 60, 
                                random_state = 0
                              )    
    
    rf = rf.fit(x_train, y_train)
    y_pred_train = rf.predict(x_train)
    y_pred = rf.predict(x_test)
    
    mse_train_samples_leaf.append(mean_squared_error(y_train, y_pred_train))
    mse_test_samples_leaf.append(mean_squared_error(y_test, y_pred))

In [None]:
# On affiche ensuite les performances de la regression sur les deux échantillon (train et test)

fig, ax = plt.subplots(figsize = (18, 8))
plt.plot(samples_leaf_ls, mse_train_samples_leaf, color='red', label='Train')
plt.plot(samples_leaf_ls, mse_test_samples_leaf, color='blue', label='Test')
plt.title('MSE en fct de min samples leaf')
plt.legend()
plt.show()

**On garde donc min_samples_leaf = 1 pour la suite**

### II.3.4 Nombre maximum de feuilles par arbres

In [None]:
max_leaf_ls = [2, 10, 100, 150, 200, 1000, 1500]
mse_train_max_leaf = []
mse_test_max_leaf = []



for m in max_leaf_ls :
    
    print('Nombre de feuilles max testé : ', m)
    rf = RandomForestRegressor(max_depth = 15, 
                               min_samples_leaf = 1, 
                               max_leaf_nodes = m,
                               n_estimators = 60)   
    
    rf = rf.fit(x_train, y_train)
    y_pred_train = rf.predict(x_train)
    y_pred = rf.predict(x_test)
    mse_train_max_leaf.append(mean_squared_error(y_train, y_pred_train))
    mse_test_max_leaf.append(mean_squared_error(y_test, y_pred))

In [None]:
# On affiche ensuite les performances de la regression sur les deux échantillon (train et test)

fig, ax = plt.subplots(figsize = (18, 8))
plt.plot(max_leaf_ls, mse_train_max_leaf, color = 'red', label = 'Train')
plt.plot(max_leaf_ls, mse_test_max_leaf, color = 'blue', label = 'Test')
plt.title('MSE en fonction max_leaf_nodes')
plt.legend()
plt.show()

**La courbe semble strictement décroissante, on doit arbitrer entre complexité algorithmique et performance.  
On garde max_leaf_nodes = 1000 pour la suite**

In [None]:
# On a maintenant tous nos paramètres

print('a')
rf = RandomForestRegressor(
                        max_depth = 7, 
                        min_samples_leaf = 1, 
                        max_leaf_nodes = 1000,
                        n_estimators = 20
                            )    
print('b')


rf = rf.fit(x_train, y_train)
print('c')


y_pred_train = rf.predict(x_train)
y_pred = rf.predict(x_test)
oo = np.zeros(y_pred.shape)

print('MSE train : ', mean_squared_error(y_train, y_pred_train))
print('MSE test : ', mean_squared_error(y_test, y_pred))
print('MSE modèle nulle : ', mean_squared_error(y_test, oo))

importance = feat_importance(rf, x_train, y_train, X)

In [None]:
importance.plot(kind = 'barh', figsize = (18, 14))

In [None]:
print('Rappel des variables retenue par ElasticNet : ', signif_EN)

- On retrouve la présence de score_monument comme variable la plus importante, et on retrouve globalement les mêmes variables importantes.  
- On retrouve que la longitude est plus importante que la latitude.  
- On note aussi que les TypeVoie les plus importantes sont les 1, 2 et 11 (Avenue, Boulevard, Rue). 
- Par contre, Quartier surpasse Arrondissement de beaucoup, comme ces deux variables sont très corrélées, cela ne pose pas de problème de cohérence.
- NbPieces, et les scores pour les jardins, le metro et les commerce sont plus iportants ici.


In [None]:
# On garde que les variables raisonnablement significatives (>0.01)

X = df[['score_monument', 'lon', 'lat', 'NbPieces', 'score_jardin', 'score_metro']]

x = np.array(X)
y = np.array(df['prixm2'])
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3, random_state = 41)

rf = RandomForestRegressor(max_depth = 15, random_state = 0, min_samples_leaf = 1, max_leaf_nodes = 1000,
                                 n_estimators = 60)
rf = rf.fit(x_train,y_train)


y_pred = rf.predict(x_test)
y_pred_train= rf.predict(x_train)

oo = np.zeros(y_pred.shape)

print('MSE train : ', mean_squared_error(y_train, y_pred_train))
print('MSE test : ', mean_squared_error(y_test, y_pred))
print('MSE model nulle : ', mean_squared_error(y_test, oo))

importance = feat_importance(rf, x_train, x_test, X)
importance.plot(kind='barh')

On retrouve exactement les mêmes résultats, sauf que la latitude a dépassé la longitude.

## II.4 Réseau de neurones

Les réseaux de neurones sont des architectures qui permettent de rendre compte des influences complexes des variables sur le prix.

In [None]:
# On définit les échantillons

y = df[['prixm2']]
X = df.drop(columns = ['prixm2'])

Après plusieurs essais, un réseau 28 - 2 - 3 - 1 fournit des résultats satisfaisant. 

In [None]:
# Construction de l'architecture du réseau

model = Sequential()

model.add(Dense(70, input_dim = 47, activation = 'relu'))

model.add(Dense(12))
model.add(Dense(13))
model.add(Dense(15))
model.add(Dense(5))
model.add(Dense(1))

model.compile(optimizer = 'adam', loss = 'mse')

In [None]:
# Lancement de la phase d'apprentissage

history = model.fit(X, y, validation_split = 0.2,  epochs = 30)

In [None]:
# On affiche l'évolution de la loss au fil des époques pour les échantillons train et test.

fig, ax = plt.subplots(figsize = (18, 8))
plt.plot(history.history['loss'])
plt.title('Evolution de MSE sur X_train au fil des époques')
plt.ylabel('mse')
plt.legend(['train'], loc = 'upper left')
plt.show()

fig, ax = plt.subplots(figsize = (18, 8))
plt.plot(history.history['val_loss'])
plt.title('Evolution de MSE sur X_test au fil des époques')
plt.ylabel('mse')
plt.legend(['test'], loc = 'upper left')
plt.show()

 **En prenant en compte les variables sélectionnées par ElsaticNet précédemment**

In [None]:
X_significatif = X[signif_EN]

In [None]:
# On reprend la même architecture en changeant le nombre de neurones d'entrée.

model_significatif = Sequential()

model_significatif.add(Dense(2, input_dim = 10, activation='relu'))
model_significatif.add(Dense(3))
model_significatif.add(Dense(1))

model_significatif.compile(optimizer = 'adam', loss = 'mse')

In [None]:
# Lancement de la phase d'apprentissage

history_significatif = model_significatif.fit(X_significatif, y, validation_split = 0.2,  epochs = 30)

In [None]:
# On affiche l'évolution de la loss au fil des époques pour les échantillons 
# train et test en comparant avec l'autre réseau.

fig, ax = plt.subplots(figsize = (18, 8))
plt.plot(np.array(history_significatif.history['loss']))
plt.title('Evolution de MSE sur X_train au fil des époques')
plt.plot(history.history['loss'])
plt.ylabel('mse')
plt.legend(['train significatif', 'train'], loc='upper left')
plt.show()

fig, ax = plt.subplots(figsize = (18, 8))
plt.plot(history_significatif.history['val_loss'])
plt.plot(history.history['val_loss'])
plt.title('Evolution de MSE sur X_test au fil des époques')
plt.ylabel('mse')
plt.legend(['test_significatif', 'test'], loc='upper left')
plt.show()

Observations :  
- le comportement de la loss dépend de la sélection de l'échantillon de test. On a pu avoir des modèles qui apprenaient bien (décroissance de la loss dans les 4 graphiques précedents), comme des modèles qui apprenaient mal.
- La plupart du temps, on observe quand même un apprentissage qui fonctionne. Mais les performance des deux réseaux sont après 15 époques similaires (l'apprentissage avec plus de variable est même plus efficace avec peu d'époques)

In [None]:
#Graphiques obtenus dans une bonne situation

fig, ax = plt.subplots(figsize = (18, 8))
img = mpimg.imread('img/img0.png')
imgplot = plt.imshow(img)
plt.show()

fig, ax = plt.subplots(figsize = (18, 8))
img = mpimg.imread('img/img1.png')
imgplot = plt.imshow(img)
plt.show()

**Importance des paramètres (méthode des permutations)**

In [None]:
perm = PermutationImportance(model, scoring = 'r2', random_state = 1).fit(X,y)
eli5.show_weights(perm, feature_names = X.columns.tolist())

In [None]:
eli5.show_weights(perm, feature_names = X.columns.tolist(), top = 47)

On constate ici en général l'importance du score_monument, largement les plus important selon ce modèle (poids 10 fois supérieur aux autres variables).
On retrouve aussi l'importance du Quartier et de la longitude.

# III. Clustering

Dans cette partie, nous voulons classer les appartements en différents cluster, afin d'identifier des appartements "types", regroupant les mêmes caractéristiques classiques.  
Nous procédons alors à une ACP pour réduire la dimension de nos données, puis nous utilisons la méthode des k moyennes pour le clustering. 
On pondère chaque variable par son importance donnée dans le réseau de neurones précedemment.

In [None]:
df_ACP = df[signif_EN].copy()

In [None]:
df_ACP['Arrondissement'] *= 0.0045
df_ACP['Quartier'] *= 0.0167
df_ACP['score_monument'] *= 0.0555
df_ACP['TypeVoie_1'] *= 0.0030
df_ACP['lat'] *= 0.0003
df_ACP['lon'] *= 0.0087
df_ACP['score_commerce_lux'] *= 0.0004
df_ACP['TypeVoie_11'] *= 0.0003
df_ACP['periode_construction'] *= 0.0004
df_ACP['TypeVoie_2'] *= 0.0008

In [None]:
# On réduit sur 3 variables

pca = PCA(n_components = 3)
pca.fit(df_ACP)

transformed_df = pd.DataFrame(pca.transform(df_ACP)).rename(columns = {
                            0 : 'var0', 
                            1 : 'var1', 
                            2 : 'var2',
                         })

In [None]:
px.scatter_3d(transformed_df.sample(1000), x = 'var0', y = 'var1', z = 'var2', opacity = 1)

On peut retrouver dans cette représentation une "hélice", qui fait penser aux arrondissements de Paris disposés en escargot. Cela suggère une forte composante géographique.

In [None]:
# On distinguera alors 6 clusters.

kmeans = KMeans(n_clusters = 6).fit(transformed_df)

In [None]:
# On labélise

transformed_df['cluster'] = kmeans.labels_

In [None]:
px.scatter_3d(transformed_df.sample(1000), x = 'var0', y = 'var1', z = 'var2', color = 'cluster', opacity = .7)

Les clusters ont bien été faits.

**On affiche ensuite les différentes caractéristiques des clusters obtenus.**

In [None]:
df_cluster0 = df_ACP.iloc[[i for i in list(transformed_df[transformed_df['cluster'] == 0].index)]]
df_cluster1 = df_ACP.iloc[[i for i in list(transformed_df[transformed_df['cluster'] == 1].index)]]
df_cluster2 = df_ACP.iloc[[i for i in list(transformed_df[transformed_df['cluster'] == 2].index)]]
df_cluster3 = df_ACP.iloc[[i for i in list(transformed_df[transformed_df['cluster'] == 3].index)]]
df_cluster4 = df_ACP.iloc[[i for i in list(transformed_df[transformed_df['cluster'] == 4].index)]]
df_cluster5 = df_ACP.iloc[[i for i in list(transformed_df[transformed_df['cluster'] == 5].index)]]

In [None]:
display(df_cluster0.describe().T[['mean', 'std']].T)
display(df_cluster1.describe().T[['mean', 'std']].T)
display(df_cluster2.describe().T[['mean', 'std']].T)
display(df_cluster3.describe().T[['mean', 'std']].T)
display(df_cluster4.describe().T[['mean', 'std']].T)
display(df_cluster5.describe().T[['mean', 'std']].T)

On affiche le résultat dans un plan.

In [None]:
df_ACP['cluster'] = pd.Series(kmeans.labels_)
df_ACP[['true_lat', 'true_lon']] = df0[['lat', 'lon']]

px.scatter(df_ACP, x = 'true_lon', y = 'true_lat', color = 'cluster', template = 'none', opacity = .3, color_continuous_scale = 'Jet')

On a en effet un clustering très géographique. On peut essayer d'interpréter les clusters :   
- Quartiers populaires (19ème, 20ème, une partie du 18ème et l'extrême sud)
- Quartiers familiaux (12ème, 13ème, 14ème, 15ème)
- Quartiers riche 1 (16ème)
- Quartier riche 2 (7ème et 16ème)
- Quartiers historiques (centre)
- Quartiers qui s'embourgeoisent (autour des Quartiers historiques de Paris centre, 9ème, 10ème, 11ème)

# Conclusion

On obtient des modèles dont les performances sont représentées ci-dessous.

In [None]:
px.histogram(x = ['Reg. Lin.', 'Reg. poly.', 'ElasticNet', 'Random Forest', 'Réseau de neurones'], 
             y = [0.014, 0.013, 0.018, 0.012, 0.012], 
             range_y = [.01,.018],
             labels = {'x' : 'Modèle', 'y' : 'MSE'},
             template = 'none')

On constate la supériorité des réseaux de neurones et des regressions par Ramdom Forest, avec un avantage pour ces dernières car elles semblent plus robustes.

Au niveau de l'analyse des variables les plus importantes, on retrouve au fil des modèles :
- une omniprésence de score_monument
- une supériorité d'importance de lon sur lat
- une grande importance du Quartier ou de l'Arrondissement
- un effet positif du score_commerce_lux et négatif du score_commerce