In [None]:
import pandas as pd
import geopandas as gpd
import json 
from shapely.geometry import shape, Point
import shapely

import numpy as np

import matplotlib.pyplot as plt
import plotly.express as px
import folium

from vincenty import vincenty

import requests
import urllib.parse
import re

from sklearn import preprocessing


# Option d'affchage
pd.set_option('display.max_columns', None)

In [None]:
# Si la base de données n'est pas déjà téléchargée
# df0 = pd.read_csv('https://www.data.gouv.fr/fr/datasets/r/3004168d-bec4-44d9-a781-ef16f41856a2', sep = '|')

# Sinon
df0 = pd.read_csv('data/valeursfoncieres-2019.txt', sep = '|')


In [None]:
df0.shape

# I. Nettoyage de la base de données

In [None]:
df1 = df0.copy()

df1.sample(5)

## 1. Séléction des variables intéressantes

In [None]:
df1.columns

In [None]:
df = df1[[
        'Date mutation', 'Nature mutation', 'Valeur fonciere',
        'No voie', 'Type de voie', 'Code voie', 'Voie', 'Code postal',
        'Commune', 'Code departement', 'Code commune', 'Type local',
        'Surface reelle bati', 'Nombre pieces principales', 'Surface terrain',
        'Section', 'No plan'
        ]]

df.sample(5)

### Premier tri pour garder les biens qui nous intéressent dans le cadre que l'on s'est donné

In [None]:
df = df[df['Nature mutation'] == 'Vente']
df = df[df['Code departement'] == 75]
df = df[df['Type local'] == 'Appartement']
df = df[pd.isna(df['Surface terrain'])] # Vu qu'on va essayer de prédir un prix au m2, la surface est une donnée indispensable

### Changement du nom des variables

In [None]:
df = df[[
        'Date mutation', 'Valeur fonciere', 'No voie', 
        'Type de voie', 'Voie', 'Code postal', 'Surface reelle bati', 
        'Nombre pieces principales',
        'Code departement', 'Code commune', 'Code voie',
        'Type local', 'Section', 'No plan'
        ]]

df = df.rename(columns = {
                            'Date mutation': 'Date', 
                            'Valeur fonciere': 'Valeur',
                            'Type de voie': 'TypeVoie',
                            'No voie': 'Numero',
                            'Code postal': 'CodePostal',
                            'Surface reelle bati': 'Surface',
                            'Nombre pieces principales': 'NbPieces',
                            'Surface terrain': 'SurfaceTerrain',
                            'Code departement': 'Code_departement', 
                            'Code commune': 'Code_commune', 
                            'Code voie': 'Code_voie',
                            'Type local': 'TypeLocal',
                            'No plan': 'No_plan'
                         }
              )

## 2. Gestion des variables

In [None]:
df.dtypes

On remarque que la variable "Valeur" n'est pas de type float ou int, il va falloir y remédier !

### Valeur

In [None]:
# Les biens dont la valeur n'est pas renseignée ne nous intéressent pas
df = df.dropna(subset = ['Valeur'])

# Changement des virgules en point pour pouvoir convertir les types str en types float
df['Valeur'] = df.apply(lambda row : str(row.Valeur).replace(',', '.'), axis = 1)
df['Valeur'] = pd.to_numeric(df['Valeur'])

# On divise par 1000 les prix pour plus de lisibilité
df['Valeur'] = df['Valeur']/1000

# On se concentre sur une tranche de prix "raisonnable"
df = df[df['Valeur'] > 60]
df = df[df['Valeur'] < 15000]

# Pour déterminer ces bornes, nous sommes allé sur des sites d'immobiliers à Paris pour trouver les valeurs extrêmes

### Surface

Un logement mis en location doit respecter une surface minimum. Il s'agit d'un des critères de décence du logement.

Le logement doit comporter au moins une pièce principale présentant :

une surface habitable de 9 m² et une hauteur sous plafond minimale de 2,20 mètres,
ou un volume habitable de 20 m³.

In [None]:
df = df[df['Surface'] >= 9]

### Création de la variable du prix par metre carré (prixm2)

In [None]:
df['prixm2'] = df['Valeur'] / df['Surface']

### Date

In [None]:
display(df.sort_values('Date')[['Date']].head())
df[pd.isna(df['Date'])].shape

# Il ne semble pas y avoir de valeurs manquantes

### Elements d'adresse (Numero, TypeVoie,  Voie, CodePostal)

In [None]:
# Numero
print(df[pd.isna(df['Numero'])].shape)

# Tous les appartments ont un numéro indiqué. On est satisfait car on souhaite une localisation précise des appartements

In [None]:
# TypeVoie

print(df[pd.isna(df['TypeVoie'])].shape)

# 15 valeurs manquantes, on regarde à quoi elles correspondent

display(df[pd.isna(df['TypeVoie'])])

# Cela correspond à des adresses où le type de voie est spécial (Villa, Pont, Autoroute, Rond point) 
# et est contenu dans la variable Voie
# On laisse comme ca

In [None]:
# Voie
display(df.sort_values('Voie')[['Voie']].head())
print(df[pd.isna(df['Voie'])].shape)

# Il ne semble pas y avoir de valeurs manquantes

In [None]:
# CodePostal

print(df[pd.isna(df['CodePostal'])].shape)

# 1 valeur manquante, on regarde à quoi elle correspond

display(df[pd.isna(df['CodePostal'])])

# La rue de l'Abbé Groult se situe dans le 15ème, on remplit à la main

df.at[2503844, 'CodePostal'] = float(75015)

display(df.loc[[2503844]])

### NbPieces (nombre de pièces)

In [None]:
print(df[pd.isna(df['NbPieces'])].shape)

display(df.sort_values('NbPieces')[['NbPieces']].head())

# Pas de valeurs manquantes mais des appartements à 0 pièces...

display(df[df['NbPieces'] == 0].head())

# Les entrées n'ont pas l'air des anomalies, la valeur doit être manquante, on laisse tel quel en gardant à l'esprit cette observation

#### Création de la variable 'id' qui permettra d'identifier l'adresse précise dans une autre bdd

In [None]:
def code_numero(numero):
    """Créé le code utilisé pour identifier le numero d'une rue au sein du code 'id' 

    Argument :
    numero : float
        numero de la rue tel que présent dans la base de données

    Return :
    code : str
        Le code correspondant (format 00007 pour le numéro 7 d'une rue, par exemple)
    """

    code = str(int(numero))
    code = '0' * (5 - len(code)) + code

    return code

df['id'] = df['Code_departement'].astype(str) + df['Code_commune'].astype(str) + '_' + df['Code_voie'].astype(str) + '_' + df['Numero'].apply(code_numero)

df = df.drop(columns = ['Code_commune', 'Code_departement', 'Code_voie'])

# Vérification

df.head(5)

In [None]:
# Petite sauvegadre de la base à ce stade

dfv0 = df.copy()

In [None]:
df = dfv0.copy()

## 3. Choix de la variable à prédir

In [None]:
# On peut tracer le prix en fonction de la surface

df[df['Valeur'] < 2000].sample(2000).plot(x = 'Surface', y = 'Valeur', kind = 'scatter', alpha = .1)
# On a tracé le graphe pour les appartements ayant un prix inférieur à 2 millions

On voit une relation linéaire apparaitre, justifiée par un coefficient de corrélation significatif, de 0.58 

In [None]:
df['Valeur'].corr(df['Surface'])

#### On fait donc l'hypothèse qu'il y a une corélation linéaire entre le prix d'un appartement et sa surface en m2.
#### On se donnera donc pour objectif de prédir le prix au m2 d'un appartement en fonction de différents paramètres.

## 4. Gestion des anomalies

La base de données n'est pas parfaite, certaines entrées sont erronées.
La premier nettoyage que nous allons faire, qui est aussi le plus grossier, est de se restreindre à des prix au m2 raisonnables.
#### Le site meilleursagents.com recense les prix au m2 de nombreux appartements à Paris. 
#### Les prix les plus bas observé sont environ de 4 700 €/m2
#### Les prix les plus hauts observés sont environ de 32 000 €/m2

#### On choisit donc de considérer les biens dont le prix au m2 est compris entre 4 230 € et 35 200 (marge de 10%)

In [None]:
df = df[df['prixm2'] > 4.23]
df = df[df['prixm2'] < 35.2]

df.plot(x = 'Surface', y = 'Valeur', kind = 'scatter', alpha = .1)

In [None]:
df['Valeur'].corr(df['Surface']) # Nouveau coefficient de corrélation : 0.88

# Couplage : date de construction du bâtis

Pour obtenir la date de construction des immeubles, on utilise deux nouvelles bases :  
    -df_dates qui donne la date de construction à partir d'un identificateur id2  
    -df_join qui associe l'identificateur id2 à une adresse
    
   df_join va donc nous permettre de faire la jointure entre la base d'origine et la base df_dates pour obtenir la date deconstruction des immeubles.

In [93]:
# Importation des bases
df_dates = pd.read_csv('data/date_construction.csv', sep = ',')
df_join = pd.read_csv('data/PARCELLE_CADASTRALE.csv', sep = ',')


Columns (31) have mixed types.Specify dtype option on import or set low_memory=False.


Columns (6) have mixed types.Specify dtype option on import or set low_memory=False.



In [94]:
# On garde que les variables qui nous intéressent
df_join = df_join[['n_sq_pc', 'c_sec', 'n_pc']]
df_dates = df_dates[['n_sq_pc', 'c_perconst']]

In [95]:
# On regroupe les deux bases grâce à l'identificateur
df_dates = df_dates.merge(df_join, left_on = 'n_sq_pc', right_on = 'n_sq_pc')
df_dates = df_dates.drop(columns = ['n_sq_pc'])

In [96]:
# On crée l'identificateur dans la base d'origine et le fait correspondre avec celui de la base des dates
df['id2'] = df.apply(lambda row: str(row.Section) + str(row.No_plan), axis = 1)
df_dates['id2'] = df_dates.apply(lambda row: str(row.c_sec) + str(row.n_pc), axis = 1)
df_dates = df_dates.drop_duplicates(subset = ['id2'], keep = 'first')

display(df_dates.head(10))
display(df.head(10))


# On joint les deux bases
df = pd.merge(df, df_dates, on = 'id2')



Unnamed: 0,c_perconst,c_sec,n_pc,id2
0,5.0,FX,57,FX57
1,3.0,EF,1,EF1
3,3.0,BT,61,BT61
6,3.0,AM,45,AM45
7,6.0,DV,2,DV2
12,3.0,AQ,7,AQ7
13,3.0,EL,24,EL24
15,3.0,AB,2,AB2
16,3.0,AR,14,AR14
19,5.0,EG,7,EG7


Unnamed: 0,Date,Valeur,Numero,TypeVoie,Voie,CodePostal,Surface,NbPieces,TypeLocal,Section,No_plan,prixm2,id,id2
2478017,04/01/2019,1196.0,17.0,RUE,DUPHOT,75001.0,112.0,3.0,Appartement,BC,14,10.678571,75101_2999_00017,BC14
2478018,03/01/2019,1570.49,13.0,RUE,DE THORIGNY,75003.0,104.0,3.0,Appartement,AL,15,15.100865,75103_9298_00013,AL15
2478022,10/01/2019,230.0,4.0,RUE,BLONDEL,75003.0,26.0,1.0,Appartement,AB,130,8.846154,75103_1021_00004,AB130
2478024,05/01/2019,955.75,82.0,BD,MALESHERBES,75008.0,80.0,3.0,Appartement,CG,21,11.946875,75108_5951_00082,CG21
2478025,07/01/2019,506.8,4.0,CITE,DUPETIT THOUARS,75003.0,45.0,2.0,Appartement,AG,72,11.262222,75103_2996_00004,AG72
2478026,07/01/2019,565.95,79.0,RUE,DU ROCHER,75008.0,55.0,3.0,Appartement,CG,60,10.29,75108_8291_00079,CG60
2478028,09/01/2019,582.0,13.0,RUE,DU PONT AUX CHOUX,75003.0,41.0,2.0,Appartement,AL,51,14.195122,75103_7605_00013,AL51
2478029,09/01/2019,200.0,39.0,RUE,D ARTOIS,75008.0,28.0,1.0,Appartement,BF,30,7.142857,75108_0487_00039,BF30
2478030,08/01/2019,2638.5,67.0,BD,DE COURCELLES,75008.0,260.0,8.0,Appartement,AY,32,10.148077,75108_2386_00067,AY32
2478031,07/01/2019,1935.6,24.0,RUE,DE MONTPENSIER,75001.0,66.0,2.0,Appartement,AV,33,29.327273,75101_6528_00024,AV33


In [97]:
# Et on néttoie le tout
df = df.drop(columns = ['id2', 'c_sec', 'n_pc', 'Section', 'No_plan'])
df = df.rename(columns = {'c_perconst': 'periode_construction'})

In [98]:
px.histogram(df, x = 'periode_construction')

In [99]:
# La catégorie 4 n'existe pas, on recode pour que ca soit plus compréhensif
def ajustement(valeur):
    if valeur in [i for i in range(5, 13)]:
        return valeur - 1
    elif valeur == 99:
        return 0
    else:
        return valeur

df['periode_construction'] = df.apply(lambda row: ajustement(row.periode_construction), axis = 1)


In [100]:
px.histogram(df, x = 'periode_construction')

In [101]:
df.shape

(29707, 12)

On obtient ici plusieurs tranches de périodes de constructions :  
0   Données manquantes  
1	Avant 1800	
2	1801-1850	
3	1851-1914	
4	1915-1939	
5	1940-1967	
6	1968-1975	
7	1976-1981	
8	1982-1989	
9	1990-1999	
10	2000-2007	
11	2008 et plus

### Ajout de la variable arrondissement

In [102]:
df['Arrondissement'] = df.apply(lambda row: int(str(int(row.CodePostal))[3:5]), axis = 1)

# Couplage avec la base des données GPS

On souhaite obtenir les coordonnées GPS de tous les appartements présents dans la base.
Pour cela, nous avons trouvé une base de données qui répertorient toutes les adresses parisiennes et leur associe des coordonnées GPS.
Pour coupler les deux bases, nous utiliserons la variable id.
Ce code id est de la forme WWXXX_YYYY_ZZZZZ avec : 	
##### WW est le code département (75 ici)
##### XXX est le code commune (115 pour le 15ème arrondissement)
##### YYYY est le code voie (4903 pour l'avenue Jean Jaurès par exemple)
##### ZZZZ est le numéro (00005 pour le 5)


In [103]:
df2 = pd.read_csv('https://adresse.data.gouv.fr/data/ban/adresses/latest/csv/adresses-75.csv.gz', sep = ';').copy()

In [104]:
df2[df2['id'].str[:2] == '75'].sample(5)

Unnamed: 0,id,id_fantoir,numero,rep,nom_voie,code_postal,code_insee,nom_commune,code_insee_ancienne_commune,nom_ancienne_commune,x,y,lon,lat,alias,nom_ld,libelle_acheminement,nom_afnor,source_position,source_nom_voie
136240,75105_8884_00002,75105_8884,2,,Rue Scipion,75005,75105,Paris 5e Arrondissement,,,652599.05,6859959.67,2.354203,48.837944,,,PARIS,RUE SCIPION,commune,commune
96746,75115_0463_00020,75115_0463,20,,Rue de l'Armorique,75015,75115,Paris 15e Arrondissement,,,649685.36,6860107.07,2.314491,48.839048,,,PARIS,RUE DE L ARMORIQUE,commune,commune
136081,75105_8690_00036_ter,75105_8690,36,ter,Boulevard Saint-marcel,75005,75105,Paris 5e Arrondissement,,,652866.23,6860064.05,2.357832,48.838902,,,PARIS,BOULEVARD SAINT MARCEL,commune,commune
66068,75116_1074_00038_bis,75116_1074,38,bis,Rue Boissière,75016,75116,Paris 16e Arrondissement,,,647878.34,6863246.48,2.289488,48.867137,,,PARIS 16,RUE BOISSIERE,commune,commune
76133,75116_6381_00054,75116_6381,54,,Rue Mirabeau,75016,75116,Paris 16e Arrondissement,,,646256.96,6860874.46,2.267687,48.845673,,,PARIS 16,RUE MIRABEAU,commune,commune


### Séléction des variables intéressantes

In [105]:
df_GPS = df2[[
        'id', 'lon', 'lat', 
        ]]

# x et y : Coordonnées cartographique en projection légale
# lon et lat : Coordonnées en WGS-84	

df_GPS.sample(10)

Unnamed: 0,id,lon,lat
128147,75112_3711_00001,2.390499,48.837088
36109,75120_3041_00020,2.388001,48.86517
101340,75115_0117_00001,2.29478,48.828662
147397,75108_8111_00030,2.31182,48.865736
139333,75107_9393_00002_quater,2.310024,48.854088
46146,75118_8014_00059,2.345489,48.890392
115662,75111_3242_00028,2.388486,48.855949
126018,75112_8175_00001,2.385109,48.849709
1892,75103_3875_00004,2.366364,48.861544
43395,75120_5669_00020,2.406347,48.867531


### Couplage avec df

In [106]:
print(df.shape)
df = df.merge(df_GPS, left_on = 'id', right_on = 'id')
print(df.shape)
# On perd a peine 1000 valeurs
display(df.sample(10))

(29707, 13)
(29622, 15)


Unnamed: 0,Date,Valeur,Numero,TypeVoie,Voie,CodePostal,Surface,NbPieces,TypeLocal,prixm2,id,periode_construction,Arrondissement,lon,lat
6998,18/04/2019,575.0,19.0,QUAI,DE L OISE,75019.0,64.0,3.0,Appartement,8.984375,75119_6879_00019,5.0,19,2.38395,48.890971
2316,19/09/2019,2950.0,13.0,PL,DES VOSGES,75004.0,150.0,4.0,Appartement,19.666667,75104_9917_00013,6.0,4,2.364489,48.855683
23442,25/07/2019,660.25,85.0,RUE,JEAN DE LA FONTAINE,75016.0,57.0,3.0,Appartement,11.583333,75116_5249_00085,3.0,16,2.26542,48.848448
7244,12/02/2019,305.0,21.0,RUE,BREZIN,75014.0,26.0,1.0,Appartement,11.730769,75114_1288_00021,2.0,14,2.326886,48.831383
24329,21/10/2019,401.0,60.0,RUE,POUCHET,75017.0,42.0,2.0,Appartement,9.547619,75117_7766_00060,5.0,17,2.321389,48.895037
23922,06/03/2019,269.0,3.0,RUE,LA CONDAMINE,75017.0,35.0,2.0,Appartement,7.685714,75117_5228_00003,3.0,17,2.324315,48.887765
7058,16/09/2019,1680.0,17.0,BD,BOURDON,75004.0,134.0,4.0,Appartement,12.537313,75104_1190_00017,6.0,4,2.366192,48.848959
24146,01/02/2019,493.0,23.0,RUE,DES MOINES,75017.0,49.0,2.0,Appartement,10.061224,75117_6401_00023,0.0,17,2.319301,48.88886
1807,02/08/2019,232.5,229.0,RUE,DU FBG ST MARTIN,75010.0,24.0,2.0,Appartement,9.6875,75110_3522_00229,2.0,10,2.365876,48.881859
26039,24/06/2019,720.0,17.0,RUE,D OSLO,75018.0,80.0,4.0,Appartement,9.0,75118_6962_00017,1.0,18,2.32935,48.89222


On peut donc maintenant représenter les appartements dans un plan de Paris.

On constate bien les faits stylisé déjà connu : 
#### Les quartiers périphériques sont en général moins chers que les quartiers centraux.
#### Les quartiers de l'ouest sont plus chers que ceux à l'est.

# II. Traitement des données - ajout de variables


In [107]:
df_ml = df.drop(columns = ['Date', 'Valeur', 'Surface',
                           'Voie', 'CodePostal', 'TypeLocal', 'id'])
df_ml.sample(10)

Unnamed: 0,Numero,TypeVoie,NbPieces,prixm2,periode_construction,Arrondissement,lon,lat
26439,7.0,RUE,2.0,26.923077,0.0,18,2.346423,48.883945
20272,8.0,RUE,3.0,7.892857,0.0,15,2.310012,48.845993
19847,49.0,RUE,3.0,20.731707,0.0,15,2.287021,48.849021
27302,128.0,RUE,2.0,8.25,5.0,20,2.389415,48.871944
11599,100.0,RUE,1.0,7.7,1.0,19,2.368399,48.889995
22056,81.0,RUE,3.0,11.928205,3.0,16,2.288998,48.868232
8023,10.0,RUE,1.0,9.311765,4.0,15,2.290589,48.832436
9478,7.0,CITE,2.0,12.8,3.0,10,2.358373,48.870361
3649,32.0,RUE,5.0,14.177857,3.0,8,2.303777,48.873569
26690,28.0,RUE,3.0,9.9,0.0,18,2.362847,48.891344


In [108]:
corr_matrix = df_ml.corr()
corr_matrix["prixm2"].sort_values(ascending = False)
# les variables sont toutes plutôt décorélées avec le prix au m2

prixm2                  1.000000
NbPieces                0.052294
periode_construction   -0.040912
Numero                 -0.058567
lat                    -0.060431
lon                    -0.158528
Arrondissement         -0.282265
Name: prixm2, dtype: float64

Pour les variables suivantes, on considère une petite proportion de la base totale (pour l'exemple, calculs trop longs)

In [109]:
# df_ml = df_ml.sample(10)

## Quartier administatif

In [110]:
df_quartier = pd.read_csv('data/quartier_paris.csv', sep = ';')

In [111]:
df_quartier = df_quartier[['c_qu', 'geom']]
df_quartier['geom'] = df_quartier.apply(lambda row: json.loads(row.geom), axis = 1)
geom = [shape(i) for i in df_quartier['geom']]
df_quartier['geom'] = gpd.GeoDataFrame({'geometry':geom})['geometry']

In [112]:
def determine_quartier(lat, lon):
    
    for _, row in df_quartier.iterrows():
        
        polygon = row.geom
        
        if polygon.contains(Point(lon, lat)):
            return row.c_qu
        
    return 0

In [113]:
df_ml['Quartier'] = df_ml.apply(lambda row: determine_quartier(row.lat, row.lon), axis = 1)

## Proximité aux jardins 



In [114]:
df_jardin = pd.read_csv('data/espaces_verts.csv', sep = ';')

In [115]:
#On ne garde que les espaces verts importants
df_jardin = df_jardin[df_jardin['Catégorie'].isin(['Square', 'Jardin', 'Pelouse', 'Parc', 'Bois'])]

In [116]:
df_jardin = df_jardin[['Superficie totale réelle', 'Geo Shape', '''Nom de l'espace vert''']].rename(columns = {
                                                                    'Superficie totale réelle' : 'Aire',
                                                                    'Geo Shape' : 'geom',
    '''Nom de l'espace vert''' : 'Nom'
                                                                                    }
                                                                       )
df_jardin = df_jardin.reset_index()

In [117]:
df_jardin['geom'] = df_jardin.apply(lambda row: json.loads(str(row.geom)), axis = 1)
geom = [shape(i) for i in df_jardin['geom']]
df_jardin['geom'] = gpd.GeoDataFrame({'geometry':geom})['geometry']

In [118]:
df_jardin = df_jardin.dropna(subset=['Aire'])

In [119]:
pt = preprocessing.PowerTransformer(method='box-cox', standardize = False)
df_jardin[['Aire']] = pt.fit_transform(df_jardin[['Aire']])

min_max_scaler = preprocessing.MinMaxScaler()
df_jardin[['Aire']] = min_max_scaler.fit_transform(df_jardin[['Aire']])

In [120]:
def calcule_score_jardin(lat, lon):
    
    L = []
    for _, row in df_jardin.iterrows():

        polygon = row.geom

        distance = polygon.distance(Point(lon, lat))
        L.append((distance, row.Aire))
        
    L = sorted(L, key=lambda x:  x[0])
    (distance, aire) = L[0]
    score = np.sqrt(aire)/ (distance * 111)
    
    return score

In [121]:
df_ml['score_jardin'] = df_ml.apply(lambda row: calcule_score_jardin(row.lat, row.lon), axis = 1)


divide by zero encountered in double_scalars



In [122]:
df_ml.to_csv('data/sauvegarde_0.csv')
df_ml.sample(5)

Unnamed: 0,Numero,TypeVoie,NbPieces,prixm2,periode_construction,Arrondissement,lon,lat,Quartier,score_jardin
17465,10.0,RUE,6.0,15.214444,3.0,16,2.284638,48.863754,63,3.039299
26793,23.0,RUE,1.0,9.889333,1.0,18,2.327297,48.891044,69,3.818572
13491,3.0,RUE,3.0,9.222222,1.0,20,2.39596,48.86773,79,3.007582
12077,23.0,RUE,2.0,10.3125,3.0,10,2.366837,48.880085,40,3.519819
23131,68.0,RUE,2.0,10.185185,4.0,17,2.32649,48.892705,68,7.488338


## Proximité aux monuments 


In [123]:
df_monuments = pd.read_csv('/Users/lilianmarey/Desktop/Python/PrixImmobilier/data/monuments.csv', sep = ';')

# On standardise le nombre de visiteurs
df_monuments['visiteurs']/=max(df_monuments['visiteurs'])


In [124]:
df_monuments.head()

Unnamed: 0,nom,visiteurs,lat,lon
0,Musée du Louvre,0.75,48.860546,2.337612
1,Centre Pompidou,0.261143,48.860637,2.352224
2,Musée d'Orsay,0.241634,48.859959,2.32657
3,Cité des Sciences et de l'Industrie,0.162735,48.895373,2.387874
4,Musée National d'Histoire Naturelle,0.149731,48.843347,2.363467


### Calcul du score de proximité aux monuments

In [125]:
def calcule_scores_monument(lat,lon):

    distances_aux_monuments = []

    for i,row in df_monuments.iterrows():
        distances_aux_monuments.append((row.nom, row.visiteurs, vincenty((row.lat, row.lon), (lat, lon))))

    try:
        score_1 = max([monument[1] for monument in distances_aux_monuments if monument[2] < 1])
    except:
        score_1 = 0

    try:
        score_2 = len([monument[1]/monument[2] for monument in distances_aux_monuments if monument[2] < 3])
    except:
        score_2 = 0

    return (score_1, score_2)

In [126]:
L1, L2 = [], []
print(df_ml.shape)
for _, row in df_ml.iterrows():
    (a,b) = calcule_scores_monument(row.lat, row.lon)
    L1.append(a)
    L2.append(b)

(29622, 10)


In [127]:
df_ml['score_1'], df_ml['score_2'] = L1, L2

df_ml['score_2'] /= max(df_ml['score_2'])

df_ml['score_monument'] = ( (1/5) * df_ml['score_1'] + (4/5) * df_ml['score_2'] ) 

df_ml = df_ml.drop(columns = ['score_1', 'score_2'])
df_ml.head()

Unnamed: 0,Numero,TypeVoie,NbPieces,prixm2,periode_construction,Arrondissement,lon,lat,Quartier,score_jardin,score_monument
0,17.0,RUE,3.0,10.678571,4.0,1,2.325456,48.868446,4,1.335419,0.848327
1,33.0,RUE,4.0,13.244681,4.0,5,2.342362,48.843993,19,1.453848,0.512641
2,36.0,RUE,1.0,10.852174,4.0,10,2.361984,48.873214,39,6.50086,0.3
3,36.0,RUE,3.0,8.846154,4.0,10,2.361984,48.873214,39,6.50086,0.3
4,13.0,RUE,4.0,13.75,4.0,9,2.345983,48.882664,36,4.932084,0.454412


In [128]:
df_ml.to_csv('data/sauvegarde_0.csv')

## Proximité aux stations de métro

On va ajouter une première variable : le rang des k (k=3 surement) stations de métro les plus proches d'un appartement.

On a besoin :

-d'une fonction qui calcule les distance entre chaque appartement et chaque station de métro. 

--> complexité(nb d'appart) =  nb de stations * nb d'appartement

-d'une fonction qui pour un appartement fixé, trouve les k distances les plus courtes 

--> complexité = k * nb de métro 

-de relier les stations avec leur rang

### Traitement de la base des stations parisiennes

In [129]:
#Importation de la base

df_metro = pd.read_csv( 'data/stations_metro.csv', sep = ';')

df_metro.sample(3)

Unnamed: 0,Geo Point,Geo Shape,OBJECTID,id_ref_zdl,gares_id,nom_gare,nomlong,nom_iv,num_mod,mode_,fer,train,rer,metro,tramway,navette,val,terfer,tertrain,terrer,termetro,tertram,ternavette,terval,idrefliga,idrefligc,ligne,cod_ligf,ligne_code,indice_lig,reseau,res_com,cod_resf,res_stif,exploitant,num_psr,idf,principal,x,y,picto ligne
549,"48.9027680256,2.23954203632","{""type"": ""Point"", ""coordinates"": [2.2395420363...",485,43729,1087,Les Fauvelles,LES FAUVELLES,Les Fauvelles,0,Tramway,0,0,0,0,1,0,0,0,0,0,0,0,0,0,A01192,,T2,32.0,T2-1506,2,TRAMWAY,T2,5.0,112.0,RATP,0,1,0,644252.6562,6867242.0,https://data.iledefrance-mobilites.fr/api/v2/c...
883,"48.9973920018,1.63016762727","{""type"": ""Point"", ""coordinates"": [1.6301676272...",982,46983,749,ROSNY-SUR-SEINE,ROSNY-SUR-SEINE,ROSNY-SUR-SEINE,2688,Train,1,1,0,0,0,0,0,0,0,0,0,0,0,0,,,GRD LIGNES,37.0,GRD LIGNES-111,GL,GRANDES LIGNES,GL,6.0,854.0,SNCF,415885,1,0,599766.9049,6878366.0,
47,"48.8692241717,2.3546037907","{""type"": ""Point"", ""coordinates"": [2.3546037906...",294,44909,837,Strasbourg-Saint-Denis,STRASBOURG-SAINT-DENIS,Strasbourg-Saint-Denis,2210,Metro,0,0,0,1,0,0,0,0,0,0,0,0,0,0,A01541,,8,15.0,8-109067,8,METRO,M8,3.0,110.0,RATP,0,1,0,652656.8653,6863438.0,https://data.iledefrance-mobilites.fr/api/v2/c...


In [130]:
df_metro.columns

Index(['Geo Point', 'Geo Shape', 'OBJECTID', 'id_ref_zdl', 'gares_id',
       'nom_gare', 'nomlong', 'nom_iv', 'num_mod', 'mode_', 'fer', 'train',
       'rer', 'metro', 'tramway', 'navette', 'val', 'terfer', 'tertrain',
       'terrer', 'termetro', 'tertram', 'ternavette', 'terval', 'idrefliga',
       'idrefligc', 'ligne', 'cod_ligf', 'ligne_code', 'indice_lig', 'reseau',
       'res_com', 'cod_resf', 'res_stif', 'exploitant', 'num_psr', 'idf',
       'principal', 'x', 'y', 'picto ligne'],
      dtype='object')

In [131]:
#On garde les colonnes et les lignes qui nous intéressent

df_metro = df_metro[[
        'Geo Point', 'nomlong', 'reseau',
                    ]]

df_metro = df_metro.where(df_metro['reseau'] == 'METRO').dropna()
df_metro.sample(5)

Unnamed: 0,Geo Point,nomlong,reseau
505,"48.8511923493,2.32648847397",SEVRES-BABYLONE,METRO
263,"48.8825193856,2.33708168251",PIGALLE,METRO
452,"48.8972452881,2.35950786882",PORTE DE LA CHAPELLE,METRO
0,"48.8794817719,2.38911580738",BOTZARIS,METRO
47,"48.8692241717,2.3546037907",STRASBOURG-SAINT-DENIS,METRO


Problème, les coordonées géographiques doivent être traitées pour qu'elles soient exploitables

In [132]:
#Fonction de standardisation des coordonnées 

def sepvirgulex(s):
    """
    """
    i = 0
    while s[i] != ',':
        i+=1
        
    x = float(s[:i])
    return x

def sepvirguley(s):
    """
    """
    i = 0
    while s[i] != ',':
        i+=1
        
    y = float(s[i+1:])
    return y

In [133]:
# Crétaion des variables de lattitude et longitude à partir de la variables des coordonnées

df_metro['lat'] = df_metro['Geo Point'].apply(sepvirgulex)
df_metro['lon'] = df_metro['Geo Point'].apply(sepvirguley)

df_metro = df_metro[['nomlong','reseau','lon','lat']].rename(columns = {
                                                            'nomlong': 'Station', 
                                                                         }
                                                            )

df_metro.sample(5) #Comme x et y sont des floats, ils ne sont pas affichés complétement

Unnamed: 0,Station,reseau,lon,lat
245,JAURES,METRO,2.371001,48.883147
218,ANATOLE FRANCE,METRO,2.28501,48.892083
454,BOULOGNE-PONT DE SAINT CLOUD,METRO,2.228537,48.840745
50,PORTE DE PANTIN,METRO,2.392114,48.888504
718,LA MUETTE,METRO,2.274155,48.858046


### Base donnant la fréquentation des stations de métro

In [134]:
#Importation de la base 

df_metro_pop = pd.read_csv('data/trafic_metro.csv', sep = ";")

In [135]:
# On retient les colonnes et les lignes qui nous intéressent

df_metro_pop = df_metro_pop[['Rang','Station','Réseau','Trafic']].rename(columns = {'Réseau' : 'Reseau'})
df_metro_pop.where(df_metro_pop['Reseau'] == 'Métro').dropna()

df_metro_pop.sample(5)

Unnamed: 0,Rang,Station,Reseau,Trafic
236,65,PORTE DE VERSAILLES,Métro,5823995
4,13,BELLEVILLE,Métro,10735544
290,293,BOTZARIS,Métro,993450
119,233,CLUNY LA SORBONNE,Métro,2232036
52,301,PRE-SAINT-GERVAIS,Métro,386948


In [136]:
# Traitement du nom des stations pour qu'ils collent entre les deux bases

def sansparenthese(s):
    """
    """
    for i in range(len(s)):
        if s[i] == '(':
            
            return s[:i]
        
    return s

def sanstiret(s):
    """
    """
    for i in range(len(s)):
        if s[i]=='-':
            s = s[:i] + ' ' + s[i+1:]
            
    return s

def sansespace(s):
    """
    enleve les espaces placés après le nom de la station
    """
    if s[-1] != ' ':
        
        return s
    else:
        
        return sansespace(s[:-1])

def sansrer(s):
    """
    """
    if s[-4:]== ' RER':
        return s[:-4]
    
    return s



df_metro['Station'] = df_metro['Station'].apply(sanstiret)
df_metro['Station'] = df_metro['Station'].apply(sansparenthese)
df_metro['Station'] = df_metro['Station'].apply(sansespace)
df_metro['Station'] = df_metro['Station'].apply(sansrer)

df_metro = df_metro.replace([
    'LES COURTILLES ASNIERES GENNEVILLIERS', 'BOBIGNY PANTIN', 'SAINT MANDE', 'LOUVRE RIVOLI', 
    'MALAKOFF RUE ÉTIENNE DOLET', 'LA DEFENSE GRANDE ARCHE', 'BIBLIOTHEQUE FRANCOIS MITTERRAND', 
    'LES AGNETTES ASNIERES GENNEVILLIERS', 'PALAIS ROYAL MUSEE DU LOUVRE', "CHAUSSEE D'ANTIN", 
    'AUBERVILLIERS PANTIN', 'PLACE DE CLICHY', 'PEREIRE LEVALLOIS', 'JAVEL', 'MONTPARNASSE', 
    'GABRIEL PERI ASNIERES GENNEVILLIERS', 'FRANKLIN D.ROOSEVELT', 'AUSTERLITZ'
                            ], 

                           [
    'LES COURTILLES', 'BOBIGNY PANTIN RAYMOND QUENEAU', 'SAINT MANDE TOURELLE', 'LOUVRE', 
    'MALAKOFF RUE ETIENNE DOLET', 'LA DEFENSE', 'BIBLIOTHEQUE',
    'LES AGNETTES', 'PALAIS ROYAL', "CHAUSSEE D'ANTIN LA FAYETTE", 'AUBERVILLIERS PANTIN QUATRE CHEMINS',
    'PLACE CLICHY', 'PEREIRE', 'JAVEL ANDRE CITROEN', 'MONTPARNASSE BIENVENUE', 'GABRIEL PERI',
    'FRANKLIN D. ROOSEVELT', "GARE D'AUSTERLITZ"
                            ])

df_metro_pop = df_metro_pop.replace(['Métro'],['Metro'])
df_metro_pop['Station'] = df_metro_pop['Station'].apply(sanstiret)
df_metro_pop['Station'] = df_metro_pop['Station'].apply(sansparenthese)
df_metro_pop['Station'] = df_metro_pop['Station'].apply(sansespace)
df_metro_pop['Station'] = df_metro_pop['Station'].apply(sansrer)

In [137]:
# On standardise la féréquentation

df_metro_pop['Trafic'] /= max(df_metro_pop['Trafic'])

On peut maintenant calculer le score

In [138]:
def calcule_scores_station(lon,lat):

    distances_aux_stations = []

    for i,row in df_metro.iterrows():
        nom = df_metro.loc[i]['Station']
        popularite = max(df_metro_pop['Trafic'].where(df_metro_pop['Station'] == nom).dropna())
        distances_aux_stations.append((row.Station, popularite, vincenty((row.lat, row.lon), (lat, lon))))

    try:
        score_1 = max([station[1] for station in distances_aux_stations if station[2] < 0.2])
    except:
        score_1 = 0

    try:
        score_2 = max([station[1] for station in distances_aux_stations if station[2] < 0.7])
    except:
        score_2 = 0

    return score_1, score_2

In [139]:
L1, L2 = [], []

for i, row in df_ml.iterrows():
    (a,b) = calcule_scores_station(row.lon, row.lat)
    L1.append(a)
    L2.append(b)

In [140]:
df_ml['score_1'], df_ml['score_2'] = L1, L2


df_ml['score_metro'] = ( (1/5) * df_ml['score_1'] + (4/5) * df_ml['score_2'] ) 

df_ml = df_ml.drop(columns = ['score_1', 'score_2'])
df_ml.head()

Unnamed: 0,Numero,TypeVoie,NbPieces,prixm2,periode_construction,Arrondissement,lon,lat,Quartier,score_jardin,score_monument,score_metro
0,17.0,RUE,3.0,10.678571,4.0,1,2.325456,48.868446,4,1.335419,0.848327,0.197407
1,33.0,RUE,4.0,13.244681,4.0,5,2.342362,48.843993,19,1.453848,0.512641,0.0
2,36.0,RUE,1.0,10.852174,4.0,10,2.361984,48.873214,39,6.50086,0.3,0.351076
3,36.0,RUE,3.0,8.846154,4.0,10,2.361984,48.873214,39,6.50086,0.3,0.351076
4,13.0,RUE,4.0,13.75,4.0,9,2.345983,48.882664,36,4.932084,0.454412,0.146813


In [141]:
df_ml.to_csv('data/sauvegarde_0.csv')

# Proximité aux commerces

In [142]:
#Importation des bases

#Source : Apur, Ville de Paris (DAE) et CCIP
#Infos supplémentaires sur les données
#https://geocatalogue.apur.org/catalogue/srv/fre/catalog.search#/metadata/970a0714-f9a6-48f7-8c89-ee8b8924876d
#https://opendata.apur.org/datasets/e769dbb901664c90bdbd05d73b94d7ee_0

api_url = "https://api-adresse.data.gouv.fr/search/?q=" # Lien qui nous donne l'adresse et les coordonnées GPS

df_commerce = pd.read_csv('data/commerces.csv', sep = ',')

In [143]:
# On garde les lignes et colonnes qui nous intéressent

df_commerce = df_commerce[['ARRO', 'NUM', 'TYP_VOIE', 'LIB_VOIE', 'LIBACT' ]]
df_commerce.dropna()
df_commerce.sample(5)

Unnamed: 0,ARRO,NUM,TYP_VOIE,LIB_VOIE,LIBACT
473,4,62,RUE,FRANCOIS MIRON,Commerce détail de boissons
6767,20,214,RUE,PYRENEES,Boucherie - Boucherie-Charcuterie
543,4,12,RUE,JACQUES COEUR,Commerce détail de boissons
2030,10,63,RUE,HAUTEVILLE,Supérette spécialisée
5335,17,2,RUE,LECLUSE,Boucherie - Boucherie-Charcuterie


On crée une fonction qui, à partir de la base de données, renvoie l'adresse selon les normes françaises, on utilise après cette pour retrouver les coordonnées

In [144]:
def adri(i):
    if len(str(df_commerce.loc[i]['ARRO']))==2:
        adr = str(df_commerce.loc[i]['NUM']) + ', ' + str(df_commerce.loc[0]['TYP_VOIE']) + ' '+ str(df_commerce.loc[i]['LIB_VOIE']) + ', 750' + str(df_commerce.loc[i]['ARRO']) + ' Paris'
    else:
        adr = str(df_commerce.loc[i]['NUM']) + ', ' + str(df_commerce.loc[0]['TYP_VOIE']) + ' '+ str(df_commerce.loc[i]['LIB_VOIE']) + ', 7500' + str(df_commerce.loc[i]['ARRO']) + ' Paris'
    return adr

A chaque commerce on associe ses coorodonnées gps.

In [145]:
#lon_list =[]
#lat_list = []
#expression = re.compile(r"[0-9]?[0-9].[0-9]*")

#for i,row in df_commerce.iterrows():

 #   if i%500==0:
  #      print(i)


   # adr = adri(i)
    #r = requests.get(api_url + urllib.parse.quote(adr))
    #res = expression.findall(r.content.decode('unicode_escape'))
    #lat = res[1]
    #lon = res[0]
    #lon_list.append(lon)
    #lat_list.append(lat)

In [146]:
#longdf = pd.DataFrame(lon_list)
#latdf = pd.DataFrame(lat_list)
#df_commerce['lon'] = longdf
#df_commerce['lat'] = latdf 

NameError: name 'lon_list' is not defined

In [None]:
df_commerce = pd.read_csv('data/commerces_gps.csv', sep = ',')

In [None]:
df_commerce.dtypes

In [149]:
def calcule_scores_commerces(lat,lon):#fonction qui nous donne un score selon les commerces dans un rayon autour de la position gps (ici le rayon est de 200m)
    lux = ['Commerce détail de boissons', 'Charcuterie - Traiteur - Epicerie fine', 'Chocolaterie - Confiserie', 'Produits alimentaires bio et circuits courts', 'Crèmerie - Fromagerie', 'Torréfacteur - Commerce détail thé et café', 'Poisonnerie', 'Glacier : vente à emporter et consommation sur place', 'Alimentation générale de luxe > 300m²']
    #On crée une liste des boutiques luxueuses, pouvant augmenter le prix du quartier
    distances_aux_commerces = []

    for i,row in df_commerce.iterrows():

        distances_aux_commerces.append((vincenty((float(row.lat), float(row.lon)), (lat, lon)), row.LIBACT))

    try:
        score_1 = len([i for i in range(len(distances_aux_commerces)) if distances_aux_commerces[i][0] < 0.5])
    except:
        score_1 = 0

    try:
        score_2 = len([i for i in range(len(distances_aux_commerces)) if distances_aux_commerces[i][0] < 0.5 and distances_aux_commerces[i][1] in lux])
    except:
        score_2 = 0

    return score_1, score_2

In [None]:
L1, L2 = [], []

for i, row in df_ml.iterrows():
    (a,b) = calcule_scores_commerces(row.lat, row.lon)
    L1.append(a)
    L2.append(b)

In [None]:
df_ml['score_commerce'], df_ml['score_commerce_lux'] = L1, L2 

df_ml['score_commerce'] /= max(df_ml['score_commerce'])
df_ml['score_commerce_lux'] /= max(df_ml['score_commerce_lux'])

In [None]:
df_ml.sample(10)

In [None]:
corr_matrix = df_ml.corr()
corr_matrix["prixm2"].sort_values(ascending = False)

In [None]:
df_ml.to_csv('data/sauvegarde_0.csv')