In [1]:
import pandas as pd
import geopandas as gpd
import json 
from shapely.geometry import shape, Point
import shapely

import numpy as np

import matplotlib.pyplot as plt
import plotly.express as px
import folium

from vincenty import vincenty

import requests
import urllib.parse
import re

from sklearn import preprocessing


# Option d'affchage
pd.set_option('display.max_columns', None)

In [None]:
# Si la base de données n'est pas déjà téléchargée
# df0 = pd.read_csv('https://www.data.gouv.fr/fr/datasets/r/3004168d-bec4-44d9-a781-ef16f41856a2', sep = '|')

# Sinon
df0 = pd.read_csv('data/valeursfoncieres-2019.txt', sep = '|')

# I. Nettoyage de la base de données

In [None]:
df1 = df0.copy()

df1.sample(5)

## 1. Séléction des variables intéressantes

In [None]:
df1.columns

In [None]:
df = df1[[
        'Date mutation', 'Nature mutation', 'Valeur fonciere',
        'No voie', 'Type de voie', 'Code voie', 'Voie', 'Code postal',
        'Commune', 'Code departement', 'Code commune', 'Type local',
        'Surface reelle bati', 'Nombre pieces principales', 'Surface terrain',
        'Section', 'No plan'
        ]]

df.sample(5)

### Premier tri pour garder les biens qui nous intéressent dans le cadre que l'on s'est donné

In [None]:
df = df[df['Nature mutation'] == 'Vente']
df = df[df['Code departement'] == 75]
df = df[df['Type local'] == 'Appartement']
df = df[pd.isna(df['Surface terrain'])] # Vu qu'on va essayer de prédir un prix au m2, la surface est une donnée indispensable

### Changement du nom des variables

In [None]:
df = df[[
        'Date mutation', 'Valeur fonciere', 'No voie', 
        'Type de voie', 'Voie', 'Code postal', 'Surface reelle bati', 
        'Nombre pieces principales',
        'Code departement', 'Code commune', 'Code voie',
        'Type local', 'Section', 'No plan'
        ]]

df = df.rename(columns = {
                            'Date mutation': 'Date', 
                            'Valeur fonciere': 'Valeur',
                            'Type de voie': 'TypeVoie',
                            'No voie': 'Numero',
                            'Code postal': 'CodePostal',
                            'Surface reelle bati': 'Surface',
                            'Nombre pieces principales': 'NbPieces',
                            'Surface terrain': 'SurfaceTerrain',
                            'Code departement': 'Code_departement', 
                            'Code commune': 'Code_commune', 
                            'Code voie': 'Code_voie',
                            'Type local': 'TypeLocal',
                            'No plan': 'No_plan'
                         }
              )

## 2. Gestion des variables

In [None]:
df.dtypes

On remarque que la variable "Valeur" n'est pas de type float ou int, il va falloir y remédier !

### Valeur

In [None]:
# Les biens dont la valeur n'est pas renseignée ne nous intéressent pas
df = df.dropna(subset = ['Valeur'])

# Changement des virgules en point pour pouvoir convertir les types str en types float
df['Valeur'] = df.apply(lambda row : str(row.Valeur).replace(',', '.'), axis = 1)
df['Valeur'] = pd.to_numeric(df['Valeur'])

# On divise par 1000 les prix pour plus de lisibilité
df['Valeur'] = df['Valeur']/1000

# On se concentre sur une tranche de prix "raisonnable"
df = df[df['Valeur'] > 60]
df = df[df['Valeur'] < 15000]

# Pour déterminer ces bornes, nous sommes allé sur des sites d'immobiliers à Paris pour trouver les valeurs extrêmes

### Surface

Un logement mis en location doit respecter une surface minimum. Il s'agit d'un des critères de décence du logement.

Le logement doit comporter au moins une pièce principale présentant :

une surface habitable de 9 m² et une hauteur sous plafond minimale de 2,20 mètres,
ou un volume habitable de 20 m³.

In [None]:
df = df[df['Surface'] >= 9]

### Création de la variable du prix par metre carré (prixm2)

In [None]:
df['prixm2'] = df['Valeur'] / df['Surface']

### Date

In [None]:
display(df.sort_values('Date')[['Date']].head())
df[pd.isna(df['Date'])].shape

# Il ne semble pas y avoir de valeurs manquantes

### Elements d'adresse (Numero, TypeVoie,  Voie, CodePostal)

In [None]:
# Numero
print(df[pd.isna(df['Numero'])].shape)

# Tous les appartments ont un numéro indiqué. On est satisfait car on souhaite une localisation précise des appartements

In [None]:
# TypeVoie

print(df[pd.isna(df['TypeVoie'])].shape)

# 15 valeurs manquantes, on regarde à quoi elles correspondent

display(df[pd.isna(df['TypeVoie'])])

# Cela correspond à des adresses où le type de voie est spécial (Villa, Pont, Autoroute, Rond point) 
# et est contenu dans la variable Voie
# On laisse comme ca

In [None]:
# Voie
display(df.sort_values('Voie')[['Voie']].head())
print(df[pd.isna(df['Voie'])].shape)

# Il ne semble pas y avoir de valeurs manquantes

In [None]:
# CodePostal

print(df[pd.isna(df['CodePostal'])].shape)

# 1 valeur manquante, on regarde à quoi elle correspond

display(df[pd.isna(df['CodePostal'])])

# La rue de l'Abbé Groult se situe dans le 15ème, on remplit à la main

df.at[2503844, 'CodePostal'] = float(75015)

display(df.loc[[2503844]])

### NbPieces (nombre de pièces)

In [None]:
print(df[pd.isna(df['NbPieces'])].shape)

display(df.sort_values('NbPieces')[['NbPieces']].head())

# Pas de valeurs manquantes mais des appartements à 0 pièces...

display(df[df['NbPieces'] == 0].head())

# Les entrées n'ont pas l'air des anomalies, la valeur doit être manquante, on laisse tel quel en gardant à l'esprit cette observation

#### Création de la variable 'id' qui permettra d'identifier l'adresse précise dans une autre bdd

In [None]:
def code_numero(numero):
    """Créé le code utilisé pour identifier le numero d'une rue au sein du code 'id' 

    Argument :
    numero : float
        numero de la rue tel que présent dans la base de données

    Return :
    code : str
        Le code correspondant (format 00007 pour le numéro 7 d'une rue, par exemple)
    """

    code = str(int(numero))
    code = '0' * (5 - len(code)) + code

    return code

df['id'] = df['Code_departement'].astype(str) + df['Code_commune'].astype(str) + '_' + df['Code_voie'].astype(str) + '_' + df['Numero'].apply(code_numero)

df = df.drop(columns = ['Code_commune', 'Code_departement', 'Code_voie'])

# Vérification

df.head(5)

In [None]:
# Petite sauvegadre de la base à ce stade

dfv0 = df.copy()

In [None]:
df = dfv0.copy()

## 3. Choix de la variable à prédir

In [None]:
# On peut tracer le prix en fonction de la surface

df[df['Valeur'] < 2000].sample(2000).plot(x = 'Surface', y = 'Valeur', kind = 'scatter', alpha = .1)
# On a tracé le graphe pour les appartements ayant un prix inférieur à 2 millions

On voit une relation linéaire apparaitre, justifiée par un coefficient de corrélation significatif, de 0.58 

In [None]:
df['Valeur'].corr(df['Surface'])

#### On fait donc l'hypothèse qu'il y a une corélation linéaire entre le prix d'un appartement et sa surface en m2.
#### On se donnera donc pour objectif de prédir le prix au m2 d'un appartement en fonction de différents paramètres.

## 4. Gestion des anomalies

La base de données n'est pas parfaite, certaines entrées sont erronées.
La premier nettoyage que nous allons faire, qui est aussi le plus grossier, est de se restreindre à des prix au m2 raisonnables.
#### Le site meilleursagents.com recense les prix au m2 de nombreux appartements à Paris. 
#### Les prix les plus bas observé sont environ de 4 700 €/m2
#### Les prix les plus hauts observés sont environ de 32 000 €/m2

#### On choisit donc de considérer les biens dont le prix au m2 est compris entre 4 230 € et 35 200 (marge de 10%)

In [None]:
df = df[df['prixm2'] > 4.23]
df = df[df['prixm2'] < 35.2]

df.plot(x = 'Surface', y = 'Valeur', kind = 'scatter', alpha = .1)

In [None]:
df['Valeur'].corr(df['Surface']) # Nouveau coefficient de corrélation : 0.88

# Couplage : date de construction du bâtis

Pour obtenir la date de construction des immeubles, on utilise deux nouvelles bases :  
    -df_dates qui donne la date de construction à partir d'un identificateur id2  
    -df_join qui associe l'identificateur id2 à une adresse
    
   df_join va donc nous permettre de faire la jointure entre la base d'origine et la base df_dates pour obtenir la date deconstruction des immeubles.

In [None]:
# Importation des bases
df_dates = pd.read_csv('data/date_construction.csv', sep = ',')
df_join = pd.read_csv('data/PARCELLE_CADASTRALE.csv', sep = ',')

In [None]:
# On garde que les variables qui nous intéressent
df_join = df_join[['n_sq_pc', 'c_sec', 'n_pc']]
df_dates = df_dates[['n_sq_pc', 'c_perconst']]

In [None]:
# On regroupe les deux bases grâce à l'identificateur
df_dates = df_dates.merge(df_join, left_on = 'n_sq_pc', right_on = 'n_sq_pc')
df_dates = df_dates.drop(columns = ['n_sq_pc'])

In [None]:
# On crée l'identificateur dans la base d'origine et le fait correspondre avec celui de la base des dates
df['id2'] = df.apply(lambda row: str(row.Section) + str(row.No_plan), axis = 1)
df_dates['id2'] = df_dates.apply(lambda row: str(row.c_sec) + str(row.n_pc), axis = 1)
df_dates = df_dates.drop_duplicates(subset = ['id2'], keep = 'first')

display(df_dates.head(10))
display(df.head(10))


# On joint les deux bases
df = pd.merge(df, df_dates, on = 'id2')

In [None]:
# Et on nettoie le tout
df = df.drop(columns = ['id2', 'Section', 'No_plan'])
df = df.rename(columns = {'c_perconst': 'periode_construction'})

In [None]:
px.histogram(df, x = 'periode_construction')

In [None]:
# La catégorie 4 n'existe pas, on recode pour que ca soit plus compréhensif
def ajustement(valeur):
    if valeur in [i for i in range(5, 13)]:
        return valeur - 1
    elif valeur == 99:
        return 0
    else:
        return valeur

df['periode_construction'] = df.apply(lambda row: ajustement(row.periode_construction), axis = 1)


In [None]:
px.histogram(df, x = 'periode_construction')

In [None]:
df.shape

On obtient ici plusieurs tranches de périodes de constructions :  
0   Données manquantes  
1	Avant 1800	
2	1801-1850	
3	1851-1914	
4	1915-1939	
5	1940-1967	
6	1968-1975	
7	1976-1981	
8	1982-1989	
9	1990-1999	
10	2000-2007	
11	2008 et plus

# A partir de maintenant on travail avec une petite portion de la base pour éviter les calculs trop longs.
# La base a été traitée en entier par nos soins en amont, puis sauvegardée 

In [None]:
df = df.sample(100)
df_traitee = pd.read_csv('data/données_calculees.csv')

### Ajout de la variable arrondissement

In [None]:
df['Arrondissement'] = df.apply(lambda row: int(str(int(row.CodePostal))[3:5]), axis = 1)

# Couplage avec la base des données GPS

On souhaite obtenir les coordonnées GPS de tous les appartements présents dans la base.
Pour cela, nous avons trouvé une base de données qui répertorient toutes les adresses parisiennes et leur associe des coordonnées GPS.
Pour coupler les deux bases, nous utiliserons la variable id.
Ce code id est de la forme WWXXX_YYYY_ZZZZZ avec : 	
##### WW est le code département (75 ici)
##### XXX est le code commune (115 pour le 15ème arrondissement)
##### YYYY est le code voie (4903 pour l'avenue Jean Jaurès par exemple)
##### ZZZZ est le numéro (00005 pour le 5)


In [None]:
df2 = pd.read_csv('https://adresse.data.gouv.fr/data/ban/adresses/latest/csv/adresses-75.csv.gz', sep = ';').copy()

In [None]:
df2[df2['id'].str[:2] == '75'].sample(5)

### Séléction des variables intéressantes

In [None]:
df_GPS = df2[[
        'id', 'lon', 'lat', 
        ]]

# x et y : Coordonnées cartographique en projection légale
# lon et lat : Coordonnées en WGS-84	

df_GPS.sample(10)

### Couplage avec df

In [None]:
print(df.shape)
df = df.merge(df_GPS, left_on = 'id', right_on = 'id')
print(df.shape)
# On perd a peine 1000 valeurs
display(df.sample(10))

On peut donc maintenant représenter les appartements dans un plan de Paris.

On constate bien les faits stylisé déjà connu : 
#### Les quartiers périphériques sont en général moins chers que les quartiers centraux.
#### Les quartiers de l'ouest sont plus chers que ceux à l'est.

# II. Traitement des données - ajout de variables


In [None]:
df_ml = df.drop(columns = ['Date', 'Valeur', 'Surface',
                           'Voie', 'CodePostal', 'TypeLocal', 'id'])
df_ml.sample(10)

In [None]:
corr_matrix = df_ml.corr()
corr_matrix["prixm2"].sort_values(ascending = False)
# les variables sont toutes plutôt décorélées avec le prix au m2

Pour les variables suivantes, on considère une petite proportion de la base totale (pour l'exemple, calculs trop longs)

## Quartier administatif

In [None]:
df_quartier = pd.read_csv('data/quartier_paris.csv', sep = ';')

In [None]:
df_quartier = df_quartier[['c_qu', 'geom']]
df_quartier['geom'] = df_quartier.apply(lambda row: json.loads(row.geom), axis = 1)
geom = [shape(i) for i in df_quartier['geom']]
df_quartier['geom'] = gpd.GeoDataFrame({'geometry':geom})['geometry']

In [None]:
def determine_quartier(lat, lon):
    
    for _, row in df_quartier.iterrows():
        
        polygon = row.geom
        
        if polygon.contains(Point(lon, lat)):
            return row.c_qu
        
    return 0

In [None]:
df_ml['Quartier'] = df_ml.apply(lambda row: determine_quartier(row.lat, row.lon), axis = 1)

## Proximité aux jardins 



In [None]:
df_jardin = pd.read_csv('data/espaces_verts.csv', sep = ';')

In [None]:
#On ne garde que les espaces verts importants
df_jardin = df_jardin[df_jardin['Catégorie'].isin(['Square', 'Jardin', 'Pelouse', 'Parc', 'Bois'])]

In [None]:
df_jardin = df_jardin[['Superficie totale réelle', 'Geo Shape', '''Nom de l'espace vert''']].rename(columns = {
                                                                    'Superficie totale réelle' : 'Aire',
                                                                    'Geo Shape' : 'geom',
    '''Nom de l'espace vert''' : 'Nom'
                                                                                    }
                                                                       )
df_jardin = df_jardin.reset_index()

In [None]:
df_jardin['geom'] = df_jardin.apply(lambda row: json.loads(str(row.geom)), axis = 1)
geom = [shape(i) for i in df_jardin['geom']]
df_jardin['geom'] = gpd.GeoDataFrame({'geometry':geom})['geometry']

In [None]:
df_jardin = df_jardin.dropna(subset=['Aire'])

In [None]:
pt = preprocessing.PowerTransformer(method='box-cox', standardize = False)
df_jardin[['Aire']] = pt.fit_transform(df_jardin[['Aire']])

min_max_scaler = preprocessing.MinMaxScaler()
df_jardin[['Aire']] = min_max_scaler.fit_transform(df_jardin[['Aire']])

In [None]:
def calcule_score_jardin(lat, lon):
    
    L = []
    for _, row in df_jardin.iterrows():

        polygon = row.geom

        distance = polygon.distance(Point(lon, lat))
        L.append((distance, row.Aire))
        
    L = sorted(L, key=lambda x:  x[0])
    (distance, aire) = L[0]
    score = np.sqrt(aire)/ (distance * 111)
    
    return score

In [None]:
df_ml['score_jardin'] = df_ml.apply(lambda row: calcule_score_jardin(row.lat, row.lon), axis = 1)

## Proximité aux monuments 


In [None]:
df_monuments = pd.read_csv('data/monuments.csv', sep = ';')

# On standardise le nombre de visiteurs
df_monuments['visiteurs']/=max(df_monuments['visiteurs'])


In [None]:
df_monuments.head()

### Calcul du score de proximité aux monuments

In [None]:
def calcule_scores_monument(lat,lon):

    distances_aux_monuments = []

    for i,row in df_monuments.iterrows():
        distances_aux_monuments.append((row.nom, row.visiteurs, vincenty((row.lat, row.lon), (lat, lon))))

    try:
        score_1 = max([monument[1] for monument in distances_aux_monuments if monument[2] < 1])
    except:
        score_1 = 0

    try:
        score_2 = len([monument[1]/monument[2] for monument in distances_aux_monuments if monument[2] < 3])
    except:
        score_2 = 0

    return (score_1, score_2)

In [None]:
L1, L2 = [], []

for _, row in df_ml.iterrows():
    (a,b) = calcule_scores_monument(row.lat, row.lon)
    L1.append(a)
    L2.append(b)

In [None]:
df_ml['score_1'], df_ml['score_2'] = L1, L2

df_ml['score_2'] /= max(df_ml['score_2'])

df_ml['score_monument'] = ( (1/5) * df_ml['score_1'] + (4/5) * df_ml['score_2'] ) 

df_ml = df_ml.drop(columns = ['score_1', 'score_2'])
df_ml.head()

## Proximité aux stations de métro

On va ajouter une première variable : le rang des k (k=3 surement) stations de métro les plus proches d'un appartement.

On a besoin :

-d'une fonction qui calcule les distance entre chaque appartement et chaque station de métro. 

--> complexité(nb d'appart) =  nb de stations * nb d'appartement

-d'une fonction qui pour un appartement fixé, trouve les k distances les plus courtes 

--> complexité = k * nb de métro 

-de relier les stations avec leur rang

### Traitement de la base des stations parisiennes

In [None]:
#Importation de la base

df_metro = pd.read_csv('data/stations_metro.csv', sep = ';')

df_metro.sample(3)

In [None]:
df_metro.columns

In [None]:
#On garde les colonnes et les lignes qui nous intéressent

df_metro = df_metro[[
        'Geo Point', 'nomlong', 'reseau',
                    ]]

df_metro = df_metro.where(df_metro['reseau'] == 'METRO').dropna()
df_metro.sample(3)

Problème, les coordonées géographiques doivent être traitées pour qu'elles soient exploitables

In [None]:
#Fonction de standardisation des coordonnées 

def sepvirgulex(s):
    """
    """
    i = 0
    while s[i] != ',':
        i+=1
        
    x = float(s[:i])
    return x

def sepvirguley(s):
    """
    """
    i = 0
    while s[i] != ',':
        i+=1
        
    y = float(s[i+1:])
    
    return y

In [None]:
# Crétaion des variables de lattitude et longitude à partir de la variables des coordonnées

df_metro['lat'] = df_metro['Geo Point'].apply(sepvirgulex)
df_metro['lon'] = df_metro['Geo Point'].apply(sepvirguley)

df_metro = df_metro[['nomlong','reseau','lon','lat']].rename(columns = {
                                                            'nomlong': 'Station', 
                                                                         }
                                                            )

df_metro.sample(5) #Comme x et y sont des floats, ils ne sont pas affichés complétement

### Base donnant la fréquentation des stations de métro

In [None]:
#Importation de la base 

df_metro_pop = pd.read_csv('data/trafic_metro.csv', sep = ";")

In [None]:
# On retient les colonnes et les lignes qui nous intéressent

df_metro_pop = df_metro_pop[['Rang','Station','Réseau','Trafic']].rename(columns = {'Réseau' : 'Reseau'})
df_metro_pop.where(df_metro_pop['Reseau'] == 'Métro').dropna()

df_metro_pop.sample(5)

In [None]:
# Traitement du nom des stations pour qu'ils collent entre les deux bases

def sansparenthese(s):
    """
    """
    for i in range(len(s)):
        if s[i] == '(':
            
            return s[:i]
        
    return s

def sanstiret(s):
    """
    """
    for i in range(len(s)):
        if s[i]=='-':
            s = s[:i] + ' ' + s[i+1:]
            
    return s

def sansespace(s):
    """
    enleve les espaces placés après le nom de la station
    """
    if s[-1] != ' ':
        
        return s
    else:
        
        return sansespace(s[:-1])

def sansrer(s):
    """
    """
    if s[-4:]== ' RER':
        return s[:-4]
    
    return s



df_metro['Station'] = df_metro['Station'].apply(sanstiret)
df_metro['Station'] = df_metro['Station'].apply(sansparenthese)
df_metro['Station'] = df_metro['Station'].apply(sansespace)
df_metro['Station'] = df_metro['Station'].apply(sansrer)

df_metro = df_metro.replace([
    'LES COURTILLES ASNIERES GENNEVILLIERS', 'BOBIGNY PANTIN', 'SAINT MANDE', 'LOUVRE RIVOLI', 
    'MALAKOFF RUE ÉTIENNE DOLET', 'LA DEFENSE GRANDE ARCHE', 'BIBLIOTHEQUE FRANCOIS MITTERRAND', 
    'LES AGNETTES ASNIERES GENNEVILLIERS', 'PALAIS ROYAL MUSEE DU LOUVRE', "CHAUSSEE D'ANTIN", 
    'AUBERVILLIERS PANTIN', 'PLACE DE CLICHY', 'PEREIRE LEVALLOIS', 'JAVEL', 'MONTPARNASSE', 
    'GABRIEL PERI ASNIERES GENNEVILLIERS', 'FRANKLIN D.ROOSEVELT', 'AUSTERLITZ'
                            ], 

                           [
    'LES COURTILLES', 'BOBIGNY PANTIN RAYMOND QUENEAU', 'SAINT MANDE TOURELLE', 'LOUVRE', 
    'MALAKOFF RUE ETIENNE DOLET', 'LA DEFENSE', 'BIBLIOTHEQUE',
    'LES AGNETTES', 'PALAIS ROYAL', "CHAUSSEE D'ANTIN LA FAYETTE", 'AUBERVILLIERS PANTIN QUATRE CHEMINS',
    'PLACE CLICHY', 'PEREIRE', 'JAVEL ANDRE CITROEN', 'MONTPARNASSE BIENVENUE', 'GABRIEL PERI',
    'FRANKLIN D. ROOSEVELT', "GARE D'AUSTERLITZ"
                            ])

df_metro_pop = df_metro_pop.replace(['Métro'],['Metro'])
df_metro_pop['Station'] = df_metro_pop['Station'].apply(sanstiret)
df_metro_pop['Station'] = df_metro_pop['Station'].apply(sansparenthese)
df_metro_pop['Station'] = df_metro_pop['Station'].apply(sansespace)
df_metro_pop['Station'] = df_metro_pop['Station'].apply(sansrer)

In [None]:
# On standardise la féréquentation

df_metro_pop['Trafic'] /= max(df_metro_pop['Trafic'])

On peut maintenant calculer le score

In [None]:
def calcule_scores_station(lon,lat):

    distances_aux_stations = []

    for i,row in df_metro.iterrows():
        nom = df_metro.loc[i]['Station']
        popularite = max(df_metro_pop['Trafic'].where(df_metro_pop['Station'] == nom).dropna())
        distances_aux_stations.append((row.Station, popularite, vincenty((row.lat, row.lon), (lat, lon))))

    try:
        score_1 = max([station[1] for station in distances_aux_stations if station[2] < 0.2])
    except:
        score_1 = 0

    try:
        score_2 = max([station[1] for station in distances_aux_stations if station[2] < 0.7])
    except:
        score_2 = 0

    return score_1, score_2

In [None]:
L1, L2 = [], []

for i, row in df_ml.iterrows():
    (a,b) = calcule_scores_station(row.lon, row.lat)
    L1.append(a)
    L2.append(b)

In [None]:
df_ml['score_1'], df_ml['score_2'] = L1, L2

df_ml['score_metro'] = ( (1/5) * df_ml['score_1'] + (4/5) * df_ml['score_2'] ) 

df_ml = df_ml.drop(columns = ['score_1', 'score_2'])
df_ml.head()

# Proximité aux commerces

In [None]:
#Importation des bases

#Source : Apur, Ville de Paris (DAE) et CCIP
#Infos supplémentaires sur les données
#https://geocatalogue.apur.org/catalogue/srv/fre/catalog.search#/metadata/970a0714-f9a6-48f7-8c89-ee8b8924876d
#https://opendata.apur.org/datasets/e769dbb901664c90bdbd05d73b94d7ee_0

api_url = "https://api-adresse.data.gouv.fr/search/?q=" # Lien qui nous donne l'adresse et les coordonnées GPS

df_commerce = pd.read_csv('data/commerces.csv', sep = ',')

In [None]:
# On garde les lignes et colonnes qui nous intéressent

df_commerce = df_commerce[['ARRO', 'NUM', 'TYP_VOIE', 'LIB_VOIE', 'LIBACT' ]]
df_commerce.dropna()
df_commerce.sample(5)

On crée une fonction qui, à partir de la base de données, renvoie l'adresse selon les normes françaises, on utilise après cette pour retrouver les coordonnées

In [None]:
def adri(i):
    if len(str(df_commerce.loc[i]['ARRO']))==2:
        adr = str(df_commerce.loc[i]['NUM']) + ', ' + str(df_commerce.loc[0]['TYP_VOIE']) + ' '+ str(df_commerce.loc[i]['LIB_VOIE']) + ', 750' + str(df_commerce.loc[i]['ARRO']) + ' Paris'
    else:
        adr = str(df_commerce.loc[i]['NUM']) + ', ' + str(df_commerce.loc[0]['TYP_VOIE']) + ' '+ str(df_commerce.loc[i]['LIB_VOIE']) + ', 7500' + str(df_commerce.loc[i]['ARRO']) + ' Paris'
    return adr

A chaque commerce on associe ses coorodonnées gps.

In [None]:
df_commerce = pd.read_csv('data/commerces_gps.csv', sep = ',')

In [None]:
pop_par_ar = [16252,20260,34788,27487,59108,40916,52512,36453,59269,91932,147017,141494,181552,137105,233484,165446,167835,195060,186393,195604]


df_com_arro = df_commerce['ARRO'].value_counts()
X = [str(i) for i in range(1,21)]
Y = [df_com_arro[i+1]/pop_par_ar[i] for i in range(20)]
plt.bar(X,Y)
plt.xlabel('Arrondissement')
plt.title('Nombre de commerces par habitant selon les arrondissements')
plt.show()

"""On remarque que des arrondissements comme le 1er ou le 4ème ont beaucoup de commerces par habitant, au contraire du 13ème qui lui possède  une part de comemrces par habitant plus faible"""

#source INSEE, qu'on peut aussi lire ici https://www.apur.org/sites/default/files/documents/recueil_thematique_1234_arr_paris_0.pdf
#on se donne les surfaces des arrondissements en hectare

surf_arrond =[182,99,117,160,254,215,409,388,218,289,367,639,715,562,850,790,567,600,679,598]
sum(surf_arrond)

Xs = [str(i) for i in range(1,21)]
Ys= [df_com_arro[i+1]/surf_arrond[i] for i in range(20)]

plt.bar(Xs,Ys)
plt.xlabel('Arrondissement')
plt.title('Nombre de commerces par hectare selon les arrondissements')
plt.show()

In [None]:
"""Créeons une carte de densité des commerces"""

N = 29

maxlon = max(df_commerce['lon'])
minlon = min(df_commerce['lon'])
maxlat = 48.900391
minlat = min(df_commerce['lat'])

linsplon = list(np.linspace(minlon*(1 - 10**-7),maxlon*(1 +10**-7),N))
linsplat = list(np.linspace(minlat*(1 -10**-7),maxlat*(1 +10**-7),N))

def premier_plus_grand(L,x): #renvoie l'indice de la première occurence de la liste triée qui est strmt plus grande que x
    i=0
    while L[i]<= x:
        i+=1
    return i

def donne_zone(lat,lon,Linsplat,Linsplon):
  
    i = premier_plus_grand(Linsplat,lat)
    j = premier_plus_grand(Linsplon,lon)
    return i,j

zones_tout_commerce = np.zeros((N,N))
zones_commerce_luxe = np.zeros((N,N))

for k in range(len(df_commerce['lat'])):
    i,j = donne_zone(df_commerce['lat'][k],df_commerce['lon'][k], linsplat, linsplon)
    zones_tout_commerce[i][j] += 1
    
df_commerce_luxe = df_commerce[df_commerce['LIBACT'].isin(['Commerce détail de boissons', 
    'Charcuterie - Traiteur - Epicerie fine', 'Chocolaterie - Confiserie', 
    'Produits alimentaires bio et circuits courts', 'Crèmerie - Fromagerie', 
    'Torréfacteur - Commerce détail thé et café', 'Poisonnerie', 
    'Glacier : vente à emporter et consommation sur place', 'Alimentation générale de luxe > 300m²'
                                                            ]
                                                         )
                              ].reset_index(drop = True)
    
for k in range(len(df_commerce_luxe['lat'])):
    i,j = donne_zone(df_commerce_luxe['lat'][k], df_commerce_luxe['lon'][k], linsplat, linsplon)
    zones_commerce_luxe[i][j] += 1

plt.imshow(zones_commerce_luxe, cmap = 'Blues')

plt.colorbar()
plt.show()

def Zone_appart(lat,lon):
    i,j = donne_zone(lat,lon, linsplat, linsplon)
    return zones[i][j]

In [None]:
def calcule_scores_commerces(lat,lon):
    
    i,j = donne_zone(lat, lon, linsplat, linsplon)
    score_1, score_2 = zones_tout_commerce[i][j], zones_commerce_luxe[i][j]
    
    return score_1, score_2

In [None]:
L1, L2 = [], []

for i, row in df_ml.iterrows():
    #a = calcule_scores_commerces(row.lat, row.lon)
    (a,b) = calcule_scores_commerces(row.lat, row.lon)
    L1.append(a)
    L2.append(b)

In [None]:
df_ml['score_commerce'], df_ml['score_commerce_lux'] = L1, L2 

df_ml['score_commerce'] /= max(df_ml['score_commerce'])
df_ml['score_commerce_lux'] /= max(df_ml['score_commerce_lux'])

# Data processing

In [2]:
df0 = pd.read_csv('data/données_calculees0.csv', index_col = 0)
df = df0.copy()

In [3]:
from sklearn import preprocessing

In [4]:
le = preprocessing.LabelEncoder()
df['TypeVoie'] = le.fit_transform(df['TypeVoie'].astype(str))

In [5]:
min_max_scaler = preprocessing.MinMaxScaler()
df[[
    'Numero', 'TypeVoie', 'NbPieces', 'lon', 'lat', 
    'periode_construction', 'Arrondissement', 'Quartier'
    ]] = min_max_scaler.fit_transform(df[[
                        'Numero', 'TypeVoie', 'NbPieces', 'lon', 'lat', 
                        'periode_construction', 'Arrondissement', 'Quartier'
                                        ]])

In [6]:
df = df[df['score_jardin'] < 8000]
df0[df0['score_jardin'] < 8000]

df[[
    'prixm2', 'score_commerce', 'score_commerce_lux','score_monument', 'score_jardin', 'score_metro'
    ]] = preprocessing.scale(df[[
            'prixm2', 'score_commerce', 'score_commerce_lux', 'score_monument', 'score_jardin', 'score_metro'
                                        ]])

In [7]:
#ax = pd.plotting.scatter_matrix(df[[
 #           'Numero', 'TypeVoie', 'NbPieces', 'lon', 'lat', 
  #  'periode_construction', 'Arrondissement', 'Quartier'
   #                                     ]].sample(1000), figsize = (12,12))
#ax
#plt.show()

# ML

In [8]:
from sklearn.linear_model import LinearRegression, Ridge, Lasso

In [9]:
y = df[['prixm2']]
X = df.drop(columns = 'prixm2')
lin_reg = LinearRegression().fit(X, y)
[(X.columns[i], lin_reg.coef_[0][i]) for i in range(13)]

[('Numero', -0.20707423199377809),
 ('TypeVoie', -0.10778615905631077),
 ('NbPieces', -0.133414609232699),
 ('lon', -0.10976400638069425),
 ('lat', -0.12157872170053065),
 ('score_commerce', -0.10309434834431527),
 ('score_commerce_lux', 0.10730259641203772),
 ('periode_construction', 0.06933286036092785),
 ('Arrondissement', 0.5451816190980654),
 ('Quartier', -0.9806005452516687),
 ('score_jardin', 0.005885863655249307),
 ('score_monument', 0.22171839751377773),
 ('score_metro', -0.03703966313098049)]

In [10]:
reg = Ridge(alpha=.5)
ridge_reg = reg.fit(X, y)
[(X.columns[i], ridge_reg.coef_[0][i]) for i in range(13)]

[('Numero', -0.2064882608507719),
 ('TypeVoie', -0.10770286865198112),
 ('NbPieces', -0.13290719442111742),
 ('lon', -0.11103833458445304),
 ('lat', -0.12156377406279963),
 ('score_commerce', -0.1031455374852953),
 ('score_commerce_lux', 0.10735351210439867),
 ('periode_construction', 0.06814520809953532),
 ('Arrondissement', 0.4214643985139861),
 ('Quartier', -0.8515933210016181),
 ('score_jardin', 0.005868901794017971),
 ('score_monument', 0.22155372351341338),
 ('score_metro', -0.03699103745775033)]

## ACP et Clustering

In [11]:
#df_test = df.drop(columns = ['lat', 'lon', 'Arrondissement', 'Quartier'])

In [12]:
from sklearn.decomposition import PCA
pca = PCA(n_components=4)
pca.fit(df)

print(pca.explained_variance_ratio_)
print(pca.singular_values_)

[0.30570026 0.21072141 0.15676292 0.15096819]
[220.35964146 182.95255675 157.79957268 154.85558923]


In [13]:
transformed_df = pd.DataFrame(pca.transform(df)).rename(columns = {
                            0 : 'var0', 
                            1 : 'var1', 
                            2 : 'var2',
                            3 : 'var3'
                         })

In [23]:
px.scatter_3d(transformed_df.head(1000), x = 'var0', y = 'var1', z = 'var2', color = 'var3', opacity = 1)

In [15]:
from sklearn.cluster import KMeans

kmeans = KMeans(n_clusters = 4).fit(transformed_df)

In [16]:
transformed_df['cluster'] = kmeans.labels_

In [17]:
px.scatter_3d(transformed_df.head(1000), x = 'var0', y = 'var1', z = 'var2', color = 'cluster', opacity = .7)

In [18]:
df_cluster0 = df0.iloc[[i for i in list(transformed_df[transformed_df['cluster'] == 0].index)]]
df_cluster1 = df0.iloc[[i for i in list(transformed_df[transformed_df['cluster'] == 1].index)]]
df_cluster2 = df0.iloc[[i for i in list(transformed_df[transformed_df['cluster'] == 2].index)]]
df_cluster3 = df0.iloc[[i for i in list(transformed_df[transformed_df['cluster'] == 3].index)]]

In [19]:
display(df_cluster0.describe())
display(df_cluster1.describe())
display(df_cluster2.describe())
display(df_cluster3.describe())

Unnamed: 0,Numero,NbPieces,prixm2,lon,lat,score_commerce,score_commerce_lux,periode_construction,Arrondissement,Quartier,score_jardin,score_monument,score_metro
count,6697.0,6697.0,6697.0,6697.0,6697.0,6697.0,6697.0,6697.0,6697.0,6697.0,6697.0,6697.0,6697.0
mean,40.077348,2.534568,13.792481,2.326753,48.86231,0.157047,0.158419,3.232343,10.298492,39.741675,6.16472,0.4929,0.143158
std,47.044359,1.460463,5.191669,0.030099,0.015495,0.107264,0.1293,1.987884,5.429552,21.623354,14.226926,0.198771,0.080442
min,1.0,0.0,4.263157,2.255662,48.822362,0.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0
25%,10.0,1.0,10.714285,2.300456,48.850609,0.066038,0.066667,2.0,6.0,21.0,2.356164,0.354412,0.082528
50%,23.0,2.0,12.363636,2.332951,48.861782,0.150943,0.133333,3.0,9.0,36.0,3.591661,0.502229,0.125463
75%,51.0,3.0,15.0,2.349066,48.873982,0.216981,0.2,4.0,16.0,61.0,5.970611,0.604412,0.167935
max,400.0,11.0,35.094339,2.408659,48.897715,0.915094,0.666667,11.0,20.0,80.0,661.925835,0.95,0.815167


Unnamed: 0,Numero,NbPieces,prixm2,lon,lat,score_commerce,score_commerce_lux,periode_construction,Arrondissement,Quartier,score_jardin,score_monument,score_metro
count,12706.0,12706.0,12706.0,12706.0,12706.0,12706.0,12706.0,12706.0,12706.0,12706.0,12706.0,12706.0,12706.0
mean,50.011176,2.33921,9.72542,2.34167,48.862174,0.148767,0.100937,3.519991,15.933024,62.13592,inf,0.187545,0.107683
std,57.818689,1.187565,2.773815,0.043479,0.02282,0.13783,0.128835,2.081976,3.135884,12.546459,,0.137229,0.064776
min,1.0,0.0,4.236842,2.255783,48.819437,0.0,0.0,0.0,2.0,5.0,0.7369989,0.0,0.0
25%,11.0,1.0,8.214285,2.303752,48.840188,0.056604,0.0,3.0,14.0,55.0,2.922584,0.082547,0.070377
50%,29.0,2.0,9.473592,2.345897,48.864979,0.122642,0.066667,3.0,16.0,63.0,4.501065,0.15,0.091104
75%,68.0,3.0,10.75,2.380194,48.884449,0.198113,0.133333,4.0,18.0,71.0,7.8063,0.25,0.131299
max,407.0,20.0,35.11,2.412651,48.900391,1.0,0.8,11.0,20.0,80.0,inf,0.8,0.831186


Unnamed: 0,Numero,NbPieces,prixm2,lon,lat,score_commerce,score_commerce_lux,periode_construction,Arrondissement,Quartier,score_jardin,score_monument,score_metro
count,3926.0,3926.0,3926.0,3926.0,3926.0,3926.0,3926.0,3926.0,3926.0,3926.0,3926.0,3926.0,3926.0
mean,45.84488,2.329598,10.852636,2.337825,48.873714,0.322314,0.325522,3.167091,13.579215,52.70377,inf,0.351254,0.14044
std,52.261539,1.213879,3.416935,0.029051,0.016674,0.184879,0.225078,1.990576,5.528176,21.95218,,0.187167,0.096553
min,1.0,0.0,4.230769,2.258295,48.833449,0.0,0.0,0.0,1.0,2.0,0.949716,0.0,0.0
25%,10.0,1.0,8.864707,2.3164,48.862393,0.188679,0.1,2.0,10.0,38.0,2.532563,0.204412,0.080942
50%,26.0,2.0,10.43704,2.342065,48.878307,0.311321,0.333333,3.0,17.0,65.0,3.70503,0.35,0.118827
75%,64.0,3.0,12.16554,2.356175,48.887632,0.415094,0.5,3.0,18.0,69.0,6.116598,0.5,0.153319
max,397.0,9.0,35.182926,2.409721,48.897783,1.0,1.0,11.0,20.0,80.0,inf,0.85,0.831186


Unnamed: 0,Numero,NbPieces,prixm2,lon,lat,score_commerce,score_commerce_lux,periode_construction,Arrondissement,Quartier,score_jardin,score_monument,score_metro
count,1639.0,1639.0,1639.0,1639.0,1639.0,1639.0,1639.0,1639.0,1639.0,1639.0,1639.0,1639.0,1639.0
mean,48.579012,2.558267,11.194974,2.341501,48.867393,0.169357,0.146207,3.225747,10.129347,39.025625,5.697974,0.452857,0.669952
std,55.584691,1.395131,3.385082,0.019561,0.016466,0.11197,0.130725,1.911739,2.958254,11.632313,8.37918,0.184799,0.187233
min,1.0,0.0,4.2382,2.311758,48.83583,0.0,0.0,0.0,1.0,2.0,1.102418,0.05,0.062649
25%,9.0,1.0,9.26875,2.323015,48.84773,0.103774,0.033333,2.0,8.0,32.0,2.371163,0.3,0.481126
50%,23.0,2.0,10.66875,2.341855,48.875588,0.150943,0.133333,3.0,10.0,37.0,3.421776,0.45,0.734027
75%,70.0,3.0,12.398979,2.358395,48.880082,0.207547,0.2,3.0,11.0,44.0,5.820677,0.612922,0.8
max,245.0,11.0,32.272727,2.383882,48.897078,0.915094,0.666667,11.0,18.0,72.0,160.438533,0.85,1.0


In [20]:
df0['cluster'] = pd.Series(kmeans.labels_)

In [27]:
px.scatter(df0, x = 'lon', y = 'lat', color = 'score_metro', template = 'none', opacity = .3)

In [28]:
px.scatter(df0, x = 'lon', y = 'lat', color = 'cluster', template = 'none', opacity = .3)