## Práctica Guiada: DBScan con datos geográficos

En esta práctica vamos a aplicar la técnica de DBScan a datos geoposicionados para encontrar zonas de alta densidad comercial de determinado tipo de comercio en una ciudad. <br />
Los datos provienen de un dataset abierto de la ciudad de Baltimore, más información se puede encontrar <a href='https://data.baltimorecity.gov/Culture-Arts/Restaurants/k5ry-ef3g'> aquí </a>. <br/>

Para esta notebook es importante instalar las librerías:
1. multiprocessing
2. geopandas
3. mplleaflet

## 1- Cargamos librerías e importamos los datos



In [1]:
import requests
import json
import pandas as pd
import numpy as np
import time
import mplleaflet
from multiprocessing import Pool

In [2]:
df = pd.read_csv('../Data/Restaurants.csv')

In [3]:
df.head()

Unnamed: 0,name,zipCode,neighborhood,councilDistrict,policeDistrict,Location 1
0,410,21206,Frankford,2,NORTHEASTERN,"4509 BELAIR ROAD\nBaltimore, MD\n"
1,1919,21231,Fells Point,1,SOUTHEASTERN,"1919 FLEET ST\nBaltimore, MD\n"
2,SAUTE,21224,Canton,1,SOUTHEASTERN,"2844 HUDSON ST\nBaltimore, MD\n"
3,#1 CHINESE KITCHEN,21211,Hampden,14,NORTHERN,"3998 ROLAND AVE\nBaltimore, MD\n"
4,#1 chinese restaurant,21223,Millhill,9,SOUTHWESTERN,"2481 frederick ave\nBaltimore, MD\n"


In [4]:
# Limpiamos la dirección
df['address'] = df['Location 1'].str.replace('\n',' ')

In [5]:
df.head()

Unnamed: 0,name,zipCode,neighborhood,councilDistrict,policeDistrict,Location 1,address
0,410,21206,Frankford,2,NORTHEASTERN,"4509 BELAIR ROAD\nBaltimore, MD\n","4509 BELAIR ROAD Baltimore, MD"
1,1919,21231,Fells Point,1,SOUTHEASTERN,"1919 FLEET ST\nBaltimore, MD\n","1919 FLEET ST Baltimore, MD"
2,SAUTE,21224,Canton,1,SOUTHEASTERN,"2844 HUDSON ST\nBaltimore, MD\n","2844 HUDSON ST Baltimore, MD"
3,#1 CHINESE KITCHEN,21211,Hampden,14,NORTHERN,"3998 ROLAND AVE\nBaltimore, MD\n","3998 ROLAND AVE Baltimore, MD"
4,#1 chinese restaurant,21223,Millhill,9,SOUTHWESTERN,"2481 frederick ave\nBaltimore, MD\n","2481 frederick ave Baltimore, MD"


## 2 - Geoposicionar los datos

Para poder aplicar DBScan necesitamos la latitud y longitud de cada establecimiento. <br />
El proceso de obtener estos datos a partir de una dirección se denomina geocoding. Goolgemaps tiene un servicio freemium de geocoding a través de su API. La clave se puede obtener <a href='https://developers.google.com/maps/documentation/javascript/get-api-key?hl=ES'>aquí</a> con tu identidad de google.

In [6]:
my_key = 'AIzaSyA0UeUFFchUSdPA0uJR_IPeMmtPNmKplk4'

### 2.1 - Paralelizar el consumo de la API

Python permite paralelizar la ejecución de tareas que consumen mucho tiempo. Para esto utilizamos la clase Pool de la librería multiprocessing.

Primero definimos las funciones que se van a utilizar.

In [7]:
def geocodificar(my_id):
    """Devuelve un diccionario con latitud y longitud a partir de un id del dataset de restaurantes"""
    try:
        addr = df.address[my_id]
        url = "https://maps.googleapis.com/maps/api/geocode/json?address=" + addr + "&key=AIzaSyBvBdD5U6nCzy-bnX6SVNy2VWj9aISOdz4"
        response = requests.get(url)
        data = json.loads(response.text)
        return{'lat':data["results"][0].get("geometry").get("location")['lat'],'lon':data["results"][0].get("geometry").get("location")['lng']}
    except:
        return{'lat':np.nan,'lon':np.nan}

Para poder paralelizar construimos una función que trabaje con un rango de ids del dataframe, y geocodifique cada uno para luego devolver una lista de diccionarios.

In [8]:
def procesar_rango_ids(id_range):
    """procesar un rango de ids y guardar los resultados en un diccionario"""
    store = []
    for my_id in id_range:
        store.append(geocodificar(my_id))
    return store

Vamos a paralelizar la ejecución en 3 procesos. Veamos los rangos de ids que debe trabajar cada uno de ellos.

In [9]:
cut = len(df)// 3
print(cut)
print(cut *2)

442
884


In [10]:
# Contruimos una lista de rangos
ranges = [range(0,442),range(442,884), range(884,len(df))]

In [11]:
pool = Pool(processes=3)

# Ejecutamos en paralelo
results = pool.map(procesar_rango_ids, ranges)

# Unimos los resultados de los 3 procesos en una única lista
results_final = results[0] + results[1] + results[2]

# Eliminamos los resultados que tuvieron errores
results_final = [res for res in results_final if isinstance(res,dict)]

# Guardamos un DataFrame con latitud y longitud de cada establecimiento
bares = pd.DataFrame(results_final).dropna()

bares.to_csv('bares.csv')

In [12]:
bares = pd.read_csv('../Data/bares.csv')[['lat','lon']]

In [13]:
bares.head()

Unnamed: 0,lat,lon
0,39.330489,-76.562022
1,39.284518,-76.58943
2,39.28242,-76.575708
3,39.337072,-76.633356
4,39.282212,-76.656208


## 3- Visualizar los datos generados

Para visualizar los datos generados vamos a crear un GeoDataFrame utilizando la librería geopandas y vamos a mostrarlo en un mapa interactivo utilizando mplleaflet.

In [14]:
from geopandas import GeoDataFrame
from shapely.geometry import Point

geometry = [Point(xy) for xy in zip(bares.lon, bares.lat)]
crs = {'init': 'epsg:4326'}
gdf = GeoDataFrame(crs=crs, geometry=geometry)

In [15]:
%matplotlib inline
import shapely
import matplotlib.pyplot as plt
ax1 = gdf.plot()
ax1.set_xlim([-76.75, -76.5])
ax1.set_ylim([39.2, 39.375])
fig = plt.gcf()
fig.set_size_inches(20, 20)
mplleaflet.display()



## 4 -  Preprocesamiento de los datos geográficos

Hasta ahora tenemos la posición relativa de los bares expresada en grados de latitud y longitud.

Para que los parámetros del clustering DBScan tengan mayor sentido se puede transformar las medidas de latitud y longitud a una aproximación de los metros que representan con respecto al centro de los datos. Mientras que un grado de latitud siempre representa la misma distancia, un grado de longitud solamente es equivalente a uno de latitud, en metros, en la zona del ecuador. Por eso, es necesario hacer un ajuste para adaptarnos a la zona de estudio.



In [16]:
# Primero centramos los datos
bares['lat_center'] = bares['lat'] - np.mean(bares['lat']) 
bares['lon_center'] = bares['lon'] - np.mean(bares['lon']) 

In [17]:
bares.head()

Unnamed: 0,lat,lon,lat_center,lon_center
0,39.330489,-76.562022,0.034064,0.044534
1,39.284518,-76.58943,-0.011907,0.017126
2,39.28242,-76.575708,-0.014006,0.030848
3,39.337072,-76.633356,0.040647,-0.0268
4,39.282212,-76.656208,-0.014214,-0.049652


In [18]:
# Ahora funciones para pasar aproximadamente de grados a metros

In [19]:
def lat_a_metros(x):
    """Latitude:  1 deg = 110.54 km"""
    return x*110540

def lon_a_metros(x,cos_mean_lat):
    """Longitude: 1 deg = 111.320*cos(latitude) km"""
    return x*111320*cos_mean_lat


In [20]:
cos_m_lat = np.cos(np.deg2rad(np.mean(bares['lat'])))
print(cos_m_lat)

0.7738797269979386


En la ciudad de Baltimore, cada milésima de grado de longitud equivale en distancia a 0.77 milésimas de grado de latitud.
Usamos esta medida de ajuste para calcular una medida que sirva para evaluar distancias en metros.

In [21]:
bares['lat_metros'] = bares['lat_center'].apply(lambda x: round(lat_a_metros(x)))

In [22]:
bares['lon_metros'] = bares['lon_center'].apply(lambda x: round(lon_a_metros(x,cos_m_lat)))

In [23]:
bares.head()

Unnamed: 0,lat,lon,lat_center,lon_center,lat_metros,lon_metros
0,39.330489,-76.562022,0.034064,0.044534,3765,3837.0
1,39.284518,-76.58943,-0.011907,0.017126,-1316,1475.0
2,39.28242,-76.575708,-0.014006,0.030848,-1548,2658.0
3,39.337072,-76.633356,0.040647,-0.0268,4493,-2309.0
4,39.282212,-76.656208,-0.014214,-0.049652,-1571,-4277.0


### 5- DBScan

Ahora podemos buscar las zonas de alta densidad de restaurantes a partir de alguna definición de negocio. Por ejemplo podemos proponer que hay una zona de alta densidad cuando se encuentran ininterrumpidamente 5 restaurantes en un radio de menos de 100 metros. 

In [24]:
# Zona de restaurantes: Al menos 5 restaurantes en un radio de 100 metros

In [25]:
from sklearn.cluster import DBSCAN, KMeans
dbscn = DBSCAN(eps = 100, min_samples = 5).fit(bares[['lat_metros','lon_metros']])

In [26]:
dbscn

DBSCAN(algorithm='auto', eps=100, leaf_size=30, metric='euclidean',
       metric_params=None, min_samples=5, n_jobs=None, p=None)

In [27]:
labels = dbscn.labels_

In [28]:
n_clusters_ = len(set(labels)) - (1 if -1 in labels else 0)

In [29]:
n_clusters_

46

Con estos parámetros encontramos 46 zonas de restaurantes en la ciudad para analizar. 

### 5.1 - Visualizar los resultados

Ahora veamos en el mapa las zonas obtenidas.

In [30]:
bares['labels'] = labels

In [31]:
clusters = bares.loc[bares['labels']!=-1].copy()

In [32]:
clusters.sort_values('labels').head(20)

Unnamed: 0,lat,lon,lat_center,lon_center,lat_metros,lon_metros,labels
1,39.284518,-76.58943,-0.011907,0.017126,-1316,1475.0,0
162,39.285668,-76.587383,-0.010757,0.019173,-1189,1652.0,0
175,39.285943,-76.588645,-0.010482,0.017911,-1159,1543.0,0
1167,39.284848,-76.590342,-0.011577,0.016214,-1280,1397.0,0
1142,39.283517,-76.589438,-0.012909,0.017118,-1427,1475.0,0
24,39.284548,-76.588882,-0.011877,0.017674,-1313,1523.0,0
254,39.285943,-76.588645,-0.010482,0.017911,-1159,1543.0,0
297,39.285605,-76.58861,-0.010821,0.017946,-1196,1546.0,0
934,39.283854,-76.589788,-0.012572,0.016768,-1390,1445.0,0
322,39.284241,-76.588832,-0.012184,0.017724,-1347,1527.0,0


A continuación armamos otro GeoDataFrame que contenga las posiciones y las labels de los restaurantes que fueron asignados a algún cluster.

In [33]:
geometry = [Point(xy) for xy in zip(clusters.lon, clusters.lat)]
crs = {'init': 'epsg:4326'}
gdf = GeoDataFrame(clusters[['labels']],crs=crs, geometry=geometry)

In [34]:
gdf.head()

Unnamed: 0,labels,geometry
1,0,POINT (-76.58942990000001 39.284518)
14,31,POINT (-76.6116007 39.2894404)
17,1,POINT (-76.5560291 39.287256)
18,22,POINT (-76.59478399999998 39.300073)
21,2,POINT (-76.61544169999998 39.2993421)


In [35]:
gdf.plot(column='labels', cmap='Paired');
fig = plt.gcf()
fig.set_size_inches(20, 20)
mplleaflet.display()



Conclusión: En las zonas periféricas los clusters son bien marcados. En las zonas céntricas, los clusters se confunden un poco. Recordemos que DBScan es sensible a la diferencia general de densidad entre zonas. 