## Prática Guiada: DBScan com dados geográficos

Nesta prática, aplicaremos a técnica de DBScan a dados geolocalizados para encontrar zonas de alta densidade comercial de um determinado tipo de comércio em uma cidade. <br />
Os dados vêm de um dataset aberto da cidade de Baltimore. É possível encontrar mais informação <a href='https://data.baltimorecity.gov/Culture-Arts/Restaurants/k5ry-ef3g'> aqui </a>. <br/>

Para este notebook é importante instalar as bibliotecas:
1. multiprocessing
2. geopandas
3. mplleaflet

## 1- Carregamos bibliotecas e importamos os dados



In [1]:
import requests
import json
import pandas as pd
import numpy as np
import time
import mplleaflet
from multiprocessing import Pool

In [2]:
df = pd.read_csv('Restaurants.csv')

In [3]:
df.head()

Unnamed: 0,name,zipCode,neighborhood,councilDistrict,policeDistrict,Location 1
0,410,21206,Frankford,2,NORTHEASTERN,"4509 BELAIR ROAD\nBaltimore, MD\n"
1,1919,21231,Fells Point,1,SOUTHEASTERN,"1919 FLEET ST\nBaltimore, MD\n"
2,SAUTE,21224,Canton,1,SOUTHEASTERN,"2844 HUDSON ST\nBaltimore, MD\n"
3,#1 CHINESE KITCHEN,21211,Hampden,14,NORTHERN,"3998 ROLAND AVE\nBaltimore, MD\n"
4,#1 chinese restaurant,21223,Millhill,9,SOUTHWESTERN,"2481 frederick ave\nBaltimore, MD\n"


In [4]:
# Limpamos o endereço
df['address'] = df['Location 1'].str.replace('\n',' ')

In [5]:
df.head()

Unnamed: 0,name,zipCode,neighborhood,councilDistrict,policeDistrict,Location 1,address
0,410,21206,Frankford,2,NORTHEASTERN,"4509 BELAIR ROAD\nBaltimore, MD\n","4509 BELAIR ROAD Baltimore, MD"
1,1919,21231,Fells Point,1,SOUTHEASTERN,"1919 FLEET ST\nBaltimore, MD\n","1919 FLEET ST Baltimore, MD"
2,SAUTE,21224,Canton,1,SOUTHEASTERN,"2844 HUDSON ST\nBaltimore, MD\n","2844 HUDSON ST Baltimore, MD"
3,#1 CHINESE KITCHEN,21211,Hampden,14,NORTHERN,"3998 ROLAND AVE\nBaltimore, MD\n","3998 ROLAND AVE Baltimore, MD"
4,#1 chinese restaurant,21223,Millhill,9,SOUTHWESTERN,"2481 frederick ave\nBaltimore, MD\n","2481 frederick ave Baltimore, MD"


## 2 - Geolocalizar os dados

Para poder aplicar DBScan precisamos da latitude e longitude de cada estabelecimento. <br />
O processo de obter esses dados a partir de um endereço se denomina geocoding. O Googlemaps tem um serviço freemium de geocoding através de sua API. A senha pode ser obtida <a href='https://developers.google.com/maps/documentation/javascript/get-api-key?hl=ES'>aqui</a> com sua identidade do google.

In [6]:
my_key = 'AIzaSyA0UeUFFchUSdPA0uJR_IPeMmtPNmKplk4'

### 2.1 - Paralelizar o consumo da API

O Python permite paralelizar a execução de tarefas que consomem muito tempo. Para esto, usamos a classe Pool da biblioteca multiprocessing.

Primeiro definimos as funções que serão utilizadas.

In [7]:
def geocodificar(my_id):
    """Retorna um dicionário com latitude e longitude a partir de um id do dataset de restaurantes"""
    try:
        addr = df.address[my_id]
        url = "https://maps.googleapis.com/maps/api/geocode/json?address=" + addr + "&amp;key=AIzaSyBvBdD5U6nCzy-bnX6SVNy2VWj9aISOdz4"
        response = requests.get(url)
        data = json.loads(response.text)
        return{'lat':data["results"][0].get("geometry").get("location")['lat'],'lon':data["results"][0].get("geometry").get("location")['lng']}
    except:
        return{'lat':np.nan,'lon':np.nan}

Para poder paralelizar, construímos uma função que trabalhe com um intervalo de ids do dataframe e geocodifique cada um para retornar uma lista de dicionários.

In [8]:
def processar_intervalo_ids(id_range):
    """processar um intervalo de ids e guardar los resultados em um dicionário"""
    store = []
    for my_id in id_range:
        store.append(geocodificar(my_id))
    return store

Vamos paralelizar a execução em 3 processos. Vejamos os intervalos de ids com que cada um deles deve trabalhar.

In [9]:
cut = len(df)// 3
print(cut)
print(cut *2)

442
884


In [10]:
# Criamos uma lista de intervalos
ranges = [range(0,442),range(442,884), range(884,len(df))]

In [11]:
pool = Pool(processes=3)

In [None]:
# Executamos de forma paralela
results = pool.map(processar_intervalo_ids, ranges)

In [None]:
# Unimos os resultados dos 3 processos em uma única lista
results_final = results[0] + results[1] + results[2]

In [None]:
# Eliminamos os resultados que tiveram erros
results_final = [res for res in results_final if isinstance(res,dict)]

In [None]:
# Guardamos um DataFrame com a latitude e a longitude de cada estabelecimento
bares = pd.DataFrame(results_final).dropna()

In [None]:
bares.to_csv('bares.csv')

In [14]:
bares = pd.read_csv('bares.csv')[['lat','lon']]

In [15]:
bares.head()

Unnamed: 0,lat,lon
0,39.330489,-76.562022
1,39.284518,-76.58943
2,39.28242,-76.575708
3,39.337072,-76.633356
4,39.282212,-76.656208


## 3- Visualizar os dados gerados

Para visualizar os dados gerados, vamos criar um GeoDataFrame usando a biblioteca geopandas e vamos mostrá-lo em um mapa interativo usando mplleaflet.

In [19]:
from geopandas import GeoDataFrame
from shapely.geometry import Point

geometry = [Point(xy) for xy in zip(bares.lon, bares.lat)]
crs = {'init': 'epsg:4326'}
gdf = GeoDataFrame(crs=crs, geometry=geometry)

In [20]:
% matplotlib inline
import shapely
import matplotlib.pyplot as plt
ax1 = gdf.plot()
ax1.set_xlim([-76.75, -76.5])
ax1.set_ylim([39.2, 39.375])
fig = plt.gcf()
fig.set_size_inches(20, 20)
mplleaflet.display()

## 4 - Pré-processamento dos dados geográficos

Até agora temos a posição relativa dos bares expressa em graus de latitude e longitude.

Para que os parâmetros do clustering DBScan façam mais sentido é possível transformar as medidas de latitude e longitude para um aproximado dos metros que representam em relação ao centro dos dados. Enquanto um grau de latitude sempre representa a mesma distância, um grau de longitude só é equivalente a um de latitude, em metros, na zona do equador. Portanto, é necessário fazer um ajuste para nos adaptar à zona de estudo.



In [21]:
# Primeiro, centralizamos os dados
bares['lat_center'] = bares['lat'] - np.mean(bares['lat']) 
bares['lon_center'] = bares['lon'] - np.mean(bares['lon']) 

In [22]:
bares.head()

Unnamed: 0,lat,lon,lat_center,lon_center
0,39.330489,-76.562022,0.034082,0.044523
1,39.284518,-76.58943,-0.011889,0.017115
2,39.28242,-76.575708,-0.013988,0.030837
3,39.337072,-76.633356,0.040665,-0.026812
4,39.282212,-76.656208,-0.014196,-0.049663


In [23]:
# Agora, funções para passar aproximadamente de graus a metros

In [24]:
def lat_a_metros(x):
    """Latitude: 1 deg = 110.54 km"""
    return x*110540

def lon_a_metros(x,cos_mean_lat):
    """Longitude: 1 deg = 111.320*cos(latitude) km"""
    return x*111320*cos_mean_lat


In [26]:
cos_m_lat = np.cos(np.deg2rad(np.mean(bares['lat'])))
print(cos_m_lat)

0.773879922828


Na cidade de Baltimore, cada milésimo de grau de longitude equivale a uma distância de 0,77 milésimos de grau de latitude.
Usamos esta medida de ajuste para calcular uma medida que sirva para avaliar distâncias em metros.

In [27]:
bares['lat_metros'] = bares['lat_center'].apply(lambda x: round(lat_a_metros(x)))

In [28]:
bares['lon_metros'] = bares['lon_center'].apply(lambda x: round(lon_a_metros(x,cos_m_lat)))

In [29]:
bares.head()

Unnamed: 0,lat,lon,lat_center,lon_center,lat_metros,lon_metros
0,39.330489,-76.562022,0.034082,0.044523,3767,3836.0
1,39.284518,-76.58943,-0.011889,0.017115,-1314,1474.0
2,39.28242,-76.575708,-0.013988,0.030837,-1546,2657.0
3,39.337072,-76.633356,0.040665,-0.026812,4495,-2310.0
4,39.282212,-76.656208,-0.014196,-0.049663,-1569,-4278.0


### 5- DBScan

Agora podemos pesquisar as zonas de alta densidade de restaurantes a partir de alguma definição de negócio. Por exemplo, podemos propor que há uma zona de alta densidade quando 5 restaurantes estão localizados em um raio de menos de 100 metros. 

In [30]:
# Zona de restaurantes: Pelo menos 5 restaurantes em um raio de 100 metros

In [31]:
from sklearn.cluster import DBSCAN, KMeans
dbscn = DBSCAN(eps = 100, min_samples = 5).fit(bares[['lat_metros','lon_metros']])

In [32]:
dbscn

DBSCAN(algorithm='auto', eps=100, leaf_size=30, metric='euclidean',
    metric_params=None, min_samples=5, n_jobs=1, p=None)

In [33]:
labels = dbscn.labels_

In [34]:
n_clusters_ = len(set(labels)) - (1 if -1 in labels else 0)

In [35]:
n_clusters_

46

Com estes parâmetros encontramos 46 zonas de restaurantes na cidade para analisar. 

### 5.1 - Visualizar os resultados

Agora vejamos as zonas obtidas no mapa.

In [36]:
bares['labels'] = labels

In [38]:
clusters = bares.loc[bares['labels']!=-1].copy()

In [40]:
clusters.sort_values('labels').head(20)

Unnamed: 0,lat,lon,lat_center,lon_center,lat_metros,lon_metros,labels
1,39.284518,-76.58943,-0.011889,0.017115,-1314,1474.0,0
162,39.285668,-76.587383,-0.010739,0.019162,-1187,1651.0,0
175,39.285943,-76.588645,-0.010465,0.017899,-1157,1542.0,0
1168,39.284848,-76.590342,-0.011559,0.016203,-1278,1396.0,0
1143,39.283517,-76.589438,-0.012891,0.017107,-1425,1474.0,0
24,39.284548,-76.588882,-0.01186,0.017663,-1311,1522.0,0
254,39.285943,-76.588645,-0.010465,0.017899,-1157,1542.0,0
297,39.285605,-76.58861,-0.010803,0.017935,-1194,1545.0,0
935,39.283854,-76.589788,-0.012554,0.016757,-1388,1444.0,0
322,39.284241,-76.588832,-0.012167,0.017713,-1345,1526.0,0


Depois, montamos outro GeoDataFrame que contenha as posições e labels dos restaurantes que foram atribuídos a algum cluster.

In [41]:
geometry = [Point(xy) for xy in zip(clusters.lon, clusters.lat)]
crs = {'init': 'epsg:4326'}
gdf = GeoDataFrame(clusters[['labels']],crs=crs, geometry=geometry)

In [42]:
gdf.head()

Unnamed: 0,labels,geometry
1,0,POINT (-76.58942990000001 39.284518)
14,31,POINT (-76.6116007 39.2894404)
17,1,POINT (-76.5560291 39.287256)
18,22,POINT (-76.59478399999998 39.300073)
21,2,POINT (-76.61544169999998 39.2993421)


In [43]:
gdf.plot(column='labels', cmap='Paired');
fig = plt.gcf()
fig.set_size_inches(20, 20)
mplleaflet.display()

Conclusão: Nas zonas periféricas os clusters são bem definidos. Nas zonas centrais, os clusters se confundem um pouco. Lembrem-se que o DBScan é sensível à diferença geral de densidade entre as zonas. 