In [1]:
from bs4 import BeautifulSoup
from urllib.request import urlopen
import re
import math

# Obter lista de bares por cidade

In [2]:
lista_bares = []

mais_paginas = True
url = 'https://comidadibuteco.com.br/category/butecos/montes-claros/'
response = urlopen(url)
html = response.read()
soup = BeautifulSoup(html, 'html.parser')
total_bares = re.findall(r'\d+', soup.h5.getText())
total_bares = int(total_bares[0])
total_paginas = math.ceil(total_bares / 12)

In [3]:
i = 0
lista_bares = []

while i < total_paginas:
    response = urlopen(url)
    html = response.read()
    soup = BeautifulSoup(html, 'html.parser')
    lista_bares.extend(soup.findAll('div', {'class': 'result-inner text-left'}))
    i += 1
    if i < total_paginas:
        url = soup.find('div', {'class': 'navigation'}).find('div', {'class': 'alignright'}).a['href']

# Criar dataframe de bares

In [4]:
import pandas as pd
import re

In [5]:
bar_detalhes = []

for bar in lista_bares:
    bar_atual = {}
    bar_atual['nome'] = (bar.h2.getText())
    endereco = bar.p.getText()
    endereco_limpo = re.sub(r'\s+', ' ', endereco.strip()).replace(' |', ',')
    bar_atual['endereco'] = endereco_limpo
    
    bar_detalhes.append(bar_atual)

In [6]:
bar_df = pd.DataFrame(bar_detalhes)

In [7]:
bar_df.head()

Unnamed: 0,nome,endereco
0,611 House Bar,"Rua Raul Correia, 611, Funcionários, Montes Cl..."
1,Ary Cristal,"Rua Raul Correia, 610, Funcionários, Montes Cl..."
2,Bar do Chacal,"Av. Sidney Chaves, 779, Edgar Pereira, Montes ..."
3,Bar do Kal,"Rua Antônio Martins, 50, Santos Reis, Montes C..."
4,Bar do Soró,"Rua Coronel Joaquim Sarmento, 596, São José, M..."


# Obtendo latitude e longitude

In [8]:
import requests
import folium
from geopy import Point, distance
from geopy.geocoders import Nominatim
from api_key import API_KEY

url = 'https://maps.googleapis.com/maps/api/geocode/json'
params = {'address': endereco, 'key': API_KEY}

resposta = requests.get(url, params=params).json()

latitude = resposta['results'][0]['geometry']['location']['lat']
longitude = resposta['results'][0]['geometry']['location']['lng']

print(latitude, longitude)

In [9]:
def obter_lat_long(endereco):
    url = 'https://maps.googleapis.com/maps/api/geocode/json'
    params = {'address': endereco, 'key': API_KEY}
    resposta = requests.get(url, params=params).json()
    try:
        lat = resposta['results'][0]['geometry']['location']['lat']
        long = resposta['results'][0]['geometry']['location']['lng']
        return pd.Series({'latitude': lat, 'longitude': long})
    except:
        return pd.Series({'latitude': None, 'longitude': None})

In [10]:
bar_df[['latitude', 'longitude']] = bar_df['endereco'].apply(obter_lat_long)
bar_df.dropna(inplace=True)
bar_df.head()

Unnamed: 0,nome,endereco,latitude,longitude
0,611 House Bar,"Rua Raul Correia, 611, Funcionários, Montes Cl...",-16.738308,-43.877505
1,Ary Cristal,"Rua Raul Correia, 610, Funcionários, Montes Cl...",-16.738293,-43.877752
2,Bar do Chacal,"Av. Sidney Chaves, 779, Edgar Pereira, Montes ...",-16.710061,-43.859608
3,Bar do Kal,"Rua Antônio Martins, 50, Santos Reis, Montes C...",-16.701821,-43.870259
4,Bar do Soró,"Rua Coronel Joaquim Sarmento, 596, São José, M...",-16.722578,-43.856029


# Representando localização dos bares no mapa

In [11]:
centroide = Point(sum(bar_df['latitude'])/len(bar_df), sum(bar_df['longitude'])/len(bar_df))

ponto_mais_distante = None
distancia_mais_longe = 0
for i, row in bar_df.iterrows():
    p = Point(row['latitude'], row['longitude'])
    dist = distance.distance(p, centroide).km
    if dist > distancia_mais_longe:
        distancia_mais_longe = dist
        ponto_mais_distante = p

map = folium.Map(location=[ponto_mais_distante.latitude, ponto_mais_distante.longitude], zoom_start=12)
for i, row in bar_df.iterrows():
    folium.Marker(location=[row['latitude'], row['longitude']], tooltip=row['nome']).add_to(map)
map

# Agrupando bares

## Por distância entre bares

In [12]:
from geopy import Point, distance

In [13]:
distancias = []

for bar in bar_df['nome']:
    bar_distancia = {'nome': bar}
    latidute = bar_df.query(f'nome == "{bar}"')['latitude']
    longitude = bar_df.query(f'nome == "{bar}"')['longitude']
    ponto = (float(latidute), float(longitude))
    resultados = {}
    
    for outro_bar in bar_df['nome']:
        if outro_bar != bar:
            latidute2 = bar_df.query(f'nome == "{outro_bar}"')['latitude']
            longitude2 = bar_df.query(f'nome == "{outro_bar}"')['longitude']
            ponto2 = (float(latidute2), float(longitude2))
            distancia = distance.distance(ponto, ponto2).m
            resultados[outro_bar] = round(distancia, 2)
            
    resultados = dict(sorted(resultados.items(), key=lambda item: item[1]))
    
    bar_distancia['4proximos'] = dict(list(resultados.items())[:4])
    bar_distancia['3proximos'] = dict(list(resultados.items())[:3])
    distancias.append(bar_distancia)

In [14]:
bar_df = pd.merge(bar_df, pd.DataFrame(distancias), how='left', on='nome')
bar_df.head()

Unnamed: 0,nome,endereco,latitude,longitude,4proximos,3proximos
0,611 House Bar,"Rua Raul Correia, 611, Funcionários, Montes Cl...",-16.738308,-43.877505,"{'Ary Cristal': 26.41, 'Butiquim do Loy': 257....","{'Ary Cristal': 26.41, 'Butiquim do Loy': 257...."
1,Ary Cristal,"Rua Raul Correia, 610, Funcionários, Montes Cl...",-16.738293,-43.877752,"{'611 House Bar': 26.41, 'Butiquim do Loy': 23...","{'611 House Bar': 26.41, 'Butiquim do Loy': 23..."
2,Bar do Chacal,"Av. Sidney Chaves, 779, Edgar Pereira, Montes ...",-16.710061,-43.859608,"{'Lopes Bistrô': 521.28, 'Bar do Soró': 1436.8...","{'Lopes Bistrô': 521.28, 'Bar do Soró': 1436.8..."
3,Bar do Kal,"Rua Antônio Martins, 50, Santos Reis, Montes C...",-16.701821,-43.870259,"{'Lopes Bistrô': 997.21, 'Bar do Chacal': 1456...","{'Lopes Bistrô': 997.21, 'Bar do Chacal': 1456..."
4,Bar do Soró,"Rua Coronel Joaquim Sarmento, 596, São José, M...",-16.722578,-43.856029,"{'Bar do Chacal': 1436.85, 'Bar do Thom': 1549...","{'Bar do Chacal': 1436.85, 'Bar do Thom': 1549..."


## Por raio de distância

In [15]:
raios = []

for bar in bar_df['nome']:
    bar_raios = {'nome': bar}
    latidute = bar_df.query(f'nome == "{bar}"')['latitude']
    longitude = bar_df.query(f'nome == "{bar}"')['longitude']
    ponto = (float(latidute), float(longitude))
    ate500 = []
    ate750 = []
    for outro_bar in bar_df['nome']:
        if outro_bar != bar:
            latidute2 = bar_df.query(f'nome == "{outro_bar}"')['latitude']
            longitude2 = bar_df.query(f'nome == "{outro_bar}"')['longitude']
            ponto2 = (float(latidute2), float(longitude2))
            distancia = distance.distance(ponto, ponto2).m
            if distancia <= 500:
                ate500.append(outro_bar)
            if distancia <= 750:
                ate750.append(outro_bar)
    
    bar_raios['500m'] = ate500
    bar_raios['750m'] = ate750
    raios.append(bar_raios)

In [16]:
bar_df = pd.merge(bar_df, pd.DataFrame(raios), how='left', on='nome')
bar_df.head()

Unnamed: 0,nome,endereco,latitude,longitude,4proximos,3proximos,500m,750m
0,611 House Bar,"Rua Raul Correia, 611, Funcionários, Montes Cl...",-16.738308,-43.877505,"{'Ary Cristal': 26.41, 'Butiquim do Loy': 257....","{'Ary Cristal': 26.41, 'Butiquim do Loy': 257....","[Ary Cristal, Butiquim do Loy, Delícias do Crepe]","[Ary Cristal, Bendita Espeteria, Boteco Topp, ..."
1,Ary Cristal,"Rua Raul Correia, 610, Funcionários, Montes Cl...",-16.738293,-43.877752,"{'611 House Bar': 26.41, 'Butiquim do Loy': 23...","{'611 House Bar': 26.41, 'Butiquim do Loy': 23...","[611 House Bar, Butiquim do Loy, Delícias do C...","[611 House Bar, Bendita Espeteria, Boteco Topp..."
2,Bar do Chacal,"Av. Sidney Chaves, 779, Edgar Pereira, Montes ...",-16.710061,-43.859608,"{'Lopes Bistrô': 521.28, 'Bar do Soró': 1436.8...","{'Lopes Bistrô': 521.28, 'Bar do Soró': 1436.8...",[],[Lopes Bistrô]
3,Bar do Kal,"Rua Antônio Martins, 50, Santos Reis, Montes C...",-16.701821,-43.870259,"{'Lopes Bistrô': 997.21, 'Bar do Chacal': 1456...","{'Lopes Bistrô': 997.21, 'Bar do Chacal': 1456...",[],[]
4,Bar do Soró,"Rua Coronel Joaquim Sarmento, 596, São José, M...",-16.722578,-43.856029,"{'Bar do Chacal': 1436.85, 'Bar do Thom': 1549...","{'Bar do Chacal': 1436.85, 'Bar do Thom': 1549...",[],[]


In [21]:
bar_list = bar_df.to_dict('records')