In [1]:
import sys
import os

# Adiciona o diretório raiz do projeto ao sys.path
notebook_dir = os.getcwd()  # Pega o diretório atual do notebook
project_root = os.path.abspath(os.path.join(notebook_dir, '..'))  # Sobe um nível
sys.path.append(project_root)

# Agora o Python consegue encontrar o módulo src
import pandas as pd
from src.crawler import buscar_informacoes
from concurrent.futures import ThreadPoolExecutor
import logging

logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")

2025-04-13 13:06:25,719 - INFO - API queries_quota: 60


In [2]:
# Lista de URLs para coletar dados
urls = [f"https://comidadibuteco.com.br/butecos/belo-horizonte/page/{i}/" for i in range(1, 12)]

# Coleta paralela
butecos = []
with ThreadPoolExecutor(max_workers=5) as executor:
    resultados = executor.map(buscar_informacoes, urls)
    for resultado in resultados:
        butecos.extend(resultado)

logging.info(f"Total de butecos coletados: {len(butecos)}")

2025-04-13 13:07:16,890 - INFO - Buscando informações na URL: https://comidadibuteco.com.br/butecos/belo-horizonte/page/1/
2025-04-13 13:07:16,892 - INFO - Buscando informações na URL: https://comidadibuteco.com.br/butecos/belo-horizonte/page/2/
2025-04-13 13:07:16,892 - INFO - Buscando informações na URL: https://comidadibuteco.com.br/butecos/belo-horizonte/page/3/
2025-04-13 13:07:16,892 - INFO - Buscando informações na URL: https://comidadibuteco.com.br/butecos/belo-horizonte/page/4/
2025-04-13 13:07:16,907 - INFO - Buscando informações na URL: https://comidadibuteco.com.br/butecos/belo-horizonte/page/5/
2025-04-13 13:07:17,971 - INFO - Endereço geocodificado: Rua Pinheiro Chagas, 295 | Barreiro, Belo Horizonte - MG, Belo Horizonte, MG -> Lat: -19.9794483, Lon: -44.0128577
2025-04-13 13:07:17,985 - INFO - Endereço geocodificado: Rua Geralda Marinho, 41 | São João Batista (Venda Nova), Belo Horizonte - MG, Belo Horizonte, MG -> Lat: -19.8272783, Lon: -43.9640798
2025-04-13 13:07:18,0

In [5]:
# Criar DataFrame
df = pd.DataFrame(butecos)

# Reorganizar colunas (opcional)
df = df[["nome", "endereco", "lat", "lon", "imagem", "detalhes_url", "mapa_url"]]

# Salvar CSV
df.to_csv("../data/butecos.csv", index=False)
logging.info("Dados salvos em '../data/butecos.csv'")

# Visualizar os primeiros registros
df.head()

2025-04-13 13:19:36,650 - INFO - Dados salvos em '../data/butecos.csv'


Unnamed: 0,nome,endereco,lat,lon,imagem,detalhes_url,mapa_url
0,Alexandre’s Bar,"Rua David Alves do Vale, 68 | Santa Rosa, Belo...",-19.861899,-43.944369,https://cdb-static-files.s3.amazonaws.com/wp-c...,https://comidadibuteco.com.br/buteco/alexandre...,https://www.google.com/maps/search/?api=1&quer...
1,Amarelim do Prado,"Avenida Francisco Sá, 658 | Prado, Belo Horizo...",-19.928061,-43.959855,https://cdb-static-files.s3.amazonaws.com/wp-c...,https://comidadibuteco.com.br/buteco/amarelim-...,https://www.google.com/maps/search/?api=1&quer...
2,Andrade’s Beer,"Rua Dona Geni, 32 | Belo Horizonte - MG",-19.800632,-43.996528,https://cdb-static-files.s3.amazonaws.com/wp-c...,https://comidadibuteco.com.br/buteco/andrades-...,https://www.google.com/maps/search/?api=1&quer...
3,Arcos Bar,"Rua da Bahia, 1144 | Centro, Belo Horizonte - MG",-19.924944,-43.937594,https://cdb-static-files.s3.amazonaws.com/wp-c...,https://comidadibuteco.com.br/buteco/arcos-bar/,https://www.google.com/maps/search/?api=1&quer...
4,Armazém Santa Amélia,"Avenida da Sinfonia, 253 | Santa Amélia, Belo ...",-19.832789,-43.973267,https://cdb-static-files.s3.amazonaws.com/wp-c...,https://comidadibuteco.com.br/buteco/armazem-s...,https://www.google.com/maps/search/?api=1&quer...


In [8]:
import os
csv_path = "../data/butecos.csv"
print(f"Arquivo existe? {os.path.exists(csv_path)}")
print(f"Caminho absoluto: {os.path.abspath(csv_path)}")

Arquivo existe? True
Caminho absoluto: c:\Users\vribe\Documents\comida-di-buteco-crawler\data\butecos.csv
