<a href="https://colab.research.google.com/github/diegosantos9/maps/blob/main/OK_MAPA_Gyn_e_Ap_Gyn.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# ==============================================================================
# SCRIPT CONSOLIDADO V2: LEIL√ÉO DE IM√ìVEIS (GOI√ÇNIA E APARECIDA DE GOI√ÇNIA)
# Extrai, geocodifica e mapeia im√≥veis com tratamento de erros e pagina√ß√£o din√¢mica.
# ==============================================================================

# ------------------------------------------------------------------------------
# 1. CONFIGURA√á√ÉO E INSTALA√á√ÉO DE BIBLIOTECAS
# ------------------------------------------------------------------------------
print("üì¶ Instalando bibliotecas necess√°rias...")
!pip install -q cloudscraper beautifulsoup4 pandas openpyxl geopy folium tqdm
print("‚úÖ Bibliotecas instaladas.")

import re
import time
import pandas as pd
import folium
import cloudscraper
from bs4 import BeautifulSoup
from geopy.geocoders import Nominatim
from geopy.extra.rate_limiter import RateLimiter
from tqdm.auto import tqdm

# ------------------------------------------------------------------------------
# 2. EXTRA√á√ÉO DE DADOS (SCRAPING) COM PAGINA√á√ÉO DIN√ÇMICA
# ------------------------------------------------------------------------------
print("\nüîÑ Iniciando a extra√ß√£o de dados do site Leil√£o Im√≥vel...")

# Dicion√°rio com as cidades e seus respectivos c√≥digos no site
CIDADES = [
    {'nome': 'Goi√¢nia', 'codigo': '5208707', 'cor': '#007bff'}, # Azul
    {'nome': 'Aparecida de Goi√¢nia', 'codigo': '5201405', 'cor': '#dc3545'} # Vermelho
]

# Inicializa o scraper que simula um navegador para evitar bloqueios
scraper = cloudscraper.create_scraper(
    browser={'browser': 'chrome', 'platform': 'windows', 'mobile': False}
)

def clean_text(text):
    """Remove caracteres de controle ilegais que causam o erro ao salvar em Excel."""
    # Regex para encontrar caracteres de controle XML inv√°lidos
    return re.sub(r'[\x00-\x08\x0b\x0c\x0e-\x1F]', '', str(text))

def parse_card(card, cidade_nome):
    """Extrai informa√ß√µes de um card de im√≥vel, valida e limpa os dados."""
    txt = " ".join(card.get_text(" ", strip=True).split())

    if txt == "+" or len(txt) < 10:
        return None

    link = "https://www.leilaoimovel.com.br" + card["href"]

    m_val = re.search(r"R\$ ([\d\.]+,\d{2})", txt)
    valor = m_val.group(1) if m_val else "√Ä Consultar"

    m_desc = re.search(r"(\d{1,3})%", txt)
    desconto = m_desc.group(1) if m_desc else "0"

    tipo = ("Apartamento" if "Apto" in txt else
            "Casa" if "Casa" in txt else
            "Terreno" if "Terreno" in txt else "Outro")

    natureza = ("Judicial" if "Judicial" in txt else
                "Extrajudicial" if "Extrajudicial" in txt else
                "Venda Direta" if "Venda Direta" in txt else "Outro")

    end = re.split(r"[A-Z]{2}\s*-\s*\d+\s*", txt, 1)[-1]
    end = re.split(r"1¬™ Pra√ßa|2¬™ Pra√ßa|Valor|R\$", end, 1)[0].strip(" -")

    if end == "+" or len(end) < 5:
        return None

    # Aplica a limpeza nos campos de texto antes de retornar
    return {
        "cidade": clean_text(cidade_nome),
        "endereco": clean_text(end),
        "valor": valor,
        "desconto_%": desconto,
        "tipo": clean_text(tipo),
        "natureza": clean_text(natureza),
        "link": link
    }

# Loop principal para extrair dados de todas as cidades configuradas
todos_imoveis = []
base_url = "https://www.leilaoimovel.com.br/encontre-seu-imovel"

for cidade in CIDADES:
    cidade_nome = cidade['nome']
    cidade_codigo = cidade['codigo']

    print(f"\nüîé Buscando im√≥veis em {cidade_nome}...")

    current_page = 1
    with tqdm(desc=f"P√°ginas ({cidade_nome})", unit=" p√°g") as pbar:
        while True:
            url = f"{base_url}?cidade={cidade_codigo}&ordem=dt_insert_d&pag={current_page}&s="
            imoveis_encontrados_na_pagina = 0

            try:
                html = scraper.get(url, timeout=45).text
                soup = BeautifulSoup(html, "html.parser")
                cards = soup.select('a[href^="/imovel/"]')

                if not cards:
                    print(f" Fim dos resultados para {cidade_nome} na p√°gina {current_page}.")
                    break # Encerra o loop para esta cidade

                for a in cards:
                    item = parse_card(a, cidade_nome)
                    if item:
                        todos_imoveis.append(item)
                        imoveis_encontrados_na_pagina += 1

                # Se a p√°gina veio vazia de itens v√°lidos, tamb√©m paramos
                if imoveis_encontrados_na_pagina == 0:
                    print(f" Fim dos resultados para {cidade_nome} na p√°gina {current_page}.")
                    break

                current_page += 1
                pbar.update(1)
                time.sleep(1)

            except Exception as e:
                print(f" Erro ao acessar a p√°gina {current_page} de {cidade_nome}: {e}")
                break # Encerra em caso de erro de conex√£o, etc.

# Cria um DataFrame √∫nico e remove duplicatas
df = pd.DataFrame(todos_imoveis).drop_duplicates(subset=["endereco", "link"])

# Exporta para um √∫nico arquivo Excel
ARQUIVO_EXCEL = "imoveis_consolidados.xlsx"
df.to_excel(ARQUIVO_EXCEL, index=False)
print(f"\n‚úÖ Excel consolidado gerado com {len(df)} im√≥veis: {ARQUIVO_EXCEL}")

# ------------------------------------------------------------------------------
# 3. GEOCODIFICA√á√ÉO (TRANSFORMAR ENDERE√áO EM COORDENADAS)
# ------------------------------------------------------------------------------
print("\nüåç Iniciando geocodifica√ß√£o dos endere√ßos...")

def limpar_endereco(row):
    """Limpa o endere√ßo e garante que a cidade e estado estejam presentes."""
    end = str(row['endereco'])
    cidade = row['cidade']

    end = re.sub(r"\s*\+\s*$", "", end)
    end = re.sub(r"\blote\b.*?$", "", end, flags=re.I).strip(" ,‚Äì-")

    if cidade not in end and not end.lower().endswith("goi√°s"):
        end += f", {cidade}, Goi√°s"

    if "Aparecida" in cidade:
        cep = re.search(r"(\d{5}-\d{3})", end)
        if cep:
            return f"{cep.group(1)}, {cidade}, Goi√°s"

    return end

df["endereco_geo"] = df.apply(limpar_endereco, axis=1)

geolocator = Nominatim(user_agent="leilao_imoveis_go_consolidado_v2")
geocode = RateLimiter(geolocator.geocode, min_delay_seconds=1.1, error_wait_seconds=10)

def geo_fallback(end, cidade):
    """Tenta geocodificar o endere√ßo com v√°rias estrat√©gias de fallback."""
    loc = geocode(end)
    if loc: return loc

    m_setor = re.search(r"Setor\s+([A-Za-z√Ä-√ø\s]+)", end, re.I)
    if m_setor:
        loc = geocode(f"Setor {m_setor.group(1).strip()}, {cidade}, Goi√°s")
        if loc: return loc

    m_rua = re.search(r"\b(Rua|Av\.|Avenida)\b[^,]+", end, re.I)
    if m_rua:
        loc = geocode(f"{m_rua.group(0).strip()}, {cidade}, Goi√°s")
        if loc: return loc

    return geocode(f"Centro, {cidade}, Goi√°s")

lat, lon = [], []
for _, row in tqdm(df.iterrows(), total=len(df), desc="Geocodificando"):
    location = geo_fallback(row["endereco_geo"], row["cidade"])
    lat.append(location.latitude if location else None)
    lon.append(location.longitude if location else None)

df["lat"], df["lon"] = lat, lon
df_geocodificado = df.dropna(subset=["lat", "lon"])

print(f"\nüìä Total de endere√ßos: {len(df)} | Geocodificados com sucesso: {len(df_geocodificado)}")

# ------------------------------------------------------------------------------
# 4. GERA√á√ÉO DO MAPA CONSOLIDADO
# ------------------------------------------------------------------------------
print("\nüó∫Ô∏è  Gerando o mapa com a localiza√ß√£o dos im√≥veis...")

mapa_centro = [-16.75, -49.25]
mapa = folium.Map(location=mapa_centro, zoom_start=11, tiles="CartoDB Positron")

def valor_float(v):
    """Converte o valor em string para float para definir o raio do marcador."""
    try:
        return float(str(v).replace(".", "").replace(",", "."))
    except (ValueError, TypeError):
        return 100000

cidade_cor_map = {c['nome']: c['cor'] for c in CIDADES}

for _, row in df_geocodificado.iterrows():
    popup_html = f"""
        <b>Cidade:</b> {row.cidade}<br>
        <b>Endere√ßo:</b> {row.endereco}<br>
        <b>Tipo:</b> {row.tipo}<br>
        <b>Valor:</b> R$ {row.valor}<br>
        <a href="{row.link}" target="_blank"><b>Ver an√∫ncio no site</b></a>
    """

    radius = max(5, min(valor_float(row.valor) / 75000, 20))

    folium.CircleMarker(
        location=[row.lat, row.lon],
        radius=radius,
        color=cidade_cor_map.get(row.cidade, '#333333'),
        fill=True,
        fill_opacity=0.7,
        popup=folium.Popup(popup_html, max_width=350)
    ).add_to(mapa)

legend_html = '''
     <div style="position: fixed;
     bottom: 50px; left: 50px; width: 180px; height: 90px;
     border:2px solid grey; z-index:9999; font-size:14px;
     background-color:white; padding: 10px;">
     <b>Legenda</b><br>
     <i class="fa fa-circle" style="color:#007bff"></i>¬† Goi√¢nia<br>
     <i class="fa fa-circle" style="color:#dc3545"></i>¬† Aparecida de Goi√¢nia<br>
     <small>(Tamanho do c√≠rculo proporcional ao valor)</small>
     </div>
     '''
mapa.get_root().html.add_child(folium.Element(legend_html))

ARQUIVO_MAPA = "mapa_leiloes_goias.html"
mapa.save(ARQUIVO_MAPA)

print("\n\n‚úÖ Processo conclu√≠do com sucesso!")
print(f"‚û°Ô∏è Arquivo Excel salvo como: {ARQUIVO_EXCEL}")
print(f"‚û°Ô∏è Mapa interativo salvo como: {ARQUIVO_MAPA}")
print("   (Para visualizar o mapa, fa√ßa o download do arquivo HTML e abra-o no seu navegador).")

üì¶ Instalando bibliotecas necess√°rias...
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m99.7/99.7 kB[0m [31m2.4 MB/s[0m eta [36m0:00:00[0m
[?25h‚úÖ Bibliotecas instaladas.

üîÑ Iniciando a extra√ß√£o de dados do site Leil√£o Im√≥vel...

üîé Buscando im√≥veis em Goi√¢nia...


P√°ginas (Goi√¢nia): 0 p√°g [00:00, ? p√°g/s]

 Fim dos resultados para Goi√¢nia na p√°gina 17.

üîé Buscando im√≥veis em Aparecida de Goi√¢nia...


P√°ginas (Aparecida de Goi√¢nia): 0 p√°g [00:00, ? p√°g/s]

 Fim dos resultados para Aparecida de Goi√¢nia na p√°gina 8.

‚úÖ Excel consolidado gerado com 426 im√≥veis: imoveis_consolidados.xlsx

üåç Iniciando geocodifica√ß√£o dos endere√ßos...


Geocodificando:   0%|          | 0/426 [00:00<?, ?it/s]

[1;30;43mA sa√≠da de streaming foi truncada nas √∫ltimas 5000 linhas.[0m
  File "/usr/local/lib/python3.11/dist-packages/urllib3/connectionpool.py", line 534, in _make_request
    response = conn.getresponse()
               ^^^^^^^^^^^^^^^^^^
  File "/usr/local/lib/python3.11/dist-packages/urllib3/connection.py", line 565, in getresponse
    httplib_response = super().getresponse()
                       ^^^^^^^^^^^^^^^^^^^^^
  File "/usr/lib/python3.11/http/client.py", line 1395, in getresponse
    response.begin()
  File "/usr/lib/python3.11/http/client.py", line 325, in begin
    version, status, reason = self._read_status()
                              ^^^^^^^^^^^^^^^^^^^
  File "/usr/lib/python3.11/http/client.py", line 286, in _read_status
    line = str(self.fp.readline(_MAXLINE + 1), "iso-8859-1")
               ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/lib/python3.11/socket.py", line 718, in readinto
    return self._sock.recv_into(b)
           ^^^^^^^^^^^^^^^^^^^^^^^
 


üìä Total de endere√ßos: 426 | Geocodificados com sucesso: 426

üó∫Ô∏è  Gerando o mapa com a localiza√ß√£o dos im√≥veis...


‚úÖ Processo conclu√≠do com sucesso!
‚û°Ô∏è Arquivo Excel salvo como: imoveis_consolidados.xlsx
‚û°Ô∏è Mapa interativo salvo como: mapa_leiloes_goias.html
   (Para visualizar o mapa, fa√ßa o download do arquivo HTML e abra-o no seu navegador).
