## Importa√ß√µes e Configura√ß√µes Iniciais

In [1]:
# ==============================================================
# Scraper Mercociudades - Vers√£o Notebook (SEM DEPEND√äNCIAS DO PROJETO)
# ==============================================================
# Descri√ß√£o: Totalmente independente. Usa httpx, bs4, pandas e plotly.
#             Coleta not√≠cias, mostra dados na hora, gera gr√°ficos interativos na c√©lula.
#             Exports CSV e banco SQLite local (esqueleto para remoto).
# Vers√£o: 1.1 (Independente)
# ==============================================================

import httpx
from bs4 import BeautifulSoup
import time
import pandas as pd
import re
from datetime import datetime
import plotly.express as px
import plotly.io as pio
import sqlite3  # Para banco local simples

# Ativa gr√°ficos interativos NA C√âLULA
pio.renderers.default = "notebook_connected"

# Headers para evitar bloqueios
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',
}

print("‚úÖ Bibliotecas carregadas. Nenhum import do projeto!")

‚úÖ Bibliotecas carregadas. Nenhum import do projeto!


## Fun√ß√µes Auxiliares (Montar Links + Extrair Infos)

In [8]:
# ==============================
# Fun√ß√µes Auxiliares (parser de datas MELHORADO)
# ==============================

import locale
try:
    locale.setlocale(locale.LC_TIME, 'pt_BR.UTF-8')  # Para meses em portugu√™s
except:
    pass  # Fallback se n√£o dispon√≠vel

def parse_date(date_str):
    if not date_str or date_str == 'N/A':
        return 'N/A'
    
    date_str = date_str.strip().lower().split('-')[0].split('por')[0].strip()  # Limpa " - por Autor"
    
    formats = [
        '%d/%m/%Y', '%d/%m/%y', '%Y-%m-%d',
        '%d de %B de %Y', '%d de %b de %Y',  # ex: "03 de novembro de 2025"
        '%d %B %Y', '%d %b %Y'
    ]
    
    for fmt in formats:
        try:
            return datetime.strptime(date_str, fmt).strftime('%Y-%m-%d')
        except:
            continue
    return 'N/A'  # Se falhar tudo

def extrair_infos(link):
    print(f"\nüîÑ Coletando: {link}")
    try:
        response = httpx.get(link, headers=HEADERS, timeout=20)
        response.raise_for_status()
        soup = BeautifulSoup(response.content, 'html.parser')
        
        articles = soup.find_all('article', class_='post') or soup.find_all('div', class_=re.compile(r'post|noticia|item', re.I))
        print(f"   üîç {len(articles)} not√≠cias encontradas.")
        
        extracted = []
        for item in articles:
            title_tag = item.find('h2') or item.find('a', class_='title') or item.find('a')
            title = title_tag.get_text(strip=True) if title_tag else 'N/A'
            
            url_noticia = title_tag['href'] if title_tag and title_tag.get('href') else 'N/A'
            if url_noticia and not url_noticia.startswith('http'):
                url_noticia = "https://mercociudades.org" + url_noticia
            
            date_tag = item.find('span', class_='date') or item.find('time') or item.find('div', class_=re.compile(r'date|data', re.I))
            date_str = date_tag.get_text(strip=True) if date_tag else 'N/A'
            date = parse_date(date_str)  # Usa parser melhorado
            
            summary_tag = item.find('div', class_='excerpt') or item.find('p')
            summary = summary_tag.get_text(strip=True) if summary_tag else 'N/A'
            
            extracted.append({
                'title': title,
                'date': date,
                'url': url_noticia,
                'summary': summary[:200] + '...' if len(summary) > 200 else summary,
                'source': 'Mercociudades'
            })
        
        return extracted
    except Exception as e:
        print(f"   ‚ùå Erro: {e}")
        return []

print("‚úÖ Parser de datas melhorado!")

‚úÖ Parser de datas melhorado!


## Scraping + DataFrame + Visualiza√ß√£o IMEDIATA

In [9]:
# ==============================
# SCRAPING PRINCIPAL
# ==============================

def scrape_mercociudades(page_final=5):  # Aumente para mais p√°ginas (m√°x 155)
    print("üîÑ Iniciando scraping Mercociudades...")
    start_time = time.time()
    all_articles = []
    
    url_base = "https://mercociudades.org/pt-br/noticias/page/{contador}/"
    lista_url_paginacao = montar_links(url_base, page_inicio=2, page_final=page_final)
    lista_url_paginacao.insert(0, "https://mercociudades.org/pt-br/noticias/")
    
    print(f"üìÑ Coletando {len(lista_url_paginacao)} p√°ginas...")
    
    for link in lista_url_paginacao:
        infos = extrair_infos(link)
        all_articles.extend(infos)
        time.sleep(1.5)  # Evita bloqueio
    
    df = pd.DataFrame(all_articles)
    
    if df.empty:
        print("‚ö†Ô∏è Nenhum dado coletado. Verifique seletores ou conex√£o.")
    else:
        print(f"\n‚úÖ {len(df)} not√≠cias coletadas!")
        display(df.head(15).style.set_properties(**{'text-align': 'left', 'white-space': 'pre-wrap'}))
    
    exec_time = time.time() - start_time
    print(f"‚è±Ô∏è Tempo: {exec_time:.2f}s")
    return df

# === RODE AQUI (teste com 5 p√°ginas) ===
df_scraped = scrape_mercociudades(page_final=5)

üîÑ Iniciando scraping Mercociudades...
üìÑ Coletando 5 p√°ginas...

üîÑ Coletando: https://mercociudades.org/pt-br/noticias/
   üîç 12 not√≠cias encontradas.

üîÑ Coletando: https://mercociudades.org/pt-br/noticias/page/2/
   üîç 12 not√≠cias encontradas.

üîÑ Coletando: https://mercociudades.org/pt-br/noticias/page/3/
   üîç 12 not√≠cias encontradas.

üîÑ Coletando: https://mercociudades.org/pt-br/noticias/page/4/
   üîç 12 not√≠cias encontradas.

üîÑ Coletando: https://mercociudades.org/pt-br/noticias/page/5/
   üîç 12 not√≠cias encontradas.

‚úÖ 60 not√≠cias coletadas!


Unnamed: 0,title,date,url,summary,source
0,La Unidad Tem√°tica de Seguridad Ciudadana convoca a una exposici√≥n sobre din√°micas de poder e ilegalidad,,https://mercociudades.orgN/A,31.10.2025|Sem categoria|,Mercociudades
1,31 de octubre: Webinario en celebraci√≥n del D√≠a Mundial de las Ciudades,,https://mercociudades.orgN/A,30.10.2025|Sem categoria|,Mercociudades
2,"No Dia dos Cuidados reafirmamos nosso compromisso por cidades mais justas, inclusivas e democr√°ticas",,https://mercociudades.orgN/A,29.10.2025|Sem categoria|,Mercociudades
3,Cidades a caminho da COP 30: Encontro sobre Meio Ambiente e Desenvolvimento Sustent√°vel de Mercocidades,,https://mercociudades.orgN/A,"27.10.2025|Ambiente e Desenvolvimento Sustent√°vel,Noticia|",Mercociudades
4,J√° est√° dispon√≠vel o relat√≥rio MUFPP ‚Äì Mercocidades sobre pol√≠ticas alimentares urbanas na regi√£o,,https://mercociudades.orgN/A,"25.10.2025|Noticia,politicas alimentares PORT|",Mercociudades
5,"Convite: Reuni√£o de Ci√™ncia, Tecnologia e Capacita√ß√£o",,https://mercociudades.orgN/A,"24.10.2025|Ci√™ncia, Tecnologia e Capacita√ß√£o,Noticia|",Mercociudades
6,VIII Reuni√£o do MCCS na Bol√≠via foi conclu√≠da com novos crit√©rios regionais para a promo√ß√£o de Munic√≠pios Saud√°veis,,https://mercociudades.orgN/A,21.10.2025|Noticia|,Mercociudades
7,Candidaturas at√© 10 de novembro: Presid√™ncia da Mercociudades 2026-27 e coordena√ß√£o de Tem√°ticas 2025-27,,https://mercociudades.orgN/A,"20.10.2025|Noticia,Presidencias noticias|",Mercociudades
8,Convite para o pr√≥ximo encontro virtual sobre Defici√™ncia e Inclus√£o,,https://mercociudades.orgN/A,"20.10.2025|Discapacidad e Inclusi√≥n,Noticia|",Mercociudades
9,Chamada para participa√ß√£o no pr√≥ximo boletim de g√™nero de Mercocidades,,https://mercociudades.orgN/A,"17.10.2025|G√™nero e Munic√≠pio,Noticia|",Mercociudades


‚è±Ô∏è Tempo: 33.12s


## Filtro por Keywords + Gr√°ficos INTERATIVOS NA C√âLULA

In [None]:
# ==============================
# FILTRO E GR√ÅFICOS
# ==============================

keywords = ['governan√ßa', 'digital', 'cidade', 'rede', 'coopera√ß√£o', 'sustent√°vel', 'mercociudades', 'integra√ß√£o']

df_filtered = df_scraped[
    df_scraped['title'].str.contains('|'.join(keywords), case=False, na=False) |
    df_scraped['summary'].str.contains('|'.join(keywords), case=False, na=False)
].copy()

print(f"\nüîç {len(df_filtered)} not√≠cias filtradas de {len(df_scraped)} totais.")

def plot_charts(df):
    if df.empty:
        print("‚ö†Ô∏è Sem dados.")
        return
    
    # 1. Top 15 T√≠tulos
    top15 = df.head(15).copy()
    top15['rank'] = range(1, len(top15) + 1)
    fig1 = px.bar(top15, x='rank', y='title', orientation='h', title='üèÜ Top 15 Not√≠cias')
    fig1.update_layout(height=600, yaxis={'categoryorder': 'array', 'categoryarray': top15['title'][::-1]})
    fig1.show()
    
    # 2. Nuvem de Palavras
    text = ' '.join(df['title'] + ' ' + df['summary']).lower()
    words = re.findall(r'\b\w{4,}\b', text)
    word_freq = pd.Series(words).value_counts().head(20).reset_index()
    word_freq.columns = ['palavra', 'freq']
    fig2 = px.treemap(word_freq, path=['palavra'], values='freq', title='‚òÅÔ∏è Nuvem de Palavras')
    fig2.show()
    
    # 3. Comprimento dos Resumos
    df['summary_len'] = df['summary'].str.len()
    fig3 = px.histogram(df, x='summary_len', nbins=15, title='üìè Comprimento dos Resumos')
    fig3.show()

    print("3 gr√°ficos gerados!")

# === GERA GR√ÅFICOS ===
plot_charts(df_filtered if not df_filtered.empty else df_scraped)


üîç 36 not√≠cias filtradas de 60 totais.


‚úÖ 3 gr√°ficos gerados (sem temporal)!


## Esqueleto para Banco Remoto (SQLAlchemy)

In [None]:
# ==============================
# ESQUELETO UPLOAD REMOTO
# ==============================
"""
# Instale: !pip install sqlalchemy psycopg2-binary
from sqlalchemy import create_engine

DATABASE_URL = 'postgresql://user:senha@host:5432/banco'  # Ajuste
engine = create_engine(DATABASE_URL)
df_filtered.to_sql('noticias_mercociudades', engine, if_exists='append', index=False)
print("‚úÖ Enviado para banco remoto!")
"""
print("üí° Esqueleto pronto. Descomente e ajuste credenciais quando for subir.")