In [34]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import sqlite3
import time
import re
import plotly.express as px
import plotly.io as pio

pio.renderers.default = "notebook_connected"

In [35]:
# URL base com filtros aplicados (in√≠cio em 2000-07-26)
BASE_URL = "https://parlamento.gub.uy/noticiasyeventos/noticias?field_noticia_fecha_value%5Bmin%5D=2000-07-26&field_noticia_fecha_value%5Bmax%5D=&field_noticia_cuerpo_value=All&body_value="
DATABASE_NAME = "parlamento_uy.db"
HEADERS = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)"
}

print("Configura√ß√£o pronta! Filtros de data aplicados.")

Configura√ß√£o pronta! Filtros de data aplicados.


In [36]:
def create_database():
    conn = sqlite3.connect(DATABASE_NAME)
    cursor = conn.cursor()
    cursor.execute("""
        CREATE TABLE IF NOT EXISTS articles (
            id INTEGER PRIMARY KEY AUTOINCREMENT,
            title TEXT,
            date TEXT,
            category TEXT,
            url TEXT UNIQUE,
            source TEXT
        )
    """)
    conn.commit()
    conn.close()
    print("‚úÖ Banco e tabela prontos")

create_database()

‚úÖ Banco e tabela prontos


In [37]:
def insert_article(title, date, category, url, source="Parlamento UY"):
    conn = sqlite3.connect(DATABASE_NAME)
    cursor = conn.cursor()
    try:
        cursor.execute("""
            INSERT INTO articles (title, date, category, url, source)
            VALUES (?, ?, ?, ?, ?)
        """, (title, date, category, url, source))
        conn.commit()
        return True
    except sqlite3.IntegrityError:
        return False
    finally:
        conn.close()

In [38]:
def get_total_pages():
    try:
        print("Detectando n√∫mero de p√°ginas...")
        r = requests.get(BASE_URL, headers=HEADERS, timeout=30)
        soup = BeautifulSoup(r.text, "html.parser")
        
        # Tentativa 1: Busca pelo t√≠tulo 'Ir a la √∫ltima p√°gina'
        # Exemplo HTML: <a href="..." title="Ir a la √∫ltima p√°gina" ...>
        last_page_link = soup.find("a", title="Ir a la √∫ltima p√°gina")
        
        # Tentativa 2: Busca por texto '¬ª'
        if not last_page_link:
            last_page_link = soup.find("a", string=re.compile(r'¬ª'))
            
        # Tentativa 3: Busca pagina√ß√£o gen√©rica e pega o maior n√∫mero
        if not last_page_link:
             print("Pagina√ß√£o '√∫ltima' n√£o encontrada, buscando maior n√∫mero nos links...")
             pagination_links = soup.select("ul.pagination li.page-item a.page-link")
             max_page = 0
             for link in pagination_links:
                 href = link.get('href', '')
                 match = re.search(r'page=(\d+)', href)
                 if match:
                     page_num = int(match.group(1))
                     if page_num > max_page:
                         max_page = page_num
             if max_page > 0:
                 return max_page

        if last_page_link:
            href = last_page_link['href']
            print(f"Link √∫ltima encontrado: {href}")
            match = re.search(r'page=(\d+)', href)
            if match:
                return int(match.group(1))
        
        # Fallback manual em caso de falha na detec√ß√£o autom√°tica
        # O usu√°rio informou que espera cerca de 1113 p√°ginas
        print("‚ö†Ô∏è N√£o foi poss√≠vel determinar automaticamente. Usando fallback de 1113.")
        return 1113
        
    except Exception as e:
        print(f"Erro ao determinar total de p√°ginas: {e}")
        return 1113 # Segura fallback

total_pages = get_total_pages()
print(f"Total de p√°ginas detectadas para o per√≠odo: {total_pages}")

Detectando n√∫mero de p√°ginas...
Link √∫ltima encontrado: ?field_noticia_fecha_value%5Bmin%5D=2000-07-26&field_noticia_fecha_value%5Bmax%5D=&field_noticia_cuerpo_value=All&body_value=&page=1113
Total de p√°ginas detectadas para o per√≠odo: 1113


In [39]:
inserted_count = 0

# Itera de 0 at√© total_pages
for page in range(total_pages + 1):
    # Como BASE_URL j√° tem parametros, usamos &page=
    url = f"{BASE_URL}&page={page}"
    
    # Log simplificado a cada 10 p√°ginas
    if page % 10 == 0 or page == total_pages:
        print(f"Coletando p√°gina {page}/{total_pages}...")
    
    try:
        r = requests.get(url, headers=HEADERS, timeout=30)
        if r.status_code != 200:
            print(f"  Status code {r.status_code} na p√°gina {page}, pulando...")
            continue
            
        soup = BeautifulSoup(r.text, "html.parser")
        
        articles = soup.find_all("article")
        
        # Se encontrar 0, avisar (pode ser problema de parsing ou fim real)
        if len(articles) == 0:
             print(f"‚ö†Ô∏è 0 not√≠cias na p√°gina {page}. Verificando parsing...")
        
        for article in articles:
            # T√≠tulo
            title_tag = article.select_one("h2.node__title a span")
            if not title_tag:
                title_tag = article.select_one("h2.node__title a")
            
            if not title_tag:
                continue
                
            title = title_tag.get_text(strip=True)
            
            # Link
            link_tag = article.select_one("h2.node__title a")
            link = f"https://parlamento.gub.uy{link_tag['href']}" if link_tag else ""
            
            # Data
            date_tag = article.select_one("time")
            date = date_tag.get_text(strip=True) if date_tag else ""
            
            # Categoria (Cuerpo)
            cat_tag = article.select_one(".field--name-field-noticia-cuerpo")
            category = cat_tag.get_text(strip=True) if cat_tag else "Parlamento"
            
            if insert_article(title, date, category, link):
                inserted_count += 1
        
        # Delay pequeno para n√£o sobrecarregar
        time.sleep(0.5)
        
    except Exception as e:
        print(f"Erro na p√°gina {page}: {e}")
        time.sleep(5) # Espera maior em erro

print(f"\nüì• Total de novas not√≠cias inseridas: {inserted_count}")

Coletando p√°gina 0/1113...
Coletando p√°gina 10/1113...
Coletando p√°gina 20/1113...
Coletando p√°gina 30/1113...
Coletando p√°gina 40/1113...
Coletando p√°gina 50/1113...
Coletando p√°gina 60/1113...
Coletando p√°gina 70/1113...
Coletando p√°gina 80/1113...
Coletando p√°gina 90/1113...
Coletando p√°gina 100/1113...
Coletando p√°gina 110/1113...
Coletando p√°gina 120/1113...
Coletando p√°gina 130/1113...
Coletando p√°gina 140/1113...
Coletando p√°gina 150/1113...
Coletando p√°gina 160/1113...
Coletando p√°gina 170/1113...
Coletando p√°gina 180/1113...
Coletando p√°gina 190/1113...
Coletando p√°gina 200/1113...
Coletando p√°gina 210/1113...
Coletando p√°gina 220/1113...
Coletando p√°gina 230/1113...
Coletando p√°gina 240/1113...
Coletando p√°gina 250/1113...
Coletando p√°gina 260/1113...
Coletando p√°gina 270/1113...
Coletando p√°gina 280/1113...
Coletando p√°gina 290/1113...
Coletando p√°gina 300/1113...
Coletando p√°gina 310/1113...
Coletando p√°gina 320/1113...
Coletando p√°gina 330

In [40]:
def load_articles():
    conn = sqlite3.connect(DATABASE_NAME)
    df = pd.read_sql("SELECT * FROM articles", conn)
    conn.close()
    return df

df_db = load_articles()
print(f"üì¶ Total no banco: {len(df_db)} registros")
display(df_db.head())

üì¶ Total no banco: 6463 registros


Unnamed: 0,id,title,date,category,url,source
0,1,CANCILLER ENTREG√ì PROYECTO DE LEY PARA LA RATI...,10.02.2026,Parlamento,https://parlamento.gub.uy/noticiasyeventos/not...,Parlamento UY
1,2,SESI√ìN DEL SENADO DEL MARTES 10 DE FEBRERO,10.02.2026,C√°mara de Senadores,https://parlamento.gub.uy/noticiasyeventos/not...,Parlamento UY
2,3,CITACI√ìN DE LA C√ÅMARA DE SENADORES PARA MA√ëANA...,09.02.2026,C√°mara de Senadores,https://parlamento.gub.uy/noticiasyeventos/not...,Parlamento UY
3,4,"SESI√ìN DE SENADO EXTRAORDINARIA, MARTES 03 DE ...",03.02.2026,C√°mara de Senadores,https://parlamento.gub.uy/noticiasyeventos/not...,Parlamento UY
4,5,CITACI√ìN A SESI√ìN EXTRAORDINARIA DE LA C√ÅMARA ...,02.02.2026,C√°mara de Senadores,https://parlamento.gub.uy/noticiasyeventos/not...,Parlamento UY


In [41]:
if not df_db.empty:
    # 1. Distribui√ß√£o por Categoria
    cat_count = df_db['category'].value_counts().reset_index()
    cat_count.columns = ['Category', 'Count']
    
    fig1 = px.pie(cat_count, names='Category', values='Count', title='Not√≠cias por Categoria (Cuerpo)')
    fig1.show()
    
    fig2 = px.bar(cat_count, x='Category', y='Count', title='Contagem por Categoria')
    fig2.show()
else:
    print("Sem dados para visualizar.")