In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time
import re
from datetime import datetime
import sqlite3

import plotly.express as px
import plotly.io as pio
pio.renderers.default = "notebook_connected"

In [2]:
# %%
HEADERS = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)"
}

BASE_URL = "https://www.camara.leg.br/noticias/noticias-institucionais"
print("‚úÖ Scraper da C√¢mara (Institucionais) pronto!")

‚úÖ Scraper da C√¢mara (Institucionais) pronto!


In [3]:
DATABASE_NAME = "internet_governance_news.db"

def create_database():
    conn = sqlite3.connect(DATABASE_NAME)
    cursor = conn.cursor()
    cursor.execute("""
        CREATE TABLE IF NOT EXISTS articles (
            id INTEGER PRIMARY KEY AUTOINCREMENT,
            title TEXT,
            date TEXT,
            author TEXT,
            url TEXT UNIQUE,
            source TEXT
        )
    """)
    conn.commit()
    conn.close()
    print("‚úÖ Banco e tabela 'articles' prontos!")

create_database()


‚úÖ Banco e tabela 'articles' prontos!


In [4]:
def insert_article(title, date, author, url, source):
    conn = sqlite3.connect(DATABASE_NAME)
    cursor = conn.cursor()
    try:
        cursor.execute("""
            INSERT INTO articles (title, date, author, url, source)
            VALUES (?, ?, ?, ?, ?)
        """, (title, date, author, url, source))
        conn.commit()
        return True
    except sqlite3.IntegrityError:
        return False
    finally:
        conn.close()


In [5]:
# %%
def load_articles_from_db():
    conn = sqlite3.connect(DATABASE_NAME)
    df = pd.read_sql("""
        SELECT *
        FROM articles
        ORDER BY date DESC
    """, conn)
    conn.close()
    return df

df_db = load_articles_from_db()
display(df_db.head())
print(f"üì¶ Total no banco: {len(df_db)} registros")


Unnamed: 0,id,title,date,author,url,source
0,683,"Em duas d√©cadas, propor√ß√£o de lares urbanos br...",31 OUT 2024,CGI.br Not√≠cias,https://cgi.br/noticia/releases/em-duas-decada...,CGI Not√≠cias
1,1374,CGI.br busca sa√≠das para o acesso mundial √† re...,31 OUT 2007,CGI.br Not√≠cias,https://cgi.br/noticia/releases/cgi-br-busca-s...,CGI Not√≠cias
2,1399,ICANN 2006 debate no Brasil as tend√™ncias da i...,31 OUT 2006,CGI.br Not√≠cias,https://cgi.br/noticia/releases/icann-2006-deb...,CGI Not√≠cias
3,797,"No FIB13, especialistas apontam expectativas e...",31 MAI 2023,CGI.br Not√≠cias,https://cgi.br/noticia/releases/no-fib-13-espe...,CGI Not√≠cias
4,1140,TIC Empresas 2013,31 MAI 2014,CGI.br Not√≠cias,https://cgi.br/noticia/notas/tic-empresas-2013/,CGI Not√≠cias


üì¶ Total no banco: 2573 registros


In [6]:
# %%
def montar_url(pagina):
    if pagina == 1:
        return f"{BASE_URL}"
    return f"{BASE_URL}?pagina={pagina}"

def extrair_paragrafos(url):
    try:
        r = requests.get(url, headers=HEADERS, timeout=10)
        soup = BeautifulSoup(r.text, "html.parser")
        ps = soup.find_all("p")
        textos = [
            p.get_text(strip=True)
            for p in ps
            if len(p.get_text(strip=True).split()) > 10
        ]
        return textos[:5] if textos else ["NA"]
    except:
        return ["NA"]


In [7]:
# %%
noticias = []
TOTAL_PAGES = 78

for pagina in range(TOTAL_PAGES, 0, -1):
    url = montar_url(pagina)
    print(f"üìÑ Coletando p√°gina {pagina}: {url}")

    r = requests.get(url, headers=HEADERS, timeout=10)
    if r.status_code != 200:
        print("‚ö†Ô∏è Erro ao acessar p√°gina")
        continue

    soup = BeautifulSoup(r.text, "html.parser")

    # ===== Seletores adaptados para NOT√çCIAS INSTITUCIONAIS
    itens = soup.select("li.l-lista-noticias__item")
    print(f"   {len(itens)} not√≠cias encontradas")

    for item in itens:
        artigo = item.select_one("article.g-chamada")
        if not artigo:
            continue

        # t√≠tulo & link
        titulo_tag = artigo.select_one(".g-chamada__titulo a")
        if not titulo_tag:
            continue

        titulo = titulo_tag.get_text(strip=True)
        link = titulo_tag["href"]

        # data e hora
        date_tag = artigo.select_one(".g-artigo__data-hora")
        data_raw = date_tag.get_text(strip=True) if date_tag else "NA"

        # extrai texto
        paragrafos = extrair_paragrafos(link)

        # acumula
        noticias.append({
            "titulo": titulo,
            "data": data_raw,
            "link": link,
            "paragrafos": " || ".join(paragrafos),
            "fonte": "C√¢mara dos Deputados"
        })

        # grava no banco
        insert_article(
            title=titulo,
            date=data_raw,
            author="Ag√™ncia C√¢mara",
            url=link,
            source="C√¢mara dos Deputados"
        )

    time.sleep(1)

print(f"\n‚úÖ Total coletado: {len(noticias)} not√≠cias")

df_camara = pd.DataFrame(noticias)
display(df_camara.head())


üìÑ Coletando p√°gina 78: https://www.camara.leg.br/noticias/noticias-institucionais?pagina=78
   8 not√≠cias encontradas
üìÑ Coletando p√°gina 77: https://www.camara.leg.br/noticias/noticias-institucionais?pagina=77
   10 not√≠cias encontradas
üìÑ Coletando p√°gina 76: https://www.camara.leg.br/noticias/noticias-institucionais?pagina=76
   10 not√≠cias encontradas
üìÑ Coletando p√°gina 75: https://www.camara.leg.br/noticias/noticias-institucionais?pagina=75
   10 not√≠cias encontradas
üìÑ Coletando p√°gina 74: https://www.camara.leg.br/noticias/noticias-institucionais?pagina=74
   10 not√≠cias encontradas
üìÑ Coletando p√°gina 73: https://www.camara.leg.br/noticias/noticias-institucionais?pagina=73
   10 not√≠cias encontradas
üìÑ Coletando p√°gina 72: https://www.camara.leg.br/noticias/noticias-institucionais?pagina=72
   10 not√≠cias encontradas
üìÑ Coletando p√°gina 71: https://www.camara.leg.br/noticias/noticias-institucionais?pagina=71
   10 not√≠cias encontradas
üìÑ Cole

Unnamed: 0,titulo,data,link,paragrafos,fonte
0,Exposi√ß√£o mostra danos causados por invas√µes √†...,10/01/2024 09:56,https://www.camara.leg.br/assessoria-de-impren...,Objetivo da mostra √© recordar um ano da invas√£...,C√¢mara dos Deputados
1,C√¢mara realiza primeiro leil√£o de bens m√≥veis ...,09/01/2024 10:46,https://www.camara.leg.br/assessoria-de-impren...,A C√¢mara dos Deputados realiza no dia 22 de ja...,C√¢mara dos Deputados
2,P√°gina e programa√ß√£o especial lembram 1 ano da...,08/01/2024 08:24,https://www.camara.leg.br/assessoria-de-impren...,"A C√¢mara divulga, a partir desta semana, uma s...",C√¢mara dos Deputados
3,Congresso recebe proje√ß√£o das cores da bandeir...,05/01/2024 12:39,https://www.camara.leg.br/assessoria-de-impren...,O Congresso recebe proje√ß√£o com as cores da Ba...,C√¢mara dos Deputados
4,Visita√ß√£o institucional ao Congresso fica susp...,03/01/2024 15:46,https://www.camara.leg.br/assessoria-de-impren...,A visita√ß√£o institucional ao Pal√°cio do Congre...,C√¢mara dos Deputados


In [8]:
def load_articles():
    conn = sqlite3.connect(DATABASE_NAME)
    df = pd.read_sql("""
        SELECT * FROM articles
        ORDER BY date DESC
    """, conn)
    conn.close()
    return df

df_db = load_articles()
print(f"üì¶ Total no banco: {len(df_db)} registros")
display(df_db.head(20))


üì¶ Total no banco: 3351 registros


Unnamed: 0,id,title,date,author,url,source
0,3578,C√¢mara divulga Relat√≥rio de Participa√ß√£o Popul...,31/12/2024 09:49,Ag√™ncia C√¢mara,https://www.camara.leg.br/assessoria-de-impren...,C√¢mara dos Deputados
1,3510,C√¢mara divulga resultado de concurso de v√≠deos...,31/10/2024 11:01,Ag√™ncia C√¢mara,https://www.camara.leg.br/assessoria-de-impren...,C√¢mara dos Deputados
2,3785,Congresso se ilumina na cor laranja em apoio √†...,31/07/2025 15:07,Ag√™ncia C√¢mara,https://www.camara.leg.br/assessoria-de-impren...,C√¢mara dos Deputados
3,3389,Projeto sobre aborto √© o destaque da participa...,31/07/2024 16:57,Ag√™ncia C√¢mara,https://www.camara.leg.br/assessoria-de-impren...,C√¢mara dos Deputados
4,3390,Programa da C√¢mara voltado ao p√∫blico infantoj...,31/07/2024 11:59,Ag√™ncia C√¢mara,https://www.camara.leg.br/assessoria-de-impren...,C√¢mara dos Deputados
5,3644,"Autor da mostra ""A cidade se perde nas aus√™nci...",31/03/2025 09:08,Ag√™ncia C√¢mara,https://www.camara.leg.br/assessoria-de-impren...,C√¢mara dos Deputados
6,3194,Visita√ß√£o institucional ao Congresso fica susp...,31/01/2024 15:04,Ag√™ncia C√¢mara,https://www.camara.leg.br/assessoria-de-impren...,C√¢mara dos Deputados
7,3195,Medalha do M√©rito Legislativo de 2023 ser√° ent...,31/01/2024 11:50,Ag√™ncia C√¢mara,https://www.camara.leg.br/assessoria-de-impren...,C√¢mara dos Deputados
8,683,"Em duas d√©cadas, propor√ß√£o de lares urbanos br...",31 OUT 2024,CGI.br Not√≠cias,https://cgi.br/noticia/releases/em-duas-decada...,CGI Not√≠cias
9,1374,CGI.br busca sa√≠das para o acesso mundial √† re...,31 OUT 2007,CGI.br Not√≠cias,https://cgi.br/noticia/releases/cgi-br-busca-s...,CGI Not√≠cias


In [9]:
keywords = ['digital', 'internet', 'IA', 'tecnologia', 'dados', 'privacidade']
pattern = r'|'.join(keywords)

df_filt = df_camara[
    df_camara['titulo'].str.contains(pattern, case=False, na=False, regex=True) |
    df_camara['paragrafos'].str.contains(pattern, case=False, na=False, regex=True)
].copy()

print(f"{len(df_filt)} not√≠cias filtradas (de {len(df_camara)})")
display(df_filt.head())


774 not√≠cias filtradas (de 778)


Unnamed: 0,titulo,data,link,paragrafos,fonte
0,Exposi√ß√£o mostra danos causados por invas√µes √†...,10/01/2024 09:56,https://www.camara.leg.br/assessoria-de-impren...,Objetivo da mostra √© recordar um ano da invas√£...,C√¢mara dos Deputados
1,C√¢mara realiza primeiro leil√£o de bens m√≥veis ...,09/01/2024 10:46,https://www.camara.leg.br/assessoria-de-impren...,A C√¢mara dos Deputados realiza no dia 22 de ja...,C√¢mara dos Deputados
2,P√°gina e programa√ß√£o especial lembram 1 ano da...,08/01/2024 08:24,https://www.camara.leg.br/assessoria-de-impren...,"A C√¢mara divulga, a partir desta semana, uma s...",C√¢mara dos Deputados
3,Congresso recebe proje√ß√£o das cores da bandeir...,05/01/2024 12:39,https://www.camara.leg.br/assessoria-de-impren...,O Congresso recebe proje√ß√£o com as cores da Ba...,C√¢mara dos Deputados
4,Visita√ß√£o institucional ao Congresso fica susp...,03/01/2024 15:46,https://www.camara.leg.br/assessoria-de-impren...,A visita√ß√£o institucional ao Pal√°cio do Congre...,C√¢mara dos Deputados


In [10]:
def plot_charts(df):
    if df.empty:
        print("‚ùå Sem dados para gr√°ficos")
        return

    # ------------------------------
    # Top 15
    # ------------------------------
    top15 = df.head(15).copy()
    top15['rank'] = range(1, len(top15) + 1)

    fig1 = px.bar(
        top15,
        x='rank',
        y='title',
        orientation='h',
        title='Top 15 Not√≠cias ‚Äì Internet Governance'
    )
    fig1.update_layout(height=600)
    fig1.show()

    # ------------------------------
    # Pizza por Fonte (BANCO)
    # ------------------------------
    # Fonte
    source_count = df["source"].value_counts().reset_index()
    source_count.columns = ["source", "count"]

    fig2 = px.pie(
        source_count,
        names="source",
        values="count",
        title="Distribui√ß√£o por Fonte"
    )
    fig2.show()

    # ------------------------------
    # Nuvem de Palavras
    # ------------------------------
    text = ' '.join(df['title'].astype(str)).lower()
    words = re.findall(r'\b\w{4,}\b', text)

    wc = (
        pd.Series(words)
        .value_counts()
        .head(20)
        .reset_index()
    )
    wc.columns = ['palavra', 'freq']

    fig3 = px.treemap(
        wc,
        path=['palavra'],
        values='freq',
        title='Nuvem de Palavras ‚Äì T√≠tulos'
    )
    fig3.show()


In [11]:
plot_charts(df_db)