In [3]:
!python -m spacy download pt_core_news_lg

Collecting pt-core-news-lg==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_lg-3.7.0/pt_core_news_lg-3.7.0-py3-none-any.whl (568.2 MB)
[2K     [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m568.2/568.2 MB[0m [31m375.2 kB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Installing collected packages: pt-core-news-lg
Successfully installed pt-core-news-lg-3.7.0
[38;5;2m‚úî Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_lg')


In [6]:
import spacy
import pandas as pd
from spacy.lang.pt import Portuguese

# Carregar o modelo "grande" de portugu√™s
# 'lg' = large (grande), com vetores de palavras, NER, etc.
try:
    nlp = spacy.load("pt_core_news_lg")
    print("Modelo 'pt_core_news_lg' carregado com sucesso!")
except IOError:
    print("Erro: Modelo 'pt_core_news_lg' n√£o encontrado.")
    print("Certifique-se de que o instalou a partir do requirements.txt")

Modelo 'pt_core_news_lg' carregado com sucesso!


In [7]:
# --- Bloco 2 (Vers√£o API): Carregando os Dados Reais ---

# Caminho para o arquivo que o data_collection.py criou
DATA_RAW_DIR = "../data/raw/"
caminho_noticias = DATA_RAW_DIR + "noticias_energia_raw.csv"

try:
    df_nlp = pd.read_csv(caminho_noticias, sep='|', parse_dates=['publishedAt'])
    print(f"Sucesso! {len(df_nlp)} not√≠cias reais carregadas.")
    
    # Vamos renomear as colunas para bater com o Bloco 3
    # 'title' -> 'manchete'
    # 'content' -> 'texto_completo'
    df_nlp = df_nlp.rename(columns={
        'publishedAt': 'data',
        'title': 'manchete',
        'content': 'texto_completo'
    })
    
    # O conte√∫do da API √†s vezes vem cortado. Se 'content' for nulo,
    # vamos usar 'description' como fallback.
    df_nlp['texto_completo'] = df_nlp['texto_completo'].fillna(df_nlp['description'])
    
    # Limpa linhas que n√£o t√™m texto nenhum
    df_nlp = df_nlp.dropna(subset=['texto_completo'])
    
    print("--- Amostra dos Dados Reais ---")
    print(df_nlp[['data', 'manchete', 'texto_completo']].head())
    
except FileNotFoundError:
    print(f"ERRO: Arquivo 'noticias_energia_raw.csv' n√£o encontrado.")
    print("Por favor, rode 'python src/data_collection.py' no seu terminal primeiro!")

Sucesso! 100 not√≠cias reais carregadas.
--- Amostra dos Dados Reais ---
                       data  \
0 2025-11-07 08:10:00+00:00   
1 2025-11-07 08:00:00+00:00   
2 2025-11-07 03:49:06+00:00   
3 2025-11-06 22:40:02+00:00   
4 2025-11-06 22:17:52+00:00   

                                            manchete  \
0  Brasil x Indon√©sia: onde assistir, hor√°rio e e...   
1               Casa DDAR / Othmane Bengebara Studio   
2  Golpista foragido do 8/1 interrompe Gilmar Men...   
3  Inmet: 9 estados t√™m alerta laranja para tempe...   
4  Lucro l√≠quido da Alupar fecha 3¬∫ trimestre em ...   

                                      texto_completo  
0  Nesta sexta-feira (07), Brasil e Indon√©sia se ...  
1  ¬© Iman Zaoin\r\n+ 6\r\n<ul><li></li><li>Equipe...  
2  O banqueiro Andr√© Esteves, Ivan Duque e o mini...  
3  O Instituto Nacional de Meteorologia (Inmet) e...  
4  A Alupar, holding que atua em gera√ß√£o e transm...  


In [8]:
# --- Bloco 4: Executando o Pipeline de NLP ---

print("Iniciando pipeline de NLP (Classifica√ß√£o e Extra√ß√£o)...")

# --- 1. Requisito A: Classifica√ß√£o da Tem√°tica ---

def classificar_tema(texto):
    """Classificador simples baseado em palavras-chave."""
    # Garante que o texto seja uma string
    if not isinstance(texto, str):
        return "Texto Inv√°lido"
        
    texto = texto.lower()
    
    # Ordem de prioridade
    if any(palavra in texto for palavra in ["apag√£o", "falha", "blecaute", "instabilidade"]):
        return "Problema Operacional"
    if any(palavra in texto for palavra in ["onda de calor", "frio intenso", "inmet", "alerta laranja"]):
        return "Evento Clim√°tico Extremo"
    if any(palavra in texto for palavra in ["aneel", "bandeira tarif√°ria", "tarifa", "alupar", "transmiss√£o"]):
        return "Regulat√≥rio/Empresarial"
    if any(palavra in texto for palavra in ["manuten√ß√£o", "programada"]):
        return "Manuten√ß√£o"
        
    return "Outros" # <-- Isso vai filtrar o "Brasil x Indon√©sia"

# Aplicamos na 'manchete' que √© mais direta
df_nlp['Tema'] = df_nlp['manchete'].apply(classificar_tema)


# --- 2. Requisito B: Extra√ß√£o de Entidades (NER) ---

def extrair_entidades(texto, nlp_model):
    """Extrai entidades de Local (LOC), Organiza√ß√£o (ORG) e Dura√ß√£o (TIME)."""
    # Garante que o texto seja uma string
    if not isinstance(texto, str):
        return []
        
    doc = nlp_model(texto)
    entidades = []
    for ent in doc.ents:
        # Vamos focar em locais e organiza√ß√µes
        if ent.label_ in ["LOC", "ORG"]:
            # Filtra entidades gen√©ricas ou muito curtas
            if len(ent.text) > 3 and ent.text.lower() not in ["brasil", "norte", "sul", "nordeste", "sudeste"]:
                entidades.append((ent.text, ent.label_))
             
    # Remove duplicados
    return list(set(entidades))

# Aplicamos no texto completo para ter mais contexto
df_nlp['Entidades'] = df_nlp['texto_completo'].apply(lambda x: extrair_entidades(x, nlp))


# --- 3. Requisito C: Indicadores Chave do Problema ---
# Vamos filtrar para ver S√ì o que √© relevante para o nosso modelo
colunas_resultado = ['data', 'manchete', 'Tema', 'Entidades']

# Filtra qualquer tema que N√ÉO seja "Outros"
indicadores_relevantes = df_nlp[df_nlp['Tema'] != 'Outros'][colunas_resultado]


# --- 4. Exibindo Resultados ---

print("\n--- A. Resultado da Classifica√ß√£o de Tema (Amostra) ---")
# Mostra como o filtro funcionou
print(df_nlp[['manchete', 'Tema']].head(10))

print("\n\n--- B/C. Resultado Final: Indicadores Relevantes ---")
print(f"Encontrados {len(indicadores_relevantes)} artigos relevantes (filtrados de 100).")
print(indicadores_relevantes)

Iniciando pipeline de NLP (Classifica√ß√£o e Extra√ß√£o)...

--- A. Resultado da Classifica√ß√£o de Tema (Amostra) ---
                                            manchete                      Tema
0  Brasil x Indon√©sia: onde assistir, hor√°rio e e...                    Outros
1               Casa DDAR / Othmane Bengebara Studio                    Outros
2  Golpista foragido do 8/1 interrompe Gilmar Men...                    Outros
3  Inmet: 9 estados t√™m alerta laranja para tempe...  Evento Clim√°tico Extremo
4  Lucro l√≠quido da Alupar fecha 3¬∫ trimestre em ...   Regulat√≥rio/Empresarial
5  Ram Rampage tem condi√ß√µes especiais no pr√≥ximo...                    Outros
6  Casos graves de gripe crescem na regi√£o Sudest...                    Outros
7  Jo√£o Gomes, Julia Mestre e Mestrinho se aprese...                    Outros
8  Band transmite ao vivo o Grande Pr√™mio de S√£o ...                    Outros
9  Ingrid Paix√£o ‚Äì A Baianinha da twitch em fotos...                    Ou

# üèÅ Conclus√µes da An√°lise de NLP

Este notebook teve como objetivo final cumprir os requisitos de Processamento de Linguagem Natural (NLP) do projeto. A meta principal era ir al√©m dos dados simulados e provar se um pipeline automatizado poderia coletar e filtrar not√≠cias **reais** da web para fornecer contexto qualitativo ao nosso modelo de ML.

### Metodologia Executada

1.  **Coleta de Dados (Web Scraping):** O script `src/data_collection.py` foi executado, acessando a NewsAPI com palavras-chave de energia (ex: "apag√£o", "onda de calor", "ANEEL") e filtros geogr√°ficos (ex: "Brasil", "Sudeste").
2.  **Processamento (NLP):** O modelo `pt_core_news_lg` do `spaCy` foi carregado para processar os textos coletados.
3.  **Filtragem e Extra√ß√£o:** Foi aplicado um pipeline para (A) Classificar o Tema de cada artigo e (B) Extrair Entidades Relevantes (NER).

### Resultados e Descobertas

O pipeline foi um sucesso e demonstrou sua capacidade de "separar o joio do trigo".

* **Coleta:** O `data_collection.py` baixou **100 artigos** brutos.
* **Filtragem (Classifica√ß√£o):** O nosso classificador de tema (`classificar_tema`) filtrou com sucesso o "ru√≠do". Como visto na "Amostra A", not√≠cias irrelevantes (ex: "Brasil x Indon√©sia", "Golpista foragido") foram corretamente marcadas como **"Outros"**.
* **Sinal (Indicadores Chave):** O pipeline filtrou os 100 artigos e isolou **6 indicadores relevantes**.

O resultado mais importante foi a identifica√ß√£o de eventos que impactam diretamente a rede el√©trica e que nosso modelo de ML (V4) pode n√£o ver:

* **Evento Clim√°tico:** `Inmet: 9 estados t√™m alerta laranja para tempestade...`
* **Evento Empresarial:** `Lucro l√≠quido da Alupar fecha 3¬∫ trimestre...`

### Conclus√£o: O Valor do NLP para o Projeto

Este notebook prova que o pipeline de NLP √© funcional e valioso. Ele transforma um "oceano" de dados n√£o estruturados (100 not√≠cias) em um "feed" de eventos acion√°veis (6 indicadores).

O valor principal deste pipeline √© **explicar o "Porqu√™"** dos erros do nosso modelo de ML (V4).

> **Exemplo de Uso:** Se o modelo V4 (XGBoost) apresentar um erro de previs√£o (MAPE) de 20% no dia 06/11, podemos consultar este feed de NLP e ver imediatamente que a causa foi um "Evento Clim√°tico Extremo (alerta laranja do Inmet)" que o modelo n√£o foi treinado para antecipar.