## Captação dos dados VIA API

Utilizando NewsAPI para fazer resgate das notícias dos últimos 30 dias

In [1]:
import requests
import pandas as pd
from datetime import datetime, timedelta

# Obter a data atual
data_atual = datetime.now()
data = data_atual - timedelta(days=60)
data_formatada = data.strftime("%Y-%m-%d")

# URL da API
url = (f'https://newsapi.org/v2/everything?'
       'q=agronegócio&'
       'from={data_formatada}'
       'sortBy=popularity&'
       'apiKey=df22a809929b459796eda53179209ec0')

# Fazendo a requisição; making the requisition
response = requests.get(url)

if response.status_code == 200:
    noticias = response.json()
    articles = noticias.get("articles", [])
    
    dados = []

    if articles:
        for artigo in articles:
            dados.append({
                "Título": artigo.get("title", "N/A"),
                "Descrição": artigo.get("description", "N/A"),
                "Data de Publicação": artigo.get("publishedAt", "N/A"),
                "URL": artigo.get("url", "N/A"),
                "Fonte": artigo.get("source", {}).get("name", "N/A")  # Fonte do artigo; article font
            })
        
        df = pd.DataFrame(dados)
        display(df.head(10))
    else:
        print("Nenhuma notícia encontrada.")
else:
    print(f"Erro: {response.status_code}, {response.json().get('message')}")


Unnamed: 0,Título,Descrição,Data de Publicação,URL,Fonte
0,"Grupo Cinel, dono da Gocil, aprova plano de re...","O grupo é do empresário Washington Cinel, e al...",2025-03-25T20:02:03Z,https://veja.abril.com.br/economia/grupo-cinel...,Abril.com.br
1,Grupo Cinel tem plano de recuperação judicial ...,"Maior parte das dívidas do conglomerado, que é...",2025-03-25T20:03:56Z,https://www.terra.com.br/economia/grupo-cinel-...,Terra.com.br
2,Palmeiras anuncia patrocinador e atinge record...,"Fictor, empresa do ramo do agronegócio, vai oc...",2025-03-26T21:10:29Z,https://www.terra.com.br/esportes/palmeiras/pa...,Terra.com.br
3,"‘É retórica política’, diz ministro sobre amea...",'O presidente passou dois anos fazendo de tudo...,2025-03-07T20:01:36Z,https://veja.abril.com.br/coluna/radar/e-retor...,Abril.com.br
4,Do café ao comércio eletrônico: Greve da RF pe...,"A greve afeta diversos setores, especialmente ...",2025-03-13T16:23:33Z,https://veja.abril.com.br/economia/do-cafe-ao-...,Abril.com.br
5,Japão compra jatos da Embraer — e quer combust...,All Nippon Aiways fechou contrato de R$ 10 bil...,2025-03-26T21:26:31Z,https://olhardigital.com.br/2025/03/26/carros-...,Olhardigital.com.br
6,Grão Direto capta R$ 90 milhões para operações...,Startupi\n\nGrão Direto capta R$ 90 milhões pa...,2025-03-10T15:46:46Z,https://startupi.com.br/grao-direto-capta-r-90...,Startupi.com.br
7,Mundo observa Canadá testar formas de reagir à...,Outros países adotaram uma abordagem mais mode...,2025-03-12T20:15:28Z,https://valor.globo.com/mundo/noticia/2025/03/...,Globo
8,Técnicos do agronegócio de todo o mundo irão a...,Documento indicará temas e soluções ligadas às...,2025-03-04T17:01:49Z,https://veja.abril.com.br/coluna/radar/tecnico...,Abril.com.br
9,Lula vai ao Japão para ampliar agronegócio e a...,Um dos objetivo desta visita é auscultar o pos...,2025-03-14T20:11:07Z,https://observador.pt/2025/03/14/lula-vai-ao-j...,Observador.pt


## ETL

In [2]:
# Creating a dataset copy so we don't modify the original one
df_copy = df.copy()

In [3]:
df_copy.tail()

Unnamed: 0,Título,Descrição,Data de Publicação,URL,Fonte
95,"CDBs lideram captação bancária em 2024, e esto...","Expansão reflete o bom momento da renda fixa, ...",2025-01-30T19:40:31Z,https://www.infomoney.com.br/onde-investir/cdb...,InfoMoney
96,Ranking Outliers InfoMoney: veja finalistas em...,A seleção tomou como base rankings quantitativ...,2025-02-04T08:00:00Z,https://www.infomoney.com.br/onde-investir/ran...,InfoMoney
97,Aniversário de São Paulo: papel da cidade na f...,Como descrever a maior cidade da América Latin...,2025-01-28T01:37:01Z,https://www.pragmatismopolitico.com.br/2025/01...,Pragmatismopolitico.com.br
98,Quem é o brasileiro preso por lavar R$ 2 bilhõ...,Acusado de ligações com o PCC e com a máfia it...,2025-02-14T11:33:57Z,https://veja.abril.com.br/coluna/maquiavel/que...,Abril.com.br
99,O uso responsável da água na agricultura,Conheça as técnicas agrícolas em atividade par...,2025-02-03T19:08:40Z,https://veja.abril.com.br/coluna/mundo-agro/o-...,Abril.com.br


In [4]:
df_copy.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 5 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   Título              93 non-null     object
 1   Descrição           100 non-null    object
 2   Data de Publicação  100 non-null    object
 3   URL                 100 non-null    object
 4   Fonte               100 non-null    object
dtypes: object(5)
memory usage: 4.0+ KB


In [5]:
df_copy.isna().sum()

Título                7
Descrição             0
Data de Publicação    0
URL                   0
Fonte                 0
dtype: int64

In [6]:
# Exibir linhas com nulos, como os nuloes estão na coluna TITULO não precisaremos remove-los.
# Displaying rows with null data, as the nulls are in the TITLE column we will not need to remove them.
linhas_com_nulos = df_copy[df_copy.isnull().any(axis=1)]
linhas_com_nulos


Unnamed: 0,Título,Descrição,Data de Publicação,URL,Fonte
32,,O Palmeiras está encaminhado com o seu terceir...,2025-02-14T17:22:01Z,https://www.uol.com.br/esporte/colunas/danilo-...,Uol.com.br
42,,Ainda não se sabe qual será o tamanho e a magn...,2025-02-10T20:16:56Z,https://www.uol.com.br/ecoa/colunas/mariana-sg...,Uol.com.br
66,,A PGR (Procuradoria-Geral da República) denunc...,2025-02-19T09:22:40Z,https://noticias.uol.com.br/politica/ultimas-n...,Uol.com.br
67,,A guerra comercial entre Estados Unidos e Chin...,2025-02-04T19:11:50Z,https://economia.uol.com.br/noticias/redacao/2...,Uol.com.br
68,,Após retornar à Casa Branca para mais um manda...,2025-02-26T08:56:06Z,https://economia.uol.com.br/mais/ultimas-notic...,Uol.com.br
85,,A Globo comunicou oficialmente nesta terça-fei...,2025-01-28T22:02:36Z,https://www.uol.com.br/splash/noticias/2025/01...,Uol.com.br
86,,Número de equipamentos cadastrados para pulver...,2025-02-09T23:05:37Z,https://noticias.uol.com.br/ultimas-noticias/d...,Uol.com.br


## Aqui vamos importar um modelo de IA para facilitar a classificação das notícias mesmo sem um ML próprio

dependencias: pip install -r requirements.txt

In [None]:
import google.generativeai as genai
import pandas as pd
from tqdm import tqdm
import os
from dotenv import load_dotenv

Adicionando a análise de sentimento utilizando o gemini.

In [16]:
# Carregar variáveis de ambiente do diretório de execução
env_path = os.path.join(os.getcwd(), ".env")  # Caminho do .env baseado no diretório de execução
load_dotenv(env_path)

# Configurar API Key
genai.configure(api_key="API-Key")

# Criar modelo corretamente
modelo = genai.GenerativeModel("gemini-1.5-pro-latest")

# Função para analisar sentimento com Gemini
def analisar_sentimento(texto):
    try:
        prompt = f"""
        Analise o sentimento do seguinte texto e classifique-o como 'good', 'bad' ou 'neutral'.
        Se não for possível determinar, retorne apenas 'erro'.  
        
        Texto: "{texto}"
        """
        resposta = modelo.generate_content(prompt)
        if not resposta or not resposta.text:
            return "erro"
        sentimento = resposta.text.strip().lower()
        return sentimento if sentimento in ["good", "bad", "neutral"] else "erro"
    except Exception as e:
        print(f"Erro ao processar: {e}")
        return "erro"

# Supondo que df já esteja carregado
df["Result"] = df["Descrição"].apply(lambda x: analisar_sentimento(x) if x and x != "N/A" else "erro")

# Exibir DataFrame com sentimento
print(df.head(10))


Erro ao processar: 400 API key not valid. Please pass a valid API key. [reason: "API_KEY_INVALID"
domain: "googleapis.com"
metadata {
  key: "service"
  value: "generativelanguage.googleapis.com"
}
, locale: "en-US"
message: "API key not valid. Please pass a valid API key."
]
Erro ao processar: 400 API key not valid. Please pass a valid API key. [reason: "API_KEY_INVALID"
domain: "googleapis.com"
metadata {
  key: "service"
  value: "generativelanguage.googleapis.com"
}
, locale: "en-US"
message: "API key not valid. Please pass a valid API key."
]
Erro ao processar: 400 API key not valid. Please pass a valid API key. [reason: "API_KEY_INVALID"
domain: "googleapis.com"
metadata {
  key: "service"
  value: "generativelanguage.googleapis.com"
}
, locale: "en-US"
message: "API key not valid. Please pass a valid API key."
]
Erro ao processar: 400 API key not valid. Please pass a valid API key. [reason: "API_KEY_INVALID"
domain: "googleapis.com"
metadata {
  key: "service"
  value: "generati

KeyboardInterrupt: 

In [None]:
# Configurar API Key
genai.configure(api_key= "API-Key")

# Listar os modelos disponíveis
modelos_disponiveis = genai.list_models()
for modelo in modelos_disponiveis:
    print(modelo.name)

models/chat-bison-001
models/text-bison-001
models/embedding-gecko-001
models/gemini-1.0-pro-vision-latest
models/gemini-pro-vision
models/gemini-1.5-pro-latest
models/gemini-1.5-pro-001
models/gemini-1.5-pro-002
models/gemini-1.5-pro
models/gemini-1.5-flash-latest
models/gemini-1.5-flash-001
models/gemini-1.5-flash-001-tuning
models/gemini-1.5-flash
models/gemini-1.5-flash-002
models/gemini-1.5-flash-8b
models/gemini-1.5-flash-8b-001
models/gemini-1.5-flash-8b-latest
models/gemini-1.5-flash-8b-exp-0827
models/gemini-1.5-flash-8b-exp-0924
models/gemini-2.0-flash-exp
models/gemini-2.0-flash
models/gemini-2.0-flash-001
models/gemini-2.0-flash-lite-001
models/gemini-2.0-flash-lite
models/gemini-2.0-flash-lite-preview-02-05
models/gemini-2.0-flash-lite-preview
models/gemini-2.0-pro-exp
models/gemini-2.0-pro-exp-02-05
models/gemini-exp-1206
models/gemini-2.0-flash-thinking-exp-01-21
models/gemini-2.0-flash-thinking-exp
models/gemini-2.0-flash-thinking-exp-1219
models/learnlm-1.5-pro-experim