## **Exercício 8: Identificação de Entidades em Notícias com LLM**

*Uma consultoria lhe contratou para automatizar a descoberta de pessoas mencionadas em notícias de jornal.*

*Com base no Exercício 7, escolha 3 notícias e monte uma aplicação com um prompt para o LLM identificar menções a diferentes entidades em cada notícia (como pessoas, órgãos públicos, empresas…).*

*Implemente um notebook para testar o código usando a API do Gemini. Descreva o prompt, seus resultados e avalie se a resposta do modelo atende às expectativas da consultoria.*

In [6]:
import google.generativeai as genai
from dotenv import load_dotenv
import os

load_dotenv('../.env')

genai.configure(api_key=os.environ['GEMINI_KEY'])

modelo = genai.GenerativeModel('gemini-1.5-flash')

In [7]:
lista_noticias = [
'https://www.tecmundo.com.br/voxel/294816-gta-6-rodara-problemas-xbox-series-s-sugere-dona-rockstar.htm',
'https://www.tecmundo.com.br/mercado/400023-nvidia-supera-apple-e-e-a-empresa-mais-valiosa-do-mundo.htm',
'https://www.tecmundo.com.br/voxel/294786-sega-removera-jogos-classicos-mega-drive-steam-outras-plataformas-veja-lista-afetados.htm'
]

In [8]:
import requests
from bs4 import BeautifulSoup as bs

texto_noticias = []

for noticia in lista_noticias:
    resp = requests.get(noticia)
    soup = bs(resp.text)
    texto = soup.select('article > div > div > p')
    texto_noticias.append(texto)

In [9]:
for contagem, noticia in enumerate(texto_noticias):
    pergunta = f""""
    Identifique na notícia abaixo as principais entidades mencionadas, como pessoas, empresas, objetos discutidos, etc.

    {noticia}
    """

    resposta = modelo.generate_content(pergunta)
    print(f'NOTÍCIA {contagem + 1}: {lista_noticias[contagem]}')
    print(resposta.text)

NOTÍCIA 1: https://www.tecmundo.com.br/voxel/294816-gta-6-rodara-problemas-xbox-series-s-sugere-dona-rockstar.htm
## Entidades na notícia:

**Pessoas:**

* **Strauss Zelnick:** CEO da Take-Two
* **Jogadores:** Público-alvo dos jogos

**Empresas:**

* **Take-Two:** Publisher dona da Rockstar
* **Rockstar:** Desenvolvedora da franquia GTA
* **Voxel:** Site de notícias de games (mencionado na chamada para comentários)

**Objetos:**

* **GTA 6:** Jogo em desenvolvimento da Rockstar
* **Xbox Series S:** Console de videogame da Microsoft
* **Xbox Series X:** Console de videogame da Microsoft
* **PS5:** Console de videogame da Sony
* **PC:** Plataforma de jogos

**Conceitos e Ideias:**

* **Mundo aberto:** Tipo de jogo com grande liberdade de exploração
* **Hardware:** Equipamentos de computação, como consoles e PCs
* **Poder de renderização:** Capacidade de um hardware processar gráficos
* **Experiência de jogo:** Qualidade da experiência do jogador em um jogo
* **Plataformas:** Ambientes on

• **Avaliação da Resposta**

Nesse exercício, utilizei estruturas de repeteição e técnicas de raspagem de dados para extrair o texto de três notícias diferentes. É possível que artefatos da raspagem (como elementos de HTML) tenham afetado a resposta do modelo.

Dito isso, a listagem de empresas e pessoas funcionou como o esperado, destacando e explicando as principais entidades da notícia.

Para além disso, o modelo extrapolou um pouco no que seria considerado relevante, perdendo a consistência no resumo e incluindo conceitos e temas mais vagos, mesmo que estes estivessem presentes na notícia.

Idealmente, o *prompt* deveria ser refeito e restringido somente a empresas e pessoas físicas para atender às expectativas da consultoria.

---