# Tratamento inicial de dados

Aqui iniciaremos nosso tratemento inicial de dados, vamos converter o JSON com as matérias coletadas para um Dataframe e incluir as colunas com os resumos de cada matéria para cada persona.

Estrutura do dataframe:
- id: Identificador associado a cada matéria
- categoria: Categoria a qual a matéria pertence
- titulo: Titulo da matéria
- subtitulo: Subtítulo da matéria
- texto: Texto completo da matéria
- resumo_persona_1: Resumo gerado usando a LLM escolhida para a persona 1
- resumo_persona_2: Resumo gerado usando a LLM escolhida para a persona 2
- resumo_persona_3: Resumo gerado usando a LLM escolhida para a persona 3

### Importando bibliotecas utilizadas

In [84]:
import json
import pandas as pd
import warnings

warnings.filterwarnings('ignore')


### Leitura dos dados

In [85]:
with open("./meterias.json", "r") as f:
    materias = json.load(f)

with open("./personas.json", "r") as f:
    personas = json.load(f)

print(json.dumps(materias, indent=2))
print(json.dumps(personas, indent=2))

{
  "materias": [
    {
      "id": 1,
      "categoria": "tecnologia",
      "url": "https://g1.globo.com/fantastico/noticia/2025/06/08/novos-videos-hiper-realistas-feitos-com-inteligencia-artificial-criam-desafio-de-distinguir-o-que-e-real.ghtml",
      "titulo": "Novos v\u00eddeos hiper-realistas feitos com intelig\u00eancia artificial criam desafio de distinguir o que \u00e9 real",
      "subtitulo": "Chamada de Veo 3, a tecnologia do Google permite gerar cenas com personagens, trilhas sonoras e at\u00e9 sotaques, tudo a partir de comandos de texto.",
      "texto": "Sucesso de Marisa Mai\u00f4 nas redes chama aten\u00e7\u00e3o para nova ferramenta de IA Uma nova ferramenta de intelig\u00eancia artificial do Google est\u00e1 mudando a forma como v\u00eddeos s\u00e3o criados. Chamada de Veo 3, a tecnologia permite gerar cenas realistas com personagens, trilhas sonoras e at\u00e9 sotaques, tudo a partir de comandos de texto. Com a ferramenta, \u00e9 poss\u00edvel criar v\u00eddeos co

In [94]:
df = pd.DataFrame(materias["materias"], columns=["id", "categoria", "url", "titulo", "subtitulo", "texto", "resumo_persona_1", "resumo_persona_2", "resumo_persona_3"])

df.set_index("id", inplace=True)

df["resumo_persona_1"].fillna("", inplace=True)
df["resumo_persona_2"].fillna("", inplace=True)
df["resumo_persona_3"].fillna("", inplace=True)

df

Unnamed: 0_level_0,categoria,url,titulo,subtitulo,texto,resumo_persona_1,resumo_persona_2,resumo_persona_3
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,tecnologia,https://g1.globo.com/fantastico/noticia/2025/0...,Novos vídeos hiper-realistas feitos com inteli...,"Chamada de Veo 3, a tecnologia do Google permi...",Sucesso de Marisa Maiô nas redes chama atenção...,,,
2,economia,https://g1.globo.com/economia/noticia/2025/06/...,LCI e LCA: como funcionam e o que pode mudar c...,Governo quer cobrar alíquota de 5% sobre inves...,Haddad anuncia acordo para reduzir alíquotas d...,,,
3,ciencia,https://g1.globo.com/ciencia/noticia/2025/06/0...,Nosso universo pode não ter surgido do Big Ban...,Nova proposta sobre a origem de nosso Universo...,Nosso Universo pode não ter surgido do Big Ban...,,,
4,saude,https://g1.globo.com/saude/bem-estar/noticia/2...,Só um país é autossuficiente para dieta saudáv...,Pesquisa mapeou o quanto a produção de sete gr...,"Estudo se baseou na dieta Livewell, que enfati...",,,
5,educacao,https://g1.globo.com/educacao/noticia/2025/06/...,"Nas escolas sem notas e sem provas, quais alun...","O g1 conversou com Noemi Katznelson, referênci...",,,,
6,turismo,https://g1.globo.com/turismo-e-viagem/noticia/...,Brasil tem quatro restaurantes entre os melhor...,The World's 50 Best Restaurants revelou lista ...,"Prato do restaurante Tuju, em São Paulo Instag...",,,
7,politica,https://g1.globo.com/politica/blog/andreia-sad...,Zambelli deve se apresentar esta semana e pedi...,A deputada foi condenada a 10 anos de prisão p...,A deputada federal Carla Zambelli NINO CIRENZA...,,,
8,esporte,https://ge.globo.com/futebol/times/flamengo/no...,Jorginho aparece no BID e está apto a estrear ...,Meia apareceu no site nesta segunda-feira e fa...,'Voz do Setorista: Letícia Marques traz inform...,,,
9,esporte,https://ge.globo.com/futebol/times/vasco/notic...,Vasco rescinde contrato com Payet,Francês não joga mais pelo clube de São Januário,'Veja os sete gols de Payet pelo Vasco O Vasco...,,,
10,esporte,https://ge.globo.com/futebol/times/fluminense/...,"Prestes a pegar o Borussia, Thiago Silva, do F...",Capitão tricolor passou 16 anos no futebol eur...,Thiago Silva compara diferenças do futebol eur...,,,


In [95]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 11 entries, 1 to 11
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   categoria         11 non-null     object
 1   url               11 non-null     object
 2   titulo            11 non-null     object
 3   subtitulo         11 non-null     object
 4   texto             11 non-null     object
 5   resumo_persona_1  11 non-null     object
 6   resumo_persona_2  11 non-null     object
 7   resumo_persona_3  11 non-null     object
dtypes: object(8)
memory usage: 792.0+ bytes


### Usando Classe de geração de texto com LLM

In [96]:
def gerar_resumo(texto, preferencias, time_do_coracao):
    resumo = "teste"

    return resumo

### Gerando texto para cada persona

In [108]:
resumos = {
    "persona_1": [],
    "persona_2": [],
    "persona_3": []
}

for index, row in df.iterrows():
    print(f"Gerando resumos do texo {index}")
    texto = df["texto"]

    for persona in personas["personas"]:
        print(f"Gerando texto para: {persona['nome']}")

        _id = persona["id"]
        preferencias = persona["scores"]
        time_do_coracao = persona["time_do_coracao"]
        
        resumo = gerar_resumo(texto, preferencias, time_do_coracao)
        resumos[f"persona_{_id}"].append(resumo)
    
    print("\n")
        

Gerando resumos do texo 1
Gerando texto para: camila
Gerando texto para: lucas
Gerando texto para: renato


Gerando resumos do texo 2
Gerando texto para: camila
Gerando texto para: lucas
Gerando texto para: renato


Gerando resumos do texo 3
Gerando texto para: camila
Gerando texto para: lucas
Gerando texto para: renato


Gerando resumos do texo 4
Gerando texto para: camila
Gerando texto para: lucas
Gerando texto para: renato


Gerando resumos do texo 5
Gerando texto para: camila
Gerando texto para: lucas
Gerando texto para: renato


Gerando resumos do texo 6
Gerando texto para: camila
Gerando texto para: lucas
Gerando texto para: renato


Gerando resumos do texo 7
Gerando texto para: camila
Gerando texto para: lucas
Gerando texto para: renato


Gerando resumos do texo 8
Gerando texto para: camila
Gerando texto para: lucas
Gerando texto para: renato


Gerando resumos do texo 9
Gerando texto para: camila
Gerando texto para: lucas
Gerando texto para: renato


Gerando resumos do texo 10
G

### Salvando resumos gerados no Dataframe

In [106]:
for i in range(len(personas["personas"])):
    df[f"resumo_persona_{i + 1}"] = resumos[f"persona_{i + 1}"]

In [107]:
df

Unnamed: 0_level_0,categoria,url,titulo,subtitulo,texto,resumo_persona_1,resumo_persona_2,resumo_persona_3
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,tecnologia,https://g1.globo.com/fantastico/noticia/2025/0...,Novos vídeos hiper-realistas feitos com inteli...,"Chamada de Veo 3, a tecnologia do Google permi...",Sucesso de Marisa Maiô nas redes chama atenção...,teste,teste,teste
2,economia,https://g1.globo.com/economia/noticia/2025/06/...,LCI e LCA: como funcionam e o que pode mudar c...,Governo quer cobrar alíquota de 5% sobre inves...,Haddad anuncia acordo para reduzir alíquotas d...,teste,teste,teste
3,ciencia,https://g1.globo.com/ciencia/noticia/2025/06/0...,Nosso universo pode não ter surgido do Big Ban...,Nova proposta sobre a origem de nosso Universo...,Nosso Universo pode não ter surgido do Big Ban...,teste,teste,teste
4,saude,https://g1.globo.com/saude/bem-estar/noticia/2...,Só um país é autossuficiente para dieta saudáv...,Pesquisa mapeou o quanto a produção de sete gr...,"Estudo se baseou na dieta Livewell, que enfati...",teste,teste,teste
5,educacao,https://g1.globo.com/educacao/noticia/2025/06/...,"Nas escolas sem notas e sem provas, quais alun...","O g1 conversou com Noemi Katznelson, referênci...",,teste,teste,teste
6,turismo,https://g1.globo.com/turismo-e-viagem/noticia/...,Brasil tem quatro restaurantes entre os melhor...,The World's 50 Best Restaurants revelou lista ...,"Prato do restaurante Tuju, em São Paulo Instag...",teste,teste,teste
7,politica,https://g1.globo.com/politica/blog/andreia-sad...,Zambelli deve se apresentar esta semana e pedi...,A deputada foi condenada a 10 anos de prisão p...,A deputada federal Carla Zambelli NINO CIRENZA...,teste,teste,teste
8,esporte,https://ge.globo.com/futebol/times/flamengo/no...,Jorginho aparece no BID e está apto a estrear ...,Meia apareceu no site nesta segunda-feira e fa...,'Voz do Setorista: Letícia Marques traz inform...,teste,teste,teste
9,esporte,https://ge.globo.com/futebol/times/vasco/notic...,Vasco rescinde contrato com Payet,Francês não joga mais pelo clube de São Januário,'Veja os sete gols de Payet pelo Vasco O Vasco...,teste,teste,teste
10,esporte,https://ge.globo.com/futebol/times/fluminense/...,"Prestes a pegar o Borussia, Thiago Silva, do F...",Capitão tricolor passou 16 anos no futebol eur...,Thiago Silva compara diferenças do futebol eur...,teste,teste,teste
