In [4]:
import numpy as np
import pandas as pd
from tqdm import tqdm

In [5]:
df = pd.read_excel('./data/redacoes.xlsx')
nota = df['nota1'] + df['nota2'] + df['nota3'] + df['nota4'] + df['nota5']

df['nota'] = nota
tema_e_redacao = "Tema: " + df['tema'] + '\n\n' + "Redacao: " + df['redacoes'] + '\n\n' + "Nota: " + df['nota'].astype(str)
df['tema_e_redacao'] = tema_e_redacao

In [6]:
# Format example content:

all_examples = "\n--------------\n".join(df['tema_e_redacao'].values[:3])

In [7]:
from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate
from pydantic import BaseModel, Field
from typing import List, Dict, Any
from rubrica import *

from dotenv import load_dotenv

load_dotenv()

model_name = "gpt-4o-2024-08-06"
model_name_mini = "gpt-4o-mini"
temperature = 0.3
llm = ChatOpenAI(model_name=model_name_mini, 
                 temperature=temperature)

class GetSchema(BaseModel):
    """Schema das redações"""
    
    tema: str = Field(description="Tema da redação")
    redacao: str = Field(description="Redação")
    nota: int = Field(description="Nota da redação")

def create_model(llm: Any) -> Any:

    system_prompt = """
    Você é um assistente muito prestativo que irá ler várias redações e vai criar novas com base nos exemplos que você viu.
    
    Aqui estão os exemplos:
    
    {all_examples}
    """
    rule_1 = """Você deve criar um tema, criar a redação e dar uma nota para ela. A rubrica para dar as notas é a seguinte:
    {rubrica}
    """

    prompt = ChatPromptTemplate.from_messages(
            [
                ("system", system_prompt), 
                ("system", rule_1),
                # ("human", "Aqui está o tema gerado + redação gerada + nota: \n\n"),
            ]
    )

    llm_with_tools = llm.bind_tools([GetSchema]) #, strict=True)
    chain = prompt | llm_with_tools

    return chain

In [8]:
chain = create_model(llm)

In [9]:
notas_possiveis = list(range(650, 1050, 50))

notas_exemplos = [np.random.choice(notas_possiveis) for _ in range(1000)]

In [15]:
results = []
for n in tqdm(notas_exemplos[:200]):
    try:
        response = chain.invoke({"all_examples": all_examples, 
                                "rubrica": f"Use o bom senso para dar notas de 0 a 1000. A nota deve ser um número inteiro. OBS.: Faça uma redação que dê uma nota: {n}. OBS2.: Faça um parágrafo só."})
        result = response.tool_calls[0]['args']
        results.append(result)
    except Exception as e:
        print(e)
        continue

  2%|▏         | 3/200 [00:16<17:00,  5.18s/it]

list index out of range


  2%|▎         | 5/200 [00:26<16:29,  5.07s/it]

list index out of range


  3%|▎         | 6/200 [00:30<15:13,  4.71s/it]

list index out of range


 12%|█▏        | 24/200 [02:21<17:57,  6.12s/it]

list index out of range


 12%|█▎        | 25/200 [02:27<17:05,  5.86s/it]

list index out of range


 17%|█▋        | 34/200 [03:19<14:49,  5.36s/it]

list index out of range


 18%|█▊        | 37/200 [03:34<13:25,  4.94s/it]

list index out of range


 20%|█▉        | 39/200 [05:12<1:24:06, 31.34s/it]

list index out of range


 20%|██        | 40/200 [05:16<1:01:55, 23.22s/it]

list index out of range


 20%|██        | 41/200 [05:21<46:33, 17.57s/it]  

list index out of range


 21%|██        | 42/200 [05:25<35:37, 13.53s/it]

list index out of range


 22%|██▏       | 43/200 [05:28<27:38, 10.56s/it]

list index out of range


 22%|██▏       | 44/200 [05:32<22:06,  8.50s/it]

list index out of range


 22%|██▎       | 45/200 [05:35<18:04,  7.00s/it]

list index out of range


 23%|██▎       | 46/200 [05:41<16:32,  6.45s/it]

list index out of range


 24%|██▎       | 47/200 [05:44<14:01,  5.50s/it]

list index out of range


 24%|██▍       | 48/200 [05:47<12:15,  4.84s/it]

list index out of range


 24%|██▍       | 49/200 [05:51<11:23,  4.53s/it]

list index out of range


 25%|██▌       | 50/200 [05:54<10:23,  4.16s/it]

list index out of range


 26%|██▌       | 51/200 [06:00<11:29,  4.63s/it]

list index out of range


 26%|██▌       | 52/200 [06:04<10:42,  4.34s/it]

list index out of range


 28%|██▊       | 57/200 [06:39<14:05,  5.91s/it]

list index out of range


 30%|███       | 60/200 [07:02<15:40,  6.72s/it]

list index out of range


 30%|███       | 61/200 [07:06<13:47,  5.95s/it]

list index out of range


 31%|███       | 62/200 [07:12<13:32,  5.89s/it]

list index out of range


 32%|███▏      | 63/200 [07:17<12:53,  5.64s/it]

list index out of range


 32%|███▎      | 65/200 [07:29<13:19,  5.92s/it]

list index out of range


 34%|███▍      | 68/200 [07:49<13:35,  6.18s/it]

list index out of range


 35%|███▌      | 70/200 [08:00<12:24,  5.73s/it]

list index out of range


 36%|███▌      | 72/200 [08:07<09:47,  4.59s/it]

list index out of range


 36%|███▋      | 73/200 [08:18<13:53,  6.56s/it]

list index out of range


 40%|████      | 81/200 [09:10<11:41,  5.90s/it]

list index out of range


 41%|████      | 82/200 [09:14<10:13,  5.20s/it]

list index out of range


 42%|████▏     | 83/200 [09:19<09:49,  5.04s/it]

list index out of range


 43%|████▎     | 86/200 [09:32<08:42,  4.59s/it]

list index out of range


 44%|████▎     | 87/200 [09:36<08:37,  4.58s/it]

list index out of range


 46%|████▌     | 91/200 [10:02<10:05,  5.56s/it]

list index out of range


 46%|████▌     | 92/200 [10:06<09:22,  5.21s/it]

list index out of range


 48%|████▊     | 96/200 [10:24<08:10,  4.72s/it]

list index out of range


 49%|████▉     | 98/200 [10:32<07:20,  4.32s/it]

list index out of range


 50%|████▉     | 99/200 [10:36<07:04,  4.20s/it]

list index out of range


 50%|█████     | 101/200 [10:44<06:45,  4.10s/it]

list index out of range


 54%|█████▍    | 108/200 [11:16<06:17,  4.11s/it]

list index out of range


 55%|█████▌    | 110/200 [11:25<06:11,  4.12s/it]

list index out of range


 56%|█████▌    | 111/200 [11:28<05:49,  3.93s/it]

list index out of range


 56%|█████▌    | 112/200 [11:31<05:18,  3.61s/it]

list index out of range


 58%|█████▊    | 116/200 [11:57<07:19,  5.23s/it]

list index out of range


 58%|█████▊    | 117/200 [12:01<06:37,  4.79s/it]

list index out of range


 59%|█████▉    | 118/200 [12:06<06:39,  4.87s/it]

list index out of range


 60%|██████    | 120/200 [12:13<05:40,  4.25s/it]

list index out of range


 63%|██████▎   | 126/200 [12:43<05:32,  4.49s/it]

list index out of range


 64%|██████▎   | 127/200 [12:48<05:29,  4.52s/it]

list index out of range


 64%|██████▍   | 129/200 [12:58<05:41,  4.81s/it]

list index out of range


 65%|██████▌   | 130/200 [13:02<05:12,  4.47s/it]

list index out of range


 66%|██████▌   | 131/200 [13:06<05:01,  4.37s/it]

list index out of range


 66%|██████▋   | 133/200 [13:20<06:37,  5.93s/it]

list index out of range


 70%|███████   | 141/200 [14:05<05:18,  5.39s/it]

list index out of range


 71%|███████   | 142/200 [14:09<04:58,  5.15s/it]

list index out of range


 73%|███████▎  | 146/200 [14:32<04:50,  5.38s/it]

list index out of range


 74%|███████▎  | 147/200 [14:36<04:35,  5.19s/it]

list index out of range


 74%|███████▍  | 149/200 [14:47<04:19,  5.09s/it]

list index out of range


 75%|███████▌  | 150/200 [14:50<03:53,  4.66s/it]

list index out of range


 76%|███████▋  | 153/200 [15:21<06:12,  7.93s/it]

list index out of range


 78%|███████▊  | 156/200 [15:41<05:05,  6.93s/it]

list index out of range


 78%|███████▊  | 157/200 [15:44<04:03,  5.67s/it]

list index out of range


 79%|███████▉  | 158/200 [15:48<03:35,  5.14s/it]

list index out of range


 80%|████████  | 160/200 [15:55<02:49,  4.23s/it]

list index out of range


 80%|████████  | 161/200 [15:58<02:30,  3.85s/it]

list index out of range


 82%|████████▏ | 164/200 [16:15<03:00,  5.01s/it]

list index out of range


 82%|████████▎ | 165/200 [16:19<02:46,  4.75s/it]

list index out of range


 83%|████████▎ | 166/200 [16:23<02:33,  4.50s/it]

list index out of range


 84%|████████▍ | 169/200 [16:38<02:25,  4.70s/it]

list index out of range


 86%|████████▌ | 171/200 [16:49<02:30,  5.19s/it]

list index out of range


 88%|████████▊ | 175/200 [17:06<01:49,  4.38s/it]

list index out of range


 88%|████████▊ | 176/200 [17:09<01:35,  3.97s/it]

list index out of range


 88%|████████▊ | 177/200 [17:12<01:24,  3.69s/it]

list index out of range


 89%|████████▉ | 178/200 [17:16<01:22,  3.75s/it]

list index out of range


 90%|█████████ | 181/200 [17:31<01:22,  4.36s/it]

list index out of range


 94%|█████████▍| 188/200 [18:02<00:52,  4.41s/it]

list index out of range


 94%|█████████▍| 189/200 [18:06<00:47,  4.32s/it]

list index out of range


 95%|█████████▌| 190/200 [18:11<00:44,  4.47s/it]

list index out of range


 96%|█████████▌| 191/200 [18:15<00:39,  4.39s/it]

list index out of range


 96%|█████████▌| 192/200 [18:20<00:36,  4.51s/it]

list index out of range


 96%|█████████▋| 193/200 [18:24<00:31,  4.47s/it]

list index out of range


 98%|█████████▊| 196/200 [18:38<00:17,  4.34s/it]

list index out of range


100%|██████████| 200/200 [18:52<00:00,  5.66s/it]


In [17]:
len(results)

115

In [18]:
results_content = [f"Tema: {r['tema']}\n\nRedação: {r['redacao']}\n\nNota: {r['nota']}" for r in results]

In [23]:
dict_result = {'tema': [r['tema'] for r in results], 
               'redacao': [r['redacao'] for r in results], 
               'nota': [r['nota'] for r in results]}
df_sintetico = pd.DataFrame(dict_result)

In [24]:
df_sintetico.to_csv('./data/redacoes_sinteticas.csv', index=False)

In [25]:
df_sintetico

Unnamed: 0,tema,redacao,nota
0,A importância da educação financeira nas escol...,A educação financeira é uma ferramenta essenci...,650
1,A importância da educação financeira nas escol...,Em um mundo cada vez mais globalizado e dinâmi...,1000
2,Impacto das redes sociais na saúde mental dos ...,"Na contemporaneidade, as redes sociais emergem...",1000
3,Impacto da tecnologia na educação: desafios e ...,A tecnologia tem se tornado uma aliada indispe...,850
4,A importância da educação financeira nas escol...,A educação financeira é uma ferramenta essenci...,1000
...,...,...,...
110,A importância da educação financeira nas escol...,A educação financeira é uma ferramenta essenci...,800
111,Impacto das redes sociais na saúde mental dos ...,"Em um mundo cada vez mais conectado, as redes ...",900
112,Impacto das redes sociais na saúde mental dos ...,"No contexto contemporâneo, as redes sociais em...",750
113,A importância da educação financeira nas escol...,A educação financeira é uma ferramenta essenci...,800


In [29]:
df_sintetico['tema_e_redacao'] = "Tema: " + df_sintetico['tema'] + '\n\n' + "Redação: " + df_sintetico['redacao']
df_sintetico[['tema_e_redacao', 'nota']]

Unnamed: 0,tema_e_redacao,nota
0,Tema: A importância da educação financeira nas...,650
1,Tema: A importância da educação financeira nas...,1000
2,Tema: Impacto das redes sociais na saúde menta...,1000
3,Tema: Impacto da tecnologia na educação: desaf...,850
4,Tema: A importância da educação financeira nas...,1000
...,...,...
110,Tema: A importância da educação financeira nas...,800
111,Tema: Impacto das redes sociais na saúde menta...,900
112,Tema: Impacto das redes sociais na saúde menta...,750
113,Tema: A importância da educação financeira nas...,800


In [32]:
df_real = pd.read_excel('./data/redacoes.xlsx')
df_real['tema_e_redacao'] = "Tema: " + df_real['tema'] + '\n\n' + "Redacao: " + df_real['redacoes'] 
df_real['nota'] = df_real['nota1'] + df_real['nota2'] + df_real['nota3'] + df_real['nota4'] + df_real['nota5']
df_real[['tema_e_redacao', 'nota']]

Unnamed: 0,tema_e_redacao,nota
0,"Tema: ""Invisibilidade e registro civil: garant...",920
1,"Tema: ""Democratização do acesso ao cinema no B...",980
2,"Tema: ""Desafios para o enfrentamento da invisi...",900
3,"Tema: ""Caminhos para combater a intolerância r...",680
4,"Tema: ""Invisibilidade e registro civil: garant...",960
5,Tema: “O estigma associado às doenças mentais ...,700
6,"Tema: ""Desafios para a valorização de comunida...",920
7,Tema: “O estigma associado às doenças mentais ...,900
8,"Tema: ""Desafios para a valorização de comunida...",840
9,Tema: “O estigma associado às doenças mentais ...,340


In [33]:
df_to_train = pd.concat([df_real[['tema_e_redacao', 'nota']], df_sintetico[['tema_e_redacao', 'nota']]], axis=0)
df_to_train

Unnamed: 0,tema_e_redacao,nota
0,"Tema: ""Invisibilidade e registro civil: garant...",920
1,"Tema: ""Democratização do acesso ao cinema no B...",980
2,"Tema: ""Desafios para o enfrentamento da invisi...",900
3,"Tema: ""Caminhos para combater a intolerância r...",680
4,"Tema: ""Invisibilidade e registro civil: garant...",960
...,...,...
110,Tema: A importância da educação financeira nas...,800
111,Tema: Impacto das redes sociais na saúde menta...,900
112,Tema: Impacto das redes sociais na saúde menta...,750
113,Tema: A importância da educação financeira nas...,800


In [34]:
df_to_train.to_csv('./data/redacoes_to_train.csv')