In [1]:
import openai
import os
import tqdm
import json
import re
import pandas as pd

openai.api_key = ""
#
from matplotlib.colors import LinearSegmentedColormap
colors = [(0, 1, 0), (1, 0, 0)]  # Verde para vermelho
cmap = LinearSegmentedColormap.from_list('CustomCmap', colors, N=100)
#
from matplotlib import pyplot as plt
import seaborn as sns


### Prompt Creation

In [4]:
dataframe = pd.read_csv('../data/base_redacoes_final.csv')
dataframe = dataframe.rename(columns={'nota_final':'nota_real'})

In [5]:
dataframe.columns

Index(['tema', 'titulo', 'nota_real', 'comp_lingua_culta', 'comp_proposta',
       'comp_argumentacao', 'comp_conhecimentos', 'comp_proposta_solucao',
       'url', 'texto_original', 'texto_corrigido', 'comentario_geral'],
      dtype='object')

In [3]:
CRITERIO_1_NOTA = {
        200: "Excelente domínio da escrita formal da língua portuguesa",
        160: "Bom domínio da escrita formal com poucos desvios gramaticais",
        120: "Domínio mediano da escrita formal, com alguns desvios gramaticais",
        80: "Domínio insuficiente da escrita formal com muitos desvios gramaticais.",
        40: "Domínio precário da escrita formal com diversificados e frequentes desvios gramaticais",
        0: "Desconhecimento da escrita formal da língua portuguesa"
    }
CRITERIO_2_NOTA = {
      200: "Argumentação consistente, a partir de um repertório sociocultural produtivo apresentando excelente domínio do texto dissertativo-argumentativo",
        160: "Argumentação consistente e apresenta bom domínio do texto dissertativo-argumentativo, com parágrafos de proposição, argumentação e conclusão",
        120: "Argumentação previsível e apresenta domínio mediano do texto dissertativo-argumentativo, com parágrafos de proposição, argumentação e conclusão",
        80: "Apresenta domínio insuficiente do texto dissertativo-argumentativo, não atendendo à estrutura com parágrafos de proposição, argumentação e conclusão",
        40: "Apresenta o assunto mas tangenciando o tema ou demonstra domínio precário do texto dissertativo-argumentativo (traços de outros tipos textuais)",
        0: "Fuga ao tema/não atendimento à estrutura dissertativo-argumentativa."
}
CRITERIO_3_NOTA = {
    200: "Apresenta informações, fatos e opiniões relacionados ao tema proposto, de forma consistente e organizada, configurando autoria em defesa de um ponto de vista.",
    160: "Informações relacionadas ao tema, de forma organizada, com indícios de autoria, em defesa de um ponto de vista.",
    120: "Informações relacionadas ao tema, limitadas aos argumentos dos textos motivadores e pouco organizadas.",
    80: "Informações relacionadas ao tema, mas desorganizadas ou contraditórias e limitadas aos argumentos dos textos motivadores.",
    40: "Informações pouco relacionadas ao tema ou incoerentes e sem defesa de um ponto de vista.",
    0: "Informações, fatos e opiniões não relacionados ao tema e sem defesa de um ponto de vista."
}
CRITERIO_4_NOTA = {
    200: "Articula bem as partes do texto e apresenta repertório diversificado de recursos coesivos.",
    160: "Articula as partes do texto, com poucas inadequações, e apresenta repertório diversificado de recursos coesivos.",
    120: "Articula as partes do texto, de forma mediana, com inadequações, e apresenta repertório pouco diversificado de recursos coesivos.",
    80: "Articula as partes do texto, de forma insuficiente, com muitas inadequações, e apresenta repertório limitado de recursos coesivos.",
    40: "Articula as partes do texto de forma precária.",
    0: "Não articula as informações."
}
CRITERIO_5_NOTA = {
    200: "Elabora muito bem proposta de intervenção, detalhada, relacionada ao tema e articulada à discussão desenvolvida no texto.",
    160: "Elabora bem proposta de intervenção relacionada ao tema e articula à discussão desenvolvida no texto.",
    120: "Elabora, de forma mediana, proposta de intervenção relacionada ao tema e articulada à discussão desenvolvida no texto.",
    80: "Elabora, de forma insuficiente, proposta de intervenção relacionada ao tema, ou não articulada com a discussão desenvolvida no texto.",
    40: "Apresenta proposta de intervenção vaga, precária ou relacionada apenas ao assunto.",
    0: "Não apresenta proposta de intervenção ou apresenta proposta não relacionada ao tema ou ao assunto."
}
def round_key(k):
    return max(chave for chave in CRITERIO_5_NOTA.keys() if chave <= k)

In [18]:

CRITERIO_1 = "Demonstrar domínio da norma culta da língua escrita."
CRITERIO_2 = "Compreender a proposta da redação e aplicar conceito das várias áreas de conhecimento para desenvolver o tema, respeitando a formaestruturais do texto dissertativo-argumentativo."
CRITERIO_3 = "Selecionar, relacionar, organizar e interpretar informações, fatos, opiniões e argumentos em defesa de um ponto de vista."
CRITERIO_4 = "Demonstrar conhecimento dos mecanismos linguísticos necessários para a construção da argumentação."
CRITERIO_5 = "Elaborar a proposta de solução para o problema abordado, mostrando respeito aos valores humanos e considerando a diversidade sociocultura"
END = "\n\n###\n\n"
def make_instance(row):
    redacao = row.texto_original
    tema = row.tema
    titulo = row.titulo

    prompt = f'''Você é um avaliador de redações sobre "{tema}" e deve considerar os critérios a seguir:
            CRITÉRIO 1. {CRITERIO_1}
            CRITÉRIO 2. {CRITERIO_2}
            CRITÉRIO 3. {CRITERIO_3}
            CRITÉRIO 4. {CRITERIO_4} 
            CRITÉRIO 5. {CRITERIO_5}
            Para cada critério deve ser dada uma nota de 0 a 200, junto com uma descrição do motivo dessa nota.
            O tema da redação é "{tema}" e o escritor deu o título de "{titulo}". Esta é a redação: """{redacao}"""
            A saída deve ser no formato JSON. Não usando aspas duplas no conteúdo dos campos:'''+'''
            {
                "criterio_1":(nota, detalhes),
                "criterio_2":(nota, detalhes),
                e assim por diante...,
                "avaliacao_geral": cometários gerais sobre o texto,
                "nota_atribuida": soma das notas dos critérios{END}'''
            
    completion = ' {'+f'''
                "criterio_1":({row.comp_lingua_culta}, {CRITERIO_1_NOTA[round_key(row.comp_lingua_culta)]}),
                "criterio_2":({row.comp_proposta}, {CRITERIO_2_NOTA[round_key(row.comp_proposta)]}),
                "criterio_3":({row.comp_argumentacao}, {CRITERIO_3_NOTA[round_key(row.comp_argumentacao)]}),
                "criterio_4":({row.comp_conhecimentos}, {CRITERIO_4_NOTA[round_key(row.comp_conhecimentos)]}),
                "criterio_5":({row.comp_proposta_solucao}, {CRITERIO_5_NOTA[round_key(row.comp_proposta_solucao)]}),
                "avaliacao_geral": {row.comentario_geral}
                "nota_atribuida": {row.nota_real}'''+'}{END}'
    instance = {"prompt": prompt, "completion":completion}
    return instance

In [24]:
database = dataframe.apply(make_instance, axis=1)
#
nome_do_arquivo = "database_finetuning.jsonl"

with open(nome_do_arquivo, "w") as arquivo_jsonl:
    for dicionario in database:
        linha_json = json.dumps(dicionario) + "\n"
        arquivo_jsonl.write(linha_json)
# json.dump(list(database.values), open('database_finetuning.json','w'))

## Fine Tuning

In [7]:
# %%writefile fine_tune.sh
# openai tools fine_tunes.prepare_data -f database_finetuning.jsonl
# openai api fine_tunes.create -t database_finetuning.jsonl -m ada

In [6]:
# !export OPENAI_API_KEY=""
# !openai tools fine_tunes.prepare_data -f database_finetuning.jsonl
openai api fine_tunes.create -t database_finetuning.jsonl -m davin

SyntaxError: invalid syntax (3683022496.py, line 3)

In [7]:
MODEL_FINETUNED_001 = 'ada:ft-quero-educa-o-2023-08-20-04-20-11' #'ft-7G6DUEOao6zYsVSjR236R4Rh'
MODEL_FINETUNED_002 = 'ada:ft-quero-educa-o-2023-08-20-05-11-48' #'ft-7G6DUEOao6zYsVSjR236R4Rh'
MODEL_FINETUNED_003 = 'ada:ft-quero-educa-o-2023-08-20-06-11-18' #'ft-7G6DUEOao6zYsVSjR236R4Rh'


## Test Model

In [27]:
openai.api_key = "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"
for instancia in database.iloc[2:]:
    prompt = instancia['prompt']
    y_real = instancia['completion']
    
    response = openai.Completion.create(
        model=MODEL_FINETUNED_003,
        prompt=prompt,
        max_tokens=1000,
        temperature=0.4,
        
        )
    y_pred = response.choices[0].text.strip()
    print(y_pred)
    break


AuthenticationError: Incorrect API key provided: sk-Nymw4***************************************r6sJ. You can find your API key at https://platform.openai.com/account/api-keys.

In [None]:

CRITERIO_1 = "Demonstrar domínio da norma culta da língua escrita."
CRITERIO_2 = "Compreender a proposta da redação e aplicar conceito das várias áreas de conhecimento para desenvolver o tema, dentro dos limites estruturais do texto dissertativo-argumentativo."
CRITERIO_3 = "Selecionar, relacionar, organizar e interpretar informações, fatos, opiniões e argumentos em defesa de um ponto de vista."
CRITERIO_4 = "Demonstrar conhecimento dos mecanismos linguísticos necessários para a construção da argumentação."
CRITERIO_5 = "Elaborar a proposta de solução para o problema abordado, mostrando respeito aos valores humanos e considerando a diversidade sociocultura"
END = "\n\n###\n\n"
def make_instance(row):
    redacao = row.texto_original
    tema = row.tema
    titulo = row.titulo

    prompt = f'''Você é um avaliador de redações e irá avaliar uma redação do assunto {tema} considerando os 5 critérios a seguir:
            CRITÉRIO 1. {CRITERIO_1}
            CRITÉRIO 2. {CRITERIO_2}
            CRITÉRIO 3. {CRITERIO_3}
            CRITÉRIO 4. {CRITERIO_4} 
            CRITÉRIO 5. {CRITERIO_5}
            Para cada critério deve ser dada uma nota de 0 a 200, junto com uma descrição do motivo dessa nota.
            O tema da redação é "{tema}" e o escritor deu o título de "{titulo}". Esta é a redação: """{redacao}"""
            A saída deve ser no formato JSON. Não usando aspas duplas no conteúdo dos campos:'''+'''
            {
                "criterio_1":(nota, detalhes),
                "criterio_2":(nota, detalhes),
                e assim por diante...,
                "avaliacao_geral": cometários gerais sobre o texto,
                "nota_atribuida": soma das notas dos critérios{END}'''
            
    completion = ' {'+f'''
                "criterio_1":({row.comp_lingua_culta}, {CRITERIO_1_NOTA[round_key(row.comp_lingua_culta)]}),
                "criterio_2":({row.comp_proposta}, {CRITERIO_2_NOTA[round_key(row.comp_proposta)]}),
                "criterio_3":({row.comp_argumentacao}, {CRITERIO_3_NOTA[round_key(row.comp_argumentacao)]}),
                "criterio_4":({row.comp_conhecimentos}, {CRITERIO_4_NOTA[round_key(row.comp_conhecimentos)]}),
                "criterio_5":({row.comp_proposta_solucao}, {CRITERIO_5_NOTA[round_key(row.comp_proposta_solucao)]}),
                "avaliacao_geral": {row.comentario_geral}
                "nota_atribuida": {row.nota_real}'''+'}{END}'
    instance = {"prompt": prompt, "completion":completion}
    return instance