In [1]:
import os
import json
import warnings
import time

from langchain import PromptTemplate
from langchain import HuggingFaceHub, LLMChain

os.environ['HUGGINGFACEHUB_API_TOKEN'] = ''

In [2]:
# Caminho para o arquivo JSON
file_path = './datasets/Classification/email.json'

# Carregar o arquivo JSON
with open(file_path, 'r', encoding='utf-8') as file:
    questoes = json.load(file)

In [3]:
# Suprimir warning que não vai ser importante para nosso contexto atual
warnings.filterwarnings("ignore", message=".*The function `run` was deprecated in LangChain 0.1.0.*")

In [4]:
# Template para o prompt
template = """Classify the following question as one of these categories Português, Literatura, Redação, Biologia, Geografia, Matemática, Física, História, Química, Inglês, Espanhol, Filosofia, Sociologia, História da Arte, Orientação de Estudos e Ensino Religioso: {question}
Answer: """

prompt = PromptTemplate(
        template=template,
        input_variables=['question']
    )

In [5]:
# Seguindo o modelo: https://www.pinecone.io/learn/series/langchain/langchain-intro/
# initialize Hub LLM
hub_llm = HuggingFaceHub(
        repo_id='google/flan-t5-large',
        model_kwargs={'temperature':1e-10}
    )

# create prompt template > LLM chain
llm_chain = LLMChain(
    prompt=prompt,
    llm=hub_llm
)

In [12]:
# Coletar áreas esperadas do Json
perguntas = [questao['question'] for questao in questoes]

tempos_de_execucao = []
areas_previstas = []
# Coletar previsões do modelo e tempos de chamada
for pergunta in perguntas:
    start_time = time.time()
    areas_previstas.append(llm_chain.run(pergunta))
    end_time = time.time()
    tempos_de_execucao.append(end_time - start_time)

In [13]:
# Cálculo da precisão do modelo
areas_corretas = [questao['area'] for questao in questoes]
acertos = sum(1 for area_prevista, area_correta in zip(areas_previstas, areas_corretas) if area_prevista == area_correta)
total_perguntas = len(questoes)
precisao = acertos / total_perguntas

# Fazendo um print comparativo de cada tentativa/real e a precisão do modelo
print(f'{"Pergunta":^10} | {"Previsto":^20} | {"Real":^20} | {"Tempo(s)":^10}')
print('-'*80)
for i, ((previsto, real), tempo) in enumerate(zip(zip(areas_previstas, areas_corretas), tempos_de_execucao), 1):
    print(f'{i:^10} | {previsto:^20} | {real:^20} | {tempo:^10.2f}')

print(f'\nPrecisão do modelo: {precisao:.2%}')

 Pergunta  |       Previsto       |         Real         |  Tempo(s) 
--------------------------------------------------------------------------------
    1      |       Biologia       |       Química        |    0.16   
    2      |       Biologia       |       Biologia       |    0.16   
    3      |      Matemática      |      Matemática      |    0.16   
    4      |      Matemática      |      Matemática      |    0.16   
    5      |       Biologia       |       Biologia       |    0.16   
    6      |   História da Arte   |       História       |    0.16   
    7      |      Sociologia      |      Literatura      |    0.16   
    8      |      Matemática      |      Matemática      |    0.16   
    9      |      Matemática      |      Matemática      |    0.16   
    10     |      Matemática      |        Física        |    0.16   

Precisão do modelo: 60.00%
