In [41]:
import os
import torch

from dotenv import load_dotenv

from langchain_community.document_loaders.pdf import PyPDFLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_huggingface import HuggingFaceEmbeddings
from langchain.vectorstores import FAISS

from transformers import BitsAndBytesConfig, AutoModelForCausalLM, AutoTokenizer, pipeline
from langchain_huggingface import HuggingFacePipeline

from langchain_core.prompts import ChatPromptTemplate
from langchain.chains import create_retrieval_chain
from langchain.chains.combine_documents import create_stuff_documents_chain

# Variables

In [42]:
load_dotenv()

True

In [43]:
file = os.getenv("FILE")
persist_directory = os.getenv("PERSIST_DIRECTORY") + "/faiss"
token = os.getenv("TOKEN")
model_id = os.getenv("MODEL_ID")
model_name = os.getenv("MODEL_NAME")

# PDFLoader

In [44]:
loader = PyPDFLoader(file)
file = loader.load()

# Recursive TextSplit

In [45]:
recur_split = RecursiveCharacterTextSplitter(
    chunk_size=1000,
    chunk_overlap=150
)

In [46]:
documents = recur_split.split_documents(file)

# Embeddings (HuggingFace)

In [47]:
embedding = HuggingFaceEmbeddings(
    model_name=model_name, 
    model_kwargs={'device': 'cuda:0'}, 
    encode_kwargs={'normalize_embeddings': False}
)

# Vector Store

In [48]:
vectordb = FAISS.from_documents(
    documents=documents, 
    embedding=embedding
)

vectordb.save_local(persist_directory)

# LLM (HuggingFace)

In [49]:
quantization_config = BitsAndBytesConfig(
    load_in_4bit=True, 
    bnb_4bit_use_double_quant=True, 
    bnb_4bit_quant_type="nf4", 
    bnb_4bit_compute_dtype=torch.bfloat16
)

model = AutoModelForCausalLM.from_pretrained(
    model_id,
    token=token,
    quantization_config=quantization_config    
)

tokenizer = AutoTokenizer.from_pretrained(
    model_id,
    token=token    
)

pipe = pipeline(
    model=model, 
    tokenizer=tokenizer, 
    task="text-generation",
    return_full_text=False
)

llm = HuggingFacePipeline(
    pipeline=pipe,
    model_kwargs={
        "temperature": 0.0,        
        "do_sample": False        
    }
)

Loading checkpoint shards: 100%|██████████| 2/2 [00:05<00:00,  2.87s/it]
Device set to use cuda:0


# Prompt

In [50]:
token_start, token_end = "<|begin_of_text|><|start_header_id|>system<|end_header_id|>", "<|eot_id|><|start_header_id|>assistant<|end_header_id|>"

template = """
Você é um assistente educacional que retorna competências empreendedoras.

O usuário fornecerá os dados de uma aula em formato estruturado, incluindo:
**Disciplina**;
**Conteúdo**;
**Objetivo da Aula**.

Com base no documento (que está no contexto abaixo), identifique **três competências empreendedoras** que se relacionam diretamente com essa aula.
Traga somente 3 competências empreendedoras que estão no documento abaixo e somente do documento (que está no contexto abaixo).
Retorne apenas os nomes das competências, entre a primeira e a segunda separados por vírgula, e entre a segunda e a terceira separada por 'e'. \n\n

Exemplo: \n
Pergunta: "**Disciplina** <Matemática>, sendo o **Conteúdo** <Frações> e o **Objetivo da Aula** é <Calcular juros>." \n
Resposta: Identificar oportunidades, Mobilização de recursos e Educação financeira e econômica. \n\n

Contexto: {context} \n\n
Pergunta: {input}
"""

prompt = ChatPromptTemplate.from_template(token_start + template + token_end)

# Chain

In [51]:
documents_chain = create_stuff_documents_chain(
    llm, 
    prompt
)

retriver_chain = create_retrieval_chain(
    retriever=vectordb.as_retriever(search_type="mmr"), 
    combine_docs_chain=documents_chain
)

# Question

In [None]:
# question = "**Disciplina** <Matemática>, sendo o **Conteúdo** <Frações> e o **Objetivo da Aula** é <Utilização para calcular taxa de juros>."

# Answer

In [53]:
# answer = retriver_chain.invoke({"input": question})

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


In [54]:
# print(answer["answer"])



Identificar oportunidades, Mobilização de recursos, Educação financeira e econômica.
