In [None]:
import streamlit as st
from streamlit import session_state as ss
from langchain_core.runnables import RunnableParallel

from dotenv import load_dotenv
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_openai import ChatOpenAI, OpenAIEmbeddings
from langchain_groq import ChatGroq
from langchain_core.runnables import RunnablePassthrough, RunnableLambda
from langchain_core.messages import SystemMessage, HumanMessage, AIMessage

from langchain_mongodb import MongoDBAtlasVectorSearch
from langchain_pinecone import PineconeVectorStore
from pymongo import MongoClient
import os

load_dotenv()

def vector_db():
    index_name = os.getenv("PINECONE_INDEX_NAME")
    embeddings_size = 3072
    embeddings_model = 'text-embedding-3-large'
    embeddings = OpenAIEmbeddings(model=embeddings_model, dimensions=embeddings_size)
    vectorstore = PineconeVectorStore(index_name=index_name, embedding=embeddings)
    return vectorstore

def vector_db_simu():
    MONGODB_ATLAS_CLUSTER_URI = os.getenv('MONGODB_URI')
    client = MongoClient(MONGODB_ATLAS_CLUSTER_URI)
    DB_NAME = os.getenv("DB_NAME")
    COLLECTION_NAME = os.getenv("COLLECTION_NAME")
    embeddings_model = 'text-embedding-3-large'
    ATLAS_VECTOR_SEARCH_INDEX_NAME = os.getenv("ATLAS_VECTOR_SEARCH_INDEX_NAME")
    MONGODB_COLLECTION = client[DB_NAME][COLLECTION_NAME]
    vectorstore = MongoDBAtlasVectorSearch(
        embedding=OpenAIEmbeddings(model=embeddings_model,
                                   dimensions=1536),
        collection=MONGODB_COLLECTION,
        index_name=ATLAS_VECTOR_SEARCH_INDEX_NAME,
    )
    return vectorstore

  from tqdm.autonotebook import tqdm


In [11]:
vdb_simu = vector_db_simu()
vdb = vector_db()

mongodb+srv://marlonsp:nero2024@cluster-edu.cvspvd7.mongodb.net/?retryWrites=true&w=majority&appName=Cluster-Edu
edu-bot
edu-bot-collection
edu_bot_vector_index


In [None]:
retriever_simu = vdb_simu.as_retriever(search_type="similarity", search_kwargs={"k": 3})
retriever = vdb.as_retriever(search_type="similarity", search_kwargs={"k": 3})

In [3]:
def format_docs(docs):
    return "\n\n".join([d.page_content for d in docs])

def format_questoes(questoes):
    return "\n\n".join([tema for tema in questoes])

In [None]:
def get_chain_mock(model="openai"):
    
    if model == "openai":
        _chat_ = ChatOpenAI
        _model_name_ = "gpt-4o-2024-08-06"
    elif model == "groq":
        _chat_ = ChatGroq
        _model_name_ = "llama-3.2-90b-text-preview"
    
    template = """
    Você é um assistente de modelo de linguagem de IA que irá gerar simulados. Sua tarefa é separar cada uma das matérias ou temas
    que o usuário deseja estudar e gerar uma curta query descrevendo o temas, para facilitar a busca por similaridade.
    A entrada do usuário pode ter uma ou mais matérias ou temas.
    Forneça esses temas/matérias separados por novas linhas, no formato:
    - Tema1: Descricao do tema1
    - Tema2: Descricao do tema2
    e assim por diante.
    Separe os temas em: {user_query}"""
    
    template_1 = [
        ('system', """
                    Você é um bot chamado Edu e foi desenvolvido pela Nero.AI. 
                    Você irá gerar questões para compor um simulado do ENEM."""),
        ('system', "Use essas questões como exemplo de estrutura de questão\n\n{context_query_simu}\n\n"),
        ('system', "Use esses documentos para embasar o conteúdo das questões\n\n{context_query_video}\n\n"),
        ('system', "Não crie questões unicamente objetivas, como 'O que é?', 'Quem foi?', contextualize breventemente o tema e crie questões que exijam raciocínio."),
        ('system', """Forneça essas perguntas alternativas separadas por novas linhas. \n:
            Siga a estrutura usando markdown:
            Tema: (tema_questao)\n
         
            QUESTÃO 1: (questao_1)\n
            a) alternativa 1
            b) alternativa 2
            c) alternativa 3
            d) alternativa 4
            e) alternativa 5

            QUESTÃO 2: (questao_2)
            a) alternativa 1
            b) alternativa 2
            c) alternativa 3
            d) alternativa 4
            e) alternativa 5

        e assim por diante.
            Gabarito: 1 - (letra correspondente a alternativa)\n
                      2 - (letra correspondente a alternativa)\n
        e assim por diante.
        """),
        ('system', "Gere apenas 5 questões sobre o tema: {tema_questao}"),
    ]
    
    prompt1 = ChatPromptTemplate.from_messages(template_1)
    
    prompt = ChatPromptTemplate.from_template(template)

    llm = _chat_(temperature=0.1, model=_model_name_)

    generate_temas = (
        prompt
        | llm
        | StrOutputParser()
        | (lambda x: x.split("\n"))
    )

    chain_rag_simu = retriever_simu | format_docs
    chain_rag_video = retriever | format_docs

    chain_rag = (
        {
            "context_query_simu": RunnablePassthrough() | chain_rag_simu,
            "context_query_video": RunnablePassthrough() | chain_rag_video,
            "tema_questao": RunnablePassthrough()
        }
        | prompt1
        | llm
        | StrOutputParser()
    )
    
    chain = generate_temas | chain_rag.map() | format_questoes | StrOutputParser()
    
    return chain

In [26]:
chain = get_chain_mock(model="groq")

In [27]:
response_simulado = chain.invoke({"user_query": user_query})

In [28]:
print(response_simulado)

Tema: História do Brasil: Estudo da evolução política, social e econômica do Brasil desde a colonização portuguesa até os dias atuais.

QUESTÃO 1: Qual foi o principal motivo para a colonização portuguesa no Brasil durante o século XVI?

a) A busca por ouro e prata
b) A expansão da fé católica
c) A exploração da cana-de-açúcar
d) A criação de uma rota comercial com a Ásia
e) A fuga da Inquisição

QUESTÃO 2: Qual foi o impacto da colonização portuguesa no Brasil sobre a população indígena?

a) A integração pacífica e a adoção da cultura portuguesa
b) A resistência e a luta armada contra os colonizadores
c) A escravidão e a exploração forçada
d) A migração para outras regiões do continente
e) A extinção da população indígena

QUESTÃO 3: Qual foi o papel do comércio triangular na economia colonial brasileira?

a) A troca de mercadorias entre Portugal e o Brasil
b) A exportação de produtos agrícolas para a Europa
c) A importação de escravos africanos para o Brasil
d) A exploração de recurs

## Retriever

In [21]:
chain_rag_simu = retriever_simu 
chain_rag_video = retriever

In [22]:
response_simu = chain_rag_simu.invoke(" Qual é o significado do termo eurocentrismo no contexto da história do Brasil?")

In [24]:
[x.page_content for x in response_simu]

['Questão 8          \nSlam do Corpo é um encontro pensado para surdos \ne ouvintes, existente desde 2014, em São Paulo. Uma \niniciativa pioneira do grupo Corposinalizante, criado em \n2008. (Antes de seguirmos, vale a explicação: o termo \nslam vem do inglês e significa — numa nova acepção \npara o verbo geralmente utilizado para dizer “bater com \nforça” — a “poesia falada nos ritmos das palavras e da \ncidade”). Nos saraus, o primeiro objetivo foi o de botar \nos poemas em Libras na roda, colocar os surdos para \ncircular e entender esse encontro entre a poesia e a língua \nde sinais, compreender o encontro dessas duas línguas. \nPoemas de autoria própria, três minutos, um microfone. \nSem figurino, nem adereços, nem acompanhamento \nmusical. O que vale é modular a voz e o corpo, um \ntrabalho artesanal de tornar a palavra “visível”, numa \narena cujo objetivo maior é o de emocionar a plateia, tirar \no público da passividade, seja pelo humor, horror, caos, \ndoçura e outras tantas

In [10]:
print(chain_rag_video.invoke("Historia do brasil", k=3))

Title: APRENDENDO A HISTÓRIA DO SÉCULO XVI.
Views count: 48101
Publish date: 2018-04-27 00:00:00
Author: Parabólica
Description: Unknown
Link video: https://www.youtube.com/watch?v=5Khp_i66eP8

em luta contra os protestantes então o brasil começa a receber e que são fundadas por exemplo cidades importantes que não eram cidades eram vilas mas cuidado salvador que são salvador rio de janeiro que foi fundado para poder expulsar os franceses a são paulo são paulo de piratininga tão brasil está recebendo uma estrutura administrativa a gente começa a ter aqui no brasil há o plantio é a cultura da cana já suca que vai ser muito importante e um outro ponto muito importante que para o cultivo da cana de açúcar começa a ser trazer também africanos para trabalharem forçadamente para serem escravizados no brasil que começa essa triste história no brasil é essa essa parte essa página manchada e de basicamente aí séculos é mais de 400 anos é isso aqui na história do brasil é que a gente até vai cham

## Generate mock


In [29]:
chain = get_chain_mock(model="groq")

In [35]:
response_simulado = chain.invoke({"user_query": user_query})

In [53]:
from pydantic import BaseModel, Field
from typing import List

system_prompt = """
Você é um bot chamado Edu e foi desenvolvido pela Nero.AI. Você vai pegar o simulado gerado e criar questões para compor um simulado do ENEM.
"""

prompt = ChatPromptTemplate.from_messages(
        [
            ("system", system_prompt), 
            ("human", "Simulado: \n\n {mock}")
        ]
)

model_name = "gpt-4o-2024-08-06"

llm = ChatOpenAI(
    model="gpt-4o-2024-08-06", # 100% json output
    temperature=0,
)

class GetMockSchema(BaseModel):
    """Extrai schema de simulados -> questões e gabarito"""
    
    questions: List[str] = Field(description="As 5 principais questões do simulado")
    options: List[str] = Field(description="As 5 alternativas de cada questão")
    answers: List[str] = Field(description="As respostas corretas de cada questão")
    
def format_output_mock(response_schema):
    try:
        args = response_schema.tool_calls[0]['args']
    except:
        return {
            "question": 'EMPTY',
            "options": ['EMPTY'] * 5,
            "answer": 'EMPTY'
        }

    new_output = []
    for q, o, a in zip(args['questions'], args['options'], args['answers']):
        element = {
            "question": q,
            "options": o.split('\n'),
            "answer": a
        }
        new_output.append(element)
    return new_output

llm_with_tools_extraction = llm.bind_tools([GetMockSchema]) #, strict=True)
chain_structured_extraction = prompt | llm_with_tools_extraction | RunnableLambda(format_output_mock)

In [54]:
response_schema = chain_structured_extraction.invoke({"mock": response_simulado})

In [56]:
response_schema

[{'question': 'Qual foi o principal motivo para a colonização portuguesa no Brasil durante o século XVI?',
  'options': ['a) A busca por ouro e prata',
   'b) A expansão da fé católica',
   'c) A exploração da cana-de-açúcar',
   'd) A criação de uma rota comercial com a Ásia',
   'e) A fuga da Inquisição'],
  'answer': 'c) A exploração da cana-de-açúcar'},
 {'question': 'Qual foi o impacto da colonização portuguesa no Brasil sobre a população indígena?',
  'options': ['a) A integração pacífica e a adoção da cultura portuguesa',
   'b) A expulsão e a marginalização da população indígena',
   'c) A criação de reservas indígenas para proteger a população',
   'd) A adoção da língua e da cultura indígena pelos portugueses',
   'e) A extinção da população indígena'],
  'answer': 'b) A expulsão e a marginalização da população indígena'},
 {'question': 'Qual foi o papel do comércio triangular na economia colonial brasileira?',
  'options': ['a) A troca de mercadorias entre o Brasil e a Europ

In [57]:
def format_output_mock(response_schema):
    try:
        args = response_schema.tool_calls[0]['args']
    except:
        return {
            "question": 'EMPTY',
            "options": ['EMPTY'] * 5,
            "answer": 'EMPTY'
        }

    new_output = []
    for q, o, a in zip(args['questions'], args['options'], args['answers']):
        element = {
            "question": q,
            "options": o.split('\n'),
            "answer": a
        }
        new_output.append(element)
    return new_output

def get_chain_format_schema():
    
    system_prompt = """
    Você é um bot chamado Edu e foi desenvolvido pela Nero.AI. Você vai pegar o simulado gerado e criar questões para compor um simulado do ENEM.
    """

    prompt = ChatPromptTemplate.from_messages(
            [
                ("system", system_prompt), 
                ("human", "Simulado: \n\n {mock}")
            ]
    )

    model_name = "gpt-4o-2024-08-06"

    llm = ChatOpenAI(
        model="gpt-4o-2024-08-06", # 100% json output
        temperature=0,
    )

    class GetMockSchema(BaseModel):
        """Extrai schema de simulados -> questões e gabarito"""

        questions: List[str] = Field(description="As 5 principais questões do simulado")
        options: List[str] = Field(description="As 5 alternativas de cada questão")
        answers: List[str] = Field(description="As respostas corretas de cada questão")

    

    llm_with_tools_extraction = llm.bind_tools([GetMockSchema]) #, strict=True)
    chain_structured_extraction = prompt | llm_with_tools_extraction | RunnableLambda(format_output_mock)
    
    return chain_structured_extraction

In [58]:
chain_structured_extraction = get_chain_format_schema()

In [59]:
chain_structured_extraction.invoke({"mock": response_simulado})

[{'question': 'Qual foi o principal motivo para a colonização portuguesa no Brasil durante o século XVI?',
  'options': ['a) A busca por ouro e prata',
   'b) A expansão da fé católica',
   'c) A exploração da cana-de-açúcar',
   'd) A criação de uma rota comercial com a Ásia',
   'e) A fuga da Inquisição'],
  'answer': 'c) A exploração da cana-de-açúcar'},
 {'question': 'Qual foi o impacto da colonização portuguesa no Brasil sobre a população indígena?',
  'options': ['a) A integração pacífica e a adoção da cultura portuguesa',
   'b) A expulsão e a marginalização da população indígena',
   'c) A criação de reservas indígenas para proteger a população',
   'd) A adoção da língua e da cultura indígena pelos portugueses',
   'e) A extinção da população indígena'],
  'answer': 'b) A expulsão e a marginalização da população indígena'},
 {'question': 'Qual foi o papel do comércio triangular na economia colonial brasileira?',
  'options': ['a) A troca de mercadorias entre o Brasil e a Europ