## IMD 0190 - TÓPICOS ESPECIAIS EM BUSINESS INTELIGENCE E ANALYTICS

#### Fernando Lucas, Renata Gurgel e Victor Gabriel

Nós baseamos nosso trabalho em notebooks disponíveis em: https://github.com/eliasjacob/deep_learning_gen_ai/blob/main/

#### Pontos-chave

- Utilização das APIs grátis *GEMINI* e *llama* como LLMs para o desenvolvimento do projeto.  

### Resumo 

- **1º Projeto:** Desenvolvimento de um agente capaz de classificar as avaliações de cursos oferecidos pela Escola Judiciária Eleitoral do Rio Grande do Norte (EJE/RN).

- **2º Projeto:** Desenvolvimento de um agente de IA capaz de responder às perguntas dos usuários sobre os dados disponíveis no Portal de Dados Abertos do Tribunal Regional Eleitoral do Rio Grande do Norte (TRE/RN), mais especificamente das diárias pagas pelo TRE-RN. O portal mencionado pode ser acessado através do link: https://dados.tre-rn.jus.br/group/pessoas.

- **3º Projeto:** Utilização de uma estrutura RAG para criar um agente de IA conversacional com base nos dados do portal de dados abertos. Esta é uma abordagem diferente com o mesmo tema do 2º Projeto.


### Importar bibliotecas

In [1]:
%pip install langchain_experimental langchain requests langchain-community langchain_google_genai google-generativeai langchain_ollama ollama

Note: you may need to restart the kernel to use updated packages.


In [2]:
import pandas as pd

### Zero-Shot Text Classification - An Real Application to Escola Judiciária Eleitoral do Rio Grande do Norte (EJE/RN)

#### Pontos-chave

- Este é um início para a classificação de avaliações de cursos utilizando o método Zero-Shot Text Classification

- Fomos incrementando o projeto passo a passo. Portanto, alguns códigos podem ser repetitivos com abordagens diferentes.

- Na primeira implementação, definimos o esquema usando avaliações segmentadas em *Positivo*, *Negativo* e *Neutro* geradas pelo `DeepSeek-V3`. Em seguida, usamos o `.with_structured_method` para formatar a resposta de saída sobre o sentimento.

#### Importando bibliotecas

In [3]:
%pip install openpyxl pandas

Note: you may need to restart the kernel to use updated packages.


#### Definindo modelos de LLM

In [4]:
# Importa a classe ChatOllama do módulo langchain_ollama
from langchain_ollama import ChatOllama
from langchain_google_genai import ChatGoogleGenerativeAI
import os

gemini_api_key = os.getenv("GOOGLE_API_KEY")

gemini = ChatGoogleGenerativeAI(
    model="gemini-2.0-flash",
    google_api_key=gemini_api_key,
    temperature=0.0
    )

# Inicializa o modelo do ChatOllama com parêmetros específicos
model_llama = ChatOllama(
    model="llama3.1",  # Modelo escolhido
    base_url="http://localhost:11434",   # URL onde o serviço Ollama está rodando
    temperature=0.0,  # Define a temperatura para reduzir a variação nas respostas
)

  from .autonotebook import tqdm as notebook_tqdm


#### Listas de Avaliações

- Usamos o *DeepSeek-V3* para gerar 10 feedbacks para cada uma das possíveis classificações: positivo, negativo e neutro.

- Essas listas foram criadas para fornecer exemplos representativos de cada tipo de sentimento nas avaliações.

- Posteriormente, para fins de teste, foi criada uma lista de *feedbacks não rotulados*, contendo todas as avaliações das listas anteriores.

In [5]:
# Lista de exemplos de feedbacks negativos
negative_feedbacks = [
    "O conteúdo é muito superficial, não aprofunda os temas.",
    "As aulas são longas e cansativas, difícil manter a atenção.",
    "Faltou material prático para aplicar o que foi ensinado.",
    "A plataforma é lenta e trava constantemente.",
    "O instrutor não explica de forma clara, fica confuso.",
    "O curso é caro para o pouco conteúdo que oferece.",
    "Não gostei da falta de interação com os instrutores.",
    "O certificado não é reconhecido no mercado.",
    "As atividades são repetitivas e pouco desafiadoras.",
    "O suporte é demorado e não resolve os problemas direito."
]
# Lista de exemplos de feedbacks positivos
positive_feedbacks = [
    "O curso é excelente, conteúdo muito bem organizado!",
    "Aprendi muito e consegui aplicar no meu trabalho. Recomendo!",
    "Instrutores claros e didáticos. Foi uma ótima experiência.",
    "O material de apoio é completo e fácil de entender.",
    "Adorei a plataforma, muito intuitiva e fácil de usar.",
    "O curso superou minhas expectativas. Parabéns à equipe!",
    "Conteúdo atualizado e relevante para o mercado atual.",
    "As atividades práticas ajudaram a fixar o conhecimento.",
    "Suporte rápido e eficiente. Tive todas as minhas dúvidas resolvidas.",
    "A interação com os alunos foi excelente."
]

# Lista de exemplos com feedbacks neutros
neutral_feedbacks = [
    "O curso é bom, mas poderia ter mais exemplos práticos.",
    "O conteúdo é interessante, mas algumas aulas são muito longas.",
    "Gostei do material, mas a plataforma poderia ser mais estável.",
    "O curso atendeu às minhas expectativas, mas nada extraordinário.",
    "As explicações são claras, mas o ritmo é um pouco lento.",
    "O conteúdo é útil, mas senti falta de mais interação com os instrutores.",
    "O curso é razoável, mas o preço poderia ser mais acessível.",
    "Achei o material completo, mas algumas partes são repetitivas.",
    "O curso é bom para iniciantes, mas avançados podem achar básico.",
    "A experiência foi ok, mas esperava mais atividades práticas."
]

# Lista de exemplos com feedbacks não classificados
unlabelled_feedbacks = positive_feedbacks + negative_feedbacks + neutral_feedbacks

#### Estrutura da Resposta  

- Definição da classe `SentimentAnalysisResponse`, que será utilizada como base estrutural para armazenar os resultados da análise de sentimentos.  

- A classe herda de `BaseModel` do Pydantic.  

- O atributo `sentiment` representa o rótulo de sentimento atribuído ao texto, podendo assumir apenas os valores "positivo", "neutro" ou "negativo".  

- O `Field` é utilizado para definir uma descrição do campo, auxiliando na documentação e na validação dos valores permitidos.  


In [6]:
from pydantic import BaseModel, Field
from typing import Literal


class SentimentAnalysisResponse(BaseModel):
    """A resposta de uma função que realiza análise de sentimento em um texto."""

    # A classe do sentimento associado ao texto
    sentiment: Literal["positive", "neutral", "negative"] = Field(
        default_factory=str,
        description="The sentiment label assigned to the text. You can only have 'positive' or 'negative' as values.",
    )

#### Solicitando Respostas ao Modelo  

- Utilizamos o método `.with_structured_output`, que permite estruturar a saída do modelo de forma mais organizada.  

- Ele atua como um parser de respostas, garantindo que a saída esteja no formato esperado, utilizando a classe `SentimentAnalysisResponse`.  

- No exemplo abaixo, foi passada uma avaliação textual genérica sobre uma aula para que o modelo possa determinar seu sentimento.  

In [7]:
model_sentiment_gemini = gemini.with_structured_output(SentimentAnalysisResponse)

output = model_sentiment_gemini.invoke("A aula não foi muito boa e as atividades não foram interessantes como o esperado.")
output

SentimentAnalysisResponse(sentiment='negative')

- Conclusão: com pouco esforço de desenvolvimento e rapidamente, é possível obter uma aplicação que resolve um problema real para pessoas que necessitam dessa solução no TRE-RN.

#### Implementando o agente

- Inicialmente, criamos dois tools: um responsável por responder com a avaliação analisada e sua classificação, e outro responsável por contar o total de ocorrências de cada classe.  

- Após discutir com o cliente, percebemos que fazia mais sentido centralizar tudo em uma única ferramenta. Essa ferramenta pode responder com uma classificação para cada avaliação ao receber uma lista de comentários e fornecer a contagem total. Se receber apenas um comentário, retornará apenas a classificação.  

- Os nomes são: `analyze_sentiment()` e `count_sentiments()`.  

- Utilizamos a função *LangChain* `create_tool_calling_agent` para criar o agente.  

In [8]:
from pydantic import BaseModel, Field
from typing import List, Literal, Union
from langchain.tools import tool
from langchain.memory import ConversationBufferMemory
from collections import Counter
from langchain.agents import create_tool_calling_agent, AgentExecutor
from langchain_core.prompts import ChatPromptTemplate

class SentimentAnalysisResponse(BaseModel):
    """A resposta de uma função que realiza análise de sentimento em um texto."""

    # A classe do sentimento associado ao texto
    sentiment: Literal["positive", "neutral", "negative"] = Field(
        default_factory=str,
        description="The sentiment label assigned to the text. You can only have 'positive', 'neutral' or 'negative' as values.",
    )
model_sentiment_gemini = gemini.with_structured_output(SentimentAnalysisResponse)
# Criar um Tool para análise de sentimentos
@tool
def analyze_sentiment(texts: Union[str, List[str]]) -> dict:
    """
    Recebe um único texto ou uma lista de textos e retorna a classificação de sentimento de cada um.
    Se for uma lista, também retorna a contagem total de cada classificação.
    """

    if isinstance(texts, str):
        # Caso seja um único texto, retorna apenas sua classificação
        return model_sentiment_gemini.invoke(texts)

    elif isinstance(texts, list):
        # Caso seja uma lista, processa cada um e gera um resumo da contagem
        sentiment_counts = Counter()
        individual_results = []

        for text in texts:
            result = model_sentiment_gemini.invoke(text)
            sentiment_counts[result.sentiment] += 1
            individual_results.append(result)

        # Retorna os resultados individuais de cada avaliação e o total somado
        return {
            "individual_results": individual_results,
            "total_counts": dict(sentiment_counts)
        }


# Criar um Tool para contar os sentimentos
@tool
def count_sentiments(texts: List[str]) -> dict:
    """Recebe uma lista de textos e retorna a contagem de sentimentos (positivo, neutro, negativo)."""
    sentiment_counts = Counter()

    for text in texts:
        output = model_sentiment_gemini.invoke(text)
        sentiment_counts[output.sentiment] += 1

    return dict(sentiment_counts)

# Criar um agente com memória
memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)

# Define a prompt template for the chat, including system instructions and placeholders
prompt = ChatPromptTemplate.from_messages(
    [
        (
            "system",
            "You are a helpful assistant.",
        ),
        ("placeholder", "{chat_history}"),
        ("human", "{input}"),
        ("placeholder", "{agent_scratchpad}"),
    ]
)
tools=[analyze_sentiment]
# Inicializar o agente
agent = create_tool_calling_agent(
    tools=tools,  # Tools disponíveis para o agente
    llm=gemini,
    prompt=prompt
)

  memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)


- A fonte de dados vem de um formulário do Google e, após todos os estudantes responderem, os dados podem ser baixados em diferentes formatos, incluindo **CSV**.  

- Assim, importamos o dataframe e o convertemos em uma lista contendo apenas reviews não nulas.  

In [9]:
import pandas as pd

df_manual = pd.read_csv("./content/Avaliação de Reação.csv", usecols=[14])

reviews = df_manual.dropna()
reviews.head(50)
reviews_filtered = reviews.head()
unlabelled_feedbacks = reviews_filtered['Unnamed: 14'].tolist()
print(len(unlabelled_feedbacks))


5


- Após definir o agente, podemos usar `AgentExecutor()` do *LangChain* para executá-lo, recebendo a entrada do usuário.  

- Utilizamos 5 pontos de dados previamente não classificados, obtidos a partir do dataframe inserido anteriormente.  

In [10]:
# Cria uma instância de AgentExecutor com o agente, as ferramentas e a verbosidade especificados  
agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True)  

# Invoca o agent_executor com um dicionário contendo a consulta de entrada  
output = agent_executor.invoke(  
    {  
        "input": f"Informe a classificação para cada um dos textos em {reviews_filtered['Unnamed: 14']}",  # Consulta de entrada solicitando a classificação dos textos  
    }  
)  
print(output['output']) 



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3m
Invoking: `analyze_sentiment` with `{'texts': ['Tudo ótimo.', 'Ótimo curso.', 'Treinamento oportuno', 'Nada a acrescentar', 'Curso ótimo!']}`


[0m[36;1m[1;3m{'individual_results': [SentimentAnalysisResponse(sentiment='positive'), SentimentAnalysisResponse(sentiment='positive'), SentimentAnalysisResponse(sentiment='positive'), SentimentAnalysisResponse(sentiment=''), SentimentAnalysisResponse(sentiment='positive')], 'total_counts': {'positive': 4, '': 1}}[0m[32;1m[1;3mA classificação de sentimento para os textos fornecidos é a seguinte:
- "Tudo ótimo.": positivo
- "Ótimo curso.": positivo
- "Treinamento oportuno": positivo
- "Nada a acrescentar": sem sentimento
- "Curso ótimo!": positivo

Das 5 frases, 4 foram classificadas como positivas e 1 não teve sentimento detectado.[0m

[1m> Finished chain.[0m
A classificação de sentimento para os textos fornecidos é a seguinte:
- "Tudo ótimo.": positivo
- "Ótimo curso.": pos

### Portal de Dados Abertos - Pandas Agent 

#### Pontos-chave 

- O Portal de Dados Abertos fornece dados de transparência do TRE/RN, agrupados em grandes áreas, como: Secretaria de Gestão de Pessoas, Secretaria de Tecnologia da Informação e Eleições, e Zonas Eleitorais.  

- O portal permite o download dos dados em formato CSV sem a necessidade de solicitação — basta acessar o site e selecionar o tema de interesse. O site está disponível em: [https://dados.tre-rn.jus.br/](https://dados.tre-rn.jus.br/).  

- O projeto consiste na implementação de um agente de inteligência artificial para responder perguntas e realizar análises iniciais nos dataframes.  


In [11]:
%pip install tabulate

Note: you may need to restart the kernel to use updated packages.


In [12]:
# Importa a função para criar um agente que trabalha com DataFrames do pandas  
from langchain_experimental.agents.agent_toolkits import create_pandas_dataframe_agent  

# Importa a biblioteca pandas para manipulação de dados  
import pandas as pd  

# Carrega o arquivo CSV contendo o histórico de diárias, utilizando ";" como delimitador  
df_diarias = pd.read_csv("./content/diarias-historico.csv", delimiter=";")  

In [13]:
# Exibe as primeiras linhas do DataFrame 'Diárias' para verificar se os dados foram carregados corretamente
df_diarias.head()

Unnamed: 0,MES PAGAMENTO,SERVIDOR,CARGO / FUNÇÃO,DESLOCAMENTOS,PERÍODO,VALOR LÍQUIDO,OBJETIVO DA VIAGEM
0,2021-01,JOÃO BOSCO TEIXEIRA JUNIOR,AUXILIAR DE SERVIÇOS GERAIS,De JOÃO CÂMARA para SANTANA DO MATOS;,De 06.01.2021 até 08.01.2021,"R$840,00",Substituição do servidor no Posto de Atendimen...
1,2021-01,JOÃO BOSCO TEIXEIRA JUNIOR,AUXILIAR DE SERVIÇOS GERAIS,De JOÃO CÂMARA para SANTANA DO MATOS;,De 10.01.2021 até 15.01.2021,"R$1.848,00",Substituição do servidor no Posto de Atendimen...
2,2021-01,JOÃO BOSCO TEIXEIRA JUNIOR,AUXILIAR DE SERVIÇOS GERAIS,De JOÃO CÂMARA para SANTANA DO MATOS;,De 17.01.2021 até 21.01.2021,"R$1.512,00",Substituição do servidor no Posto de Atendimen...
3,2021-02,ARTUR NASCIMENTO NASCIMENTO DA COSTA,ANALISTA JUDICIÁRIO/FC-01,De NATAL para SÃO MIGUEL DO CAMPRESTRE; De SÃO...,De 03.02.2021 até 04.02.2021,"R$421,28","Vistoria técnica avaliativa, para subsidiar o ..."
4,2021-02,ARTUR NASCIMENTO NASCIMENTO DA COSTA,ANALISTA JUDICIÁRIO/FC-01,De NATAL para CAICÓ; De CAICÓ para CURRAIS NOV...,De 22.02.2021 até 26.02.2021,"R$1.305,20","Vistoria técnica avaliativa, para subsidiar o ..."


In [14]:
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain.prompts import PromptTemplate

import os


gemini_api_key = os.getenv('GOOGLE_API_KEY')
gemini = ChatGoogleGenerativeAI(
    model="gemini-2.0-flash",
    google_api_key=gemini_api_key,
    temperature=0.0
    )

In [15]:
# Cria um PromptTemplate para reformular as respostas de forma mais conversacional
prompt_template = PromptTemplate(
    input_variables=["query"],
    template="""
    Você é um assistente amigável e prestativo. Sua tarefa é reformular a resposta fornecida de maneira clara, explicativa e simpática. 
    A resposta deve ser dada em Português-Brasil e deve soar natural, como se fosse uma conversa.

    Resposta original: {query}

    Resposta reformulada:
    """
)
pipeline = prompt_template | gemini

In [16]:
# Adiciona um prefixo ao prompt para explicar os dataframe
prefixo = """
Você tem acesso a um dataframe:
1. `df_diarias`: Contém informações sobre diárias pagas pelo TRE-RN.

Use o dataframe apropriado para responder às perguntas.
"""

# Cria um agente de dataframes do padas usando o LLM e dataframe especificados
pandas_agent = create_pandas_dataframe_agent(
    llm=gemini,  # Passa o modelo ChatOpenAI inicializado
    df=df_diarias,  # Fornece o dataframe a ser usado pelo agente
    verbose=True,  # Habilita o modo verboso para log detalhado
    agent_type="zero-shot-react-description",  # Especifica o tipo de agente a ser criado
    allow_dangerous_code=True,  # Opta por permitir o uso da ferramenta REPL
    prefix=prefixo
)

In [17]:
def humanized_agent_response(query):
    try:
        # Obtém a resposta original do pandas_agent
        resposta_original = pandas_agent.invoke(query)

        # Garante que a resposta seja uma string
        if isinstance(resposta_original, dict):
            resposta_original = resposta_original.get("output", "") or resposta_original.get("input", "")
        resposta_original = str(resposta_original).strip()

        # Passa a resposta original para o pipeline para humanização
        resposta_humanizada = pipeline.invoke({"query": resposta_original})

        # Garante que a resposta reformulada seja uma string
        if isinstance(resposta_humanizada, dict):
            resposta_humanizada = resposta_humanizada.get("output", "") or resposta_humanizada.get("query", "")
        resposta_humanizada = str(resposta_humanizada.content).strip()

        return resposta_humanizada

    except Exception as e:
        return f"Desculpe, ocorreu um erro ao reformular a resposta: {str(e)}"

In [18]:
print(df_diarias['SERVIDOR'].nunique())

493


In [19]:
query = "Pode me informar a quantidade de servidores diferentes?"
response = pandas_agent.invoke(query)
print(response)



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3mThought: To find the number of unique servers, I need to access the 'SERVIDOR' column of the dataframe and count the distinct values.
Action: python_repl_ast
Action Input: `df['SERVIDOR'].nunique()`[0m[36;1m[1;3m493[0m[32;1m[1;3mI now know the final answer
Final Answer: 493[0m

[1m> Finished chain.[0m
{'input': 'Pode me informar a quantidade de servidores diferentes?', 'output': '493'}


### Portal de Dados Abertos - RAG

#### Pontos-chave

- Para este projeto, foi utilizado o FAISS como **retriever** e o modelo de embeddings do Google.

- O RAG foi testado com os dados dos servidores ativos, disponibilizados em formato CSV no Portal de Dados Abertos.

#### Instalando o `FAISS`

- FAISS (Facebook AI Similarity Search) é uma biblioteca desenvolvida pelo Facebook AI Research para busca eficiente por similaridade e clustering de vetores de alta dimensionalidade. Ela é amplamente utilizada em tarefas como recuperação de informações, busca por similaridade e sistemas de recomendação.

In [20]:
%pip install langchain faiss-cpu

Note: you may need to restart the kernel to use updated packages.


#### CSV Loader
- Esta seção demonstra como carregar um arquivo CSV linha por linha como uma coleção de documentos usando o CSVLoader do módulo langchain.document_loaders. Isso é útil para processar dados estruturados em aplicações de linguagem natural, como Geração Aumentada por Recuperação (RAG) e indexação de documentos

In [21]:
from langchain.document_loaders import CSVLoader

# Caminho do arquivo
csv_path = "content\servidor_ativo.csv"
loader = CSVLoader(file_path="content\servidor_ativo.csv", csv_args={"delimiter":";"}, encoding='utf-8')
documentos = loader.load()
print(documentos)

[Document(metadata={'source': 'content\\servidor_ativo.csv', 'row': 0}, page_content='nome: ADARILIANY DE FRANÇA SILVA\nmatricula: 60002242\nlotacao: 04ª ZE\nnivel: \ncargo: \narea: \nespecialidade: \nsituacao: REQUISITADO\ncomissao: \ningresso: 2024-08-19'), Document(metadata={'source': 'content\\servidor_ativo.csv', 'row': 1}, page_content='nome: ADRIANA FERNANDES DE MEDEIROS\nmatricula: 92440643\nlotacao: AJCRE\nnivel: SUPERIOR\ncargo: ANALISTA JUDICIARIO\narea: ADMINISTRATIVA\nespecialidade: \nsituacao: EFETIVO\ncomissao: ASSISTENTE III\ningresso: 2006-03-09'), Document(metadata={'source': 'content\\servidor_ativo.csv', 'row': 2}, page_content='nome: ADRIANA KARLA DE OLIVEIRA FERREIRA BEZERRA\nmatricula: 30024390\nlotacao: NAI\nnivel: INTERMEDIÁRIO\ncargo: TECNICO JUDICIARIO\narea: APOIO ESPECIALIZADO\nespecialidade: ENFERMAGEM\nsituacao: EFETIVO\ncomissao: ASSISTENTE I\ningresso: 2006-02-16'), Document(metadata={'source': 'content\\servidor_ativo.csv', 'row': 3}, page_content='nom

#### Formatação dos documentos (linhas)

- Esta etapa reformata os documentos extraídos do CSV em um formato textual contínuo e estruturado, tornando a informação mais compreensível. O processo transforma cada linha do documento em um texto legível, preservando atributos chave como nome, número de matrícula, cargo e departamento.

In [22]:
def reformat_document(doc):
    # Divide o conteúdo em linhas
    linhas = doc.page_content.split("\n")
    info = {}
    # Processa cada linha, extraindo chave e valor
    for linha in linhas:
        if ":" in linha:
            chave, valor = linha.split(":", 1)
            # Se o valor estiver vazio após remover espaços, atribua "não informado"
            valor_formatado = valor.strip() if valor.strip() else "não informado"
            info[chave.strip()] = valor_formatado
    # Cria um texto formatado de forma natural
    texto_formatado = (
        f"{info.get('nome', 'não informado')}, matrícula {info.get('matricula', 'não informado')}, "
        f"lotado em {info.get('lotacao', 'não informado')}, nível {info.get('nivel', 'não informado')}, "
        f"cargo {info.get('cargo', 'não informado')}, área {info.get('area', 'não informado')}, "
        f"situação {info.get('situacao', 'não informado')}, especialista em {info.get('especialidade', 'não informado')} ingresso em {info.get('ingresso', 'não informado')}."
    )
    # Atualiza o conteúdo do documento
    #doc.page_content = texto_formatado
    return texto_formatado

# Aplica a reformatação a todos os documentos
documentos_formatados = [reformat_document(doc) for doc in documentos]
#documento = [reformat_document(doc) for doc in documentos]

In [23]:
print(documentos_formatados[100])

CLEONICE FERREIRA DE ARAUJO MACIEL, matrícula 60001974, lotado em 08ª ZE, nível não informado, cargo não informado, área não informado, situação REQUISITADO, especialista em não informado ingresso em 2018-07-04.


- Uma abordagem diferente separando por chunks que não obteve resultados satisfatórios tendo em vista a independência entre cada linha do dataframe

In [24]:
'''
# Definir o número de linhas por chunk
num_linhas_por_chunk = 5

# Dividir o documento único em linhas
linhas = documento.split("\n")

# Criar chunks de 50 linhas cada
chunks = ["\n".join(linhas[i : i + num_linhas_por_chunk]) for i in range(0, len(linhas), num_linhas_por_chunk)]

# Exibir informações sobre os chunks gerados
print(f"Total de chunks gerados: {len(chunks)}")
print("\n--- Exemplo de um Chunk ---\n")
print(chunks[0])  # Exibir o primeiro chunk para conferência
'''


'\n# Definir o número de linhas por chunk\nnum_linhas_por_chunk = 5\n\n# Dividir o documento único em linhas\nlinhas = documento.split("\n")\n\n# Criar chunks de 50 linhas cada\nchunks = ["\n".join(linhas[i : i + num_linhas_por_chunk]) for i in range(0, len(linhas), num_linhas_por_chunk)]\n\n# Exibir informações sobre os chunks gerados\nprint(f"Total de chunks gerados: {len(chunks)}")\nprint("\n--- Exemplo de um Chunk ---\n")\nprint(chunks[0])  # Exibir o primeiro chunk para conferência\n'

#### Implementando o RAG

- Definição de chave da API do Google

In [25]:
import getpass
import os
from dotenv import load_dotenv

load_dotenv()

if "GOOGLE_API_KEY" not in os.environ:
    os.environ["GOOGLE_API_KEY"] = getpass.getpass("Provide your Google API key here")

In [26]:
print(os.environ["GOOGLE_API_KEY"])

AIzaSyBEAIrQ8PqWSXcjJjx2CQEUfXElpK1w87I


- Utilização do modelo de embeddings do google

In [27]:
from langchain_google_genai import GoogleGenerativeAIEmbeddings

embeddings = GoogleGenerativeAIEmbeddings(
    model="models/text-embedding-004",
    )

In [28]:
from langchain.vectorstores import FAISS
from langchain.docstore.document import Document

# documentos = [Document(page_content=chunk) for chunk in chunks]

# Cria um 'vectorstore' utilizando o FAISS a partir de uma lista de documentos 
# (documentos) e suas representações vetoriais (embeddings)
vectorstore = FAISS.from_documents(documents=documentos, embedding=embeddings)

In [29]:
# Importa class ChatOllama do módulo langchain_ollama module
from langchain_ollama import ChatOllama
from langchain_google_genai import ChatGoogleGenerativeAI
import os

gemini_api_key = os.getenv("GOOGLE_API_KEY")

gemini = ChatGoogleGenerativeAI(
    model="gemini-2.0-flash",
    google_api_key=gemini_api_key,
    temperature=0.0
    )

# Inicializa o modelo do ChatOllama com parêmetros específicos
model_llama = ChatOllama(
    model="llama3.1",  # Modelo escolhido
    base_url="http://localhost:11434",   # URL onde o serviço Ollama está rodando
    temperature=0.0,  # Define a temperatura para reduzir a variação nas respostas
)

In [30]:
from langchain.chains import RetrievalQA
from langchain.chains.question_answering import load_qa_chain

# Configura o retriever para buscar as 8 melhores correspondências
retriever = vectorstore.as_retriever(search_kwargs={"k": 8})

# Carrega o encadeamento de QA com o modelo gemini e o tipo de encadeamento 'stuff'
chain = load_qa_chain(gemini, chain_type="stuff")

# Cria o encadeamento de Pergunta e Resposta combinando o retriever e o encadeamento de QA
qa_chain = RetrievalQA(combine_documents_chain=chain, retriever=retriever)


stuff: https://python.langchain.com/docs/versions/migrating_chains/stuff_docs_chain
map_reduce: https://python.langchain.com/docs/versions/migrating_chains/map_reduce_chain
refine: https://python.langchain.com/docs/versions/migrating_chains/refine_chain
map_rerank: https://python.langchain.com/docs/versions/migrating_chains/map_rerank_docs_chain

See also guides on retrieval and question-answering here: https://python.langchain.com/docs/how_to/#qa-with-rag
  chain = load_qa_chain(gemini, chain_type="stuff")
  qa_chain = RetrievalQA(combine_documents_chain=chain, retriever=retriever)


In [31]:
# Recupera os documentos com base na consulta "Me informe os servidores com ingresso exatamente no ano de 2010?"
retrieved_docs = retriever.invoke("Me informe os servidores com ingresso exatamente no ano de 2010?")

# Para cada documento recuperado, imprime o conteúdo da página
for doc in retrieved_docs:
    print(doc.page_content)

nome: ERLON GONÇALVES DE BRITO ALMEIDA
matricula: 92440737
lotacao: 
nivel: SUPERIOR
cargo: ANALISTA JUDICIARIO
area: ADMINISTRATIVA
especialidade: 
situacao: EFETIVO REMOVIDO
comissao: 
ingresso: 2010-03-25
nome: ADRIANO FERNANDES DA SILVA
matricula: 60001780
lotacao: SOG
nivel: 
cargo: 
area: 
especialidade: 
situacao: EXERCÍCIO PROVISÓRIO
comissao: ASSISTENTE I
ingresso: 2013-04-02
nome: DIEGO MARINHEIRO CORDENONSE
matricula: 30024580
lotacao: 65ª ZE
nivel: SUPERIOR
cargo: TECNICO JUDICIARIO
area: ADMINISTRATIVA
especialidade: 
situacao: EFETIVO
comissao: ASSISTENTE I
ingresso: 2012-06-22
nome: JOSE ROBERTO OLIVEIRA DIAS
matricula: 60001692
lotacao: 10ª ZE
nivel: 
cargo: 
area: 
especialidade: 
situacao: REQUISITADO
comissao: ASSISTENTE I
ingresso: 2011-07-26
nome: DENILSON BASTOS DA SILVA
matricula: 20024241
lotacao: SSI
nivel: INTERMEDIÁRIO
cargo: TECNICO JUDICIARIO
area: ADMINISTRATIVA
especialidade: 
situacao: EFETIVO
comissao: CHEFE DE SEÇÃO
ingresso: 1998-05-14
nome: BENEDITA 

In [32]:
pergunta = "Qual o cargo da servidora BENEDITA e me diga se ela possui comissao."

# Faz a consulta sobre o cargo e comissão da servidora BENEDITA
resposta = qa_chain.invoke(pergunta)

# Exibe a resposta
print(resposta["result"])


BENEDITA BRITO DA SILVA é REQUISITADA e possui comissão de ASSISTENTE I.


In [33]:
pergunta = "Me informe os servidores com ingresso exatamente no ano de 2010?"

# Faz a consulta sobre os servidores com ingresso no ano de 2010
resposta = qa_chain.invoke(pergunta)
print(resposta["result"])

Os servidores com ingresso exatamente no ano de 2010 são:

*   ERLON GONÇALVES DE BRITO ALMEIDA, com ingresso em 2010-03-25
*   BENEDITA BRITO DA SILVA, com ingresso em 2010-07-21


In [34]:
# Carrega o arquivo CSV com dados de servidores
df = pd.read_csv("content\servidor_ativo.csv", delimiter=";", encoding="UTF-8")

In [35]:
# Filtra e exibe os servidores cujo ingresso contém "2010"
print(df.loc[df["ingresso"].str.contains("2010")])

                                   nome  matricula lotacao          nivel  \
67              BENEDITA BRITO DA SILVA   60001619  39ª ZE            NaN   
158    ERLON GONÇALVES DE BRITO ALMEIDA   92440737     NaN       SUPERIOR   
190  FRANCISCO DE ASSIS MARTINS CORREIA   60001589  05ª ZE            NaN   
232           HIRAN MEDEIROS DE AZEVEDO   60001626  68ª ZE            NaN   
339      LUIZ EDUARDO DA SILVA TEIXEIRA   60001602  52ª ZE            NaN   
417                OLAVO CORTEZ CEZARIO   92440779  13ª ZE       SUPERIOR   
422    PATRICIA TEIXEIRA BORGES E SOUZA   30024527   SEPAT  INTERMEDIÁRIO   
431            PRIMO VAZ DA COSTA FILHO   60001577   AJCRE            NaN   

                   cargo            area especialidade  \
67                   NaN             NaN           NaN   
158  ANALISTA JUDICIARIO  ADMINISTRATIVA                 
190                  NaN             NaN           NaN   
232                  NaN             NaN           NaN   
339             

#### Considerações Finais
- Trabalhar com dataframes para criar um RAG pode não ser a melhor possibilidade de estrutura de dados.

- Devido à independência natural de cada linha e à falta de relações fortes entre os dados.

- Mesmo assim, para consultas específicas que solicitam informações de um único documento, é possível obter respostas satisfatórias.