<a href="https://colab.research.google.com/github/MarcSan18/Agentes_ia_alura/blob/main/Imers%C3%A3o_Agentes_de_IA_Alura_%2B_Google_Gemini.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [51]:
!pip install -q --upgrade langchain langchain-google-genai google-generativeai

In [52]:
from google.colab import userdata
from langchain_google_genai import ChatGoogleGenerativeAI

GOOGLE_API_KEY = userdata.get('GEMINI_API_KEY')

In [53]:
llm = ChatGoogleGenerativeAI(
    model='gemini-2.5-flash',
    temperature=0.0,
    api_key=GOOGLE_API_KEY
)

In [54]:
resp_test= llm.invoke("quem é voce? Seja direto.")
print(resp_test.content)

Eu sou um modelo de linguagem grande, treinado pelo Google.


In [55]:
TRIAGEM_PROMPT = (
    "Você é um triador de Service Desk para políticas internas da empresa Carraro Desenvolvimento. "
    "Dada a mensagem do usuário, retorne SOMENTE um JSON com:\n"
    "{\n"
    '  "decisao": "AUTO_RESOLVER" | "PEDIR_INFO" | "ABRIR_CHAMADO",\n'
    '  "urgencia": "BAIXA" | "MEDIA" | "ALTA",\n'
    '  "campos_faltantes": ["..."]\n'
    "}\n"
    "Regras:\n"
    '- **AUTO_RESOLVER**: Perguntas claras sobre regras ou procedimentos descritos nas políticas (Ex: "Posso reembolsar a internet do meu home office?", "Como funciona a política de alimentação em viagens?").\n'
    '- **PEDIR_INFO**: Mensagens vagas ou que faltam informações para identificar o tema ou contexto (Ex: "Preciso de ajuda com uma política", "Tenho uma dúvida geral").\n'
    '- **ABRIR_CHAMADO**: Pedidos de exceção, liberação, aprovação ou acesso especial, ou quando o usuário explicitamente pede para abrir um chamado (Ex: "Quero exceção para trabalhar 5 dias remoto.", "Solicito liberação para anexos externos.", "Por favor, abra um chamado para o RH.").'
    "Analise a mensagem e decida a ação mais apropriada."
)

In [56]:
from pydantic import BaseModel, Field
from typing import Literal, List, Dict

class TriagemOut(BaseModel):
    decisão: Literal["AUTO_RESOLVER", "PEDIR_INFO", "ABRIR_CHAMADO"]
    urgencia: Literal["BAIXA", "MEDIA", "ALTA"]
    campos_faltantes: List[str] = Field(default_factory=list)


In [57]:
llm_triagem = ChatGoogleGenerativeAI(
    model='gemini-2.5-flash',
    temperature=0.0,
    api_key=GOOGLE_API_KEY
)

In [58]:
from langchain_core.messages import SystemMessage, HumanMessage

triagem_chain = llm_triagem.with_structured_output(TriagemOut)

def triagem (mensagem: str) -> Dict:
    saida: TriagemOut = triagem_chain.invoke([
        SystemMessage(content=TRIAGEM_PROMPT),
        HumanMessage(content=mensagem)
    ])

    return saida.model_dump()

In [59]:
testes = ("posso reembolsar a irtenet?",
          "Quero mais 5 dias de trabalho remoto, Como faço?",
          "Como será o dia amanhã em Ilheus na Bahia?")

In [None]:
for msg_test in testes:
    print(f"Pergunta: {msg_test}\n) -> Resposta:{triagem(msg_test)}|n")

In [61]:
!pip install -q --upgrade langchain_community faiss-cpu langchain-text-splitters pymupdf

In [62]:
from logging import exception
from pathlib  import Path
from langchain_community.document_loaders import PyMuPDFLoader

docs = []

for n in Path("/content/").glob("*.pdf"):
   try:
      loader = PyMuPDFLoader(str(n))
      docs.extend(loader.load())
      print(f"carregado com sucesso arquivo {n.name}")
   except exception as e:
      print(f"erro ao carregar arquivo {n.name}: {e}")
print (f"total de documentos carregados: {len(docs)}")


carregado com sucesso arquivo Política de Uso de E-mail e Segurança da Informação.pdf
carregado com sucesso arquivo Política de Reembolsos (Viagens e Despesas).pdf
carregado com sucesso arquivo Políticas de Home Office.pdf
total de documentos carregados: 3


In [63]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size = 300,
    chunk_overlap  = 30
)

chunks = text_splitter.split_documents(docs)

In [None]:
chunks

In [65]:
from langchain_google_genai import GoogleGenerativeAIEmbeddings

embeddings = GoogleGenerativeAIEmbeddings(
    model = "models/gemini-embedding-001",
    google_api_key = GOOGLE_API_KEY
)

In [66]:
from langchain_community.vectorstores import FAISS

vectorstore = FAISS.from_documents(chunks, embeddings)

retriever = vectorstore.as_retriever(search_type="similarity_score_threshold",
                                     search_kwargs={"score_threshold":0.3, "k": 4})

In [67]:
from langchain_core.prompts import ChatPromptTemplate
from langchain.chains.combine_documents import create_stuff_documents_chain

prompt_rag = ChatPromptTemplate.from_messages([
    ("system", "Você é um assistente de Service Desk (RH/IT) da empresa Carraro Desenvolvimento."
     "Responda SOMENTE com base no contexto fornecido."
     "Se não houver base suficiente, responda apenas 'Não sei'."),
    ("human", "Pergunte: {input}\n\nContesto: \n{context}")
])

document_chain = create_stuff_documents_chain(llm, prompt_rag)

In [68]:
import re, pathlib

def _clean_text(s: str) -> str:
    return re.sub(r"\s+", " ", s or "").strip()

def extrair_trecho(texto: str, query: str, janela: int = 240) -> str:
    txt = _clean_text(texto)
    termos = [t.lower() for t in re.findall(r"\w+", query or "") if len(t) >= 4]
    pos = -1
    for t in termos:
        pos = txt.lower().find(t)
        if pos != -1: break
    if pos == -1: pos = 0
    ini, fim = max(0, pos - janela//2), min(len(txt), pos + janela//2)
    return txt[ini:fim]

def formatar_citacoes(docs_rel: List, query: str) -> List[Dict]:
    cites, seen = [], set()
    for d in docs_rel:
        src = pathlib.Path(d.metadata.get("source","")).name
        page = int(d.metadata.get("page", 0)) + 1
        key = (src, page)
        if key in seen:
            continue
        seen.add(key)
        cites.append({"documento": src, "pagina": page, "trecho": extrair_trecho(d.page_content, query)})
    return cites[:3]

In [69]:
def perguntar_politica_RAG(pergunta: str) -> Dict:
    docs_relacionados = retriever.invoke(pergunta)

    if not docs_relacionados:
        return {"answer": "Não sei.",
                "citacoes": [],
                "contexto_encontrado": False}

    answer = document_chain.invoke({"input": pergunta,
                                    "context": docs_relacionados})

    txt = (answer or "").strip()

    if txt.rstrip(".!?") == "Não sei":
        return {"answer": "Não sei.",
                "citacoes": [],
                "contexto_encontrado": False}

    return {"answer": txt,
            "citacoes": formatar_citacoes(docs_relacionados, pergunta),
            "contexto_encontrado": True}

In [70]:
testes = ["Posso reembolsar a internet?",
          "Quero mais 5 dias de trabalho remoto. Como faço?",
          "Posso reembolsar cursos ou treinamentos da Alura?",
          "Quantos peixes tem no Rio Cachoeira?"]

In [None]:
for msg_teste in testes:
    if 'retriever' not in locals():
        print("Erro: 'retriever' não está definido. Por favor, execute a célula que cria o retriever (célula 2R5mIkSIqoLV) e resolva o problema de cota, se houver.")
        break
    resposta = perguntar_politica_RAG(msg_teste)
    print(f"PERGUNTA: {msg_teste}")
    print(f"RESPOSTA: {resposta['answer']}")
    if resposta['contexto_encontrado']:
        print("CITAÇÕES:")
        for c in resposta['citacoes']:
            print(f" - Documento: {c['documento']}, Página: {c['pagina']}")
            print(f"   Trecho: {c['trecho']}")
        print("------------------------------------")

In [72]:
!pip install -q --upgrade langgraph

In [73]:
from typing import TypedDict, Optional

class AgentState(TypedDict, total = False):
    pergunta: str
    triagem: dict
    resposta: Optional[str]
    citacoes: List[dict]
    rag_sucesso: bool
    acao_final: str

In [74]:
def node_triagem(state: AgentState) -> AgentState:
    print("Executando nó de triagem...")
    return {"triagem": triagem(state["pergunta"])}

In [75]:
def node_auto_resolver(state: AgentState) -> AgentState:
    print("Executando nó de auto_resolver...")
    resposta_rag = perguntar_politica_RAG(state["pergunta"])

    update: AgentState = {
        "resposta": resposta_rag["answer"],
        "citacoes": resposta_rag.get("citacoes", []),
        "rag_sucesso": resposta_rag["contexto_encontrado"],
    }

    if resposta_rag["contexto_encontrado"]:
        update["acao_final"] = "AUTO_RESOLVER"

    return update

In [76]:
def node_pedir_info(state: AgentState) -> AgentState:
    print("Executando nó de pedir_info...")
    faltantes = state["triagem"].get("campos_faltantes", [])
    if faltantes:
        detalhe = ",".join(faltantes)
    else:
        detalhe = "Tema e contexto específico"

    return {
        "resposta": f"Para avançar, preciso que detalhe: {detalhe}",
        "citacoes": [],
        "acao_final": "PEDIR_INFO"
    }

In [77]:
def node_abrir_chamado(state: AgentState) -> AgentState:
    print("Executando nó de abrir_chamado...")
    triagem = state["triagem"]

    return {
        "resposta": f"Abrindo chamado com urgência {triagem['urgencia']}. Descrição: {state['pergunta'][:140]}",
        "citacoes": [],
        "acao_final": "ABRIR_CHAMADO"
    }

In [78]:
KEYWORDS_ABRIR_TICKET = ["aprovação", "exceção", "liberação", "abrir ticket", "abrir chamado", "acesso especial"]

def decidir_pos_triagem(state: AgentState) -> str:
    print("Decidindo após a triagem...")
    decisao = state["triagem"]["decisão"]

    if decisao == "AUTO_RESOLVER": return "auto"
    if decisao == "PEDIR_INFO": return "info"
    if decisao == "ABRIR_CHAMADO": return "chamado"

In [79]:
def decidir_pos_auto_resolver(state: AgentState) -> str:
    print("Decidindo após o auto_resolver...")

    if state.get("rag_sucesso"):
        print("Rag com sucesso, finalizando o fluxo.")
        return "ok"

    state_da_pergunta = (state["pergunta"] or "").lower()

    if any(k in state_da_pergunta for k in KEYWORDS_ABRIR_TICKET):
        print("Rag falhou, mas foram encontradas keywords de abertura de ticket. Abrindo...")
        return "chamado"

    print("Rag falhou, sem keywords, vou pedir mais informações...")
    return "info"

In [80]:
from langgraph.graph import StateGraph, START, END

workflow = StateGraph(AgentState)

workflow.add_node("triagem", node_triagem)
workflow.add_node("auto_resolver", node_auto_resolver)
workflow.add_node("pedir_info", node_pedir_info)
workflow.add_node("abrir_chamado", node_abrir_chamado)

workflow.add_edge(START, "triagem")
workflow.add_conditional_edges("triagem", decidir_pos_triagem, {
    "auto": "auto_resolver",
    "info": "pedir_info",
    "chamado": "abrir_chamado"
})

workflow.add_conditional_edges("auto_resolver", decidir_pos_auto_resolver, {
    "info": "pedir_info",
    "chamado": "abrir_chamado",
    "ok": END
})

workflow.add_edge("pedir_info", END)
workflow.add_edge("abrir_chamado", END)

grafo = workflow.compile()

In [None]:
from IPython.display import display, Image

graph_bytes = grafo.get_graph().draw_mermaid_png()
display(Image(graph_bytes))

In [82]:
tests= ["Posso reembolsar a internet?",
          "Quero mais 5 dias de trabalho remoto. Como faço?",
          "Posso reembolsar cursos ou treinamentos da Alura?",
          "É possível reembolsar certificações do Google Cloud?",
          "Posso obter o Google Gemini de graça?",
          "Qual é a palavra-chave da aula de hoje?",
          "Quantos peixes tem no mar?"]

In [None]:
for msg_test in testes:
    resposta_final = grafo.invoke({"pergunta": msg_test})

    triag = resposta_final.get("triagem", {})
    print(f"PERGUNTA: {msg_test}")
    print(f"DECISÃO: {triag.get('decisao')} | URGÊNCIA: {triag.get('urgencia')} | AÇÃO FINAL: {resposta_final.get('acao_final')}")
    print(f"RESPOSTA: {resposta_final.get('resposta')}")
    if resposta_final.get("citacoes"):
        print("CITAÇÕES:")
        for citacao in resposta_final.get("citacoes"):
            print(f" - Documento: {citacao['documento']}, Página: {citacao['pagina']}")
            print(f"   Trecho: {citacao['trecho']}")

    print("------------------------------------")

In [None]:
# Create a dummy document and chunks since no PDFs were loaded
from langchain_core.documents import Document

if not docs:
    dummy_content = "This is a dummy document content because no PDF files were found."
    dummy_doc = Document(page_content=dummy_content, metadata={"source": "dummy.pdf", "page": 0})
    docs = [dummy_doc]
    chunks = splitter.split_documents(docs)
    print("Created dummy document and chunks for demonstration.")
else:
    print("PDF documents were loaded, using actual chunks.")

# Projeto de Triagem de Service Desk com Langchain e Google Gemini

Este projeto demonstra a criação de um sistema simples de triagem automática para Service Desk utilizando a biblioteca Langchain e o modelo Google Gemini 2.5 Flash. O objetivo é classificar as mensagens dos usuários em categorias como `AUTO_RESOLVER`, `PEDIR_INFO` ou `ABRIR_CHAMADO`, além de determinar a urgência e identificar campos faltantes. Ele também implementa um sistema básico de Retrieval-Augmented Generation (RAG) para responder a perguntas baseadas em documentos de políticas internas.

**Nota:** Este projeto ainda está em desenvolvimento e pode sofrer alterações.

## Funcionalidades

- Classificação automática de mensagens de Service Desk (`AUTO_RESOLVER`, `PEDIR_INFO`, `ABRIR_CHAMADO`).
- Definição de regras de triagem através de um prompt.
- Saída estruturada em formato JSON utilizando Pydantic.
- Integração com o modelo Google Gemini 2.5 Flash para triagem e respostas RAG.
- Carregamento e processamento de documentos PDF para base de conhecimento.
- Criação de embeddings e armazenamento em um banco de dados vetorial (FAISS).
- Sistema de Retrieval-Augmented Generation (RAG) para responder perguntas com base nos documentos carregados.

## Como usar

1.  **Instalar dependências:** Execute a célula com `pip install` para instalar as bibliotecas necessárias.
2.  **Configurar a API Key:** Obtenha uma chave de API do Google Gemini (Google AI Studio) e adicione-a aos segredos do Colab com o nome `GEMINI_API_KEY`. A célula que carrega a chave já está configurada para usar este nome.
3.  **Carregar Documentos:** Adicione os arquivos PDF das políticas internas na pasta `/content/` do ambiente Colab. Execute a célula que carrega os documentos usando `PyMuPDFLoader`.
4.  **Dividir Documentos:** Execute a célula que utiliza `RecursiveCharacterTextSplitter` para dividir os documentos em pedaços menores (chunks).
5.  **Criar Embeddings e Vector Store:** Execute as células que criam as embeddings usando `GoogleGenerativeAIEmbeddings` e, em seguida, a célula que cria o banco de dados vetorial FAISS a partir dos chunks e embeddings. **Certifique-se de que não há erros de cota nesta etapa.**
6.  **Configurar Cadeias Langchain:** Execute as células que definem os prompts e criam as cadeias Langchain (`llm_triagem`, `triagem_chain`, `prompt_rag`, `document_chain`).
7.  **Testar Triagem:** Execute a célula que demonstra o uso da função `triagem` com mensagens de teste.
8.  **Testar RAG:** Execute a célula que demonstra o uso da função `perguntar_politica_RAG` com perguntas de teste. Certifique-se de que o `retriever` foi criado com sucesso na etapa 5.

## Estrutura do Código

-   **Instalação de Dependências:** Célula com `!pip install`.
-   **Configuração da API Key:** Célula para carregar a chave de API dos segredos do Colab.
-   **Inicialização do LLM para Triagem:** Célula que inicializa o modelo Gemini para a função de triagem.
-   **Prompt de Triagem:** Célula que define o prompt do sistema para a triagem.
-   **Modelo Pydantic para Saída:** Célula que define a estrutura de saída JSON esperada.
-   **Inicialização do LLM para RAG:** Célula que inicializa o modelo Gemini para as respostas RAG.
-   **Função de Triagem:** Célula que implementa a lógica da função de triagem usando a cadeia estruturada.
-   **Testes de Triagem:** Células com exemplos de mensagens para testar a triagem.
-   **Carregamento de Documentos:** Célula para carregar arquivos PDF.
-   **Divisão de Documentos:** Célula para dividir os documentos em chunks.
-   **Inicialização de Embeddings:** Célula para configurar o modelo de embeddings.
-   **Criação do Vector Store e Retriever:** Célula para criar o banco de dados vetorial FAISS e o retriever.
-   **Prompt e Cadeia RAG:** Célula para definir o prompt e criar a cadeia de documentos para o RAG.
-   **Funções Auxiliares RAG:** Células com funções para limpar texto e formatar citações.
-   **Função Principal RAG:** Célula que implementa a função `perguntar_politica_RAG`.
-   **Testes RAG:** Células com exemplos de perguntas para testar o sistema RAG.