# Lab 1: Fast Agent - Construa um Agente SQL Rapidamente!

<img src="./assets/LC_L1_top.png" align="left" width="500">

## üéØ O que voc√™ vai aprender neste Lab

Neste lab introdut√≥rio, voc√™ vai construir um **agente SQL completo em poucas linhas de c√≥digo**. Este √© o ponto de partida do curso LangChain Essentials.

### Conceitos-chave:
- **LangChain**: Biblioteca open-source para construir aplica√ß√µes com LLMs (Large Language Models)
- **Agente ReAct**: Agente que opera em ciclo de **Reasoning** (racioc√≠nio) e **Acting** (a√ß√£o)
- **Tools (Ferramentas)**: Fun√ß√µes que o agente pode usar para interagir com o mundo real

### Por que usar LangChain?

1. **Independ√™ncia de modelo**: Troque entre OpenAI, Anthropic, Databricks sem reescrever c√≥digo
2. **Agentes poderosos**: Framework ReAct built-in com persist√™ncia e durabilidade
3. **Ecossistema rico**: Mais de 100 integra√ß√µes com provedores de LLM
4. **Middleware customiz√°vel**: Adapte o agente √†s suas necessidades espec√≠ficas

## üîÑ O Ciclo ReAct (Reasoning + Acting)

O agente ReAct opera em um loop cont√≠nuo:

```
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ                    CICLO ReAct                       ‚îÇ
‚îÇ                                                      ‚îÇ
‚îÇ   1. RECEBE PERGUNTA                                ‚îÇ
‚îÇ          ‚Üì                                          ‚îÇ
‚îÇ   2. RACIOCINA (Reasoning)                          ‚îÇ
‚îÇ          ‚Üì                                          ‚îÇ
‚îÇ   3. USA FERRAMENTA (Acting)                        ‚îÇ
‚îÇ          ‚Üì                                          ‚îÇ
‚îÇ   4. OBSERVA RESULTADO                              ‚îÇ
‚îÇ          ‚Üì                                          ‚îÇ
‚îÇ   5. Pode responder? ‚îÄ‚îÄ‚îÄ‚îÄ‚Üí SIM ‚îÄ‚îÄ‚Üí RESPOSTA FINAL  ‚îÇ
‚îÇ          ‚îÇ                                          ‚îÇ
‚îÇ          ‚îî‚îÄ‚îÄ N√ÉO ‚îÄ‚îÄ‚Üí Volta ao passo 2              ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
```

**Importante**: O agente pode errar e se autocorrigir! Quando uma query SQL falha, ele analisa o erro e tenta novamente com uma abordagem diferente.

## ‚öôÔ∏è Setup - Configura√ß√£o do Ambiente

Primeiro, instalamos as bibliotecas necess√°rias e configuramos o MLflow para rastreamento autom√°tico.

**Bibliotecas utilizadas:**
- `mlflow`: Rastreamento de experimentos e modelos
- `langchain`: Framework principal para LLMs
- `databricks-langchain`: Integra√ß√£o nativa com Databricks
- `tabulate`: Formata√ß√£o de tabelas para sa√≠da

In [0]:
%pip install -U mlflow>=3 langchain>=1 langchain.community tabulate databricks-langchain --upgrade --force-reinstall typing_extensions
dbutils.library.restartPython()

In [0]:
import mlflow

In [0]:
mlflow.langchain.autolog()

### üìä MLflow Autolog

O `mlflow.langchain.autolog()` registra automaticamente todas as chamadas do agente, incluindo:
- Inputs e outputs de cada invoca√ß√£o
- Lat√™ncia de cada chamada
- Tokens utilizados
- Hist√≥rico de mensagens

Isso √© essencial para **debugging**, **monitoramento** e **avalia√ß√£o** de agentes em produ√ß√£o.

In [0]:
%sql
show catalogs

## üî® Definindo a Ferramenta (Tool)

Uma **tool** √© uma fun√ß√£o Python que o agente pode chamar para interagir com o mundo externo. O decorador `@tool` transforma a fun√ß√£o em uma ferramenta que o LLM pode descobrir e usar.

### Anatomia de uma Tool:
1. **Nome**: Inferido do nome da fun√ß√£o (`execute_sql`)
2. **Descri√ß√£o**: Extra√≠da da docstring - o LLM usa isso para decidir QUANDO usar a ferramenta
3. **Par√¢metros**: Tipos inferidos da assinatura - o LLM usa isso para saber COMO chamar a ferramenta
4. **Retorno**: String que ser√° enviada de volta ao LLM como "observa√ß√£o"

In [0]:
from langchain_core.tools import tool

@tool
def execute_sql(query: str) -> str:
    """Executa um comando SQL no Databricks e retorna os resultados."""
    try:
        result = spark.sql(query).limit(5).toPandas()
        return result.to_markdown()
    except Exception as e:
        return f"Error: {e}"

## üìù System Prompt - Definindo o Comportamento do Agente

O **system prompt** √© a mensagem mais importante do agente. Ele define:
- **Persona**: Quem o agente "√©" (ex: analista SQL)
- **Regras**: O que pode e n√£o pode fazer
- **Comportamento**: Como deve reagir a erros e situa√ß√µes espec√≠ficas

### Dicas para System Prompts Eficazes:
1. Seja **claro e espec√≠fico** sobre o papel do agente
2. Defina **limites** expl√≠citos (somente SELECT, m√°ximo de linhas)
3. Inclua instru√ß√µes de **autocorre√ß√£o** ("se erro, tente novamente")
4. Mantenha **completo mas conciso** - prompts muito longos podem confundir

In [0]:
SYSTEM_PROMPT = """Voc√™ √© um analista cuidadoso de Databricks SQL.
Regras:
- Pense passo a passo.
- Quando precisar de dados, chame a ferramenta `execute_sql` com UMA query SELECT.
- Apenas leitura; sem INSERT/UPDATE/DELETE/ALTER/DROP/CREATE/REPLACE/TRUNCATE.
- Limite a 5 linhas de sa√≠da, a menos que o usu√°rio pe√ßa mais.
- Se a ferramenta retornar 'Error:', revise o SQL e tente novamente.
- Prefira listas expl√≠citas de colunas; evite SELECT *.
"""

## ü§ñ Criando o Agente

Agora juntamos todas as pe√ßas para criar o agente:

1. **Model (llm)**: O c√©rebro - `ChatDatabricks` conecta ao endpoint de serving
2. **Tools**: As m√£os - lista de ferramentas dispon√≠veis
3. **System Prompt**: A personalidade - define comportamento

### Par√¢metros importantes:
- `temperature=0.1`: Baixa temperatura = respostas mais determin√≠sticas e precisas (ideal para SQL)
- `endpoint`: Nome do modelo servido no Databricks Model Serving

In [0]:
from databricks_langchain import ChatDatabricks
from langchain.agents import create_agent

# Inicializar o modelo Databricks
llm = ChatDatabricks(
    endpoint="databricks-gpt-oss-120b",  # ou seu endpoint de serving
    temperature=0.1,
)

# Criar agente com o objeto do modelo
agent = create_agent(
    model=llm,
    tools=[execute_sql],
    system_prompt=SYSTEM_PROMPT,
)

## üìä Visualizando o Grafo do Agente

O LangChain usa o **LangGraph** por baixo dos panos. Podemos visualizar o grafo do agente para entender como ele funciona.

Este diagrama mostra o ciclo ReAct em a√ß√£o: o modelo raciocina, chama ferramentas, e decide se pode responder ou precisa continuar.

In [0]:
from IPython.display import Image, display

display(Image(agent.get_graph(xray=True).draw_mermaid_png()))

## üöÄ Executando Queries - Veja o Agente em A√ß√£o!

Agora vamos testar o agente. Observe:

1. **O agente N√ÉO conhece o schema** - ele precisa descobrir sozinho via SQL
2. **O agente pode errar** - mas se autocorrige quando recebe mensagens de erro
3. **Usamos `agent.stream`** - para ver as mensagens em tempo real
4. **O agente N√ÉO lembra entre invoca√ß√µes** - cada pergunta come√ßa do zero (veremos como resolver isso no Lab 6 - Memory)

### O que observar na sa√≠da:
- `HumanMessage`: Sua pergunta
- `AIMessage` com `tool_calls`: O agente decidindo chamar uma ferramenta
- `ToolMessage`: Resultado da ferramenta (dados ou erro)
- `AIMessage` final: Resposta formatada para o usu√°rio

In [0]:
question = "Qual tabela tem maior numero de registros no catalogo nasa_gcn e schema silver?"

for step in agent.stream(
    {"messages": question},
    stream_mode="values",
):
    step["messages"][-1].pretty_print()

In [0]:
question = "Liste todas as tabelas dispon√≠veis no cat√°logo nasa_gcn e schema silver."

for step in agent.stream(
    {"messages": question},
    stream_mode="values",
):
    step["messages"][-1].pretty_print()

## üéÆ Sua Vez - Experimente!

Agora √© sua vez de testar o agente. Tente perguntas como:
- "Quantos registros existem na tabela X?"
- "Quais colunas tem a tabela Y?"
- "Liste os valores √∫nicos de uma coluna"
- "Fa√ßa um resumo estat√≠stico"

**Dica**: Observe como o agente descobre o schema, trata erros, e formata respostas!

In [0]:
question = "Quais s√£o os tipos de eventos mais frequentes no cat√°logo nasa_gcn e schema silver?"

for step in agent.stream(
    {"messages": question},
    stream_mode="values",
):
    step["messages"][-1].pretty_print()

## üìö Resumo e Pr√≥ximos Passos

### O que aprendemos:
- **LangChain** simplifica a cria√ß√£o de aplica√ß√µes com LLMs
- **Agentes ReAct** operam em ciclo de racioc√≠nio ‚Üí a√ß√£o ‚Üí observa√ß√£o
- **Tools** permitem ao agente interagir com sistemas externos
- **System Prompts** definem o comportamento do agente
- **MLflow Autolog** registra automaticamente as execu√ß√µes

### Limita√ß√µes deste agente b√°sico:
1. **Sem mem√≥ria** - esquece tudo entre invoca√ß√µes
2. **Sem streaming token-a-token** - s√≥ vemos passos completos
3. **Sem controle de acesso** - qualquer query √© permitida
4. **Sem aprova√ß√£o humana** - executa automaticamente

### Nos pr√≥ximos labs, voc√™ aprender√°:
- **L2 - Messages**: Entender os tipos de mensagens (Human, AI, Tool, System)
- **L3 - Streaming**: Receber respostas token por token
- **L4 - Tools**: Criar ferramentas mais sofisticadas
- **L5 - MCP**: Conectar a servidores de ferramentas externos
- **L6 - Memory**: Adicionar mem√≥ria de curto prazo
- **L7 - Structured Output**: Gerar respostas em formatos espec√≠ficos
- **L8 - Dynamic Prompts**: Adaptar o prompt dinamicamente
- **L9 - Human in the Loop**: Adicionar aprova√ß√£o humana