# LangGraph com MongoDB: Uma An√°lise Detalhada do Agente de IA

## üéØ Vis√£o Geral

O c√≥digo apresentado demonstra uma implementa√ß√£o sofisticada que combina LangGraph com MongoDB para criar um agente de IA capaz de realizar an√°lises de dados e visualiza√ß√µes. Vamos explorar os aspectos fundamentais e benef√≠cios desta integra√ß√£o.

## üèóÔ∏è Fundamentos do LangGraph Utilizados

### 1. Estrutura de Estado
* Implementa√ß√£o do `AgentState` usando `TypedDict`, seguindo as melhores pr√°ticas do LangGraph
* Campos bem definidos para:
  - Controle de fluxo (`accepted`, `revision`, `max_revision`)
  - Armazenamento de dados (`results`, `database_info`)
  - Visualiza√ß√£o (`plot_needed`, `plot_type`, `plot_html`)

### 2. N√≥s do Grafo
O c√≥digo implementa diversos n√≥s especializados:
* `search_engineer_node`: Coleta informa√ß√µes do banco de dados
* `query_writer_node`: Gera queries MongoDB
* `qa_engineer_node`: Valida as queries
* `chief_dba_node`: Fornece feedback para melhorias
* `execute_query_node`: Executa as queries no MongoDB
* `interpret_results_node`: Analisa os resultados
* `plot_results_node`: Gera visualiza√ß√µes

### 3. Ciclos e Controle de Fluxo
* Implementa√ß√£o de loops condicionais usando `add_conditional_edges`
* Sistema de revis√£o com limite m√°ximo de tentativas
* Fluxo de trabalho c√≠clico para refinamento de queries

## üí™ Vantagens da Integra√ß√£o

### 1. Robustez e Confiabilidade
* **Persist√™ncia de Estado**: Mant√©m o contexto entre execu√ß√µes
* **Tratamento de Erros**: Sistema robusto de handling de exce√ß√µes
* **Valida√ß√£o em M√∫ltiplas Camadas**: QA, DBA, e execu√ß√£o segura

### 2. Flexibilidade e Extensibilidade
* **Modular**: Cada n√≥ tem responsabilidade √∫nica e bem definida
* **Adapt√°vel**: F√°cil adi√ß√£o de novos tipos de an√°lises ou visualiza√ß√µes
* **Configur√°vel**: Par√¢metros ajust√°veis para diferentes casos de uso

### 3. Capacidades Anal√≠ticas
* **Visualiza√ß√£o Din√¢mica**: Suporte a m√∫ltiplos tipos de gr√°ficos
* **Interpreta√ß√£o Inteligente**: An√°lise contextual dos resultados
* **Queries Adaptativas**: Refinamento baseado em feedback

### 4. Seguran√ßa e Controle
* **Avalia√ß√£o Segura**: Uso de `ast.literal_eval` para parsing seguro
* **Conex√£o Controlada**: Gerenciamento adequado de conex√µes MongoDB
* **Valida√ß√£o de Inputs**: Verifica√ß√£o em m√∫ltiplas camadas

## üöÄ Benef√≠cios Pr√°ticos

1. **Produtividade**
   - Automa√ß√£o de an√°lises complexas
   - Gera√ß√£o autom√°tica de visualiza√ß√µes
   - Feedback r√°pido e iterativo

2. **Qualidade**
   - Valida√ß√£o multi-camada
   - Consist√™ncia nas an√°lises
   - Documenta√ß√£o autom√°tica dos resultados

3. **Usabilidade**
   - Interface natural em linguagem humana
   - Visualiza√ß√µes autom√°ticas
   - Feedback interpretativo

## üîÑ Ciclo de Vida da Execu√ß√£o

1. Recebimento da pergunta
2. An√°lise do contexto do banco
3. Gera√ß√£o e valida√ß√£o da query
4. Execu√ß√£o segura
5. Interpreta√ß√£o dos resultados
6. Gera√ß√£o de visualiza√ß√µes
7. Apresenta√ß√£o dos resultados

## üìä Tipos de An√°lises Suportadas

* An√°lises estat√≠sticas
* Visualiza√ß√µes comparativas
* Detec√ß√£o de outliers
* An√°lises temporais
* Agrega√ß√µes complexas

Esta implementa√ß√£o demonstra como o LangGraph pode ser utilizado para criar um sistema robusto e flex√≠vel de an√°lise de dados, combinando a poder do MongoDB com processamento de linguagem natural e visualiza√ß√£o de dados.

# MongoDB vs Bancos Relacionais: Vantagens do NoSQL

## üí™ Principais Vantagens

### 1. Flexibilidade de Schema
* **Schema Din√¢mico**: Documentos na mesma cole√ß√£o podem ter estruturas diferentes
* **Evolu√ß√£o Natural**: Facilidade para adicionar ou remover campos sem migra√ß√µes complexas
* **Adaptabilidade**: Ideal para dados n√£o estruturados ou semi-estruturados

### 2. Escalabilidade
* **Escalabilidade Horizontal**: Facilidade para distribuir dados entre m√∫ltiplos servidores
* **Sharding Nativo**: Particionamento autom√°tico de dados
* **Alta Performance**: Melhor desempenho em grandes volumes de dados

### 3. Performance
* **Consultas Otimizadas**: Documentos completos em uma √∫nica leitura
* **√çndices Flex√≠veis**: Suporte a diversos tipos de √≠ndices
* **Menos JOINs**: Dados relacionados podem ser embutidos no mesmo documento

### 4. Desenvolvimento √Ågil
* **JSON/BSON**: Formato natural para desenvolvedores
* **Menos C√≥digo**: Redu√ß√£o na complexidade do mapeamento objeto-relacional
* **Prototipagem R√°pida**: Ideal para MVPs e desenvolvimento iterativo

## üéØ Casos de Uso Ideais
* Aplica√ß√µes em tempo real
* Big Data e an√°lise de dados
* Conte√∫do gerado por usu√°rios
* IoT e dados de sensores
* Cat√°logos de produtos
* Sistemas de gerenciamento de conte√∫do

## üí° Considera√ß√µes
Enquanto bancos relacionais s√£o excelentes para dados altamente estruturados e transa√ß√µes complexas, o MongoDB brilha em cen√°rios que exigem flexibilidade, escalabilidade e performance com grandes volumes de dados n√£o estruturados.

Como membro da Scoras Tecnologia Digital Ltda, tenho tido a oportunidade de trabalhar com diversas tecnologias de banco de dados, incluindo DuckDB e MongoDB. A escolha entre esses dois sistemas depende muito das necessidades espec√≠ficas do projeto em quest√£o. Vou detalhar os pr√≥s e contras de cada um, assim como os cen√°rios nos quais eles se destacam.

## DuckDB

**Vis√£o Geral:**
DuckDB √© um sistema de gerenciamento de banco de dados anal√≠tico em-processo, otimizado para consultas anal√≠ticas r√°pidas e complexas. √â frequentemente comparado ao SQLite, mas focado em cargas de trabalho anal√≠ticas.

**Pr√≥s:**

- **Performance Anal√≠tica:** Excelente desempenho para consultas anal√≠ticas devido √† sua arquitetura em coluna.
- **Facilidade de Integra√ß√£o:** Sendo um banco de dados embutido, pode ser facilmente integrado em aplicativos existentes sem a necessidade de um servidor separado.
- **Zero Configura√ß√£o:** N√£o requer instala√ß√£o ou configura√ß√£o complexa, o que acelera o desenvolvimento.
- **Suporte a SQL Padr√£o:** Utiliza SQL padr√£o, facilitando a ado√ß√£o por equipes j√° familiarizadas com SQL.

**Contras:**

- **Escalabilidade Limitada:** N√£o √© ideal para aplica√ß√µes que requerem escalabilidade horizontal ou ambientes distribu√≠dos.
- **Funcionalidades Limitadas para OLTP:** N√£o √© otimizado para opera√ß√µes transacionais intensas.
- **Comunidade e Ecossistema Menores:** Comparado a sistemas mais populares, tem uma comunidade menor, o que pode limitar o suporte e os recursos dispon√≠veis.

## MongoDB

**Vis√£o Geral:**
MongoDB √© um banco de dados NoSQL orientado a documentos que armazena dados em formato BSON (uma extens√£o bin√°ria de JSON). √â conhecido por sua flexibilidade e escalabilidade.

**Pr√≥s:**

- **Flexibilidade de Esquema:** Permite altera√ß√µes r√°pidas na estrutura dos dados sem a necessidade de migra√ß√µes complexas.
- **Escalabilidade Horizontal:** Projetado para escalar facilmente em clusters distribu√≠dos.
- **Alto Desempenho em Opera√ß√µes de Escrita:** √ìtimo para aplica√ß√µes com grande volume de inser√ß√µes e atualiza√ß√µes.
- **Ecossistema Rico:** Possui uma ampla comunidade e muitas ferramentas de suporte.

**Contras:**

- **Consultas Anal√≠ticas Menos Eficientes:** N√£o √© otimizado para consultas anal√≠ticas complexas.
- **Consist√™ncia Eventual:** Em configura√ß√µes distribu√≠das, pode operar com consist√™ncia eventual, o que nem sempre √© desej√°vel.
- **Curva de Aprendizado:** Requer uma compreens√£o diferente em rela√ß√£o aos bancos de dados relacionais tradicionais.

## Cen√°rios de Uso

**Quando Optar por DuckDB:**

- **An√°lises de Dados Localizadas:** Ideal para aplica√ß√µes que necessitam de an√°lises de dados embutidas no aplicativo sem depend√™ncias externas.
- **Processamento de Dados em Lote:** Quando h√° necessidade de processar grandes volumes de dados em lote com rapidez.
- **Ambientes com Recursos Limitados:** Aplica√ß√µes que precisam ser leves e n√£o podem suportar a sobrecarga de um servidor de banco de dados separado.

**Quando Optar por MongoDB:**

- **Aplica√ß√µes Web Escal√°veis:** Ideal para servi√ßos que precisam escalar horizontalmente para suportar muitos usu√°rios.
- **Dados N√£o Estruturados ou Semiestruturados:** Quando a flexibilidade do esquema √© necess√°ria.
- **Prototipagem R√°pida:** Permite desenvolvedores iterarem rapidamente sem se preocupar com a rigidez de um esquema relacional.

## Parecer T√©cnico

Em nossa experi√™ncia na Scoras Tecnologia Digital Ltda, a escolha depende muito do tipo de dados e das necessidades da aplica√ß√£o:

- **Para Aplica√ß√µes Anal√≠ticas:** Se o projeto envolve an√°lise intensiva de dados estruturados e requer consultas SQL complexas, o DuckDB √© uma excelente op√ß√£o pela sua performance e facilidade de integra√ß√£o.

- **Para Aplica√ß√µes Orientadas a Documentos:** Se a aplica√ß√£o lida com dados semiestruturados ou requer flexibilidade para alterar o esquema dos dados frequentemente, o MongoDB oferece a agilidade necess√°ria.

- **Considera√ß√µes sobre Escalabilidade:** Para aplica√ß√µes que preveem um crescimento r√°pido e precisam escalar horizontalmente, especialmente na nuvem, o MongoDB oferece ferramentas e recursos mais maduros.

- **Recursos e Suporte:** Se o projeto se beneficiaria de uma comunidade ampla e recursos abundantes, o MongoDB, sendo mais estabelecido, pode ser mais vantajoso.

## Conclus√£o

A decis√£o entre DuckDB e MongoDB deve ser guiada pelos requisitos espec√≠ficos do projeto. O DuckDB se destaca em cen√°rios anal√≠ticos embutidos e onde a simplicidade √© valorizada. O MongoDB √© mais adequado para aplica√ß√µes que exigem flexibilidade de dados, escalabilidade e um ecossistema robusto. Na Scoras Tecnologia Digital Ltda, avaliamos cuidadosamente as necessidades de cada projeto para recomendar a solu√ß√£o que melhor alinha desempenho, escalabilidade e efici√™ncia no desenvolvimento.

In [28]:
#!pip install langchain-openai
#!pip install langgraph
#!pip install pymongo
#!pip install matplotlib
#!pip install dnspython
#!pip install seaborn

In [46]:
from pymongo import MongoClient
from pymongo.errors import ConnectionFailure

# Defina a string de conex√£o e o nome do banco de dados
CONNECTION_STRING = "mongodb://ecommerce_user:senha123@localhost:27017/ecommerce?authSource=ecommerce"
DATABASE_NAME = "ecommerce"

def test_mongodb_connection():
    """Testa a conex√£o com o MongoDB e lista informa√ß√µes b√°sicas."""
    try:
        # Conectar ao MongoDB
        client = MongoClient(CONNECTION_STRING, serverSelectionTimeoutMS=5000)
        # Tentar obter informa√ß√µes do servidor
        server_info = client.server_info()
        print("Conex√£o com o MongoDB estabelecida com sucesso.")
        print(f"Vers√£o do servidor: {server_info['version']}")
        
        # Listar bancos de dados dispon√≠veis
        print("\nBancos de dados dispon√≠veis:")
        print(client.list_database_names())
        
        # Acessar o banco de dados espec√≠fico
        db = client[DATABASE_NAME]
        
        # Listar cole√ß√µes no banco de dados
        print(f"\nCole√ß√µes no banco de dados '{DATABASE_NAME}':")
        collections = db.list_collection_names()
        print(collections)
        
        # Contar documentos em cada cole√ß√£o
        for collection_name in collections:
            collection = db[collection_name]
            count = collection.count_documents({})
            print(f"Cole√ß√£o '{collection_name}' tem {count} documentos.")
        
        # Fechar a conex√£o
        client.close()
        
    except ConnectionFailure as e:
        print("Falha ao conectar-se ao MongoDB:")
        print(e)
    except Exception as e:
        print("Erro ao testar a conex√£o com o MongoDB:")
        print(e)

# Executar o teste
test_mongodb_connection()


Conex√£o com o MongoDB estabelecida com sucesso.
Vers√£o do servidor: 6.0.15

Bancos de dados dispon√≠veis:
['ecommerce']

Cole√ß√µes no banco de dados 'ecommerce':
['clientes', 'produtos', 'pedidos']
Cole√ß√£o 'clientes' tem 1200 documentos.
Cole√ß√£o 'produtos' tem 700 documentos.
Cole√ß√£o 'pedidos' tem 1200 documentos.


In [47]:
# Importa√ß√µes necess√°rias
import warnings
warnings.filterwarnings('ignore')

import os
import io
import base64
import json
import re
import matplotlib.pyplot as plt
import seaborn as sns  # Importar seaborn para gr√°ficos avan√ßados
from IPython.display import display, HTML
from typing_extensions import TypedDict
from typing import List, Dict, Any, Annotated

# Importa√ß√µes do LangGraph e LangChain
from langchain_openai import ChatOpenAI
from langgraph.graph import StateGraph, END, START
from langgraph.checkpoint.memory import MemorySaver
from langchain_core.messages import SystemMessage, HumanMessage

# Importa√ß√µes do MongoDB
from pymongo import MongoClient
from pymongo.errors import ConnectionFailure

# Importa√ß√£o de seguran√ßa para avalia√ß√£o segura de express√µes
import ast

# Configura√ß√£o do ambiente (defina sua chave de API da OpenAI)
os.environ['OPENAI_API_KEY'] = 'Coloque sua chave de API da OpenAI aqui'  # Substitua pela sua chave de API

# Definir o modelo de linguagem
model = ChatOpenAI(model_name="gpt-4o-mini", temperature=0)

# Definir o estado do agente usando TypedDict
class AgentState(TypedDict):
    question: str
    database_info: str
    database: str
    query: str
    reflect: Annotated[List[str], "add"]
    accepted: bool
    revision: int
    max_revision: int
    results: List[Dict[str, Any]]
    interpretation: str
    plot_needed: bool
    plot_type: str  # Novo campo para o tipo de gr√°fico
    plot_html: str
    error: str

# Configura√ß√£o da conex√£o com o MongoDB
CONNECTION_STRING = "mongodb://ecommerce_user:senha123@localhost:27017/ecommerce?authSource=ecommerce"
DATABASE_NAME = "ecommerce"

# Fun√ß√£o para verificar a conex√£o com o MongoDB
def check_mongodb_connection():
    """Verifica se a conex√£o com o MongoDB est√° estabelecida corretamente."""
    try:
        client = MongoClient(CONNECTION_STRING, serverSelectionTimeoutMS=3000)
        client.admin.command('ping')
        client.close()
        print("Conex√£o com o MongoDB estabelecida com sucesso.")
    except ConnectionFailure:
        print("Falha ao conectar-se ao MongoDB. Verifique se o servi√ßo est√° em execu√ß√£o e as credenciais est√£o corretas.")

# Chamar a fun√ß√£o de verifica√ß√£o de conex√£o
check_mongodb_connection()

# Fun√ß√£o para obter informa√ß√µes do banco de dados
def get_database_info():
    """Obt√©m informa√ß√µes sobre as cole√ß√µes e campos dispon√≠veis no banco de dados."""
    client = MongoClient(CONNECTION_STRING)
    db = client[DATABASE_NAME]
    
    info = "Cole√ß√µes dispon√≠veis:\n"
    
    # Listar cole√ß√µes e seus campos
    for collection_name in db.list_collection_names():
        info += f"\nCole√ß√£o: {collection_name}\n"
        # Pegar um documento de exemplo para ver os campos
        sample = db[collection_name].find_one()
        if sample:
            info += "Campos:\n"
            for field in sample.keys():
                if field != "_id":  # Ignorar o campo _id
                    info += f" - {field}\n"
    
    client.close()
    return info

# Definir os n√≥s para o LangGraph

def search_engineer_node(state: AgentState):
    """Obt√©m informa√ß√µes sobre o banco de dados e atualiza o estado."""
    state['database_info'] = get_database_info()
    state['database'] = DATABASE_NAME
    return state

def query_writer_node(state: AgentState):
    """Gera a query MongoDB em formato de dicion√°rio Python, incluindo o nome da cole√ß√£o."""
    role_prompt = """
Voc√™ √© um especialista em MongoDB e PyMongo. Sua tarefa √© escrever uma query MongoDB em formato de dicion√°rio Python que responda √† pergunta do usu√°rio.

A query deve:
- Usar a sintaxe de dicion√°rio do Python compat√≠vel com PyMongo.
- Incluir o nome da cole√ß√£o a ser consultada, usando a chave 'collection'.
- Utilizar os nomes das cole√ß√µes e campos conforme definidos no banco de dados.
- Retornar apenas o dicion√°rio Python que representa a query, sem cercas de c√≥digo ou texto adicional.
- N√£o incluir cercas de c√≥digo, anota√ß√µes de linguagem (como ```python) ou qualquer texto extra.

Por exemplo, para contar o n√∫mero de produtos em cada categoria na cole√ß√£o 'produtos', a query seria:

{
    'collection': 'produtos',
    'aggregate': [
        {
            '$group': {
                '_id': '$categoria',
                'total_produtos': { '$sum': 1 }
            }
        }
    ]
}
"""

    instruction = f"Informa√ß√µes do banco de dados:\n{state['database_info']}\n"
    if len(state['reflect']) > 0:
        instruction += f"Considere os seguintes feedbacks:\n{chr(10).join(state['reflect'])}\n"
    instruction += f"Escreva a query MongoDB em formato de dicion√°rio Python que responda √† seguinte pergunta: {state['question']}\n"

    messages = [
        SystemMessage(content=role_prompt),
        HumanMessage(content=instruction)
    ]

    response = model.invoke(messages)
    state['query'] = response.content.strip()
    state['revision'] += 1
    return state

def qa_engineer_node(state: AgentState):
    """Verifica se a query MongoDB est√° correta."""
    role_prompt = """
Voc√™ √© um engenheiro de QA especializado em MongoDB. Sua tarefa √© verificar se a query fornecida responde corretamente √† pergunta do usu√°rio.
"""

    instruction = f"Com base nas seguintes informa√ß√µes do banco de dados:\n{state['database_info']}\n"
    instruction += f"E na seguinte query MongoDB:\n{state['query']}\n"
    instruction += f"Verifique se a query pode completar a tarefa: {state['question']}\n"
    instruction += "Responda 'ACEITO' se estiver correta ou 'REJEITADO' se n√£o estiver.\n"

    messages = [
        SystemMessage(content=role_prompt),
        HumanMessage(content=instruction)
    ]

    response = model.invoke(messages)
    state['accepted'] = 'ACEITO' in response.content.upper()
    return state

def chief_dba_node(state: AgentState):
    """Fornece feedback para melhorar a query MongoDB."""
    role_prompt = """
Voc√™ √© um DBA experiente, especialista em MongoDB. Sua tarefa √© fornecer feedback detalhado para melhorar a query fornecida.
"""

    instruction = f"Com base nas seguintes informa√ß√µes do banco de dados:\n{state['database_info']}\n"
    instruction += f"E na seguinte query MongoDB:\n{state['query']}\n"
    instruction += f"Por favor, forne√ßa recomenda√ß√µes para melhorar a query para a tarefa: {state['question']}\n"

    messages = [
        SystemMessage(content=role_prompt),
        HumanMessage(content=instruction)
    ]

    response = model.invoke(messages)
    state['reflect'].append(response.content)
    return state

def execute_query_node(state: AgentState):
    """Executa a query MongoDB usando PyMongo."""
    client = MongoClient(CONNECTION_STRING)
    db = client[state['database']]

    try:
        # Limpar a query removendo cercas de c√≥digo e texto adicional
        query_str = state['query'].strip()

        # Remover cercas de c√≥digo usando express√µes regulares
        query_str = re.sub(r'^```.*?$', '', query_str, flags=re.MULTILINE)
        query_str = query_str.strip('`').strip()

        # Avaliar o dicion√°rio da query de forma segura
        query_dict = ast.literal_eval(query_str)

        # Obter a cole√ß√£o a ser consultada
        if isinstance(query_dict, dict):
            collection_name = query_dict.get('collection')
            if not collection_name:
                raise ValueError("A query deve especificar a cole√ß√£o no formato {'collection': 'nome_da_colecao', ...}")
            collection = db[collection_name]

            # Obter filtros e outras informa√ß√µes
            query_filter = query_dict.get('filter', {})
            query_projection = query_dict.get('projection')
            query_aggregate = query_dict.get('aggregate')

            # Executar a query de acordo com o tipo
            if query_aggregate:
                # Opera√ß√£o de agrega√ß√£o
                pipeline = query_aggregate
                cursor = collection.aggregate(pipeline)
            else:
                # Consulta padr√£o find()
                cursor = collection.find(query_filter, query_projection)

            # Obter os resultados
            state['results'] = list(cursor)
        else:
            raise ValueError("Formato de query n√£o suportado.")

        # Serializar os resultados para JSON
        state['results'] = json.loads(json.dumps(state['results'], default=str))

        # Adicionar informa√ß√µes de debug
        print(f"Query executada com sucesso. Resultados: {len(state['results'])} documentos.")

    except Exception as e:
        print(f"Erro na execu√ß√£o da query: {str(e)}")
        state['results'] = []
        state['error'] = str(e)
    finally:
        client.close()

    return state

def interpret_results_node(state: AgentState):
    """Interpreta os resultados da query e sugere se um gr√°fico √© necess√°rio."""
    role_prompt = """
Voc√™ √© um assistente especializado em interpretar resultados de queries MongoDB e explic√°-los em linguagem natural.
Sua tarefa √©:
- Analisar os resultados da query e fornecer uma resposta clara e concisa √† pergunta original do usu√°rio.
- Se houver dados num√©ricos ,categorias para comparar, precos, quantidade, e etc, sugira um tipo de gr√°fico adequado (por exemplo, gr√°fico de barras, gr√°fico de pizza, gr√°fico de dispers√£o, boxplot, violin plot, etc.).
- Seja criterioso na sugest√£o de gr√°ficos e sugira apenas quando for relevante. Apenas comente sobre a sugest√£o de gr√°fico se o grafico tiver sido feito, caso contrario, nao comente sobre a sugest√£o de grafico.
- Retorne sua resposta no seguinte formato:

Interpreta√ß√£o: <sua interpreta√ß√£o aqui>
Sugest√£o de gr√°fico: <tipo de gr√°fico sugerido ou 'Nenhum' se n√£o for aplic√°vel>
"""

    instruction = f"Pergunta original: {state['question']}\n"
    instruction += f"Resultados da query: {state['results']}\n"
    if state.get('error'):
        instruction += f"Erro encontrado: {state['error']}\n"
    instruction += "Por favor, interprete esses resultados e sugira um tipo de gr√°fico se aplic√°vel e feito, seguindo as instru√ß√µes acima. Caso o grafico nao tenha sido feito, nao comente sobre a sugest√£o de grafico."

    messages = [
        SystemMessage(content=role_prompt),
        HumanMessage(content=instruction)
    ]

    response = model.invoke(messages)
    response_content = response.content.strip()

    # Processar a resposta para extrair interpreta√ß√£o e sugest√£o de gr√°fico
    interpretation = ''
    plot_suggestion = ''
    lines = response_content.split('\n')
    for line in lines:
        if line.startswith('Interpreta√ß√£o:'):
            interpretation = line[len('Interpreta√ß√£o:'):].strip()
        elif line.startswith('Sugest√£o de gr√°fico:'):
            plot_suggestion = line[len('Sugest√£o de gr√°fico:'):].strip()

    state['interpretation'] = interpretation
    plot_suggestion_lower = plot_suggestion.lower()
    if plot_suggestion_lower != 'nenhum':
        state['plot_needed'] = True
        state['plot_type'] = plot_suggestion_lower
    else:
        state['plot_needed'] = False
        state['plot_type'] = ''
    return state

def plot_results_node(state: AgentState):
    """Gera visualiza√ß√µes dos resultados, se necess√°rio."""
    if not state['plot_needed']:
        state['plot_html'] = ''
        return state

    try:
        results = state['results']
        plot_type = state.get('plot_type', '').lower()
        if not results:
            print("Sem resultados para plotar.")
            return state

        # Limpar qualquer figura anterior
        plt.clf()
        plt.close('all')

        # Criar nova figura
        plt.figure(figsize=(10, 6))

        # Verificar se os resultados s√£o adequados para plotagem
        if isinstance(results, list) and len(results) > 0:
            # Usar cores diferentes
            cmap = plt.get_cmap('tab20')
            colors = cmap.colors

            if plot_type == 'gr√°fico de barras' or plot_type == 'bar':
                # Gr√°fico de barras
                if '_id' in results[0]:
                    categories = [str(item['_id']) for item in results]
                    value_keys = [k for k in results[0].keys() if k != '_id' and isinstance(results[0][k], (int, float))]
                    if value_keys:
                        value_key = value_keys[0]
                        counts = [item.get(value_key, 0) for item in results]
                        plt.bar(categories, counts, color=colors[:len(categories)])
                        plt.title(f"{value_key.replace('_', ' ').title()} por Categoria")
                        plt.xlabel("Categorias")
                        plt.ylabel(value_key.replace('_', ' ').title())
                        plt.xticks(rotation=45)
                    else:
                        print("Nenhum valor num√©rico encontrado para plotagem.")
                        return state
                else:
                    print("Formato de dados n√£o suportado para gr√°fico de barras.")
                    return state
            elif plot_type == 'gr√°fico de pizza' or plot_type == 'pie':
                # Gr√°fico de pizza
                if '_id' in results[0]:
                    labels = [str(item['_id']) for item in results]
                    value_keys = [k for k in results[0].keys() if k != '_id' and isinstance(results[0][k], (int, float))]
                    if value_keys:
                        value_key = value_keys[0]
                        sizes = [item.get(value_key, 0) for item in results]
                        plt.pie(sizes, labels=labels, colors=colors[:len(labels)], autopct='%1.1f%%', startangle=140)
                        plt.title(f"Distribui√ß√£o de {value_key.replace('_', ' ').title()}")
                        plt.axis('equal')  # Equal aspect ratio ensures that pie is drawn as a circle.
                    else:
                        print("Nenhum valor num√©rico encontrado para plotagem.")
                        return state
                else:
                    print("Formato de dados n√£o suportado para gr√°fico de pizza.")
                    return state
            elif plot_type == 'gr√°fico de dispers√£o' or plot_type == 'scatter plot':
                # Gr√°fico de dispers√£o
                # Procurar duas chaves num√©ricas para plotar
                numeric_keys = [k for k in results[0].keys() if isinstance(results[0][k], (int, float))]
                if len(numeric_keys) >= 2:
                    x_key = numeric_keys[0]
                    y_key = numeric_keys[1]
                    x_values = [item.get(x_key, 0) for item in results]
                    y_values = [item.get(y_key, 0) for item in results]
                    plt.scatter(x_values, y_values, c=colors[0])
                    plt.title(f"{y_key.replace('_', ' ').title()} vs {x_key.replace('_', ' ').title()}")
                    plt.xlabel(x_key.replace('_', ' ').title())
                    plt.ylabel(y_key.replace('_', ' ').title())
                else:
                    print("Dados insuficientes para gr√°fico de dispers√£o.")
                    return state
            elif plot_type == 'boxplot' or plot_type == 'gr√°fico de caixa':
                # Boxplot
                numeric_keys = [k for k in results[0].keys() if isinstance(results[0][k], (int, float))]
                if numeric_keys:
                    data = [item.get(numeric_keys[0], 0) for item in results]
                    plt.boxplot(data)
                    plt.title(f"Boxplot de {numeric_keys[0].replace('_', ' ').title()}")
                else:
                    print("Nenhum valor num√©rico encontrado para boxplot.")
                    return state
            elif plot_type == 'violin plot' or plot_type == 'gr√°fico de violino':
                # Violin plot
                sns.set(style="whitegrid")
                numeric_keys = [k for k in results[0].keys() if isinstance(results[0][k], (int, float))]
                if numeric_keys:
                    data = [item.get(numeric_keys[0], 0) for item in results]
                    sns.violinplot(y=data)
                    plt.title(f"Violin Plot de {numeric_keys[0].replace('_', ' ').title()}")
                else:
                    print("Nenhum valor num√©rico encontrado para violin plot.")
                    return state
            else:
                print(f"Tipo de gr√°fico '{plot_type}' n√£o suportado ou n√£o reconhecido.")
                return state
        else:
            print("Formato de dados n√£o suportado para visualiza√ß√£o.")
            return state

        # Ajustar layout
        plt.tight_layout()

        # Salvar em buffer
        buffer = io.BytesIO()
        plt.savefig(buffer, format='png', dpi=300, bbox_inches='tight')
        buffer.seek(0)

        # Converter para base64
        image_base64 = base64.b64encode(buffer.getvalue()).decode('utf-8')

        # Criar HTML do gr√°fico
        state['plot_html'] = f'''
        <div class="plot-container">
            <img src="data:image/png;base64,{image_base64}" 
                 alt="Gr√°fico"
                 style="width:100%; max-width:800px; margin:0 auto; display:block;">
        </div>
        '''

        # Limpar
        plt.close('all')

    except Exception as e:
        print(f"Erro ao gerar gr√°fico: {str(e)}")
        state['plot_html'] = ''

    return state

# Construir o LangGraph
builder = StateGraph(AgentState)

# Adicionar n√≥s ao grafo
builder.add_node('search_engineer', search_engineer_node)
builder.add_node('query_writer', query_writer_node)
builder.add_node('qa_engineer', qa_engineer_node)
builder.add_node('chief_dba', chief_dba_node)
builder.add_node('execute_query', execute_query_node)
builder.add_node('interpret_results', interpret_results_node)
builder.add_node('plot_results', plot_results_node)

# Definir as arestas entre os n√≥s
builder.add_edge(START, 'search_engineer')
builder.add_edge('search_engineer', 'query_writer')
builder.add_edge('query_writer', 'qa_engineer')

# Aresta condicional do qa_engineer
builder.add_conditional_edges(
    'qa_engineer',
    lambda state: 'execute_query' if state['accepted'] or state['revision'] >= state['max_revision'] else 'chief_dba',
    {'execute_query': 'execute_query', 'chief_dba': 'chief_dba'}
)

builder.add_edge('chief_dba', 'query_writer')
builder.add_edge('execute_query', 'interpret_results')
builder.add_edge('interpret_results', 'plot_results')
builder.add_edge('plot_results', END)

# Definir o ponto de entrada
builder.set_entry_point('search_engineer')

# Compilar o grafo com um checkpointer
memory = MemorySaver()
graph = builder.compile(checkpointer=memory)

# Fun√ß√£o para processar uma pergunta usando o grafo
def process_question(question):
    """Processa a pergunta do usu√°rio atrav√©s do grafo e exibe os resultados."""
    initial_state = {
        'question': question,
        'database_info': '',
        'database': '',
        'query': '',
        'reflect': [],
        'accepted': False,
        'revision': 0,
        'max_revision': 2,
        'results': [],
        'interpretation': '',
        'plot_needed': False,
        'plot_type': '',  # Inicializar plot_type
        'plot_html': '',
        'error': ''
    }
    thread = {'configurable': {'thread_id': '1'}}
    for _ in graph.stream(initial_state, thread):
        pass
    # Obter o estado final
    final_state = graph.get_state(thread).values

    # Exibir os resultados
    print('Query MongoDB Gerada:\n', final_state['query'])
    print('\nResultados da Query:')
    if final_state['results']:
        print(json.dumps(final_state['results'], indent=2, ensure_ascii=False))
    else:
        print('Nenhum resultado ou erro na execu√ß√£o da query.')
    
    print('\nInterpreta√ß√£o:')
    print(final_state['interpretation'])
    
    if final_state.get('plot_html'):
        display(HTML(final_state['plot_html']))
    else:
        print('Nenhum gr√°fico gerado.')




Conex√£o com o MongoDB estabelecida com sucesso.


In [48]:
pergunta = "Faca um grafico de pizza a quantidade de produtos por categoria em relacao a quantidade total"
process_question(pergunta)

Query executada com sucesso. Resultados: 5 documentos.
Query MongoDB Gerada:
 {
    'collection': 'produtos',
    'aggregate': [
        {
            '$group': {
                '_id': '$categoria',
                'total_produtos': { '$sum': '$estoque' }
            }
        },
        {
            '$group': {
                '_id': None,
                'total_estoque': { '$sum': '$total_produtos' }
            }
        },
        {
            '$lookup': {
                'from': 'produtos',
                'pipeline': [
                    {
                        '$group': {
                            '_id': '$categoria',
                            'total_produtos': { '$sum': '$estoque' }
                        }
                    },
                    {
                        '$addFields': {
                            'porcentagem': {
                                '$multiply': [
                                    { '$divide': ['$total_produtos', '$total_estoque'] 

In [32]:
pergunta = "Faca um grafico de barras da quantidade de produtos por categoria"
process_question(pergunta)

Query executada com sucesso. Resultados: 5 documentos.
Query MongoDB Gerada:
 {
    'collection': 'produtos',
    'aggregate': [
        {
            '$group': {
                '_id': '$categoria',
                'total_produtos': { '$sum': '$estoque' }
            }
        }
    ]
}

Resultados da Query:
[
  {
    "_id": "Alimentos",
    "total_produtos": 6611
  },
  {
    "_id": "Roupas",
    "total_produtos": 6927
  },
  {
    "_id": "Eletr√¥nicos",
    "total_produtos": 7365
  },
  {
    "_id": "Livros",
    "total_produtos": 7650
  },
  {
    "_id": "M√≥veis",
    "total_produtos": 7187
  }
]

Interpreta√ß√£o:
A quantidade de produtos varia entre as categorias, com 'Livros' apresentando o maior total de 7650 produtos, seguido por 'Eletr√¥nicos' com 7365, 'M√≥veis' com 7187, 'Roupas' com 6927 e 'Alimentos' com 6611. Isso indica que a categoria de Livros √© a mais representativa em termos de quantidade de produtos dispon√≠veis, enquanto Alimentos √© a menos representativa.


In [49]:
pergunta = "Calcule os outliers dos pre√ßos dos produtos"
process_question(pergunta)

Query executada com sucesso. Resultados: 1 documentos.
Query MongoDB Gerada:
 {
    'collection': 'produtos',
    'aggregate': [
        {
            '$group': {
                '_id': None,
                'media_preco': { '$avg': '$preco' },
                'desvio_padrao': { '$stdDevPop': '$preco' }
            }
        },
        {
            '$project': {
                'limite_inferior': { '$subtract': ['$media_preco', { '$multiply': ['$desvio_padrao', 1.5] }] },
                'limite_superior': { '$add': ['$media_preco', { '$multiply': ['$desvio_padrao', 1.5] }] }
            }
        },
        {
            '$lookup': {
                'from': 'produtos',
                'let': {
                    'limite_inferior': '$limite_inferior',
                    'limite_superior': '$limite_superior'
                },
                'pipeline': [
                    {
                        '$match': {
                            '$expr': {
                                

In [34]:
pergunta = "Faca  um grafico comparando o preco dos 3 produtos mais caros"
process_question(pergunta)

Query executada com sucesso. Resultados: 3 documentos.
Query MongoDB Gerada:
 {
    'collection': 'produtos',
    'aggregate': [
        {
            '$sort': {
                'preco': -1
            }
        },
        {
            '$limit': 3
        },
        {
            '$project': {
                'nome': 1,
                'preco': 1
            }
        }
    ]
}

Resultados da Query:
[
  {
    "_id": "674b4b3801d4422b9aaa984e",
    "nome": "Amet",
    "preco": 999.52
  },
  {
    "_id": "674cf3f9eeb3778b09a14941",
    "nome": "Aut",
    "preco": 998.88
  },
  {
    "_id": "674b4b3801d4422b9aaa97f7",
    "nome": "Rem",
    "preco": 997.78
  }
]

Interpreta√ß√£o:
Os tr√™s produtos mais caros s√£o 'Amet' com pre√ßo de 999.52, 'Aut' com pre√ßo de 998.88 e 'Rem' com pre√ßo de 997.78. A diferen√ßa de pre√ßos entre eles √© muito pequena, com 'Amet' sendo o mais caro, seguido por 'Aut' e 'Rem'.


In [45]:
pergunta = "Quais as 5 primeiras linhas da colecao clientes?"
process_question(pergunta)

Query executada com sucesso. Resultados: 1200 documentos.
Nenhum valor num√©rico encontrado para plotagem.
Query MongoDB Gerada:
 {
    'collection': 'clientes',
    'find': {},
    'limit': 5
}

Resultados da Query:
[
  {
    "_id": "674a8c50d1e62a839cf8a1aa",
    "nome": "Olivia da Cruz",
    "email": "ecamara@example.com",
    "endereco": "Pra√ßa Machado, 53\nAraguaia\n49830712 Melo da Mata / RO",
    "telefone": "+55 (011) 2116-1910"
  },
  {
    "_id": "674a8c50d1e62a839cf8a1ab",
    "nome": "L√≠via Gomes",
    "email": "limaluana@example.org",
    "endereco": "√Årea de S√°, 21\nBandeirantes\n82336000 Castro de Andrade / RN",
    "telefone": "51 9740 1897"
  },
  {
    "_id": "674a8c50d1e62a839cf8a1ac",
    "nome": "Srta. Maria Alice Montenegro",
    "email": "eloahlima@example.net",
    "endereco": "Ladeira Mendes, 88\nPiratininga\n46082-907 Silva / SP",
    "telefone": "+55 81 2789-6543"
  },
  {
    "_id": "674a8c50d1e62a839cf8a1ad",
    "nome": "Aylla Gon√ßalves",
    "email":

<Figure size 1000x600 with 0 Axes>