# LangGraph com MongoDB: Uma Análise Detalhada do Agente de IA

## 🎯 Visão Geral

O código apresentado demonstra uma implementação sofisticada que combina LangGraph com MongoDB para criar um agente de IA capaz de realizar análises de dados e visualizações. Vamos explorar os aspectos fundamentais e benefícios desta integração.

## 🏗️ Fundamentos do LangGraph Utilizados

### 1. Estrutura de Estado
* Implementação do `AgentState` usando `TypedDict`, seguindo as melhores práticas do LangGraph
* Campos bem definidos para:
  - Controle de fluxo (`accepted`, `revision`, `max_revision`)
  - Armazenamento de dados (`results`, `database_info`)
  - Visualização (`plot_needed`, `plot_type`, `plot_html`)

### 2. Nós do Grafo
O código implementa diversos nós especializados:
* `search_engineer_node`: Coleta informações do banco de dados
* `query_writer_node`: Gera queries MongoDB
* `qa_engineer_node`: Valida as queries
* `chief_dba_node`: Fornece feedback para melhorias
* `execute_query_node`: Executa as queries no MongoDB
* `interpret_results_node`: Analisa os resultados
* `plot_results_node`: Gera visualizações

### 3. Ciclos e Controle de Fluxo
* Implementação de loops condicionais usando `add_conditional_edges`
* Sistema de revisão com limite máximo de tentativas
* Fluxo de trabalho cíclico para refinamento de queries

## 💪 Vantagens da Integração

### 1. Robustez e Confiabilidade
* **Persistência de Estado**: Mantém o contexto entre execuções
* **Tratamento de Erros**: Sistema robusto de handling de exceções
* **Validação em Múltiplas Camadas**: QA, DBA, e execução segura

### 2. Flexibilidade e Extensibilidade
* **Modular**: Cada nó tem responsabilidade única e bem definida
* **Adaptável**: Fácil adição de novos tipos de análises ou visualizações
* **Configurável**: Parâmetros ajustáveis para diferentes casos de uso

### 3. Capacidades Analíticas
* **Visualização Dinâmica**: Suporte a múltiplos tipos de gráficos
* **Interpretação Inteligente**: Análise contextual dos resultados
* **Queries Adaptativas**: Refinamento baseado em feedback

### 4. Segurança e Controle
* **Avaliação Segura**: Uso de `ast.literal_eval` para parsing seguro
* **Conexão Controlada**: Gerenciamento adequado de conexões MongoDB
* **Validação de Inputs**: Verificação em múltiplas camadas

## 🚀 Benefícios Práticos

1. **Produtividade**
   - Automação de análises complexas
   - Geração automática de visualizações
   - Feedback rápido e iterativo

2. **Qualidade**
   - Validação multi-camada
   - Consistência nas análises
   - Documentação automática dos resultados

3. **Usabilidade**
   - Interface natural em linguagem humana
   - Visualizações automáticas
   - Feedback interpretativo

## 🔄 Ciclo de Vida da Execução

1. Recebimento da pergunta
2. Análise do contexto do banco
3. Geração e validação da query
4. Execução segura
5. Interpretação dos resultados
6. Geração de visualizações
7. Apresentação dos resultados

## 📊 Tipos de Análises Suportadas

* Análises estatísticas
* Visualizações comparativas
* Detecção de outliers
* Análises temporais
* Agregações complexas

Esta implementação demonstra como o LangGraph pode ser utilizado para criar um sistema robusto e flexível de análise de dados, combinando a poder do MongoDB com processamento de linguagem natural e visualização de dados.

# MongoDB vs Bancos Relacionais: Vantagens do NoSQL

## 💪 Principais Vantagens

### 1. Flexibilidade de Schema
* **Schema Dinâmico**: Documentos na mesma coleção podem ter estruturas diferentes
* **Evolução Natural**: Facilidade para adicionar ou remover campos sem migrações complexas
* **Adaptabilidade**: Ideal para dados não estruturados ou semi-estruturados

### 2. Escalabilidade
* **Escalabilidade Horizontal**: Facilidade para distribuir dados entre múltiplos servidores
* **Sharding Nativo**: Particionamento automático de dados
* **Alta Performance**: Melhor desempenho em grandes volumes de dados

### 3. Performance
* **Consultas Otimizadas**: Documentos completos em uma única leitura
* **Índices Flexíveis**: Suporte a diversos tipos de índices
* **Menos JOINs**: Dados relacionados podem ser embutidos no mesmo documento

### 4. Desenvolvimento Ágil
* **JSON/BSON**: Formato natural para desenvolvedores
* **Menos Código**: Redução na complexidade do mapeamento objeto-relacional
* **Prototipagem Rápida**: Ideal para MVPs e desenvolvimento iterativo

## 🎯 Casos de Uso Ideais
* Aplicações em tempo real
* Big Data e análise de dados
* Conteúdo gerado por usuários
* IoT e dados de sensores
* Catálogos de produtos
* Sistemas de gerenciamento de conteúdo

## 💡 Considerações
Enquanto bancos relacionais são excelentes para dados altamente estruturados e transações complexas, o MongoDB brilha em cenários que exigem flexibilidade, escalabilidade e performance com grandes volumes de dados não estruturados.

Como membro da Scoras Tecnologia Digital Ltda, tenho tido a oportunidade de trabalhar com diversas tecnologias de banco de dados, incluindo DuckDB e MongoDB. A escolha entre esses dois sistemas depende muito das necessidades específicas do projeto em questão. Vou detalhar os prós e contras de cada um, assim como os cenários nos quais eles se destacam.

## DuckDB

**Visão Geral:**
DuckDB é um sistema de gerenciamento de banco de dados analítico em-processo, otimizado para consultas analíticas rápidas e complexas. É frequentemente comparado ao SQLite, mas focado em cargas de trabalho analíticas.

**Prós:**

- **Performance Analítica:** Excelente desempenho para consultas analíticas devido à sua arquitetura em coluna.
- **Facilidade de Integração:** Sendo um banco de dados embutido, pode ser facilmente integrado em aplicativos existentes sem a necessidade de um servidor separado.
- **Zero Configuração:** Não requer instalação ou configuração complexa, o que acelera o desenvolvimento.
- **Suporte a SQL Padrão:** Utiliza SQL padrão, facilitando a adoção por equipes já familiarizadas com SQL.

**Contras:**

- **Escalabilidade Limitada:** Não é ideal para aplicações que requerem escalabilidade horizontal ou ambientes distribuídos.
- **Funcionalidades Limitadas para OLTP:** Não é otimizado para operações transacionais intensas.
- **Comunidade e Ecossistema Menores:** Comparado a sistemas mais populares, tem uma comunidade menor, o que pode limitar o suporte e os recursos disponíveis.

## MongoDB

**Visão Geral:**
MongoDB é um banco de dados NoSQL orientado a documentos que armazena dados em formato BSON (uma extensão binária de JSON). É conhecido por sua flexibilidade e escalabilidade.

**Prós:**

- **Flexibilidade de Esquema:** Permite alterações rápidas na estrutura dos dados sem a necessidade de migrações complexas.
- **Escalabilidade Horizontal:** Projetado para escalar facilmente em clusters distribuídos.
- **Alto Desempenho em Operações de Escrita:** Ótimo para aplicações com grande volume de inserções e atualizações.
- **Ecossistema Rico:** Possui uma ampla comunidade e muitas ferramentas de suporte.

**Contras:**

- **Consultas Analíticas Menos Eficientes:** Não é otimizado para consultas analíticas complexas.
- **Consistência Eventual:** Em configurações distribuídas, pode operar com consistência eventual, o que nem sempre é desejável.
- **Curva de Aprendizado:** Requer uma compreensão diferente em relação aos bancos de dados relacionais tradicionais.

## Cenários de Uso

**Quando Optar por DuckDB:**

- **Análises de Dados Localizadas:** Ideal para aplicações que necessitam de análises de dados embutidas no aplicativo sem dependências externas.
- **Processamento de Dados em Lote:** Quando há necessidade de processar grandes volumes de dados em lote com rapidez.
- **Ambientes com Recursos Limitados:** Aplicações que precisam ser leves e não podem suportar a sobrecarga de um servidor de banco de dados separado.

**Quando Optar por MongoDB:**

- **Aplicações Web Escaláveis:** Ideal para serviços que precisam escalar horizontalmente para suportar muitos usuários.
- **Dados Não Estruturados ou Semiestruturados:** Quando a flexibilidade do esquema é necessária.
- **Prototipagem Rápida:** Permite desenvolvedores iterarem rapidamente sem se preocupar com a rigidez de um esquema relacional.

## Parecer Técnico

Em nossa experiência na Scoras Tecnologia Digital Ltda, a escolha depende muito do tipo de dados e das necessidades da aplicação:

- **Para Aplicações Analíticas:** Se o projeto envolve análise intensiva de dados estruturados e requer consultas SQL complexas, o DuckDB é uma excelente opção pela sua performance e facilidade de integração.

- **Para Aplicações Orientadas a Documentos:** Se a aplicação lida com dados semiestruturados ou requer flexibilidade para alterar o esquema dos dados frequentemente, o MongoDB oferece a agilidade necessária.

- **Considerações sobre Escalabilidade:** Para aplicações que preveem um crescimento rápido e precisam escalar horizontalmente, especialmente na nuvem, o MongoDB oferece ferramentas e recursos mais maduros.

- **Recursos e Suporte:** Se o projeto se beneficiaria de uma comunidade ampla e recursos abundantes, o MongoDB, sendo mais estabelecido, pode ser mais vantajoso.

## Conclusão

A decisão entre DuckDB e MongoDB deve ser guiada pelos requisitos específicos do projeto. O DuckDB se destaca em cenários analíticos embutidos e onde a simplicidade é valorizada. O MongoDB é mais adequado para aplicações que exigem flexibilidade de dados, escalabilidade e um ecossistema robusto. Na Scoras Tecnologia Digital Ltda, avaliamos cuidadosamente as necessidades de cada projeto para recomendar a solução que melhor alinha desempenho, escalabilidade e eficiência no desenvolvimento.

In [28]:
#!pip install langchain-openai
#!pip install langgraph
#!pip install pymongo
#!pip install matplotlib
#!pip install dnspython
#!pip install seaborn

In [46]:
from pymongo import MongoClient
from pymongo.errors import ConnectionFailure

# Defina a string de conexão e o nome do banco de dados
CONNECTION_STRING = "mongodb://ecommerce_user:senha123@localhost:27017/ecommerce?authSource=ecommerce"
DATABASE_NAME = "ecommerce"

def test_mongodb_connection():
    """Testa a conexão com o MongoDB e lista informações básicas."""
    try:
        # Conectar ao MongoDB
        client = MongoClient(CONNECTION_STRING, serverSelectionTimeoutMS=5000)
        # Tentar obter informações do servidor
        server_info = client.server_info()
        print("Conexão com o MongoDB estabelecida com sucesso.")
        print(f"Versão do servidor: {server_info['version']}")
        
        # Listar bancos de dados disponíveis
        print("\nBancos de dados disponíveis:")
        print(client.list_database_names())
        
        # Acessar o banco de dados específico
        db = client[DATABASE_NAME]
        
        # Listar coleções no banco de dados
        print(f"\nColeções no banco de dados '{DATABASE_NAME}':")
        collections = db.list_collection_names()
        print(collections)
        
        # Contar documentos em cada coleção
        for collection_name in collections:
            collection = db[collection_name]
            count = collection.count_documents({})
            print(f"Coleção '{collection_name}' tem {count} documentos.")
        
        # Fechar a conexão
        client.close()
        
    except ConnectionFailure as e:
        print("Falha ao conectar-se ao MongoDB:")
        print(e)
    except Exception as e:
        print("Erro ao testar a conexão com o MongoDB:")
        print(e)

# Executar o teste
test_mongodb_connection()


Conexão com o MongoDB estabelecida com sucesso.
Versão do servidor: 6.0.15

Bancos de dados disponíveis:
['ecommerce']

Coleções no banco de dados 'ecommerce':
['clientes', 'produtos', 'pedidos']
Coleção 'clientes' tem 1200 documentos.
Coleção 'produtos' tem 700 documentos.
Coleção 'pedidos' tem 1200 documentos.


In [47]:
# Importações necessárias
import warnings
warnings.filterwarnings('ignore')

import os
import io
import base64
import json
import re
import matplotlib.pyplot as plt
import seaborn as sns  # Importar seaborn para gráficos avançados
from IPython.display import display, HTML
from typing_extensions import TypedDict
from typing import List, Dict, Any, Annotated

# Importações do LangGraph e LangChain
from langchain_openai import ChatOpenAI
from langgraph.graph import StateGraph, END, START
from langgraph.checkpoint.memory import MemorySaver
from langchain_core.messages import SystemMessage, HumanMessage

# Importações do MongoDB
from pymongo import MongoClient
from pymongo.errors import ConnectionFailure

# Importação de segurança para avaliação segura de expressões
import ast

# Configuração do ambiente (defina sua chave de API da OpenAI)
os.environ['OPENAI_API_KEY'] = 'Coloque sua chave de API da OpenAI aqui'  # Substitua pela sua chave de API

# Definir o modelo de linguagem
model = ChatOpenAI(model_name="gpt-4o-mini", temperature=0)

# Definir o estado do agente usando TypedDict
class AgentState(TypedDict):
    question: str
    database_info: str
    database: str
    query: str
    reflect: Annotated[List[str], "add"]
    accepted: bool
    revision: int
    max_revision: int
    results: List[Dict[str, Any]]
    interpretation: str
    plot_needed: bool
    plot_type: str  # Novo campo para o tipo de gráfico
    plot_html: str
    error: str

# Configuração da conexão com o MongoDB
CONNECTION_STRING = "mongodb://ecommerce_user:senha123@localhost:27017/ecommerce?authSource=ecommerce"
DATABASE_NAME = "ecommerce"

# Função para verificar a conexão com o MongoDB
def check_mongodb_connection():
    """Verifica se a conexão com o MongoDB está estabelecida corretamente."""
    try:
        client = MongoClient(CONNECTION_STRING, serverSelectionTimeoutMS=3000)
        client.admin.command('ping')
        client.close()
        print("Conexão com o MongoDB estabelecida com sucesso.")
    except ConnectionFailure:
        print("Falha ao conectar-se ao MongoDB. Verifique se o serviço está em execução e as credenciais estão corretas.")

# Chamar a função de verificação de conexão
check_mongodb_connection()

# Função para obter informações do banco de dados
def get_database_info():
    """Obtém informações sobre as coleções e campos disponíveis no banco de dados."""
    client = MongoClient(CONNECTION_STRING)
    db = client[DATABASE_NAME]
    
    info = "Coleções disponíveis:\n"
    
    # Listar coleções e seus campos
    for collection_name in db.list_collection_names():
        info += f"\nColeção: {collection_name}\n"
        # Pegar um documento de exemplo para ver os campos
        sample = db[collection_name].find_one()
        if sample:
            info += "Campos:\n"
            for field in sample.keys():
                if field != "_id":  # Ignorar o campo _id
                    info += f" - {field}\n"
    
    client.close()
    return info

# Definir os nós para o LangGraph

def search_engineer_node(state: AgentState):
    """Obtém informações sobre o banco de dados e atualiza o estado."""
    state['database_info'] = get_database_info()
    state['database'] = DATABASE_NAME
    return state

def query_writer_node(state: AgentState):
    """Gera a query MongoDB em formato de dicionário Python, incluindo o nome da coleção."""
    role_prompt = """
Você é um especialista em MongoDB e PyMongo. Sua tarefa é escrever uma query MongoDB em formato de dicionário Python que responda à pergunta do usuário.

A query deve:
- Usar a sintaxe de dicionário do Python compatível com PyMongo.
- Incluir o nome da coleção a ser consultada, usando a chave 'collection'.
- Utilizar os nomes das coleções e campos conforme definidos no banco de dados.
- Retornar apenas o dicionário Python que representa a query, sem cercas de código ou texto adicional.
- Não incluir cercas de código, anotações de linguagem (como ```python) ou qualquer texto extra.

Por exemplo, para contar o número de produtos em cada categoria na coleção 'produtos', a query seria:

{
    'collection': 'produtos',
    'aggregate': [
        {
            '$group': {
                '_id': '$categoria',
                'total_produtos': { '$sum': 1 }
            }
        }
    ]
}
"""

    instruction = f"Informações do banco de dados:\n{state['database_info']}\n"
    if len(state['reflect']) > 0:
        instruction += f"Considere os seguintes feedbacks:\n{chr(10).join(state['reflect'])}\n"
    instruction += f"Escreva a query MongoDB em formato de dicionário Python que responda à seguinte pergunta: {state['question']}\n"

    messages = [
        SystemMessage(content=role_prompt),
        HumanMessage(content=instruction)
    ]

    response = model.invoke(messages)
    state['query'] = response.content.strip()
    state['revision'] += 1
    return state

def qa_engineer_node(state: AgentState):
    """Verifica se a query MongoDB está correta."""
    role_prompt = """
Você é um engenheiro de QA especializado em MongoDB. Sua tarefa é verificar se a query fornecida responde corretamente à pergunta do usuário.
"""

    instruction = f"Com base nas seguintes informações do banco de dados:\n{state['database_info']}\n"
    instruction += f"E na seguinte query MongoDB:\n{state['query']}\n"
    instruction += f"Verifique se a query pode completar a tarefa: {state['question']}\n"
    instruction += "Responda 'ACEITO' se estiver correta ou 'REJEITADO' se não estiver.\n"

    messages = [
        SystemMessage(content=role_prompt),
        HumanMessage(content=instruction)
    ]

    response = model.invoke(messages)
    state['accepted'] = 'ACEITO' in response.content.upper()
    return state

def chief_dba_node(state: AgentState):
    """Fornece feedback para melhorar a query MongoDB."""
    role_prompt = """
Você é um DBA experiente, especialista em MongoDB. Sua tarefa é fornecer feedback detalhado para melhorar a query fornecida.
"""

    instruction = f"Com base nas seguintes informações do banco de dados:\n{state['database_info']}\n"
    instruction += f"E na seguinte query MongoDB:\n{state['query']}\n"
    instruction += f"Por favor, forneça recomendações para melhorar a query para a tarefa: {state['question']}\n"

    messages = [
        SystemMessage(content=role_prompt),
        HumanMessage(content=instruction)
    ]

    response = model.invoke(messages)
    state['reflect'].append(response.content)
    return state

def execute_query_node(state: AgentState):
    """Executa a query MongoDB usando PyMongo."""
    client = MongoClient(CONNECTION_STRING)
    db = client[state['database']]

    try:
        # Limpar a query removendo cercas de código e texto adicional
        query_str = state['query'].strip()

        # Remover cercas de código usando expressões regulares
        query_str = re.sub(r'^```.*?$', '', query_str, flags=re.MULTILINE)
        query_str = query_str.strip('`').strip()

        # Avaliar o dicionário da query de forma segura
        query_dict = ast.literal_eval(query_str)

        # Obter a coleção a ser consultada
        if isinstance(query_dict, dict):
            collection_name = query_dict.get('collection')
            if not collection_name:
                raise ValueError("A query deve especificar a coleção no formato {'collection': 'nome_da_colecao', ...}")
            collection = db[collection_name]

            # Obter filtros e outras informações
            query_filter = query_dict.get('filter', {})
            query_projection = query_dict.get('projection')
            query_aggregate = query_dict.get('aggregate')

            # Executar a query de acordo com o tipo
            if query_aggregate:
                # Operação de agregação
                pipeline = query_aggregate
                cursor = collection.aggregate(pipeline)
            else:
                # Consulta padrão find()
                cursor = collection.find(query_filter, query_projection)

            # Obter os resultados
            state['results'] = list(cursor)
        else:
            raise ValueError("Formato de query não suportado.")

        # Serializar os resultados para JSON
        state['results'] = json.loads(json.dumps(state['results'], default=str))

        # Adicionar informações de debug
        print(f"Query executada com sucesso. Resultados: {len(state['results'])} documentos.")

    except Exception as e:
        print(f"Erro na execução da query: {str(e)}")
        state['results'] = []
        state['error'] = str(e)
    finally:
        client.close()

    return state

def interpret_results_node(state: AgentState):
    """Interpreta os resultados da query e sugere se um gráfico é necessário."""
    role_prompt = """
Você é um assistente especializado em interpretar resultados de queries MongoDB e explicá-los em linguagem natural.
Sua tarefa é:
- Analisar os resultados da query e fornecer uma resposta clara e concisa à pergunta original do usuário.
- Se houver dados numéricos ,categorias para comparar, precos, quantidade, e etc, sugira um tipo de gráfico adequado (por exemplo, gráfico de barras, gráfico de pizza, gráfico de dispersão, boxplot, violin plot, etc.).
- Seja criterioso na sugestão de gráficos e sugira apenas quando for relevante. Apenas comente sobre a sugestão de gráfico se o grafico tiver sido feito, caso contrario, nao comente sobre a sugestão de grafico.
- Retorne sua resposta no seguinte formato:

Interpretação: <sua interpretação aqui>
Sugestão de gráfico: <tipo de gráfico sugerido ou 'Nenhum' se não for aplicável>
"""

    instruction = f"Pergunta original: {state['question']}\n"
    instruction += f"Resultados da query: {state['results']}\n"
    if state.get('error'):
        instruction += f"Erro encontrado: {state['error']}\n"
    instruction += "Por favor, interprete esses resultados e sugira um tipo de gráfico se aplicável e feito, seguindo as instruções acima. Caso o grafico nao tenha sido feito, nao comente sobre a sugestão de grafico."

    messages = [
        SystemMessage(content=role_prompt),
        HumanMessage(content=instruction)
    ]

    response = model.invoke(messages)
    response_content = response.content.strip()

    # Processar a resposta para extrair interpretação e sugestão de gráfico
    interpretation = ''
    plot_suggestion = ''
    lines = response_content.split('\n')
    for line in lines:
        if line.startswith('Interpretação:'):
            interpretation = line[len('Interpretação:'):].strip()
        elif line.startswith('Sugestão de gráfico:'):
            plot_suggestion = line[len('Sugestão de gráfico:'):].strip()

    state['interpretation'] = interpretation
    plot_suggestion_lower = plot_suggestion.lower()
    if plot_suggestion_lower != 'nenhum':
        state['plot_needed'] = True
        state['plot_type'] = plot_suggestion_lower
    else:
        state['plot_needed'] = False
        state['plot_type'] = ''
    return state

def plot_results_node(state: AgentState):
    """Gera visualizações dos resultados, se necessário."""
    if not state['plot_needed']:
        state['plot_html'] = ''
        return state

    try:
        results = state['results']
        plot_type = state.get('plot_type', '').lower()
        if not results:
            print("Sem resultados para plotar.")
            return state

        # Limpar qualquer figura anterior
        plt.clf()
        plt.close('all')

        # Criar nova figura
        plt.figure(figsize=(10, 6))

        # Verificar se os resultados são adequados para plotagem
        if isinstance(results, list) and len(results) > 0:
            # Usar cores diferentes
            cmap = plt.get_cmap('tab20')
            colors = cmap.colors

            if plot_type == 'gráfico de barras' or plot_type == 'bar':
                # Gráfico de barras
                if '_id' in results[0]:
                    categories = [str(item['_id']) for item in results]
                    value_keys = [k for k in results[0].keys() if k != '_id' and isinstance(results[0][k], (int, float))]
                    if value_keys:
                        value_key = value_keys[0]
                        counts = [item.get(value_key, 0) for item in results]
                        plt.bar(categories, counts, color=colors[:len(categories)])
                        plt.title(f"{value_key.replace('_', ' ').title()} por Categoria")
                        plt.xlabel("Categorias")
                        plt.ylabel(value_key.replace('_', ' ').title())
                        plt.xticks(rotation=45)
                    else:
                        print("Nenhum valor numérico encontrado para plotagem.")
                        return state
                else:
                    print("Formato de dados não suportado para gráfico de barras.")
                    return state
            elif plot_type == 'gráfico de pizza' or plot_type == 'pie':
                # Gráfico de pizza
                if '_id' in results[0]:
                    labels = [str(item['_id']) for item in results]
                    value_keys = [k for k in results[0].keys() if k != '_id' and isinstance(results[0][k], (int, float))]
                    if value_keys:
                        value_key = value_keys[0]
                        sizes = [item.get(value_key, 0) for item in results]
                        plt.pie(sizes, labels=labels, colors=colors[:len(labels)], autopct='%1.1f%%', startangle=140)
                        plt.title(f"Distribuição de {value_key.replace('_', ' ').title()}")
                        plt.axis('equal')  # Equal aspect ratio ensures that pie is drawn as a circle.
                    else:
                        print("Nenhum valor numérico encontrado para plotagem.")
                        return state
                else:
                    print("Formato de dados não suportado para gráfico de pizza.")
                    return state
            elif plot_type == 'gráfico de dispersão' or plot_type == 'scatter plot':
                # Gráfico de dispersão
                # Procurar duas chaves numéricas para plotar
                numeric_keys = [k for k in results[0].keys() if isinstance(results[0][k], (int, float))]
                if len(numeric_keys) >= 2:
                    x_key = numeric_keys[0]
                    y_key = numeric_keys[1]
                    x_values = [item.get(x_key, 0) for item in results]
                    y_values = [item.get(y_key, 0) for item in results]
                    plt.scatter(x_values, y_values, c=colors[0])
                    plt.title(f"{y_key.replace('_', ' ').title()} vs {x_key.replace('_', ' ').title()}")
                    plt.xlabel(x_key.replace('_', ' ').title())
                    plt.ylabel(y_key.replace('_', ' ').title())
                else:
                    print("Dados insuficientes para gráfico de dispersão.")
                    return state
            elif plot_type == 'boxplot' or plot_type == 'gráfico de caixa':
                # Boxplot
                numeric_keys = [k for k in results[0].keys() if isinstance(results[0][k], (int, float))]
                if numeric_keys:
                    data = [item.get(numeric_keys[0], 0) for item in results]
                    plt.boxplot(data)
                    plt.title(f"Boxplot de {numeric_keys[0].replace('_', ' ').title()}")
                else:
                    print("Nenhum valor numérico encontrado para boxplot.")
                    return state
            elif plot_type == 'violin plot' or plot_type == 'gráfico de violino':
                # Violin plot
                sns.set(style="whitegrid")
                numeric_keys = [k for k in results[0].keys() if isinstance(results[0][k], (int, float))]
                if numeric_keys:
                    data = [item.get(numeric_keys[0], 0) for item in results]
                    sns.violinplot(y=data)
                    plt.title(f"Violin Plot de {numeric_keys[0].replace('_', ' ').title()}")
                else:
                    print("Nenhum valor numérico encontrado para violin plot.")
                    return state
            else:
                print(f"Tipo de gráfico '{plot_type}' não suportado ou não reconhecido.")
                return state
        else:
            print("Formato de dados não suportado para visualização.")
            return state

        # Ajustar layout
        plt.tight_layout()

        # Salvar em buffer
        buffer = io.BytesIO()
        plt.savefig(buffer, format='png', dpi=300, bbox_inches='tight')
        buffer.seek(0)

        # Converter para base64
        image_base64 = base64.b64encode(buffer.getvalue()).decode('utf-8')

        # Criar HTML do gráfico
        state['plot_html'] = f'''
        <div class="plot-container">
            <img src="data:image/png;base64,{image_base64}" 
                 alt="Gráfico"
                 style="width:100%; max-width:800px; margin:0 auto; display:block;">
        </div>
        '''

        # Limpar
        plt.close('all')

    except Exception as e:
        print(f"Erro ao gerar gráfico: {str(e)}")
        state['plot_html'] = ''

    return state

# Construir o LangGraph
builder = StateGraph(AgentState)

# Adicionar nós ao grafo
builder.add_node('search_engineer', search_engineer_node)
builder.add_node('query_writer', query_writer_node)
builder.add_node('qa_engineer', qa_engineer_node)
builder.add_node('chief_dba', chief_dba_node)
builder.add_node('execute_query', execute_query_node)
builder.add_node('interpret_results', interpret_results_node)
builder.add_node('plot_results', plot_results_node)

# Definir as arestas entre os nós
builder.add_edge(START, 'search_engineer')
builder.add_edge('search_engineer', 'query_writer')
builder.add_edge('query_writer', 'qa_engineer')

# Aresta condicional do qa_engineer
builder.add_conditional_edges(
    'qa_engineer',
    lambda state: 'execute_query' if state['accepted'] or state['revision'] >= state['max_revision'] else 'chief_dba',
    {'execute_query': 'execute_query', 'chief_dba': 'chief_dba'}
)

builder.add_edge('chief_dba', 'query_writer')
builder.add_edge('execute_query', 'interpret_results')
builder.add_edge('interpret_results', 'plot_results')
builder.add_edge('plot_results', END)

# Definir o ponto de entrada
builder.set_entry_point('search_engineer')

# Compilar o grafo com um checkpointer
memory = MemorySaver()
graph = builder.compile(checkpointer=memory)

# Função para processar uma pergunta usando o grafo
def process_question(question):
    """Processa a pergunta do usuário através do grafo e exibe os resultados."""
    initial_state = {
        'question': question,
        'database_info': '',
        'database': '',
        'query': '',
        'reflect': [],
        'accepted': False,
        'revision': 0,
        'max_revision': 2,
        'results': [],
        'interpretation': '',
        'plot_needed': False,
        'plot_type': '',  # Inicializar plot_type
        'plot_html': '',
        'error': ''
    }
    thread = {'configurable': {'thread_id': '1'}}
    for _ in graph.stream(initial_state, thread):
        pass
    # Obter o estado final
    final_state = graph.get_state(thread).values

    # Exibir os resultados
    print('Query MongoDB Gerada:\n', final_state['query'])
    print('\nResultados da Query:')
    if final_state['results']:
        print(json.dumps(final_state['results'], indent=2, ensure_ascii=False))
    else:
        print('Nenhum resultado ou erro na execução da query.')
    
    print('\nInterpretação:')
    print(final_state['interpretation'])
    
    if final_state.get('plot_html'):
        display(HTML(final_state['plot_html']))
    else:
        print('Nenhum gráfico gerado.')




Conexão com o MongoDB estabelecida com sucesso.


In [48]:
pergunta = "Faca um grafico de pizza a quantidade de produtos por categoria em relacao a quantidade total"
process_question(pergunta)

Query executada com sucesso. Resultados: 5 documentos.
Query MongoDB Gerada:
 {
    'collection': 'produtos',
    'aggregate': [
        {
            '$group': {
                '_id': '$categoria',
                'total_produtos': { '$sum': '$estoque' }
            }
        },
        {
            '$group': {
                '_id': None,
                'total_estoque': { '$sum': '$total_produtos' }
            }
        },
        {
            '$lookup': {
                'from': 'produtos',
                'pipeline': [
                    {
                        '$group': {
                            '_id': '$categoria',
                            'total_produtos': { '$sum': '$estoque' }
                        }
                    },
                    {
                        '$addFields': {
                            'porcentagem': {
                                '$multiply': [
                                    { '$divide': ['$total_produtos', '$total_estoque'] 

In [32]:
pergunta = "Faca um grafico de barras da quantidade de produtos por categoria"
process_question(pergunta)

Query executada com sucesso. Resultados: 5 documentos.
Query MongoDB Gerada:
 {
    'collection': 'produtos',
    'aggregate': [
        {
            '$group': {
                '_id': '$categoria',
                'total_produtos': { '$sum': '$estoque' }
            }
        }
    ]
}

Resultados da Query:
[
  {
    "_id": "Alimentos",
    "total_produtos": 6611
  },
  {
    "_id": "Roupas",
    "total_produtos": 6927
  },
  {
    "_id": "Eletrônicos",
    "total_produtos": 7365
  },
  {
    "_id": "Livros",
    "total_produtos": 7650
  },
  {
    "_id": "Móveis",
    "total_produtos": 7187
  }
]

Interpretação:
A quantidade de produtos varia entre as categorias, com 'Livros' apresentando o maior total de 7650 produtos, seguido por 'Eletrônicos' com 7365, 'Móveis' com 7187, 'Roupas' com 6927 e 'Alimentos' com 6611. Isso indica que a categoria de Livros é a mais representativa em termos de quantidade de produtos disponíveis, enquanto Alimentos é a menos representativa.


In [49]:
pergunta = "Calcule os outliers dos preços dos produtos"
process_question(pergunta)

Query executada com sucesso. Resultados: 1 documentos.
Query MongoDB Gerada:
 {
    'collection': 'produtos',
    'aggregate': [
        {
            '$group': {
                '_id': None,
                'media_preco': { '$avg': '$preco' },
                'desvio_padrao': { '$stdDevPop': '$preco' }
            }
        },
        {
            '$project': {
                'limite_inferior': { '$subtract': ['$media_preco', { '$multiply': ['$desvio_padrao', 1.5] }] },
                'limite_superior': { '$add': ['$media_preco', { '$multiply': ['$desvio_padrao', 1.5] }] }
            }
        },
        {
            '$lookup': {
                'from': 'produtos',
                'let': {
                    'limite_inferior': '$limite_inferior',
                    'limite_superior': '$limite_superior'
                },
                'pipeline': [
                    {
                        '$match': {
                            '$expr': {
                                

In [34]:
pergunta = "Faca  um grafico comparando o preco dos 3 produtos mais caros"
process_question(pergunta)

Query executada com sucesso. Resultados: 3 documentos.
Query MongoDB Gerada:
 {
    'collection': 'produtos',
    'aggregate': [
        {
            '$sort': {
                'preco': -1
            }
        },
        {
            '$limit': 3
        },
        {
            '$project': {
                'nome': 1,
                'preco': 1
            }
        }
    ]
}

Resultados da Query:
[
  {
    "_id": "674b4b3801d4422b9aaa984e",
    "nome": "Amet",
    "preco": 999.52
  },
  {
    "_id": "674cf3f9eeb3778b09a14941",
    "nome": "Aut",
    "preco": 998.88
  },
  {
    "_id": "674b4b3801d4422b9aaa97f7",
    "nome": "Rem",
    "preco": 997.78
  }
]

Interpretação:
Os três produtos mais caros são 'Amet' com preço de 999.52, 'Aut' com preço de 998.88 e 'Rem' com preço de 997.78. A diferença de preços entre eles é muito pequena, com 'Amet' sendo o mais caro, seguido por 'Aut' e 'Rem'.


In [45]:
pergunta = "Quais as 5 primeiras linhas da colecao clientes?"
process_question(pergunta)

Query executada com sucesso. Resultados: 1200 documentos.
Nenhum valor numérico encontrado para plotagem.
Query MongoDB Gerada:
 {
    'collection': 'clientes',
    'find': {},
    'limit': 5
}

Resultados da Query:
[
  {
    "_id": "674a8c50d1e62a839cf8a1aa",
    "nome": "Olivia da Cruz",
    "email": "ecamara@example.com",
    "endereco": "Praça Machado, 53\nAraguaia\n49830712 Melo da Mata / RO",
    "telefone": "+55 (011) 2116-1910"
  },
  {
    "_id": "674a8c50d1e62a839cf8a1ab",
    "nome": "Lívia Gomes",
    "email": "limaluana@example.org",
    "endereco": "Área de Sá, 21\nBandeirantes\n82336000 Castro de Andrade / RN",
    "telefone": "51 9740 1897"
  },
  {
    "_id": "674a8c50d1e62a839cf8a1ac",
    "nome": "Srta. Maria Alice Montenegro",
    "email": "eloahlima@example.net",
    "endereco": "Ladeira Mendes, 88\nPiratininga\n46082-907 Silva / SP",
    "telefone": "+55 81 2789-6543"
  },
  {
    "_id": "674a8c50d1e62a839cf8a1ad",
    "nome": "Aylla Gonçalves",
    "email": "thal

<Figure size 1000x600 with 0 Axes>