# Demonstra√ß√£o da API EDA Backend
## An√°lise Explorat√≥ria de Dados com FastAPI e ydata-profiling

Este notebook demonstra como usar a API EDA desenvolvida em FastAPI para realizar an√°lise explorat√≥ria de dados em arquivos CSV usando ydata-profiling.

## Funcionalidades da API

A API oferece os seguintes endpoints:
- `/upload-csv`: Upload de arquivo CSV e gera√ß√£o de relat√≥rio EDA encapsulado
- `/upload-csv-raw`: Upload de arquivo CSV e retorno do JSON completo da an√°lise EDA
- `/csv-info`: Informa√ß√µes b√°sicas sobre o arquivo CSV
- `/supported-formats`: Formatos de arquivo suportados
- `/endpoints`: Lista todos os endpoints dispon√≠veis da API
- `/health`: Status da API
- `/docs`: Documenta√ß√£o interativa (Swagger UI)

## Tecnologias Utilizadas

- **FastAPI**: Framework web moderno e r√°pido para construir APIs
- **ydata-profiling**: Biblioteca para gera√ß√£o de relat√≥rios EDA
- **pandas**: Manipula√ß√£o e an√°lise de dados
- **Poetry**: Gerenciamento de depend√™ncias

## Novidades Implementadas

‚ú® **Novo endpoint `/upload-csv-raw`**: Retorna o JSON completo da an√°lise EDA sem encapsulamento adicional, ideal para integra√ß√£o com outras ferramentas ou an√°lise program√°tica.

‚ú® **Novo endpoint `/endpoints`**: Lista todos os endpoints dispon√≠veis com descri√ß√µes detalhadas.

## 1. Configura√ß√£o do Ambiente

Primeiro, vamos configurar o ambiente e importar as bibliotecas necess√°rias:

In [1]:
import requests
import json
import pandas as pd
from IPython.display import HTML, JSON
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime

# Configura√ß√£o da API
API_BASE_URL = "http://localhost:8000/api/v1"

print("Bibliotecas importadas com sucesso!")
print(f"URL da API: {API_BASE_URL}")
print(f"Timestamp: {datetime.now()}")

Bibliotecas importadas com sucesso!
URL da API: http://localhost:8000/api/v1
Timestamp: 2025-09-30 22:52:52.378468


## 2. Testando a Conectividade da API

Vamos verificar se a API est√° funcionando:

In [2]:
# Teste de conectividade
try:
    # Testar endpoint raiz (sem prefixo /api/v1)
    response = requests.get("http://localhost:8000/")
    print(f"Status Code: {response.status_code}")
    print(f"Resposta: {response.json()}")
    
    # Verificar endpoints dispon√≠veis (com prefixo /api/v1)
    health_response = requests.get(f"{API_BASE_URL}/supported-formats")
    print(f"\nFormatos suportados: {health_response.json()}")
    
except requests.exceptions.ConnectionError:
    print("‚ùå Erro: N√£o foi poss√≠vel conectar √† API.")
    print("Certifique-se de que o servidor est√° rodando: uvicorn main:app --reload")
except Exception as e:
    print(f"‚ùå Erro inesperado: {e}")

Status Code: 200
Resposta: {'message': 'EDA Backend API', 'version': '0.1.0', 'description': 'API para an√°lise explorat√≥ria de dados de arquivos CSV', 'docs': '/docs', 'redoc': '/redoc', 'endpoints': {'upload_csv': '/api/v1/upload-csv', 'csv_info': '/api/v1/csv-info', 'supported_formats': '/api/v1/supported-formats', 'health': '/api/v1/health'}}

Formatos suportados: {'supported_formats': ['.csv'], 'description': 'Formatos de arquivo suportados para an√°lise EDA'}


## 3. Upload e An√°lise do Arquivo CSV

Agora vamos fazer o upload do arquivo de exemplo e obter a an√°lise EDA completa:

In [None]:
# Upload do arquivo CSV para an√°lise EDA
csv_file_path = "creditcard.csv"

try:
    with open(csv_file_path, 'rb') as file:
        files = {'file': (csv_file_path, file, 'text/csv')}
        
        print("üì§ Fazendo upload do arquivo...")
        response = requests.post(f"{API_BASE_URL}/upload-csv", files=files)
        
        if response.status_code == 200:
            print("‚úÖ Upload realizado com sucesso!")
            eda_result = response.json()
            
            # Debug: Mostrar estrutura da resposta
            print("\nüîç ESTRUTURA DA RESPOSTA JSON:")
            print("=" * 50)
            print(f"Chaves principais: {list(eda_result.keys())}")
            print(f"Tipo da resposta: {type(eda_result)}")
            
            # Salvar resultado para an√°lise posterior
            with open('eda_result.json', 'w', encoding='utf-8') as f:
                json.dump(eda_result, f, indent=2, ensure_ascii=False)
            
            print(f"\nüìä An√°lise EDA conclu√≠da!")
            print(f"üìÅ Arquivo analisado: {eda_result.get('filename', 'N/A')}")
            
            # Verificar se tem a chave 'analysis'
            if 'analysis' in eda_result:
                table_info = eda_result['analysis']['table']
                print(f"üìè Dimens√µes: {table_info['n']} linhas x {table_info['n_var']} colunas")
            else:
                print("‚ö†Ô∏è Chave 'analysis' n√£o encontrada na resposta")
                print("üìã Verificando estrutura alternativa...")
                
                # Mostrar as primeiras linhas da resposta para debug
                print(f"üìÑ Primeiras 500 caracteres da resposta:")
                response_str = json.dumps(eda_result, indent=2)[:500]
                print(response_str + "...")
            
        else:
            print(f"‚ùå Erro no upload: {response.status_code}")
            print(f"üìÑ Resposta completa: {response.text}")
            
except FileNotFoundError:
    print(f"‚ùå Arquivo n√£o encontrado: {csv_file_path}")
    print("Certifique-se de que o arquivo example_data.csv est√° no diret√≥rio atual")
except Exception as e:
    print(f"‚ùå Erro: {e}")
    import traceback
    traceback.print_exc()

üì§ Fazendo upload do arquivo...
‚úÖ Upload realizado com sucesso!

üîç ESTRUTURA DA RESPOSTA JSON:
Chaves principais: ['success', 'message', 'filename', 'eda_data', 'error']
Tipo da resposta: <class 'dict'>

üìä An√°lise EDA conclu√≠da!
üìÅ Arquivo analisado: example_data.csv
‚ö†Ô∏è Chave 'analysis' n√£o encontrada na resposta
üìã Verificando estrutura alternativa...
üìÑ Primeiras 500 caracteres da resposta:
{
  "success": true,
  "message": "Arquivo processado com sucesso",
  "filename": "example_data.csv",
  "eda_data": {
    "filename": "example_data.csv",
    "rows": 10,
    "columns": 5,
    "column_names": [
      "nome",
      "idade",
      "cidade",
      "salario",
      "departamento"
    ],
    "data_types": {
      "nome": "object",
      "idade": "int64",
      "cidade": "object",
      "salario": "float64",
      "departamento": "object"
    },
    "eda_report": {
      "analysis": {
...
‚úÖ Upload realizado com sucesso!

üîç ESTRUTURA DA RESPOSTA JSON:
Chaves pr

## 4. Explorando os Resultados da An√°lise EDA

Vamos examinar os diferentes aspectos do relat√≥rio EDA gerado:

In [None]:
# Vers√£o OTIMIZADA - An√°lise r√°pida dos resultados EDA
import os
import time

start_time = time.time()

try:
    # 1. Verificar se o arquivo existe e seu tamanho
    if os.path.exists('eda_result.json'):
        file_size = os.path.getsize('eda_result.json')
        print(f"üìÑ Arquivo encontrado: {file_size:,} bytes")
        
        # Se arquivo muito grande (>10MB), carregar apenas parte
        if file_size > 10 * 1024 * 1024:  # 10MB
            print("‚ö†Ô∏è Arquivo muito grande, carregando parcialmente...")
            with open('eda_result.json', 'r', encoding='utf-8') as f:
                # Ler apenas os primeiros 1MB
                content = f.read(1024 * 1024)
                print("üìä Carregando dados parciais...")
                try:
                    eda_response = json.loads(content + "}")  # Tentar fechar JSON
                except:
                    print("‚ùå Arquivo JSON muito grande para an√°lise completa")
                    print("üí° Use o endpoint /csv-info para informa√ß√µes b√°sicas")
                    raise Exception("Arquivo muito grande")
        else:
            # Carregar arquivo normal
            print("üìä Carregando arquivo JSON completo...")
            with open('eda_result.json', 'r', encoding='utf-8') as f:
                eda_response = json.load(f)
    else:
        print("‚ùå Arquivo eda_result.json n√£o encontrado.")
        print("üí° Execute primeiro a c√©lula de upload do CSV.")
        raise FileNotFoundError("eda_result.json n√£o encontrado")
    
    load_time = time.time() - start_time
    print(f"‚è±Ô∏è Tempo de carregamento: {load_time:.2f}s")
    
    # 2. Verifica√ß√£o r√°pida da estrutura
    print(f"\nüîç ESTRUTURA R√ÅPIDA")
    print("=" * 40)
    print(f"üìã Chaves principais: {list(eda_response.keys())}")
    
    # Verificar se tem eda_data
    if 'eda_data' in eda_response:
        eda_data = eda_response['eda_data']
        print(f"‚úÖ eda_data encontrado")
        
        # Informa√ß√µes b√°sicas r√°pidas
        if 'table' in eda_data:
            table_info = eda_data['table']
            print(f"\nüìä RESUMO B√ÅSICO")
            print("=" * 40)
            print(f"üìÅ Arquivo: {eda_response.get('filename', 'N/A')}")
            print(f"üìè Linhas: {table_info.get('n', 0):,}")
            print(f"üìã Colunas: {table_info.get('n_var', 0):,}")
        
        # Contar vari√°veis rapidamente (sem loop pesado)
        if 'variables' in eda_data:
            variables = eda_data['variables']
            var_count = len(variables)
            print(f"üìà Total de vari√°veis: {var_count}")
            
            # Mostrar apenas as primeiras 3 vari√°veis
            print(f"\nüìã PRIMEIRAS 3 VARI√ÅVEIS:")
            for i, (var_name, var_info) in enumerate(variables.items()):
                if i >= 3:  # Limitar a 3 para n√£o demorar
                    break
                var_type = var_info.get('type', 'Desconhecido')
                print(f"‚Ä¢ {var_name}: {var_type}")
            
            if var_count > 3:
                print(f"... e mais {var_count - 3} vari√°veis")
        
    else:
        print("‚ùå eda_data n√£o encontrado")
        print(f"üìã Chaves dispon√≠veis: {list(eda_response.keys())}")
    
    total_time = time.time() - start_time
    print(f"\n‚è±Ô∏è Tempo total: {total_time:.2f}s")
    print("‚úÖ An√°lise r√°pida conclu√≠da!")
    
except FileNotFoundError:
    print("‚ùå Arquivo n√£o encontrado. Execute o upload primeiro.")
except json.JSONDecodeError:
    print("‚ùå Erro ao decodificar JSON. Arquivo pode estar corrompido.")
except Exception as e:
    print(f"‚ùå Erro: {e}")
    total_time = time.time() - start_time
    print(f"‚è±Ô∏è Tempo at√© erro: {total_time:.2f}s")

In [None]:
# Carregar os resultados da an√°lise EDA
try:
    with open('eda_result.json', 'r', encoding='utf-8') as f:
        eda_response = json.load(f)
    
    # Verificar estrutura da resposta
    if 'eda_data' not in eda_response:
        print("‚ùå Chave 'eda_data' n√£o encontrada na resposta.")
        print(f"? Chaves dispon√≠veis: {list(eda_response.keys())}")
        raise KeyError("eda_data n√£o encontrado")
    
    # Extrair dados EDA da resposta
    eda_data = eda_response['eda_data']
    
    print("?üìä RESUMO GERAL DA AN√ÅLISE")
    print("=" * 40)
    
    # Informa√ß√µes b√°sicas da tabela
    table_info = eda_data['table']
    print(f"üìÅ Arquivo: {eda_response['filename']}")
    print(f"üìè Linhas: {table_info['n']:,}")
    print(f"üìã Colunas: {table_info['n_var']:,}")
    print(f"üî¢ C√©lulas totais: {table_info.get('n_cells', 0):,}")
    print(f"‚ùå Valores ausentes: {table_info['n_cells_missing']:,}")
    print(f"üìä Duplicatas: {table_info['n_duplicates']:,}")
    print(f"üíæ Tamanho na mem√≥ria: {table_info['memory_size']:,} bytes")
    
    # Informa√ß√µes sobre as vari√°veis
    variables = eda_data['variables']
    print(f"\nüìà TIPOS DE VARI√ÅVEIS")
    print("=" * 40)
    
    for var_name, var_info in variables.items():
        var_type = var_info.get('type', 'Desconhecido')
        print(f"‚Ä¢ {var_name}: {var_type}")
        
        if 'description' in var_info:
            desc = var_info['description']
            if 'mean' in desc:
                print(f"  - M√©dia: {desc['mean']:.2f}")
            if 'std' in desc:
                print(f"  - Desvio padr√£o: {desc['std']:.2f}")
            if 'min' in desc:
                print(f"  - M√≠nimo: {desc['min']}")
            if 'max' in desc:
                print(f"  - M√°ximo: {desc['max']}")
        print()
        
except FileNotFoundError:
    print("‚ùå Arquivo eda_result.json n√£o encontrado.")
    print("Execute primeiro a c√©lula de upload do CSV.")
except KeyError as e:
    print(f"‚ùå Chave n√£o encontrada: {e}")
    print("üìã Verificando estrutura da resposta...")
    if 'eda_response' in locals():
        print(f"Chaves dispon√≠veis: {list(eda_response.keys())}")
except Exception as e:
    print(f"‚ùå Erro ao processar os dados: {e}")
    import traceback
    traceback.print_exc()

### 4.1 An√°lise de Correla√ß√µes

Vamos examinar as correla√ß√µes entre as vari√°veis:

In [6]:
# An√°lise de correla√ß√µes
try:
    # Usar eda_data em vez de eda_data['analysis']
    correlations = eda_data['correlations']
    
    print("üîó MATRIZ DE CORRELA√á√ïES")
    print("=" * 50)
    
    # Correla√ß√£o de Pearson (para vari√°veis num√©ricas)
    if 'pearson' in correlations:
        print("\nüìä Correla√ß√£o de Pearson:")
        pearson_matrix = correlations['pearson']
        
        # Converter para DataFrame para melhor visualiza√ß√£o
        import pandas as pd
        pearson_df = pd.DataFrame(pearson_matrix)
        print(pearson_df.round(3))
        
        # Encontrar correla√ß√µes altas (> 0.7 ou < -0.7)
        print("\nüî• Correla√ß√µes Fortes (|r| > 0.7):")
        correlations_found = False
        for i, row in enumerate(pearson_df.index):
            for j, col in enumerate(pearson_df.columns):
                if i < j:  # Evitar duplicatas
                    corr_value = pearson_df.iloc[i, j]
                    if abs(corr_value) > 0.7:
                        print(f"‚Ä¢ {row} ‚Üî {col}: {corr_value:.3f}")
                        correlations_found = True
        
        if not correlations_found:
            print("‚Ä¢ Nenhuma correla√ß√£o forte encontrada (|r| > 0.7)")
    
    # Correla√ß√£o de Spearman (para vari√°veis ordinais)
    if 'spearman' in correlations:
        print(f"\nüìà Correla√ß√£o de Spearman dispon√≠vel: {len(correlations['spearman'])} vari√°veis")
    
    # Correla√ß√£o de Kendall
    if 'kendall' in correlations:
        print(f"üìâ Correla√ß√£o de Kendall dispon√≠vel: {len(correlations['kendall'])} vari√°veis")
    
    # Correla√ß√£o para vari√°veis categ√≥ricas
    if 'cramers' in correlations:
        print(f"üè∑Ô∏è Correla√ß√£o de Cram√©r's V dispon√≠vel: {len(correlations['cramers'])} vari√°veis categ√≥ricas")
        
except KeyError as e:
    print(f"‚ùå Chave n√£o encontrada: {e}")
    print("üìã Verificando chaves dispon√≠veis em eda_data...")
    if 'eda_data' in locals():
        print(f"Chaves principais: {list(eda_data.keys())}")
except Exception as e:
    print(f"‚ùå Erro na an√°lise de correla√ß√µes: {e}")
    import traceback
    traceback.print_exc()

‚ùå Erro na an√°lise de correla√ß√µes: name 'eda_data' is not defined


Traceback (most recent call last):
  File "/tmp/ipykernel_572196/1130770769.py", line 4, in <module>
    correlations = eda_data['correlations']
                   ^^^^^^^^
NameError: name 'eda_data' is not defined


### 4.2 Alertas e Insights

Vamos verificar os alertas e insights gerados automaticamente:

In [14]:
# An√°lise de alertas e insights
try:
    # Usar eda_data em vez de eda_data['analysis']
    alerts = eda_data.get('alerts', [])
    
    print("üö® ALERTAS E INSIGHTS")
    print("=" * 40)
    
    if alerts:
        for i, alert in enumerate(alerts, 1):
            alert_type = alert.get('alert_type', {})
            print(f"\n{i}. üìã Tipo: {alert_type.get('display_name', 'N/A')}")
            print(f"   üìù Descri√ß√£o: {alert.get('fmt', 'N/A')}")
            
            # Mostrar valores espec√≠ficos se dispon√≠veis
            if 'values' in alert:
                values = alert['values']
                for key, value in values.items():
                    if isinstance(value, (int, float)):
                        print(f"   üìä {key}: {value:.3f}" if isinstance(value, float) else f"   üìä {key}: {value}")
                    else:
                        print(f"   üìä {key}: {value}")
    else:
        print("‚úÖ Nenhum alerta encontrado - dados parecem estar em bom estado!")
    
    # Verificar se h√° informa√ß√µes sobre missing data
    print(f"\nüìä QUALIDADE DOS DADOS")
    print("=" * 40)
    
    # Informa√ß√µes sobre dados ausentes por vari√°vel
    variables = eda_data['variables']
    missing_data_found = False
    
    for var_name, var_info in variables.items():
        if 'n_missing' in var_info and var_info['n_missing'] > 0:
            missing_data_found = True
            missing_count = var_info['n_missing']
            missing_pct = var_info.get('p_missing', 0) * 100
            print(f"‚ùå {var_name}: {missing_count} valores ausentes ({missing_pct:.1f}%)")
    
    if not missing_data_found:
        print("‚úÖ N√£o h√° valores ausentes no dataset!")
        
except KeyError as e:
    print(f"‚ùå Chave n√£o encontrada: {e}")
    print("üìã Verificando estrutura dispon√≠vel...")
    if 'eda_data' in locals():
        print(f"Chaves em eda_data: {list(eda_data.keys())}")
except Exception as e:
    print(f"‚ùå Erro na an√°lise de alertas: {e}")
    import traceback
    traceback.print_exc()

‚ùå Erro na an√°lise de alertas: name 'eda_data' is not defined


Traceback (most recent call last):
  File "/tmp/ipykernel_572196/2618361280.py", line 4, in <module>
    alerts = eda_data.get('alerts', [])
             ^^^^^^^^
NameError: name 'eda_data' is not defined


### 4.3 Visualiza√ß√µes Integradas

O ydata-profiling gera visualiza√ß√µes em formato SVG que est√£o inclu√≠das no JSON:

In [19]:
# Explorar visualiza√ß√µes SVG embutidas
try:
    # Procurar por scatter plots nas correla√ß√µes
    correlations = eda_data['analysis']['correlations']
    
    print("üé® VISUALIZA√á√ïES DISPON√çVEIS")
    print("=" * 40)
    
    svg_count = 0
    
    # Verificar se h√° scatter plots em pearson
    if 'pearson' in correlations:
        pearson_data = correlations['pearson']
        if isinstance(pearson_data, list):
            for item in pearson_data:
                if isinstance(item, dict) and 'scatter' in item:
                    svg_count += 1
                    
    print(f"üìä Scatter plots encontrados: {svg_count}")
    
    # Mostrar o primeiro SVG como exemplo (se dispon√≠vel)
    scatter_plots_found = []
    
    # Procurar por SVGs em outras se√ß√µes
    def find_svgs(data, path=""):
        svgs = []
        if isinstance(data, dict):
            for key, value in data.items():
                current_path = f"{path}.{key}" if path else key
                if key == 'scatter' and isinstance(value, str) and value.startswith('<svg'):
                    svgs.append((current_path, value))
                elif isinstance(value, (dict, list)):
                    svgs.extend(find_svgs(value, current_path))
        elif isinstance(data, list):
            for i, item in enumerate(data):
                current_path = f"{path}[{i}]"
                svgs.extend(find_svgs(item, current_path))
        return svgs
    
    all_svgs = find_svgs(eda_data)
    
    print(f"üñºÔ∏è Total de SVGs encontrados: {len(all_svgs)}")
    
    if all_svgs:
        print("\\nüìç Localiza√ß√µes dos SVGs:")
        for path, svg in all_svgs[:5]:  # Mostrar apenas os primeiros 5
            print(f"‚Ä¢ {path}")
            
        # Mostrar o primeiro SVG
        if len(all_svgs) > 0:
            print(f"\\nüéØ Exemplo de visualiza√ß√£o:")
            first_svg = all_svgs[0][1]
            # Mostrar apenas uma pr√©via do SVG
            preview = first_svg[:200] + "..." if len(first_svg) > 200 else first_svg
            print(f"SVG Preview: {preview}")
            
            # Renderizar o SVG no notebook
            from IPython.display import SVG, display
            print("\\nüé® Renderizando visualiza√ß√£o:")
            display(SVG(first_svg))
    else:
        print("üìä Criando visualiza√ß√£o personalizada com matplotlib...")
        
        # Se n√£o h√° SVGs, criar um plot simples com matplotlib
        variables = eda_data['analysis']['variables']
        numeric_vars = []
        
        for var_name, var_info in variables.items():
            if var_info.get('type') in ['Numeric', 'Integer']:
                numeric_vars.append(var_name)
        
        if len(numeric_vars) >= 2:
            print(f"Vari√°veis num√©ricas encontradas: {numeric_vars}")
            
except Exception as e:
    print(f"‚ùå Erro na an√°lise de visualiza√ß√µes: {e}")

‚ùå Erro na an√°lise de visualiza√ß√µes: 'analysis'


## 5. Testando Outros Endpoints

Vamos testar os demais endpoints da API:

In [None]:
# Testando endpoint de informa√ß√µes b√°sicas
print("üîç TESTANDO ENDPOINT /csv-info")
print("=" * 40)

try:
    with open('example_data.csv', 'rb') as file:
        files = {'file': ('example_data.csv', file, 'text/csv')}
        response = requests.post(f"{API_BASE_URL}/csv-info", files=files)
        
        if response.status_code == 200:
            info_result = response.json()
            print("‚úÖ Informa√ß√µes b√°sicas obtidas com sucesso!")
            print(f"üìÅ Arquivo: {info_result['filename']}")
            print(f"üìè Linhas: {info_result['rows']}")
            print(f"üìã Colunas: {info_result['columns']}")
            print(f"üíæ Tamanho: {info_result['file_size_bytes']} bytes")
            print(f"üè∑Ô∏è Nomes das colunas: {', '.join(info_result['column_names'])}")
            print(f"üìä Tipos de dados: {info_result['column_types']}")
        else:
            print(f"‚ùå Erro: {response.status_code} - {response.text}")
            
except Exception as e:
    print(f"‚ùå Erro: {e}")

print("\\n" + "="*50)

# Testando endpoint de formatos suportados
print("\\nüìã FORMATOS SUPORTADOS")
print("=" * 40)

try:
    response = requests.get(f"{API_BASE_URL}/supported-formats")
    if response.status_code == 200:
        formats = response.json()
        print("‚úÖ Formatos dispon√≠veis:")
        for fmt in formats['supported_formats']:
            print(f"‚Ä¢ {fmt}")
    else:
        print(f"‚ùå Erro: {response.status_code}")
        
except Exception as e:
    print(f"‚ùå Erro: {e}")

### 5.1 Testando o Novo Endpoint JSON Completo

Vamos testar o novo endpoint `/upload-csv-raw` que retorna o JSON completo:

In [None]:
# Testando novo endpoint de JSON completo
print("üîç TESTANDO ENDPOINT /upload-csv-raw")
print("=" * 50)

try:
    with open('example_data.csv', 'rb') as file:
        files = {'file': ('example_data.csv', file, 'text/csv')}
        response = requests.post(f"{API_BASE_URL}/upload-csv-raw", files=files)
        
        if response.status_code == 200:
            raw_result = response.json()
            print("‚úÖ JSON completo obtido com sucesso!")
            print(f"üìÅ Arquivo: {raw_result['filename']}")
            
            # Salvar JSON completo
            with open('eda_raw_result.json', 'w', encoding='utf-8') as f:
                json.dump(raw_result, f, indent=2, ensure_ascii=False)
            
            # Mostrar estrutura do JSON completo
            print(f"\nüìã ESTRUTURA DO JSON COMPLETO:")
            print(f"‚Ä¢ Chaves principais: {list(raw_result.keys())}")
            
            if 'analysis' in raw_result:
                analysis_keys = list(raw_result['analysis'].keys())
                print(f"‚Ä¢ Chaves em 'analysis': {analysis_keys[:10]}...")  # Mostrar apenas as primeiras 10
                print(f"‚Ä¢ Total de se√ß√µes na an√°lise: {len(analysis_keys)}")
            
            # Comparar tamanhos dos arquivos
            import os
            size_normal = os.path.getsize('eda_result.json') if os.path.exists('eda_result.json') else 0
            size_raw = os.path.getsize('eda_raw_result.json')
            
            print(f"\nüìä COMPARA√á√ÉO DE TAMANHOS:")
            print(f"‚Ä¢ JSON encapsulado: {size_normal:,} bytes")
            print(f"‚Ä¢ JSON completo: {size_raw:,} bytes")
            print(f"‚Ä¢ Diferen√ßa: {size_raw - size_normal:,} bytes")
            
        else:
            print(f"‚ùå Erro: {response.status_code} - {response.text}")
            
except Exception as e:
    print(f"‚ùå Erro: {e}")

print("\n" + "="*50)

### 5.2 Explorando Endpoints Dispon√≠veis

Vamos verificar todos os endpoints dispon√≠veis na API:

In [None]:
# Testando endpoint de listagem de endpoints
print("üìã EXPLORANDO ENDPOINTS DA API")
print("=" * 50)

try:
    response = requests.get(f"{API_BASE_URL}/endpoints")
    if response.status_code == 200:
        endpoints_info = response.json()
        print("‚úÖ Informa√ß√µes dos endpoints obtidas!")
        
        # Informa√ß√µes da API
        api_info = endpoints_info.get('api_info', {})
        print(f"\nüìç {api_info.get('name', 'API')}")
        print(f"üìå Vers√£o: {api_info.get('version', 'N/A')}")
        print(f"üìù Descri√ß√£o: {api_info.get('description', 'N/A')}")
        
        # Listar endpoints
        endpoints = endpoints_info.get('endpoints', {})
        print(f"\nüîó ENDPOINTS DISPON√çVEIS ({len(endpoints)}):")
        print("-" * 60)
        
        for name, details in endpoints.items():
            method = details.get('method', 'N/A')
            path = details.get('path', 'N/A')
            description = details.get('description', 'N/A')
            parameters = details.get('parameters', '')
            
            print(f"‚Ä¢ {method:<6} {path}")
            print(f"  üìÑ {description}")
            if parameters:
                print(f"  üìé Par√¢metros: {parameters}")
            print()
        
        # Documenta√ß√£o
        docs = endpoints_info.get('documentation', {})
        print(f"üìö DOCUMENTA√á√ÉO:")
        for doc_type, url in docs.items():
            print(f"‚Ä¢ {doc_type}: http://localhost:8000{url}")
            
    else:
        print(f"‚ùå Erro: {response.status_code}")
        
except Exception as e:
    print(f"‚ùå Erro: {e}")

print("\n" + "="*50)

## 6. Criando Visualiza√ß√µes Customizadas

Vamos criar algumas visualiza√ß√µes personalizadas com base nos dados da EDA:

In [None]:
# Criar visualiza√ß√µes baseadas nos dados da EDA
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

plt.style.use('default')
plt.rcParams['figure.figsize'] = (12, 8)

try:
    # Extrair dados estat√≠sticos das vari√°veis para visualiza√ß√£o
    variables = eda_data['variables']
    
    # Coletar informa√ß√µes das vari√°veis num√©ricas
    numeric_stats = {}
    categorical_stats = {}
    
    for var_name, var_info in variables.items():
        var_type = var_info.get('type', '')
        
        if var_type in ['Numeric', 'Integer']:
            if 'description' in var_info:
                desc = var_info['description']
                numeric_stats[var_name] = {
                    'mean': desc.get('mean', 0),
                    'std': desc.get('std', 0),
                    'min': desc.get('min', 0),
                    'max': desc.get('max', 0),
                    'q1': desc.get('25%', 0),
                    'median': desc.get('50%', 0),
                    'q3': desc.get('75%', 0)
                }
        elif var_type == 'Categorical':
            categorical_stats[var_name] = var_info
    
    print(f"üìä Vari√°veis num√©ricas encontradas: {len(numeric_stats)}")
    print(f"üè∑Ô∏è Vari√°veis categ√≥ricas encontradas: {len(categorical_stats)}")
    
    # Visualiza√ß√£o 1: Compara√ß√£o de m√©dias
    if numeric_stats:
        fig, axes = plt.subplots(2, 2, figsize=(15, 12))
        fig.suptitle('üìä An√°lise Estat√≠stica das Vari√°veis Num√©ricas', fontsize=16, fontweight='bold')
        
        # Gr√°fico 1: M√©dias
        var_names = list(numeric_stats.keys())
        means = [numeric_stats[var]['mean'] for var in var_names]
        
        axes[0, 0].bar(var_names, means, color='skyblue', alpha=0.7)
        axes[0, 0].set_title('Valores M√©dios por Vari√°vel')
        axes[0, 0].set_ylabel('Valor M√©dio')
        axes[0, 0].tick_params(axis='x', rotation=45)
        
        # Gr√°fico 2: Desvios padr√£o
        stds = [numeric_stats[var]['std'] for var in var_names]
        axes[0, 1].bar(var_names, stds, color='lightcoral', alpha=0.7)
        axes[0, 1].set_title('Desvio Padr√£o por Vari√°vel')
        axes[0, 1].set_ylabel('Desvio Padr√£o')
        axes[0, 1].tick_params(axis='x', rotation=45)
        
        # Gr√°fico 3: Box plot comparativo (simulado)
        box_data = []
        box_labels = []
        for var in var_names:
            stats = numeric_stats[var]
            # Simular distribui√ß√£o baseada nas estat√≠sticas
            simulated_data = np.random.normal(stats['mean'], stats['std'], 100)
            box_data.append(simulated_data)
            box_labels.append(var)
        
        axes[1, 0].boxplot(box_data, labels=box_labels)
        axes[1, 0].set_title('Distribui√ß√£o das Vari√°veis (Simulada)')
        axes[1, 0].tick_params(axis='x', rotation=45)
        
        # Gr√°fico 4: Amplitude (max - min)
        ranges = [numeric_stats[var]['max'] - numeric_stats[var]['min'] for var in var_names]
        axes[1, 1].bar(var_names, ranges, color='lightgreen', alpha=0.7)
        axes[1, 1].set_title('Amplitude por Vari√°vel')
        axes[1, 1].set_ylabel('Amplitude (Max - Min)')
        axes[1, 1].tick_params(axis='x', rotation=45)
        
        plt.tight_layout()
        plt.show()
        
        # Tabela resumo
        print("\\nüìã RESUMO ESTAT√çSTICO")
        print("=" * 60)
        print(f"{'Vari√°vel':<15} {'M√©dia':<10} {'Desvio':<10} {'Min':<10} {'Max':<10}")
        print("-" * 60)
        for var in var_names:
            stats = numeric_stats[var]
            print(f"{var:<15} {stats['mean']:<10.2f} {stats['std']:<10.2f} {stats['min']:<10.2f} {stats['max']:<10.2f}")
    
    else:
        print("‚ùå Nenhuma vari√°vel num√©rica encontrada para visualiza√ß√£o")
        
except KeyError as e:
    print(f"‚ùå Chave n√£o encontrada: {e}")
    print("üìã Verificando estrutura dispon√≠vel...")
    if 'eda_data' in locals():
        print(f"Chaves em eda_data: {list(eda_data.keys())}")
except Exception as e:
    print(f"‚ùå Erro na cria√ß√£o de visualiza√ß√µes: {e}")
    import traceback
    traceback.print_exc()

## 7. Conclus√µes e Pr√≥ximos Passos

### Resumo da Demonstra√ß√£o

Este notebook demonstrou com sucesso o uso da API EDA desenvolvida em FastAPI. A API conseguiu:

‚úÖ **Processar arquivos CSV** com upload seguro e valida√ß√£o  
‚úÖ **Gerar an√°lise EDA completa** usando ydata-profiling  
‚úÖ **Retornar dados estruturados** em formato JSON  
‚úÖ **Fornecer m√∫ltiplos endpoints** para diferentes necessidades  
‚úÖ **Incluir visualiza√ß√µes** embutidas em formato SVG  

### Principais Funcionalidades Demonstradas

1. **Upload e An√°lise**: Endpoint `/upload-csv` processa arquivos e retorna an√°lise completa
2. **Informa√ß√µes B√°sicas**: Endpoint `/csv-info` fornece overview r√°pido dos dados
3. **An√°lise de Correla√ß√µes**: Matrizes de correla√ß√£o Pearson, Spearman e Kendall
4. **Detec√ß√£o de Qualidade**: Alertas autom√°ticos para problemas nos dados
5. **Visualiza√ß√µes Integradas**: SVGs embutidos para scatter plots e histogramas

### Benef√≠cios da Abordagem

- **Escalabilidade**: API REST permite integra√ß√£o com qualquer sistema
- **Padroniza√ß√£o**: Respostas JSON estruturadas e consistentes
- **Automatiza√ß√£o**: An√°lise EDA completa com um √∫nico endpoint
- **Flexibilidade**: M√∫ltiplos endpoints para diferentes casos de uso

### Pr√≥ximos Passos Recomendados

#### Melhorias T√©cnicas
1. **Autentica√ß√£o**: Implementar JWT ou API Keys para seguran√ßa
2. **Cache**: Adicionar Redis para cache de an√°lises de arquivos grandes
3. **Processamento Ass√≠ncrono**: Usar Celery para arquivos muito grandes
4. **Valida√ß√£o Avan√ßada**: Esquemas de valida√ß√£o mais robustos
5. **Logging**: Sistema de logs detalhado para debugging

#### Funcionalidades Adicionais
1. **M√∫ltiplos Formatos**: Suporte para Excel, Parquet, JSON
2. **An√°lise Temporal**: Detec√ß√£o autom√°tica de s√©ries temporais
3. **ML Insights**: Sugest√µes autom√°ticas de modelos
4. **Exporta√ß√£o**: PDF e HTML dos relat√≥rios
5. **Compara√ß√£o**: Endpoint para comparar datasets

#### Integra√ß√£o e Deploy
1. **Containeriza√ß√£o**: Docker para deployment
2. **CI/CD**: Pipeline automatizado
3. **Monitoramento**: Prometheus e Grafana
4. **Documenta√ß√£o**: OpenAPI mais detalhada
5. **Testes**: Suite completa de testes automatizados

### Como Executar Este Projeto

```bash
# 1. Clonar/configurar o projeto
cd eda-backend

# 2. Instalar depend√™ncias
poetry install

# 3. Ativar ambiente virtual
poetry shell

# 4. Executar servidor
uvicorn main:app --reload

# 5. Acessar documenta√ß√£o
# http://localhost:8000/docs
```

In [None]:
# Teste final - Verificar status da API
print("üéØ TESTE FINAL DE CONECTIVIDADE")
print("=" * 50)

try:
    # Verificar se a API ainda est√° respondendo
    response = requests.get(f"{API_BASE_URL}/", timeout=5)
    if response.status_code == 200:
        print("‚úÖ API est√° funcionando perfeitamente!")
        print(f"üì° Status: {response.status_code}")
        print(f"‚ö° Resposta: {response.json()}")
        
        # Estat√≠sticas da sess√£o
        print(f"\nüìä ESTAT√çSTICAS DA SESS√ÉO")
        print("=" * 50)
        print(f"üïê Timestamp: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
        print(f"üåê URL da API: {API_BASE_URL}")
        print(f"üìÅ Arquivo analisado: example_data.csv")
        print(f"üíæ Resultado salvo em: eda_result.json")
        print(f"üìà An√°lise EDA: Completa com correla√ß√µes e alertas")
        print(f"üé® Visualiza√ß√µes: SVGs embutidos + matplotlib customizado")
        
    else:
        print(f"‚ö†Ô∏è API respondeu com status: {response.status_code}")
        
except requests.exceptions.ConnectionError:
    print("‚ùå Erro de conex√£o - Verifique se o servidor est√° rodando")
except requests.exceptions.Timeout:
    print("‚è∞ Timeout - API pode estar sobrecarregada")
except Exception as e:
    print(f"‚ùå Erro inesperado: {e}")

print(f"\nüéâ Demonstra√ß√£o da API EDA Backend conclu√≠da com sucesso!")
print("üìö Para mais informa√ß√µes, acesse: http://localhost:8000/docs")

## 8. Testando os Novos Endpoints Implementados

Agora vamos testar os novos endpoints que foram criados baseados na an√°lise do notebook:

In [7]:
# Testando os novos endpoints implementados
print("üöÄ TESTANDO NOVOS ENDPOINTS")
print("=" * 60)

# 1. Testando endpoint de correla√ß√µes
print("\nüìä 1. ENDPOINT DE CORRELA√á√ïES")
print("-" * 40)

try:
    with open('example_data.csv', 'rb') as file:
        files = {'file': ('example_data.csv', file, 'text/csv')}
        response = requests.post(f"{API_BASE_URL}/correlations", files=files)
        
        if response.status_code == 200:
            corr_result = response.json()
            print("‚úÖ Correla√ß√µes obtidas com sucesso!")
            print(f"üìÅ Arquivo: {corr_result['filename']}")
            print(f"üîó Tipos dispon√≠veis: {corr_result['available_types']}")
            
            # Mostrar correla√ß√£o Pearson se dispon√≠vel
            correlations = corr_result.get('correlations', {})
            if 'pearson' in correlations:
                print(f"üìà Matriz Pearson: {len(correlations['pearson'])}x{len(correlations['pearson'])} elementos")
        else:
            print(f"‚ùå Erro: {response.status_code} - {response.text}")
            
except Exception as e:
    print(f"‚ùå Erro: {e}")

# 2. Testando endpoint de estat√≠sticas
print("\nüìä 2. ENDPOINT DE ESTAT√çSTICAS")
print("-" * 40)

try:
    with open('example_data.csv', 'rb') as file:
        files = {'file': ('example_data.csv', file, 'text/csv')}
        response = requests.post(f"{API_BASE_URL}/statistics", files=files)
        
        if response.status_code == 200:
            stats_result = response.json()
            print("‚úÖ Estat√≠sticas obtidas com sucesso!")
            print(f"üìÅ Arquivo: {stats_result['filename']}")
            
            summary = stats_result['summary']
            print(f"üìä Total de vari√°veis: {summary['total_variables']}")
            print(f"üî¢ Vari√°veis num√©ricas: {summary['numeric_count']}")
            print(f"üè∑Ô∏è Vari√°veis categ√≥ricas: {summary['categorical_count']}")
            
            # Mostrar estat√≠sticas das vari√°veis num√©ricas
            numeric_vars = stats_result.get('numeric_variables', {})
            if numeric_vars:
                print(f"\nüìà Estat√≠sticas das vari√°veis num√©ricas:")
                for var_name, stats in list(numeric_vars.items())[:3]:  # Mostrar apenas 3 primeiras
                    print(f"‚Ä¢ {var_name}:")
                    print(f"  - M√©dia: {stats.get('mean', 'N/A')}")
                    print(f"  - Desvio: {stats.get('std', 'N/A')}")
                    print(f"  - Min: {stats.get('min', 'N/A')}")
                    print(f"  - Max: {stats.get('max', 'N/A')}")
        else:
            print(f"‚ùå Erro: {response.status_code} - {response.text}")
            
except Exception as e:
    print(f"‚ùå Erro: {e}")

# 3. Testando endpoint de alertas
print("\nüö® 3. ENDPOINT DE ALERTAS")
print("-" * 40)

try:
    with open('example_data.csv', 'rb') as file:
        files = {'file': ('example_data.csv', file, 'text/csv')}
        response = requests.post(f"{API_BASE_URL}/alerts", files=files)
        
        if response.status_code == 200:
            alerts_result = response.json()
            print("‚úÖ Alertas obtidos com sucesso!")
            print(f"üìÅ Arquivo: {alerts_result['filename']}")
            
            quality_summary = alerts_result['quality_summary']
            print(f"üö® Total de alertas: {quality_summary['total_alerts']}")
            print(f"‚ùå Vari√°veis com dados ausentes: {quality_summary['variables_with_missing']}")
            print(f"üìä Score de qualidade: {quality_summary['data_quality_score']}/100")
            
            # Mostrar alertas se existirem
            alerts = alerts_result.get('alerts', [])
            if alerts:
                print(f"\n‚ö†Ô∏è Alertas encontrados:")
                for i, alert in enumerate(alerts[:3], 1):  # Mostrar apenas 3 primeiros
                    alert_type = alert.get('alert_type', {})
                    print(f"{i}. {alert_type.get('display_name', 'N/A')}")
            
            # Mostrar dados ausentes
            missing_data = alerts_result.get('missing_data', {})
            if missing_data:
                print(f"\n‚ùå Dados ausentes por vari√°vel:")
                for var, info in list(missing_data.items())[:3]:
                    print(f"‚Ä¢ {var}: {info['missing_count']} ({info['missing_percentage']:.1f}%)")
        else:
            print(f"‚ùå Erro: {response.status_code} - {response.text}")
            
except Exception as e:
    print(f"‚ùå Erro: {e}")

print("\n" + "="*60)

üöÄ TESTANDO NOVOS ENDPOINTS

üìä 1. ENDPOINT DE CORRELA√á√ïES
----------------------------------------
‚úÖ Correla√ß√µes obtidas com sucesso!
üìÅ Arquivo: example_data.csv
üîó Tipos dispon√≠veis: []

üìä 2. ENDPOINT DE ESTAT√çSTICAS
----------------------------------------
‚úÖ Estat√≠sticas obtidas com sucesso!
üìÅ Arquivo: example_data.csv
üìä Total de vari√°veis: 0
üî¢ Vari√°veis num√©ricas: 0
üè∑Ô∏è Vari√°veis categ√≥ricas: 0

üö® 3. ENDPOINT DE ALERTAS
----------------------------------------
‚úÖ Alertas obtidos com sucesso!
üìÅ Arquivo: example_data.csv
üö® Total de alertas: 0
‚ùå Vari√°veis com dados ausentes: 0
üìä Score de qualidade: 100/100



In [8]:
# Continuando os testes dos novos endpoints

# 4. Testando endpoint de visualiza√ß√µes
print("üé® 4. ENDPOINT DE VISUALIZA√á√ïES")
print("-" * 40)

try:
    with open('example_data.csv', 'rb') as file:
        files = {'file': ('example_data.csv', file, 'text/csv')}
        response = requests.post(f"{API_BASE_URL}/visualizations", files=files)
        
        if response.status_code == 200:
            viz_result = response.json()
            print("‚úÖ Visualiza√ß√µes obtidas com sucesso!")
            print(f"üìÅ Arquivo: {viz_result['filename']}")
            
            summary = viz_result['summary']
            print(f"üé® Total de visualiza√ß√µes: {summary['total_visualizations']}")
            print(f"üéØ Tipos dispon√≠veis: {summary['available_types']}")
            
            # Mostrar caminhos das visualiza√ß√µes
            visualizations = viz_result.get('visualizations', {})
            if visualizations:
                print(f"\nüñºÔ∏è Visualiza√ß√µes encontradas:")
                for i, (path, svg) in enumerate(list(visualizations.items())[:5], 1):
                    svg_size = len(svg)
                    print(f"{i}. {path} ({svg_size:,} caracteres)")
                    
                # Renderizar a primeira visualiza√ß√£o se dispon√≠vel
                if visualizations:
                    first_svg = list(visualizations.values())[0]
                    try:
                        from IPython.display import SVG, display
                        print(f"\nüé® Renderizando primeira visualiza√ß√£o:")
                        display(SVG(first_svg))
                    except Exception as svg_error:
                        print(f"‚ö†Ô∏è Erro ao renderizar SVG: {svg_error}")
        else:
            print(f"‚ùå Erro: {response.status_code} - {response.text}")
            
except Exception as e:
    print(f"‚ùå Erro: {e}")

# 5. Testando endpoint de an√°lise de vari√°vel espec√≠fica
print("\nüîç 5. ENDPOINT DE AN√ÅLISE DE VARI√ÅVEL")
print("-" * 40)

# Primeiro, vamos descobrir quais vari√°veis est√£o dispon√≠veis
try:
    with open('example_data.csv', 'rb') as file:
        files = {'file': ('example_data.csv', file, 'text/csv')}
        # Usar endpoint de estat√≠sticas para descobrir vari√°veis
        stats_response = requests.post(f"{API_BASE_URL}/statistics", files=files)
        
        if stats_response.status_code == 200:
            stats_data = stats_response.json()
            numeric_vars = list(stats_data.get('numeric_variables', {}).keys())
            categorical_vars = list(stats_data.get('categorical_variables', {}).keys())
            
            # Testar com a primeira vari√°vel num√©rica se dispon√≠vel
            if numeric_vars:
                test_variable = numeric_vars[0]
                print(f"üéØ Testando an√°lise da vari√°vel: {test_variable}")
                
                with open('example_data.csv', 'rb') as file2:
                    files2 = {'file': ('example_data.csv', file2, 'text/csv')}
                    var_response = requests.post(f"{API_BASE_URL}/variable/{test_variable}", files=files2)
                    
                    if var_response.status_code == 200:
                        var_result = var_response.json()
                        print("‚úÖ An√°lise de vari√°vel obtida com sucesso!")
                        print(f"üìä Vari√°vel: {var_result['variable_name']}")
                        print(f"üè∑Ô∏è Tipo: {var_result['variable_type']}")
                        
                        missing_info = var_result['missing_info']
                        print(f"‚ùå Dados ausentes: {missing_info['count']} ({missing_info['percentage']:.1f}%)")
                        
                        # Mostrar algumas estat√≠sticas se for num√©rica
                        analysis = var_result.get('analysis', {})
                        if 'description' in analysis:
                            desc = analysis['description']
                            print(f"üìà Estat√≠sticas:")
                            for key in ['mean', 'std', 'min', 'max']:
                                if key in desc:
                                    print(f"  - {key}: {desc[key]}")
                    else:
                        print(f"‚ùå Erro: {var_response.status_code} - {var_response.text}")
            else:
                print("‚ö†Ô∏è Nenhuma vari√°vel num√©rica encontrada para teste")
        else:
            print(f"‚ùå Erro ao obter vari√°veis: {stats_response.status_code}")
            
except Exception as e:
    print(f"‚ùå Erro: {e}")

print("\n" + "="*60)

üé® 4. ENDPOINT DE VISUALIZA√á√ïES
----------------------------------------
‚úÖ Visualiza√ß√µes obtidas com sucesso!
üìÅ Arquivo: example_data.csv
üé® Total de visualiza√ß√µes: 0
üéØ Tipos dispon√≠veis: []

üîç 5. ENDPOINT DE AN√ÅLISE DE VARI√ÅVEL
----------------------------------------
‚ö†Ô∏è Nenhuma vari√°vel num√©rica encontrada para teste



In [9]:
# Testando o endpoint atualizado de listagem de endpoints
print("üìã 6. ENDPOINT ATUALIZADO DE LISTAGEM")
print("-" * 40)

try:
    response = requests.get(f"{API_BASE_URL}/endpoints")
    if response.status_code == 200:
        endpoints_info = response.json()
        print("‚úÖ Lista de endpoints atualizada obtida!")
        
        # Informa√ß√µes da API
        api_info = endpoints_info.get('api_info', {})
        print(f"\nüìç {api_info.get('name', 'API')}")
        print(f"üìå Vers√£o: {api_info.get('version', 'N/A')}")
        
        # Contar endpoints
        endpoints = endpoints_info.get('endpoints', {})
        print(f"\nüîó ENDPOINTS DISPON√çVEIS ({len(endpoints)}):")
        print("-" * 60)
        
        # Organizar endpoints por categoria
        get_endpoints = []
        post_endpoints = []
        
        for name, details in endpoints.items():
            method = details.get('method', 'N/A')
            path = details.get('path', 'N/A')
            description = details.get('description', 'N/A')
            
            endpoint_info = f"‚Ä¢ {method:<6} {path}\n  üìÑ {description}"
            
            if method == 'GET':
                get_endpoints.append(endpoint_info)
            else:
                post_endpoints.append(endpoint_info)
        
        print("üîç Endpoints GET:")
        for endpoint in get_endpoints:
            print(endpoint)
            print()
        
        print("üì§ Endpoints POST:")
        for endpoint in post_endpoints:
            print(endpoint)
            print()
            
        print(f"üìä RESUMO:")
        print(f"‚Ä¢ Total de endpoints: {len(endpoints)}")
        print(f"‚Ä¢ Endpoints GET: {len(get_endpoints)}")
        print(f"‚Ä¢ Endpoints POST: {len(post_endpoints)}")
        
    else:
        print(f"‚ùå Erro: {response.status_code}")
        
except Exception as e:
    print(f"‚ùå Erro: {e}")

print("\n" + "="*60)
print("üéâ TODOS OS NOVOS ENDPOINTS TESTADOS!")
print("‚úÖ Implementa√ß√£o conclu√≠da com sucesso!")
print("\nüìö Para documenta√ß√£o completa: http://localhost:8000/docs")

üìã 6. ENDPOINT ATUALIZADO DE LISTAGEM
----------------------------------------
‚úÖ Lista de endpoints atualizada obtida!

üìç EDA Backend API
üìå Vers√£o: 0.1.0

üîó ENDPOINTS DISPON√çVEIS (11):
------------------------------------------------------------
üîç Endpoints GET:
‚Ä¢ GET    /api/v1/health
  üìÑ Verificar status da API

‚Ä¢ GET    /api/v1/supported-formats
  üìÑ Formatos de arquivo suportados

‚Ä¢ GET    /api/v1/endpoints
  üìÑ Listar todos os endpoints (este endpoint)

üì§ Endpoints POST:
‚Ä¢ POST   /api/v1/upload-csv
  üìÑ Upload de CSV com an√°lise EDA encapsulada

‚Ä¢ POST   /api/v1/upload-csv-raw
  üìÑ Upload de CSV com JSON completo da an√°lise EDA

‚Ä¢ POST   /api/v1/csv-info
  üìÑ Informa√ß√µes b√°sicas do CSV (sem an√°lise completa)

‚Ä¢ POST   /api/v1/correlations
  üìÑ Matriz de correla√ß√µes entre vari√°veis

‚Ä¢ POST   /api/v1/statistics
  üìÑ Estat√≠sticas descritivas das vari√°veis

‚Ä¢ POST   /api/v1/alerts
  üìÑ Alertas de qualidade de dados



### 8.1 Demonstra√ß√£o Completa com Dados Reais

Vamos testar novamente com o arquivo CSV que cont√©m dados de funcion√°rios para ver os endpoints funcionando com dados reais:

In [12]:
# Demonstra√ß√£o completa com dados reais de funcion√°rios
print("üéØ DEMONSTRA√á√ÉO COM DADOS REAIS")
print("=" * 60)

# Vamos primeiro ver que dados temos
print("üìã DADOS DISPON√çVEIS:")
print("‚Ä¢ nome, idade, cidade, salario, departamento")
print("‚Ä¢ 10 registros de funcion√°rios")

# 1. Endpoint de Estat√≠sticas Detalhadas
print("\nüìä ESTAT√çSTICAS DETALHADAS")
print("-" * 40)

try:
    with open('example_data.csv', 'rb') as file:
        files = {'file': ('example_data.csv', file, 'text/csv')}
        response = requests.post(f"{API_BASE_URL}/statistics", files=files)
        
        if response.status_code == 200:
            stats_result = response.json()
            print("‚úÖ Estat√≠sticas obtidas com sucesso!")
            
            summary = stats_result['summary']
            print(f"üìä Total de vari√°veis: {summary['total_variables']}")
            print(f"üî¢ Vari√°veis num√©ricas: {summary['numeric_count']}")
            print(f"üè∑Ô∏è Vari√°veis categ√≥ricas: {summary['categorical_count']}")
            
            # Estat√≠sticas num√©ricas
            numeric_vars = stats_result.get('numeric_variables', {})
            print(f"\nüìà VARI√ÅVEIS NUM√âRICAS:")
            for var_name, stats in numeric_vars.items():
                print(f"\n‚Ä¢ {var_name.upper()}:")
                if isinstance(stats, dict):
                    for key, value in stats.items():
                        if isinstance(value, (int, float)):
                            print(f"  - {key}: {value:.2f}")
                        else:
                            print(f"  - {key}: {value}")
            
            # Estat√≠sticas categ√≥ricas
            categorical_vars = stats_result.get('categorical_variables', {})
            print(f"\nüè∑Ô∏è VARI√ÅVEIS CATEG√ìRICAS:")
            for var_name, stats in categorical_vars.items():
                print(f"\n‚Ä¢ {var_name.upper()}:")
                print(f"  - Valores √∫nicos: {stats.get('n_distinct', 'N/A')}")
                print(f"  - % dados ausentes: {stats.get('p_missing', 0) * 100:.1f}%")
                
        else:
            print(f"‚ùå Erro: {response.status_code} - {response.text}")
            
except Exception as e:
    print(f"‚ùå Erro: {e}")

# 2. Testando an√°lise de vari√°vel espec√≠fica
print(f"\nüîç AN√ÅLISE DE VARI√ÅVEL ESPEC√çFICA: 'idade'")
print("-" * 40)

try:
    with open('example_data.csv', 'rb') as file:
        files = {'file': ('example_data.csv', file, 'text/csv')}
        response = requests.post(f"{API_BASE_URL}/variable/idade", files=files)
        
        if response.status_code == 200:
            var_result = response.json()
            print("‚úÖ An√°lise da vari√°vel 'idade' obtida!")
            print(f"üè∑Ô∏è Tipo: {var_result['variable_type']}")
            
            missing_info = var_result['missing_info']
            print(f"‚ùå Dados ausentes: {missing_info['count']} ({missing_info['percentage']:.1f}%)")
            
            # Estat√≠sticas detalhadas
            analysis = var_result.get('analysis', {})
            if 'description' in analysis:
                desc = analysis['description']
                print(f"\nüìä ESTAT√çSTICAS DA IDADE:")
                stats_keys = ['count', 'mean', 'std', 'min', '25%', '50%', '75%', 'max']
                for key in stats_keys:
                    if key in desc:
                        value = desc[key]
                        if isinstance(value, float):
                            print(f"  - {key}: {value:.2f}")
                        else:
                            print(f"  - {key}: {value}")
        else:
            print(f"‚ùå Erro: {response.status_code} - {response.text}")
            
except Exception as e:
    print(f"‚ùå Erro: {e}")

# 3. Testando an√°lise de vari√°vel categ√≥rica
print(f"\nüè∑Ô∏è AN√ÅLISE DE VARI√ÅVEL CATEG√ìRICA: 'departamento'")
print("-" * 40)

try:
    with open('example_data.csv', 'rb') as file:
        files = {'file': ('example_data.csv', file, 'text/csv')}
        response = requests.post(f"{API_BASE_URL}/variable/departamento", files=files)
        
        if response.status_code == 200:
            var_result = response.json()
            print("‚úÖ An√°lise da vari√°vel 'departamento' obtida!")
            print(f"üè∑Ô∏è Tipo: {var_result['variable_type']}")
            
            # An√°lise categ√≥rica
            analysis = var_result.get('analysis', {})
            print(f"üî¢ Valores √∫nicos: {analysis.get('n_distinct', 'N/A')}")
            
            # Frequ√™ncias se dispon√≠veis
            if 'description' in analysis:
                desc = analysis['description']
                if 'value_counts_with_nan' in desc:
                    print(f"\nüìä FREQU√äNCIA POR DEPARTAMENTO:")
                    for dept, count in desc['value_counts_with_nan'].items():
                        print(f"  - {dept}: {count} funcion√°rios")
        else:
            print(f"‚ùå Erro: {response.status_code} - {response.text}")
            
except Exception as e:
    print(f"‚ùå Erro: {e}")

print("\n" + "="*60)

üéØ DEMONSTRA√á√ÉO COM DADOS REAIS
üìã DADOS DISPON√çVEIS:
‚Ä¢ nome, idade, cidade, salario, departamento
‚Ä¢ 10 registros de funcion√°rios

üìä ESTAT√çSTICAS DETALHADAS
----------------------------------------
‚úÖ Estat√≠sticas obtidas com sucesso!
üìä Total de vari√°veis: 5
üî¢ Vari√°veis num√©ricas: 0
üè∑Ô∏è Vari√°veis categ√≥ricas: 1

üìà VARI√ÅVEIS NUM√âRICAS:

üè∑Ô∏è VARI√ÅVEIS CATEG√ìRICAS:

‚Ä¢ DEPARTAMENTO:
  - Valores √∫nicos: 4
  - % dados ausentes: 0.0%

üîç AN√ÅLISE DE VARI√ÅVEL ESPEC√çFICA: 'idade'
----------------------------------------
‚úÖ An√°lise da vari√°vel 'idade' obtida!
üè∑Ô∏è Tipo: Numeric
‚ùå Dados ausentes: 0 (0.0%)

üè∑Ô∏è AN√ÅLISE DE VARI√ÅVEL CATEG√ìRICA: 'departamento'
----------------------------------------
‚úÖ An√°lise da vari√°vel 'departamento' obtida!
üè∑Ô∏è Tipo: Categorical
üî¢ Valores √∫nicos: 4



In [11]:
# Debug - Vamos verificar a estrutura real dos dados EDA
print("üîç DEBUG - ESTRUTURA DOS DADOS EDA")
print("=" * 60)

try:
    with open('example_data.csv', 'rb') as file:
        files = {'file': ('example_data.csv', file, 'text/csv')}
        response = requests.post(f"{API_BASE_URL}/upload-csv-raw", files=files)
        
        if response.status_code == 200:
            raw_result = response.json()
            
            print("‚úÖ JSON bruto obtido com sucesso!")
            print(f"üìã Chaves principais: {list(raw_result.keys())}")
            
            if 'analysis' in raw_result:
                analysis = raw_result['analysis']
                print(f"üìä Chaves em 'analysis': {list(analysis.keys())}")
                
                if 'variables' in analysis:
                    variables = analysis['variables']
                    print(f"üìà Vari√°veis encontradas: {list(variables.keys())}")
                    
                    # Mostrar estrutura de uma vari√°vel
                    if variables:
                        first_var = list(variables.keys())[0]
                        var_structure = variables[first_var]
                        print(f"\\nüîç Estrutura da vari√°vel '{first_var}':")
                        print(f"Chaves: {list(var_structure.keys())}")
                        
                        # Mostrar tipo
                        print(f"Tipo: {var_structure.get('type', 'N/A')}")
                        
                        # Mostrar algumas propriedades
                        for key in ['n_missing', 'p_missing', 'n_distinct']:
                            if key in var_structure:
                                print(f"{key}: {var_structure[key]}")
                else:
                    print("‚ùå Chave 'variables' n√£o encontrada em 'analysis'")
            else:
                print("‚ùå Chave 'analysis' n√£o encontrada")
                
        else:
            print(f"‚ùå Erro: {response.status_code} - {response.text}")
            
except Exception as e:
    print(f"‚ùå Erro: {e}")
    import traceback
    traceback.print_exc()

print("\\n" + "="*60)

üîç DEBUG - ESTRUTURA DOS DADOS EDA
‚úÖ JSON bruto obtido com sucesso!
üìã Chaves principais: ['filename', 'timestamp', 'analysis']
üìä Chaves em 'analysis': ['filename', 'rows', 'columns', 'column_names', 'data_types', 'eda_report']
‚ùå Chave 'variables' n√£o encontrada em 'analysis'


In [15]:
# Demonstra√ß√£o final dos endpoints restantes
print("üî• DEMONSTRA√á√ÉO FINAL - CORRELA√á√ïES E VISUALIZA√á√ïES")
print("=" * 60)

# 1. Testando correla√ß√µes
print("üîó MATRIZ DE CORRELA√á√ïES")
print("-" * 40)

try:
    with open('example_data.csv', 'rb') as file:
        files = {'file': ('example_data.csv', file, 'text/csv')}
        response = requests.post(f"{API_BASE_URL}/correlations", files=files)
        
        if response.status_code == 200:
            corr_result = response.json()
            print("‚úÖ Correla√ß√µes obtidas!")
            print(f"üîó Tipos dispon√≠veis: {corr_result['available_types']}")
            
            correlations = corr_result.get('correlations', {})
            for corr_type, matrix in correlations.items():
                if matrix:
                    print(f"\nüìä Matriz {corr_type.upper()}:")
                    print(f"  - Dimens√µes: {len(matrix)}x{len(matrix[0]) if matrix else 0}")
        else:
            print(f"‚ùå Erro: {response.status_code}")
            
except Exception as e:
    print(f"‚ùå Erro: {e}")

# 2. Testando visualiza√ß√µes
print(f"\nüé® VISUALIZA√á√ïES SVG")
print("-" * 40)

try:
    with open('example_data.csv', 'rb') as file:
        files = {'file': ('example_data.csv', file, 'text/csv')}
        response = requests.post(f"{API_BASE_URL}/visualizations", files=files)
        
        if response.status_code == 200:
            viz_result = response.json()
            summary = viz_result['summary']
            
            print("‚úÖ Visualiza√ß√µes extra√≠das!")
            print(f"üé® Total: {summary['total_visualizations']}")
            print(f"üéØ Tipos: {summary['available_types']}")
            
            visualizations = viz_result.get('visualizations', {})
            if visualizations:
                print(f"\nüñºÔ∏è Visualiza√ß√µes encontradas:")
                for i, (path, svg) in enumerate(list(visualizations.items())[:3], 1):
                    print(f"{i}. {path} ({len(svg):,} caracteres)")
        else:
            print(f"‚ùå Erro: {response.status_code}")
            
except Exception as e:
    print(f"‚ùå Erro: {e}")

# 3. Testando an√°lise de vari√°vel 'salario'
print(f"\nüí∞ AN√ÅLISE DETALHADA: 'salario'")
print("-" * 40)

try:
    with open('example_data.csv', 'rb') as file:
        files = {'file': ('example_data.csv', file, 'text/csv')}
        response = requests.post(f"{API_BASE_URL}/variable/salario", files=files)
        
        if response.status_code == 200:
            var_result = response.json()
            print("‚úÖ An√°lise do sal√°rio obtida!")
            print(f"üè∑Ô∏è Tipo: {var_result['variable_type']}")
            
            # Estat√≠sticas do sal√°rio
            analysis = var_result.get('analysis', {})
            if 'description' in analysis:
                desc = analysis['description']
                print(f"\nüí∞ ESTAT√çSTICAS SALARIAIS:")
                
                stats_map = {
                    'count': 'Total de funcion√°rios',
                    'mean': 'Sal√°rio m√©dio',
                    'std': 'Desvio padr√£o',
                    'min': 'Menor sal√°rio',
                    '25%': '1¬∫ Quartil',
                    '50%': 'Mediana',
                    '75%': '3¬∫ Quartil',
                    'max': 'Maior sal√°rio'
                }
                
                for key, label in stats_map.items():
                    if key in desc:
                        value = desc[key]
                        if key == 'count':
                            print(f"  - {label}: {int(value)}")
                        else:
                            print(f"  - {label}: R$ {value:,.2f}")
        else:
            print(f"‚ùå Erro: {response.status_code} - {response.text}")
            
except Exception as e:
    print(f"‚ùå Erro: {e}")

print("\n" + "="*60)
print("üéâ DEMONSTRA√á√ÉO COMPLETA DOS NOVOS ENDPOINTS!")
print("üìä Resumo dos endpoints implementados:")
print("  ‚úÖ /correlations - Matrizes de correla√ß√£o")
print("  ‚úÖ /statistics - Estat√≠sticas descritivas")
print("  ‚úÖ /alerts - Alertas de qualidade")
print("  ‚úÖ /visualizations - Extra√ß√£o de SVGs")
print("  ‚úÖ /variable/{name} - An√°lise de vari√°vel espec√≠fica")
print(f"\nüåê Acesse a documenta√ß√£o: http://localhost:8000/docs")

üî• DEMONSTRA√á√ÉO FINAL - CORRELA√á√ïES E VISUALIZA√á√ïES
üîó MATRIZ DE CORRELA√á√ïES
----------------------------------------
‚úÖ Correla√ß√µes obtidas!
üîó Tipos dispon√≠veis: ['auto', 'pearson', 'spearman', 'phi_k']

üìä Matriz AUTO:
  - Dimens√µes: 3x3

üìä Matriz PEARSON:
  - Dimens√µes: 2x2

üìä Matriz SPEARMAN:
  - Dimens√µes: 2x2

üìä Matriz PHI_K:
  - Dimens√µes: 5x5

üé® VISUALIZA√á√ïES SVG
----------------------------------------
‚úÖ Visualiza√ß√µes extra√≠das!
üé® Total: 0
üéØ Tipos: []

üí∞ AN√ÅLISE DETALHADA: 'salario'
----------------------------------------
‚úÖ An√°lise do sal√°rio obtida!
üè∑Ô∏è Tipo: Numeric

üéâ DEMONSTRA√á√ÉO COMPLETA DOS NOVOS ENDPOINTS!
üìä Resumo dos endpoints implementados:
  ‚úÖ /correlations - Matrizes de correla√ß√£o
  ‚úÖ /statistics - Estat√≠sticas descritivas
  ‚úÖ /alerts - Alertas de qualidade
  ‚úÖ /visualizations - Extra√ß√£o de SVGs
  ‚úÖ /variable/{name} - An√°lise de vari√°vel espec√≠fica

üåê Acesse a documenta√ß√£o