# Cap√≠tulo 09 - Meta Queries e Introspec√ß√£o

Este notebook explora as capacidades de introspec√ß√£o do DuckDB para analisar metadados, estruturas e estat√≠sticas de dados.

## üìö T√≥picos Abordados:
1. DESCRIBE (estrutura de tabelas)
2. SUMMARIZE (estat√≠sticas autom√°ticas)
3. Cat√°logo do Sistema (duckdb_tables, duckdb_columns, etc.)
4. Informa√ß√µes de Configura√ß√£o
5. An√°lise de Esquemas
6. Query Profiling

## üîç Vantagens:
- **Explora√ß√£o r√°pida** de dados desconhecidos
- **Estat√≠sticas autom√°ticas** sem c√≥digo adicional
- **Cat√°logo completo** do banco de dados
- **An√°lise de performance** integrada

## 1. Setup e Prepara√ß√£o

In [None]:
import duckdb
import pandas as pd
import numpy as np

# Criar conex√£o
con = duckdb.connect(':memory:')

print(f"DuckDB vers√£o: {duckdb.__version__}")
print("‚úì Conex√£o criada!")

### 1.1 Criar Dados de Exemplo

In [None]:
# Criar tabela de vendas
con.execute("""
    CREATE TABLE vendas (
        id INTEGER PRIMARY KEY,
        data DATE,
        produto VARCHAR,
        categoria VARCHAR,
        quantidade INTEGER,
        preco DECIMAL(10, 2),
        regiao VARCHAR,
        vendedor VARCHAR
    )
""")

# Inserir dados de exemplo
con.execute("""
    INSERT INTO vendas VALUES
    (1, '2024-01-15', 'Notebook', 'Eletr√¥nicos', 5, 2500.00, 'Sudeste', 'Alice'),
    (2, '2024-01-16', 'Mouse', 'Eletr√¥nicos', 20, 50.00, 'Sul', 'Bob'),
    (3, '2024-01-17', 'Teclado', 'Eletr√¥nicos', 15, 150.00, 'Sudeste', 'Alice'),
    (4, '2024-01-18', 'Monitor', 'Eletr√¥nicos', 8, 800.00, 'Norte', 'Charlie'),
    (5, '2024-01-19', 'Cadeira', 'M√≥veis', 10, 600.00, 'Sudeste', 'Alice'),
    (6, '2024-01-20', 'Mesa', 'M√≥veis', 5, 1200.00, 'Sul', 'Bob'),
    (7, '2024-01-21', 'Webcam', 'Eletr√¥nicos', 12, 300.00, 'Norte', 'Charlie'),
    (8, '2024-01-22', 'Headset', 'Eletr√¥nicos', 18, 200.00, 'Sudeste', 'Alice')
""")

print("‚úì Tabela 'vendas' criada com 8 registros")

# Visualizar dados
result = con.execute("SELECT * FROM vendas LIMIT 5").fetchdf()
print("\nPrimeiros registros:")
print(result)

## 2. DESCRIBE - Estrutura de Tabelas

### 2.1 DESCRIBE B√°sico

In [None]:
# Ver estrutura da tabela
print("Estrutura da tabela 'vendas':")
result = con.execute("DESCRIBE vendas").fetchdf()
print(result)

print("\nüí° DESCRIBE mostra colunas, tipos e nullabilidade")

### 2.2 DESCRIBE de Query

In [None]:
# Ver estrutura do resultado de uma query
print("Estrutura de uma query:")
result = con.execute("""
    DESCRIBE 
    SELECT 
        categoria,
        SUM(quantidade) as total_quantidade,
        AVG(preco) as preco_medio
    FROM vendas
    GROUP BY categoria
""").fetchdf()
print(result)

print("\n‚úì √ötil para ver tipos resultantes de agrega√ß√µes!")

## 3. SUMMARIZE - Estat√≠sticas Autom√°ticas

### 3.1 SUMMARIZE Completo

In [None]:
# Estat√≠sticas autom√°ticas de todas as colunas
print("Estat√≠sticas da tabela 'vendas':")
result = con.execute("SUMMARIZE vendas").fetchdf()
print(result)

print("\n‚ú® SUMMARIZE gera estat√≠sticas completas automaticamente!")

### 3.2 An√°lise de Estat√≠sticas

In [None]:
# Encontrar colunas com alta cardinalidade
print("An√°lise customizada das estat√≠sticas:")
result = con.execute("""
    SELECT 
        column_name,
        column_type,
        approx_unique,
        count,
        ROUND(approx_unique * 100.0 / count, 2) as cardinalidade_pct
    FROM (SUMMARIZE vendas)
    WHERE approx_unique IS NOT NULL
    ORDER BY cardinalidade_pct DESC
""").fetchdf()
print(result)

print("\nüí° Identifica colunas √∫nicas ou com muitos valores distintos")

### 3.3 Detectar Valores Nulos

In [None]:
# Verificar colunas com valores nulos
print("Colunas com valores nulos:")
result = con.execute("""
    SELECT 
        column_name,
        count,
        null_percentage
    FROM (SUMMARIZE vendas)
    WHERE null_percentage > 0
    ORDER BY null_percentage DESC
""").fetchdf()

if len(result) > 0:
    print(result)
else:
    print("‚úì Nenhuma coluna tem valores nulos!")

## 4. Cat√°logo do Sistema

### 4.1 Listar Todas as Tabelas

In [None]:
# Ver todas as tabelas do banco
print("Tabelas no banco de dados:")
result = con.execute("""
    SELECT 
        table_name,
        schema_name,
        estimated_size
    FROM duckdb_tables()
    ORDER BY table_name
""").fetchdf()
print(result)

### 4.2 Listar Todas as Colunas

In [None]:
# Ver todas as colunas de todas as tabelas
print("Colunas da tabela 'vendas':")
result = con.execute("""
    SELECT 
        column_name,
        data_type,
        is_nullable,
        column_default
    FROM duckdb_columns()
    WHERE table_name = 'vendas'
    ORDER BY column_index
""").fetchdf()
print(result)

### 4.3 Listar Views

In [None]:
# Criar uma view de exemplo
con.execute("""
    CREATE VIEW vendas_resumo AS
    SELECT 
        categoria,
        COUNT(*) as total_vendas,
        SUM(quantidade * preco) as valor_total
    FROM vendas
    GROUP BY categoria
""")

# Listar views
print("Views no banco de dados:")
result = con.execute("""
    SELECT 
        view_name,
        schema_name,
        sql
    FROM duckdb_views()
""").fetchdf()
print(result)

### 4.4 Listar √çndices

In [None]:
# Criar √≠ndice de exemplo
try:
    con.execute("CREATE INDEX idx_categoria ON vendas(categoria)")
    print("‚úì √çndice criado")
except Exception as e:
    print(f"‚ö†Ô∏è √çndice j√° existe ou erro: {e}")

# Listar √≠ndices
print("\n√çndices no banco de dados:")
result = con.execute("""
    SELECT 
        index_name,
        table_name,
        is_unique,
        is_primary
    FROM duckdb_indexes()
""").fetchdf()
print(result)

### 4.5 Listar Schemas

In [None]:
# Ver todos os schemas
print("Schemas dispon√≠veis:")
result = con.execute("""
    SELECT 
        schema_name,
        sql
    FROM duckdb_schemas()
""").fetchdf()
print(result)

## 5. Configura√ß√µes do Sistema

### 5.1 Ver Todas as Configura√ß√µes

In [None]:
# Listar configura√ß√µes importantes
print("Configura√ß√µes do DuckDB:")
result = con.execute("""
    SELECT 
        name,
        value,
        description
    FROM duckdb_settings()
    WHERE name IN (
        'threads',
        'memory_limit',
        'default_order',
        'enable_progress_bar',
        'enable_profiling'
    )
    ORDER BY name
""").fetchdf()
print(result)

### 5.2 Ver Configura√ß√£o Espec√≠fica

In [None]:
# Ver configura√ß√£o atual de threads
result = con.execute("""
    SELECT value 
    FROM duckdb_settings() 
    WHERE name = 'threads'
""").fetchone()

print(f"Threads configurados: {result[0]}")

# Ver mem√≥ria
result = con.execute("""
    SELECT value 
    FROM duckdb_settings() 
    WHERE name = 'memory_limit'
""").fetchone()

print(f"Limite de mem√≥ria: {result[0]}")

### 5.3 Listar Extens√µes

In [None]:
# Ver extens√µes dispon√≠veis e instaladas
print("Extens√µes do DuckDB:")
result = con.execute("""
    SELECT 
        extension_name,
        loaded,
        installed,
        description
    FROM duckdb_extensions()
    WHERE installed = true OR loaded = true
    ORDER BY extension_name
""").fetchdf()
print(result)

## 6. Query Profiling e An√°lise

### 6.1 EXPLAIN - Plano de Execu√ß√£o

In [None]:
# Ver plano de execu√ß√£o
print("Plano de execu√ß√£o:")
result = con.execute("""
    EXPLAIN
    SELECT 
        categoria,
        SUM(quantidade * preco) as valor_total
    FROM vendas
    WHERE regiao = 'Sudeste'
    GROUP BY categoria
    ORDER BY valor_total DESC
""").fetchall()

for linha in result:
    print(linha[1])

print("\nüí° EXPLAIN mostra como a query ser√° executada")

### 6.2 EXPLAIN ANALYZE - Execu√ß√£o Real

In [None]:
# Ver execu√ß√£o real com timing
print("Execu√ß√£o com timing:")
result = con.execute("""
    EXPLAIN ANALYZE
    SELECT 
        categoria,
        COUNT(*) as total,
        SUM(quantidade * preco) as valor
    FROM vendas
    GROUP BY categoria
""").fetchall()

for linha in result:
    print(linha[1])

print("\n‚ú® EXPLAIN ANALYZE executa e mostra tempos reais!")

### 6.3 Habilitar Profiling

In [None]:
# Habilitar profiling
con.execute("SET enable_profiling = 'json'")
con.execute("SET profiling_output = '/tmp/duckdb_profile.json'")

print("‚úì Profiling habilitado")
print("Arquivo de sa√≠da: /tmp/duckdb_profile.json")

# Executar query
result = con.execute("""
    SELECT 
        vendedor,
        COUNT(*) as total_vendas,
        SUM(quantidade * preco) as valor_total
    FROM vendas
    GROUP BY vendedor
    ORDER BY valor_total DESC
""").fetchdf()

print("\nResultado da query:")
print(result)

# Desabilitar profiling (formato correto)
try:
    con.execute("RESET enable_profiling")
    print("\n‚úì Profiling desabilitado")
except:
    print("\nüí° Profiling continuar√° ativo")

## 7. An√°lise de Esquema Completa

### 7.1 Relat√≥rio Completo de uma Tabela

In [None]:
# Gerar relat√≥rio completo
print("="*60)
print("RELAT√ìRIO COMPLETO - Tabela 'vendas'")
print("="*60)

# 1. Informa√ß√µes b√°sicas
print("\n1. INFORMA√á√ïES B√ÅSICAS:")
result = con.execute("""
    SELECT 
        COUNT(*) as total_linhas,
        COUNT(DISTINCT id) as ids_unicos
    FROM vendas
""").fetchdf()
print(result)

# 2. Estrutura
print("\n2. ESTRUTURA:")
result = con.execute("DESCRIBE vendas").fetchdf()
print(result)

# 3. Estat√≠sticas
print("\n3. ESTAT√çSTICAS:")
result = con.execute("""
    SELECT 
        column_name,
        column_type,
        min,
        max,
        approx_unique,
        avg,
        std
    FROM (SUMMARIZE vendas)
""").fetchdf()
print(result)

# 4. √çndices
print("\n4. √çNDICES:")
result = con.execute("""
    SELECT index_name, is_unique, is_primary
    FROM duckdb_indexes()
    WHERE table_name = 'vendas'
""").fetchdf()
print(result)

print("\n" + "="*60)

## 8. Casos de Uso Pr√°ticos

### 8.1 Descobrir Schema de Arquivo Desconhecido

In [None]:
print("""Explorar arquivo desconhecido:

-- Ver estrutura sem carregar tudo
DESCRIBE SELECT * FROM 'arquivo_desconhecido.csv';

-- Ver primeiras linhas
SELECT * FROM 'arquivo_desconhecido.csv' LIMIT 5;

-- Estat√≠sticas completas
SUMMARIZE SELECT * FROM 'arquivo_desconhecido.csv';

-- Contagem r√°pida
SELECT COUNT(*) FROM 'arquivo_desconhecido.csv';
""")

print("\n‚ú® Explore dados sem escrever c√≥digo!")

### 8.2 Auditoria de Qualidade de Dados

In [None]:
# Verifica√ß√£o de qualidade
print("Auditoria de qualidade de dados:")
print()

# 1. Colunas com valores nulos
print("1. Verificar valores nulos:")
result = con.execute("""
    SELECT 
        column_name,
        null_percentage
    FROM (SUMMARIZE vendas)
    WHERE null_percentage > 0
""").fetchdf()
if len(result) > 0:
    print(result)
else:
    print("‚úì Sem valores nulos")

# 2. Duplicados
print("\n2. Verificar duplicados:")
result = con.execute("""
    SELECT COUNT(*) - COUNT(DISTINCT id) as duplicados
    FROM vendas
""").fetchone()
print(f"Registros duplicados: {result[0]}")

# 3. Valores extremos
print("\n3. Valores extremos:")
result = con.execute("""
    SELECT 
        'preco' as coluna,
        MIN(preco) as minimo,
        MAX(preco) as maximo,
        AVG(preco) as media
    FROM vendas
""").fetchdf()
print(result)

print("\n‚úì Auditoria completa!")

### 8.3 Comparar Duas Tabelas

In [None]:
# Criar segunda tabela para compara√ß√£o
con.execute("""
    CREATE TABLE vendas_backup AS
    SELECT * FROM vendas
""")

print("Comparar estruturas de tabelas:")
print()

# Comparar n√∫mero de linhas
print("1. Contagem de linhas:")
result = con.execute("""
    SELECT 
        'vendas' as tabela,
        COUNT(*) as linhas
    FROM vendas
    UNION ALL
    SELECT 
        'vendas_backup' as tabela,
        COUNT(*) as linhas
    FROM vendas_backup
""").fetchdf()
print(result)

# Comparar schemas
print("\n2. Comparar colunas:")
result = con.execute("""
    SELECT 
        v1.column_name,
        v1.data_type as tipo_vendas,
        v2.data_type as tipo_backup
    FROM duckdb_columns() v1
    FULL OUTER JOIN duckdb_columns() v2
        ON v1.column_name = v2.column_name
    WHERE v1.table_name = 'vendas'
      AND v2.table_name = 'vendas_backup'
    ORDER BY v1.column_index
""").fetchdf()
print(result)

print("\n‚úì Tabelas comparadas!")

## üéØ Resumo do Cap√≠tulo

### ‚úÖ Comandos Principais:

**1. Introspec√ß√£o:**
- `DESCRIBE` ‚Üí Estrutura de tabelas/queries
- `SUMMARIZE` ‚Üí Estat√≠sticas autom√°ticas
- `EXPLAIN` ‚Üí Plano de execu√ß√£o
- `EXPLAIN ANALYZE` ‚Üí Timing real

**2. Cat√°logo:**
- `duckdb_tables()` ‚Üí Listar tabelas
- `duckdb_columns()` ‚Üí Listar colunas
- `duckdb_views()` ‚Üí Listar views
- `duckdb_indexes()` ‚Üí Listar √≠ndices
- `duckdb_schemas()` ‚Üí Listar schemas

**3. Configura√ß√£o:**
- `duckdb_settings()` ‚Üí Ver configura√ß√µes
- `duckdb_extensions()` ‚Üí Ver extens√µes

### üîç Casos de Uso:
1. **Explora√ß√£o de dados** desconhecidos
2. **Auditoria de qualidade** de dados
3. **An√°lise de performance** de queries
4. **Documenta√ß√£o autom√°tica** de schemas
5. **Compara√ß√£o de estruturas**

### üí° Boas Pr√°ticas:
- Use `SUMMARIZE` antes de an√°lises
- Use `EXPLAIN` para otimizar queries
- Monitore configura√ß√µes de performance
- Documente schemas com meta queries
- Automatize auditorias de qualidade

### üöÄ Vantagens:
- ‚ö° **R√°pido**: Estat√≠sticas em segundos
- üîç **Completo**: Informa√ß√µes detalhadas
- ü§ñ **Autom√°tico**: Sem c√≥digo adicional
- üìä **Integrado**: SQL nativo

### üìö Pr√≥ximo Cap√≠tulo:
Performance e otimiza√ß√µes!