# An√°lise Explorat√≥ria de Dados SQLite para Treinamento de Redes Neurais

Este notebook realiza uma an√°lise explorat√≥ria completa de dados armazenados em arquivos SQLite3, preparando-os para treinamento de modelos de aprendizado profundo.

## Objetivos:
- Conectar e explorar bases de dados SQLite3
- Analisar vari√°veis num√©ricas, categ√≥ricas e campos de texto
- Identificar problemas de qualidade de dados
- Preparar dados para modelos de redes neurais

## 1. Importa√ß√£o de Bibliotecas

In [None]:
import sqlite3
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import warnings

warnings.filterwarnings('ignore')
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)

print("Bibliotecas importadas com sucesso!")

## 2. Configura√ß√£o e Conex√£o ao Banco de Dados

In [None]:
# Configurar o caminho para o arquivo SQLite
DB_PATH = r"c:\Users\bruno.silva\Codes\cnn-classificador-peticoes\seu_arquivo.db"  # Altere para o caminho do seu arquivo

# Verificar se o arquivo existe
if not Path(DB_PATH).exists():
    print(f"AVISO: Arquivo n√£o encontrado em {DB_PATH}")
    print("Por favor, atualize o caminho do arquivo SQLite na vari√°vel DB_PATH")
else:
    print(f"Arquivo encontrado: {DB_PATH}")

In [None]:
# Fun√ß√£o para conectar ao banco de dados
def connect_to_db(db_path):
    try:
        conn = sqlite3.connect(db_path)
        print(f"Conex√£o estabelecida com sucesso!")
        return conn
    except sqlite3.Error as e:
        print(f"Erro ao conectar: {e}")
        return None

conn = connect_to_db(DB_PATH)

## 3. Explora√ß√£o da Estrutura do Banco de Dados

In [None]:
# Listar todas as tabelas dispon√≠veis
def list_tables(conn):
    query = "SELECT name FROM sqlite_master WHERE type='table';"
    tables = pd.read_sql_query(query, conn)
    return tables

if conn:
    tables_df = list_tables(conn)
    print(f"Tabelas encontradas: {len(tables_df)}")
    print("\nLista de tabelas:")
    display(tables_df)

In [None]:
# Explorar schema de cada tabela
def get_table_info(conn, table_name):
    query = f"PRAGMA table_info({table_name});"
    return pd.read_sql_query(query, conn)

if conn and not tables_df.empty:
    print("\n" + "="*80)
    print("ESTRUTURA DAS TABELAS")
    print("="*80)
    
    for table_name in tables_df['name']:
        print(f"\nüìä Tabela: {table_name}")
        schema = get_table_info(conn, table_name)
        display(schema)
        
        # Contar registros
        count_query = f"SELECT COUNT(*) as total FROM {table_name}"
        count = pd.read_sql_query(count_query, conn)['total'][0]
        print(f"Total de registros: {count:,}")

## 4. Carregamento e Visualiza√ß√£o Inicial dos Dados

In [None]:
# Selecionar a tabela principal para an√°lise
# AJUSTE ESTA VARI√ÅVEL COM O NOME DA SUA TABELA
TABLE_NAME = tables_df['name'][0] if not tables_df.empty else "sua_tabela"

print(f"Analisando a tabela: {TABLE_NAME}")
print("\nSe desejar analisar outra tabela, altere a vari√°vel TABLE_NAME acima.")

In [None]:
# Carregar dados da tabela
if conn:
    query = f"SELECT * FROM {TABLE_NAME}"
    df = pd.read_sql_query(query, conn)
    
    print(f"Dados carregados: {df.shape[0]:,} linhas x {df.shape[1]} colunas")
    print("\nPrimeiras linhas:")
    display(df.head(10))

In [None]:
# Informa√ß√µes gerais do dataset
print("INFORMA√á√ïES GERAIS DO DATASET")
print("="*80)
df.info()

## 5. An√°lise de Qualidade dos Dados

In [None]:
# An√°lise de valores ausentes
def analyze_missing_values(df):
    missing = pd.DataFrame({
        'Coluna': df.columns,
        'Total_Missing': df.isnull().sum(),
        'Percentual_Missing': (df.isnull().sum() / len(df) * 100).round(2),
        'Tipo_Dado': df.dtypes
    })
    missing = missing[missing['Total_Missing'] > 0].sort_values('Total_Missing', ascending=False)
    return missing

missing_analysis = analyze_missing_values(df)

if not missing_analysis.empty:
    print("\n‚ö†Ô∏è VALORES AUSENTES DETECTADOS")
    print("="*80)
    display(missing_analysis)
    
    # Visualizar valores ausentes
    plt.figure(figsize=(12, 6))
    plt.barh(missing_analysis['Coluna'], missing_analysis['Percentual_Missing'])
    plt.xlabel('Percentual de Valores Ausentes (%)')
    plt.title('An√°lise de Dados Ausentes por Coluna')
    plt.tight_layout()
    plt.show()
else:
    print("\n‚úÖ Nenhum valor ausente detectado!")

In [None]:
# An√°lise de duplicatas
duplicates = df.duplicated().sum()
print(f"\nTotal de registros duplicados: {duplicates:,} ({duplicates/len(df)*100:.2f}%)")

if duplicates > 0:
    print("\nExemplo de registros duplicados:")
    display(df[df.duplicated(keep=False)].head())

## 6. Classifica√ß√£o Autom√°tica de Vari√°veis

In [None]:
# Identificar tipos de vari√°veis
def classify_variables(df, text_threshold=50):
    numeric_vars = df.select_dtypes(include=[np.number]).columns.tolist()
    
    categorical_vars = []
    text_vars = []
    
    for col in df.select_dtypes(include=['object']).columns:
        unique_ratio = df[col].nunique() / len(df)
        avg_length = df[col].astype(str).str.len().mean()
        
        if avg_length > text_threshold or unique_ratio > 0.5:
            text_vars.append(col)
        else:
            categorical_vars.append(col)
    
    return {
        'numericas': numeric_vars,
        'categoricas': categorical_vars,
        'texto': text_vars
    }

var_types = classify_variables(df)

print("\nüìä CLASSIFICA√á√ÉO DE VARI√ÅVEIS")
print("="*80)
print(f"\n‚úì Vari√°veis Num√©ricas ({len(var_types['numericas'])}):", var_types['numericas'])
print(f"\n‚úì Vari√°veis Categ√≥ricas ({len(var_types['categoricas'])}):", var_types['categoricas'])
print(f"\n‚úì Campos de Texto ({len(var_types['texto'])}):", var_types['texto'])

## 7. An√°lise de Vari√°veis Num√©ricas

In [None]:
# Estat√≠sticas descritivas das vari√°veis num√©ricas
if var_types['numericas']:
    print("\nüìà ESTAT√çSTICAS DESCRITIVAS - VARI√ÅVEIS NUM√âRICAS")
    print("="*80)
    display(df[var_types['numericas']].describe().T)

In [None]:
# Distribui√ß√µes das vari√°veis num√©ricas
if var_types['numericas']:
    n_cols = min(3, len(var_types['numericas']))
    n_rows = (len(var_types['numericas']) + n_cols - 1) // n_cols
    
    fig, axes = plt.subplots(n_rows, n_cols, figsize=(15, 5*n_rows))
    axes = axes.flatten() if len(var_types['numericas']) > 1 else [axes]
    
    for idx, col in enumerate(var_types['numericas']):
        df[col].hist(bins=30, ax=axes[idx], edgecolor='black', alpha=0.7)
        axes[idx].set_title(f'Distribui√ß√£o: {col}')
        axes[idx].set_xlabel(col)
        axes[idx].set_ylabel('Frequ√™ncia')
    
    # Remover subplots vazios
    for idx in range(len(var_types['numericas']), len(axes)):
        fig.delaxes(axes[idx])
    
    plt.tight_layout()
    plt.show()

In [None]:
# Boxplots para detectar outliers
if var_types['numericas']:
    n_cols = min(3, len(var_types['numericas']))
    n_rows = (len(var_types['numericas']) + n_cols - 1) // n_cols
    
    fig, axes = plt.subplots(n_rows, n_cols, figsize=(15, 5*n_rows))
    axes = axes.flatten() if len(var_types['numericas']) > 1 else [axes]
    
    for idx, col in enumerate(var_types['numericas']):
        df.boxplot(column=col, ax=axes[idx])
        axes[idx].set_title(f'Boxplot: {col}')
        axes[idx].set_ylabel(col)
    
    # Remover subplots vazios
    for idx in range(len(var_types['numericas']), len(axes)):
        fig.delaxes(axes[idx])
    
    plt.tight_layout()
    plt.show()

In [None]:
# Matriz de correla√ß√£o
if len(var_types['numericas']) > 1:
    plt.figure(figsize=(12, 10))
    correlation_matrix = df[var_types['numericas']].corr()
    sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0, 
                square=True, linewidths=1, fmt='.2f')
    plt.title('Matriz de Correla√ß√£o - Vari√°veis Num√©ricas')
    plt.tight_layout()
    plt.show()
    
    # Correla√ß√µes mais fortes
    print("\nüîó CORRELA√á√ïES MAIS FORTES (|r| > 0.5):")
    print("="*80)
    corr_pairs = []
    for i in range(len(correlation_matrix.columns)):
        for j in range(i+1, len(correlation_matrix.columns)):
            if abs(correlation_matrix.iloc[i, j]) > 0.5:
                corr_pairs.append({
                    'Var1': correlation_matrix.columns[i],
                    'Var2': correlation_matrix.columns[j],
                    'Correla√ß√£o': correlation_matrix.iloc[i, j]
                })
    
    if corr_pairs:
        corr_df = pd.DataFrame(corr_pairs).sort_values('Correla√ß√£o', ascending=False, key=abs)
        display(corr_df)
    else:
        print("Nenhuma correla√ß√£o forte detectada.")

## 8. An√°lise de Vari√°veis Categ√≥ricas

In [None]:
# An√°lise de cardinalidade das vari√°veis categ√≥ricas
if var_types['categoricas']:
    print("\nüìã AN√ÅLISE DE VARI√ÅVEIS CATEG√ìRICAS")
    print("="*80)
    
    categorical_summary = []
    for col in var_types['categoricas']:
        categorical_summary.append({
            'Vari√°vel': col,
            'Valores_√önicos': df[col].nunique(),
            'Valor_Mais_Frequente': df[col].mode()[0] if not df[col].mode().empty else None,
            'Frequ√™ncia_M√°xima': df[col].value_counts().iloc[0] if len(df[col]) > 0 else 0,
            'Percentual_M√°ximo': f"{df[col].value_counts(normalize=True).iloc[0]*100:.2f}%" if len(df[col]) > 0 else "0%"
        })
    
    cat_summary_df = pd.DataFrame(categorical_summary)
    display(cat_summary_df)

In [None]:
# Distribui√ß√£o de frequ√™ncias das vari√°veis categ√≥ricas
if var_types['categoricas']:
    for col in var_types['categoricas']:
        print(f"\nüìä Distribui√ß√£o: {col}")
        print("-"*80)
        
        value_counts = df[col].value_counts()
        
        # Mostrar top 10 valores
        print(f"\nTop 10 valores mais frequentes:")
        display(pd.DataFrame({
            'Valor': value_counts.head(10).index,
            'Frequ√™ncia': value_counts.head(10).values,
            'Percentual': (value_counts.head(10).values / len(df) * 100).round(2)
        }))
        
        # Gr√°fico de barras (limitado a top 15 para legibilidade)
        if len(value_counts) <= 15:
            plt.figure(figsize=(12, 6))
            value_counts.plot(kind='bar', edgecolor='black', alpha=0.7)
            plt.title(f'Distribui√ß√£o de Frequ√™ncias: {col}')
            plt.xlabel(col)
            plt.ylabel('Frequ√™ncia')
            plt.xticks(rotation=45, ha='right')
            plt.tight_layout()
            plt.show()
        else:
            plt.figure(figsize=(12, 6))
            value_counts.head(15).plot(kind='bar', edgecolor='black', alpha=0.7)
            plt.title(f'Top 15 Valores - {col}')
            plt.xlabel(col)
            plt.ylabel('Frequ√™ncia')
            plt.xticks(rotation=45, ha='right')
            plt.tight_layout()
            plt.show()

## 9. An√°lise de Campos de Texto

In [None]:
# An√°lise de campos de texto
if var_types['texto']:
    print("\nüìù AN√ÅLISE DE CAMPOS DE TEXTO")
    print("="*80)
    
    text_summary = []
    for col in var_types['texto']:
        text_lengths = df[col].astype(str).str.len()
        text_summary.append({
            'Campo': col,
            'Valores_√önicos': df[col].nunique(),
            'Comprimento_M√©dio': text_lengths.mean().round(2),
            'Comprimento_Min': text_lengths.min(),
            'Comprimento_Max': text_lengths.max(),
            'Comprimento_Mediana': text_lengths.median()
        })
    
    text_summary_df = pd.DataFrame(text_summary)
    display(text_summary_df)

In [None]:
# Distribui√ß√£o de comprimento de texto
if var_types['texto']:
    for col in var_types['texto']:
        print(f"\nüìä Distribui√ß√£o de Comprimento: {col}")
        print("-"*80)
        
        text_lengths = df[col].astype(str).str.len()
        
        plt.figure(figsize=(12, 5))
        
        plt.subplot(1, 2, 1)
        plt.hist(text_lengths, bins=30, edgecolor='black', alpha=0.7)
        plt.xlabel('Comprimento do Texto')
        plt.ylabel('Frequ√™ncia')
        plt.title(f'Histograma de Comprimento: {col}')
        
        plt.subplot(1, 2, 2)
        plt.boxplot(text_lengths)
        plt.ylabel('Comprimento do Texto')
        plt.title(f'Boxplot de Comprimento: {col}')
        
        plt.tight_layout()
        plt.show()
        
        # Exemplos de textos
        print(f"\nExemplos de textos (primeiros 5 valores √∫nicos):")
        for idx, text in enumerate(df[col].dropna().unique()[:5], 1):
            preview = str(text)[:100] + "..." if len(str(text)) > 100 else str(text)
            print(f"{idx}. {preview}")

## 10. An√°lise de Palavras mais Frequentes (Campos de Texto)

In [None]:
# An√°lise de palavras mais frequentes
from collections import Counter
import re

if var_types['texto']:
    for col in var_types['texto']:
        print(f"\nüî§ Palavras Mais Frequentes: {col}")
        print("-"*80)
        
        # Concatenar todos os textos
        all_text = ' '.join(df[col].astype(str).values)
        
        # Extrair palavras (apenas letras, m√≠nimo 3 caracteres)
        words = re.findall(r'\b[a-z√°√†√¢√£√©√®√™√≠√Ø√≥√¥√µ√∂√∫√ß√±]{3,}\b', all_text.lower())
        
        # Contar palavras
        word_counts = Counter(words)
        
        # Top 20 palavras
        top_words = pd.DataFrame(word_counts.most_common(20), 
                                columns=['Palavra', 'Frequ√™ncia'])
        
        display(top_words)
        
        # Gr√°fico de barras
        plt.figure(figsize=(12, 6))
        plt.barh(top_words['Palavra'][::-1], top_words['Frequ√™ncia'][::-1], alpha=0.7)
        plt.xlabel('Frequ√™ncia')
        plt.title(f'Top 20 Palavras Mais Frequentes: {col}')
        plt.tight_layout()
        plt.show()

## 11. Relat√≥rio de Prepara√ß√£o para Redes Neurais

In [None]:
# Gerar relat√≥rio de prepara√ß√£o
print("\n" + "="*80)
print("RELAT√ìRIO DE PREPARA√á√ÉO PARA TREINAMENTO DE REDES NEURAIS")
print("="*80)

print(f"\nüìä RESUMO DO DATASET")
print(f"  ‚Ä¢ Total de registros: {len(df):,}")
print(f"  ‚Ä¢ Total de features: {df.shape[1]}")
print(f"  ‚Ä¢ Duplicatas: {duplicates:,}")

print(f"\nüî¢ VARI√ÅVEIS NUM√âRICAS ({len(var_types['numericas'])})")
if var_types['numericas']:
    for var in var_types['numericas']:
        print(f"  ‚Ä¢ {var}")
    print("\n  Recomenda√ß√µes:")
    print("    - Normalizar/Padronizar antes do treinamento")
    print("    - Verificar outliers e decidir tratamento")
    print("    - Analisar correla√ß√µes para feature engineering")

print(f"\nüìã VARI√ÅVEIS CATEG√ìRICAS ({len(var_types['categoricas'])})")
if var_types['categoricas']:
    for var in var_types['categoricas']:
        n_unique = df[var].nunique()
        print(f"  ‚Ä¢ {var} ({n_unique} categorias √∫nicas)")
    print("\n  Recomenda√ß√µes:")
    print("    - One-Hot Encoding para baixa cardinalidade (<10 categorias)")
    print("    - Label Encoding ou Embedding para alta cardinalidade")
    print("    - Considerar Target Encoding se houver vari√°vel alvo")

print(f"\nüìù CAMPOS DE TEXTO ({len(var_types['texto'])})")
if var_types['texto']:
    for var in var_types['texto']:
        print(f"  ‚Ä¢ {var}")
    print("\n  Recomenda√ß√µes:")
    print("    - TF-IDF ou Word Embeddings (Word2Vec, GloVe)")
    print("    - BERT/Transformers para contexto sem√¢ntico")
    print("    - Pr√©-processamento: remo√ß√£o de stopwords, stemming/lemmatization")

print(f"\n‚ö†Ô∏è PROBLEMAS IDENTIFICADOS")
issues = []
if not missing_analysis.empty:
    issues.append(f"  ‚Ä¢ Valores ausentes em {len(missing_analysis)} colunas")
if duplicates > 0:
    issues.append(f"  ‚Ä¢ {duplicates:,} registros duplicados")

if issues:
    for issue in issues:
        print(issue)
else:
    print("  ‚úÖ Nenhum problema cr√≠tico detectado")

print(f"\nüéØ PR√ìXIMOS PASSOS")
print("  1. Tratamento de valores ausentes (imputa√ß√£o ou remo√ß√£o)")
print("  2. Codifica√ß√£o de vari√°veis categ√≥ricas")
print("  3. Processamento de texto (tokeniza√ß√£o, vetoriza√ß√£o)")
print("  4. Normaliza√ß√£o de features num√©ricas")
print("  5. Split train/validation/test")
print("  6. Feature engineering se necess√°rio")
print("  7. Defini√ß√£o da arquitetura da rede neural")

## 12. Exportar Dados para An√°lise Posterior

In [None]:
# Salvar dados em CSV para an√°lise posterior
output_path = r"c:\Users\bruno.silva\Codes\cnn-classificador-peticoes\dados_exportados.csv"
df.to_csv(output_path, index=False, encoding='utf-8-sig')
print(f"\n‚úÖ Dados exportados com sucesso para: {output_path}")

In [None]:
# Salvar relat√≥rio de tipos de vari√°veis
import json

report = {
    'dataset_info': {
        'total_rows': len(df),
        'total_columns': df.shape[1],
        'duplicates': int(duplicates)
    },
    'variable_types': var_types,
    'missing_values': missing_analysis.to_dict('records') if not missing_analysis.empty else []
}

report_path = r"c:\Users\bruno.silva\Codes\cnn-classificador-peticoes\analise_relatorio.json"
with open(report_path, 'w', encoding='utf-8') as f:
    json.dump(report, f, indent=2, ensure_ascii=False)

print(f"\n‚úÖ Relat√≥rio salvo em: {report_path}")

## 13. Fechar Conex√£o com o Banco de Dados

In [None]:
# Fechar conex√£o
if conn:
    conn.close()
    print("\n‚úÖ Conex√£o com o banco de dados fechada com sucesso!")

---

## Conclus√£o

Este notebook realizou uma an√°lise explorat√≥ria completa dos dados SQLite3, incluindo:

- ‚úÖ Conex√£o e explora√ß√£o da estrutura do banco
- ‚úÖ An√°lise de qualidade dos dados (valores ausentes, duplicatas)
- ‚úÖ Classifica√ß√£o autom√°tica de vari√°veis (num√©ricas, categ√≥ricas, texto)
- ‚úÖ An√°lise estat√≠stica detalhada de cada tipo de vari√°vel
- ‚úÖ Visualiza√ß√µes para melhor compreens√£o dos dados
- ‚úÖ Recomenda√ß√µes para pr√©-processamento e treinamento de redes neurais

Os dados est√£o prontos para as pr√≥ximas etapas de prepara√ß√£o e modelagem!