# Fase 1: Análise Exploratória dos Dados Internos - ATUALIZADA

**Projeto:** Top One Model - Sistema de Modelagem de Risco de Crédito

**Objetivo desta fase:** 
- Testar a leitura dos dados internos ATUALIZADOS
- Realizar análise exploratória completa
- Verificar qualidade e estrutura dos dados
- Identificar variáveis-chave para os 5 estados de pagamento
- Validar esta primeira etapa antes de prosseguir para web scraping

**Metodologia:**
Este notebook implementa a primeira fase do projeto conforme descrito no overview.md, focando na fundamentação e análise dos dados internos completos da empresa.

## 1. Importação de Bibliotecas

In [4]:
# Core libraries
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import warnings
warnings.filterwarnings('ignore')

# Configuration
plt.style.use('default')
sns.set_palette("husl")
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

print("✅ Bibliotecas importadas com sucesso")
print(f"📊 Pandas version: {pd.__version__}")
print(f"🔢 NumPy version: {np.__version__}")

✅ Bibliotecas importadas com sucesso
📊 Pandas version: 2.3.1
🔢 NumPy version: 2.3.2


## 2. Carregamento dos Dados Internos ATUALIZADOS

Carregando o dataset interno completo e atualizado da Top One para análise detalhada.

In [5]:
# Definindo caminhos
project_root = Path('/home/usuario/Documentos/top_one_model_01')
data_path = project_root / 'data' / 'internal_data' / 'dataset_interno_top_one.xlsx'

print(f"📁 Caminho do projeto: {project_root}")
print(f"📊 Caminho dos dados: {data_path}")
print(f"📋 Arquivo existe: {data_path.exists()}")

# Verificando se o arquivo existe
if not data_path.exists():
    raise FileNotFoundError(f"Arquivo não encontrado: {data_path}")

# Carregando o dataset ATUALIZADO
try:
    # Primeiro, vamos verificar as abas disponíveis
    excel_file = pd.ExcelFile(data_path)
    print(f"\n📋 Abas disponíveis no Excel: {excel_file.sheet_names}")
    
    # Carregando a primeira aba (ou aba principal)
    df_raw = pd.read_excel(data_path, sheet_name=excel_file.sheet_names[0])
    
    print(f"\n✅ Dados ATUALIZADOS carregados com sucesso!")
    print(f"📊 Shape do dataset: {df_raw.shape}")
    print(f"📋 Colunas: {len(df_raw.columns)}")
    print(f"📝 Registros: {len(df_raw)}")
    
    # Mostrando os nomes das colunas
    print(f"\n📋 Nomes das colunas:")
    for i, col in enumerate(df_raw.columns, 1):
        print(f"  {i:2d}. {col}")
    
except Exception as e:
    print(f"❌ Erro ao carregar dados: {str(e)}")
    raise

📁 Caminho do projeto: /home/usuario/Documentos/top_one_model_01
📊 Caminho dos dados: /home/usuario/Documentos/top_one_model_01/data/internal_data/dataset_interno_top_one.xlsx
📋 Arquivo existe: True

📋 Abas disponíveis no Excel: ['Planilha1']

✅ Dados ATUALIZADOS carregados com sucesso!
📊 Shape do dataset: (777632, 23)
📋 Colunas: 23
📝 Registros: 777632

📋 Nomes das colunas:
   1. contrato_id
   2. proposta_id
   3. Mercadoria
   4. idade
   5. genero
   6. tipo_residencia
   7. estado_civil
   8. Cargo
   9. descricao_da_Profissao
  10. Cidade_Loja
  11. Parcela_Numero
  12. Modalidade_da_Proposta
  13. Data_Vencimento_da_Prestacao
  14. data_de_pagamento
  15. valor_inicial_da_prestacao
  16. valor_financiado
  17. Data_Lancamento
  18. score_SPC
  19. Score_MC
  20. Grupo_MC
  21. renda_cliente
  22. plano_financiamento
  23. Tipo_Cliente


## 3. Visão Geral dos Dados Atualizados

In [6]:
# Informações básicas sobre o dataset
print("=" * 60)
print("📊 INFORMAÇÕES BÁSICAS DO DATASET ATUALIZADO")
print("=" * 60)

print(f"\n📏 Dimensões: {df_raw.shape[0]:,} linhas x {df_raw.shape[1]} colunas")
print(f"💾 Tamanho em memória: {df_raw.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

# Primeiras linhas
print("\n🔍 Primeiras 3 linhas:")
display(df_raw.head(3))

# Últimas linhas
print("\n🔍 Últimas 3 linhas:")
display(df_raw.tail(3))

📊 INFORMAÇÕES BÁSICAS DO DATASET ATUALIZADO

📏 Dimensões: 777,632 linhas x 23 colunas
💾 Tamanho em memória: 598.64 MB

🔍 Primeiras 3 linhas:


Unnamed: 0,contrato_id,proposta_id,Mercadoria,idade,genero,tipo_residencia,estado_civil,Cargo,descricao_da_Profissao,Cidade_Loja,Parcela_Numero,Modalidade_da_Proposta,Data_Vencimento_da_Prestacao,data_de_pagamento,valor_inicial_da_prestacao,valor_financiado,Data_Lancamento,score_SPC,Score_MC,Grupo_MC,renda_cliente,plano_financiamento,Tipo_Cliente
0,1095358,568622,estofado,44,Masculino,Propria,Casado,EMPRESARIO,MANICURE,AGUDOS DO SUL,1,CDC,2023-02-10,2023-02-13 00:00:00,317.36,3106.0,2022-12-30,495,68.9,GRUPO 4,2500.0,15,NORMAL
1,1095358,568622,estofado,44,Masculino,Propria,Casado,EMPRESARIO,MANICURE,AGUDOS DO SUL,2,CDC,2023-03-10,2023-03-20 00:00:00,317.36,3106.0,2022-12-30,495,68.9,GRUPO 4,2500.0,15,NORMAL
2,1095358,568622,estofado,44,Masculino,Propria,Casado,EMPRESARIO,MANICURE,AGUDOS DO SUL,3,CDC,2023-04-10,2023-04-18 00:00:00,317.36,3106.0,2022-12-30,495,68.9,GRUPO 4,2500.0,15,NORMAL



🔍 Últimas 3 linhas:


Unnamed: 0,contrato_id,proposta_id,Mercadoria,idade,genero,tipo_residencia,estado_civil,Cargo,descricao_da_Profissao,Cidade_Loja,Parcela_Numero,Modalidade_da_Proposta,Data_Vencimento_da_Prestacao,data_de_pagamento,valor_inicial_da_prestacao,valor_financiado,Data_Lancamento,score_SPC,Score_MC,Grupo_MC,renda_cliente,plano_financiamento,Tipo_Cliente
777629,3169835,757231,PROCEDIMENTO ESTETICO,22,Feminino,Propria,Solteiro,ASSALARIADO,Analista RH,PORTO ALEGRE,3,CDC,2024-04-05,2024-05-02 00:00:00,234.2,949.0,2023-12-28,612,,,3000.0,5,NOVO
777630,3169835,757231,PROCEDIMENTO ESTETICO,22,Feminino,Propria,Solteiro,ASSALARIADO,Analista RH,PORTO ALEGRE,4,CDC,2024-05-05,2024-06-05 00:00:00,234.2,949.0,2023-12-28,612,,,3000.0,5,NOVO
777631,3169835,757231,PROCEDIMENTO ESTETICO,22,Feminino,Propria,Solteiro,ASSALARIADO,Analista RH,PORTO ALEGRE,5,CDC,2024-06-05,2024-07-26 00:00:00,234.2,949.0,2023-12-28,612,,,3000.0,5,NOVO


## 4. Análise dos Dados para Modelagem de Risco

Compreendendo a estrutura e conteúdo dos dados internos disponíveis para o projeto de modelagem de risco de crédito.

*Nota: A definição dos 5 estados de pagamento será feita após a implementação do web scraping de dados macroeconômicos.*

In [None]:
# Análise detalhada de tipos de dados e estrutura
print("=" * 60)
print("📋 ANÁLISE DE TIPOS DE DADOS E ESTRUTURA")
print("=" * 60)

# Info básico do dataset
print("\n📊 Informações gerais:")
df_raw.info()

# Análise de tipos de dados
print("\n🔍 Distribuição por tipo de dados:")
types_count = df_raw.dtypes.value_counts()
for dtype, count in types_count.items():
    print(f"  • {dtype}: {count} colunas")

# Separando colunas por tipo
numeric_cols = df_raw.select_dtypes(include=[np.number]).columns.tolist()
categorical_cols = df_raw.select_dtypes(include=['object', 'category']).columns.tolist()
datetime_cols = df_raw.select_dtypes(include=['datetime64']).columns.tolist()

print(f"\n📊 Resumo por categoria:")
print(f"  • Colunas numéricas: {len(numeric_cols)}")
print(f"  • Colunas categóricas/texto: {len(categorical_cols)}")
print(f"  • Colunas de data: {len(datetime_cols)}")

if numeric_cols:
    print(f"\n🔢 Colunas numéricas:")
    for col in numeric_cols:
        print(f"    - {col}")

if categorical_cols:
    print(f"\n📝 Colunas categóricas/texto:")
    for col in categorical_cols:
        print(f"    - {col}")

if datetime_cols:
    print(f"\n📅 Colunas de data:")
    for col in datetime_cols:
        print(f"    - {col}")

## 5. Análise de Qualidade dos Dados

Verificando a qualidade dos dados: valores faltantes, duplicatas, inconsistências.

In [None]:
# Análise de valores faltantes
print("=" * 60)
print("🔍 ANÁLISE DE VALORES FALTANTES")
print("=" * 60)

missing_data = df_raw.isnull().sum()
missing_percent = (missing_data / len(df_raw)) * 100
missing_df = pd.DataFrame({
    'Coluna': missing_data.index,
    'Valores_Faltantes': missing_data.values,
    'Percentual': missing_percent.values
})

# Apenas colunas com valores faltantes
missing_df = missing_df[missing_df['Valores_Faltantes'] > 0].sort_values('Percentual', ascending=False)

print(f"\n📊 Total de registros: {len(df_raw):,}")
print(f"📊 Total de células: {df_raw.shape[0] * df_raw.shape[1]:,}")
print(f"📊 Células com valores faltantes: {missing_data.sum():,}")

if len(missing_df) > 0:
    print(f"\n⚠️  {len(missing_df)} colunas com valores faltantes:")
    display(missing_df)
    
    # Gráfico de valores faltantes se houver
    if len(missing_df) > 0:
        plt.figure(figsize=(12, 6))
        plt.bar(range(len(missing_df)), missing_df['Percentual'])
        plt.xticks(range(len(missing_df)), missing_df['Coluna'], rotation=45, ha='right')
        plt.ylabel('Percentual de Valores Faltantes (%)')
        plt.title('Distribuição de Valores Faltantes por Coluna')
        plt.tight_layout()
        plt.show()
else:
    print("\n✅ Nenhum valor faltante encontrado!")

In [None]:
# Análise de duplicatas
print("=" * 60)
print("🔍 ANÁLISE DE REGISTROS DUPLICADOS")
print("=" * 60)

duplicates = df_raw.duplicated().sum()
duplicate_percent = (duplicates / len(df_raw)) * 100

print(f"\n📊 Total de registros: {len(df_raw):,}")
print(f"🔄 Registros duplicados: {duplicates:,}")
print(f"📈 Percentual de duplicação: {duplicate_percent:.2f}%")

if duplicates > 0:
    print(f"\n⚠️  Atenção: {duplicates} registros duplicados encontrados!")
    print("\n🔍 Primeiros registros duplicados:")
    duplicate_rows = df_raw[df_raw.duplicated(keep=False)]
    display(duplicate_rows.head(10))
else:
    print("\n✅ Nenhum registro duplicado encontrado!")

## 6. Análise Detalhada das Colunas

Examinando cada coluna individualmente para entender os dados disponíveis.

In [None]:
# Análise detalhada de cada coluna
print("=" * 60)
print("📋 ANÁLISE DETALHADA DAS COLUNAS")
print("=" * 60)

column_analysis = []

for col in df_raw.columns:
    col_info = {
        'Coluna': col,
        'Tipo': str(df_raw[col].dtype),
        'Valores_Unicos': df_raw[col].nunique(),
        'Valores_Faltantes': df_raw[col].isnull().sum(),
        'Pct_Faltantes': round((df_raw[col].isnull().sum() / len(df_raw)) * 100, 2)
    }
    
    # Para colunas numéricas, adicionar estatísticas
    if df_raw[col].dtype in ['int64', 'float64']:
        col_info['Min'] = df_raw[col].min()
        col_info['Max'] = df_raw[col].max()
        col_info['Media'] = round(df_raw[col].mean(), 2)
        col_info['Mediana'] = round(df_raw[col].median(), 2)
    else:
        # Para colunas categóricas, mostrar alguns valores únicos
        unique_vals = df_raw[col].unique()[:5]  # Primeiros 5 valores únicos
        col_info['Exemplos'] = ', '.join([str(v) for v in unique_vals if pd.notna(v)])
    
    column_analysis.append(col_info)

analysis_df = pd.DataFrame(column_analysis)
print(f"\n📊 Resumo das {len(df_raw.columns)} colunas:")
display(analysis_df)

In [None]:
# Análise específica das colunas mais relevantes
print("=" * 60)
print("🎯 ANÁLISE ESPECÍFICA DAS COLUNAS MAIS RELEVANTES")
print("=" * 60)

# Para cada coluna, mostrar estatísticas detalhadas
for i, col in enumerate(df_raw.columns, 1):
    print(f"\n🔹 {i}. Coluna: '{col}'")
    print(f"   └── Tipo: {df_raw[col].dtype}")
    print(f"   └── Valores únicos: {df_raw[col].nunique()}")
    print(f"   └── Valores faltantes: {df_raw[col].isnull().sum()} ({(df_raw[col].isnull().sum()/len(df_raw)*100):.1f}%)")
    
    if df_raw[col].dtype in ['int64', 'float64']:
        # Coluna numérica
        print(f"   └── Min: {df_raw[col].min()}")
        print(f"   └── Max: {df_raw[col].max()}")
        print(f"   └── Média: {df_raw[col].mean():.2f}")
        print(f"   └── Mediana: {df_raw[col].median():.2f}")
        print(f"   └── Desvio padrão: {df_raw[col].std():.2f}")
    else:
        # Coluna categórica
        print(f"   └── Valores mais frequentes:")
        value_counts = df_raw[col].value_counts().head(3)
        for val, count in value_counts.items():
            pct = (count / len(df_raw)) * 100
            print(f"       • {val}: {count:,} ({pct:.1f}%)")
    
    # Linha separadora para legibilidade
    if i < len(df_raw.columns):
        print("   " + "─" * 50)

## 7. Resumo da Análise e Próximos Passos

Consolidando os achados da análise exploratória dos dados internos.

In [None]:
# Resumo final da análise
print("=" * 70)
print("📋 RESUMO DA ANÁLISE DOS DADOS INTERNOS ATUALIZADOS")
print("=" * 70)

print(f"\n📊 DATASET CARREGADO:")
print(f"   • Shape: {df_raw.shape[0]:,} registros x {df_raw.shape[1]} colunas")
print(f"   • Tamanho: {df_raw.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

print(f"\n🔍 QUALIDADE DOS DADOS:")
missing_cols = df_raw.isnull().sum().sum()
duplicates = df_raw.duplicated().sum()
print(f"   • Valores faltantes: {missing_cols:,}")
print(f"   • Registros duplicados: {duplicates:,}")

print(f"\n📋 TIPOS DE DADOS:")
numeric_cols = df_raw.select_dtypes(include=[np.number]).columns.tolist()
categorical_cols = df_raw.select_dtypes(include=['object', 'category']).columns.tolist()
datetime_cols = df_raw.select_dtypes(include=['datetime64']).columns.tolist()
print(f"   • Colunas numéricas: {len(numeric_cols)}")
print(f"   • Colunas categóricas: {len(categorical_cols)}")
print(f"   • Colunas de data: {len(datetime_cols)}")

print(f"\n✅ STATUS: Análise exploratória dos dados internos CONCLUÍDA!")
print(f"\n📝 PRÓXIMOS PASSOS DEFINIDOS:")
print(f"   1. ✅ Análise exploratória dos dados internos - CONCLUÍDA")
print(f"   2. 🔄 Implementar sistema de web scraping de dados macroeconômicos")
print(f"   3. 🔄 Integrar dados externos (regionais)")
print(f"   4. 🔄 Definir e criar os 5 estados de pagamento")
print(f"   5. ⏳ Engenharia de features avançada")
print(f"   6. ⏳ Desenvolvimento do modelo de ML")

print(f"\n🎯 FOCO ATUAL: Entendimento completo da estrutura dos dados internos")
print(f"🚀 PRÓXIMO PASSO: Sistema de web scraping para dados macroeconômicos regionais")

## ✅ Validação da Primeira Fase

**Status:** PRONTA PARA EXECUÇÃO ✅

A estrutura de análise exploratória dos dados internos foi criada. Agora podemos executar todas as células para entender completamente os dados atualizados.

**Sequência de execução:**
1. **Bibliotecas** → Importar dependências
2. **Carregamento** → Ler dados atualizados  
3. **Visão Geral** → Entender estrutura básica
4. **Tipos de Dados** → Analisar estrutura detalhada
5. **Qualidade** → Verificar completude e consistência
6. **Análise Individual** → Examinar cada coluna
7. **Resumo** → Consolidar achados

**Próxima etapa:** Após validar os dados internos, implementar o sistema de web scraping para dados macroeconômicos regionais.

---

*Este notebook faz parte do projeto Top One Model - Sistema de Modelagem de Risco de Crédito*