# Fase 1: An√°lise Explorat√≥ria dos Dados Internos - ATUALIZADA

**Projeto:** Top One Model - Sistema de Modelagem de Risco de Cr√©dito

**Objetivo desta fase:** 
- Testar a leitura dos dados internos ATUALIZADOS
- Realizar an√°lise explorat√≥ria completa
- Verificar qualidade e estrutura dos dados
- Identificar vari√°veis-chave para os 5 estados de pagamento
- Validar esta primeira etapa antes de prosseguir para web scraping

**Metodologia:**
Este notebook implementa a primeira fase do projeto conforme descrito no overview.md, focando na fundamenta√ß√£o e an√°lise dos dados internos completos da empresa.

## 1. Importa√ß√£o de Bibliotecas

In [4]:
# Core libraries
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import warnings
warnings.filterwarnings('ignore')

# Configuration
plt.style.use('default')
sns.set_palette("husl")
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

print("‚úÖ Bibliotecas importadas com sucesso")
print(f"üìä Pandas version: {pd.__version__}")
print(f"üî¢ NumPy version: {np.__version__}")

‚úÖ Bibliotecas importadas com sucesso
üìä Pandas version: 2.3.1
üî¢ NumPy version: 2.3.2


## 2. Carregamento dos Dados Internos ATUALIZADOS

Carregando o dataset interno completo e atualizado da Top One para an√°lise detalhada.

In [5]:
# Definindo caminhos
project_root = Path('/home/usuario/Documentos/top_one_model_01')
data_path = project_root / 'data' / 'internal_data' / 'dataset_interno_top_one.xlsx'

print(f"üìÅ Caminho do projeto: {project_root}")
print(f"üìä Caminho dos dados: {data_path}")
print(f"üìã Arquivo existe: {data_path.exists()}")

# Verificando se o arquivo existe
if not data_path.exists():
    raise FileNotFoundError(f"Arquivo n√£o encontrado: {data_path}")

# Carregando o dataset ATUALIZADO
try:
    # Primeiro, vamos verificar as abas dispon√≠veis
    excel_file = pd.ExcelFile(data_path)
    print(f"\nüìã Abas dispon√≠veis no Excel: {excel_file.sheet_names}")
    
    # Carregando a primeira aba (ou aba principal)
    df_raw = pd.read_excel(data_path, sheet_name=excel_file.sheet_names[0])
    
    print(f"\n‚úÖ Dados ATUALIZADOS carregados com sucesso!")
    print(f"üìä Shape do dataset: {df_raw.shape}")
    print(f"üìã Colunas: {len(df_raw.columns)}")
    print(f"üìù Registros: {len(df_raw)}")
    
    # Mostrando os nomes das colunas
    print(f"\nüìã Nomes das colunas:")
    for i, col in enumerate(df_raw.columns, 1):
        print(f"  {i:2d}. {col}")
    
except Exception as e:
    print(f"‚ùå Erro ao carregar dados: {str(e)}")
    raise

üìÅ Caminho do projeto: /home/usuario/Documentos/top_one_model_01
üìä Caminho dos dados: /home/usuario/Documentos/top_one_model_01/data/internal_data/dataset_interno_top_one.xlsx
üìã Arquivo existe: True

üìã Abas dispon√≠veis no Excel: ['Planilha1']

‚úÖ Dados ATUALIZADOS carregados com sucesso!
üìä Shape do dataset: (777632, 23)
üìã Colunas: 23
üìù Registros: 777632

üìã Nomes das colunas:
   1. contrato_id
   2. proposta_id
   3. Mercadoria
   4. idade
   5. genero
   6. tipo_residencia
   7. estado_civil
   8. Cargo
   9. descricao_da_Profissao
  10. Cidade_Loja
  11. Parcela_Numero
  12. Modalidade_da_Proposta
  13. Data_Vencimento_da_Prestacao
  14. data_de_pagamento
  15. valor_inicial_da_prestacao
  16. valor_financiado
  17. Data_Lancamento
  18. score_SPC
  19. Score_MC
  20. Grupo_MC
  21. renda_cliente
  22. plano_financiamento
  23. Tipo_Cliente


## 3. Vis√£o Geral dos Dados Atualizados

In [6]:
# Informa√ß√µes b√°sicas sobre o dataset
print("=" * 60)
print("üìä INFORMA√á√ïES B√ÅSICAS DO DATASET ATUALIZADO")
print("=" * 60)

print(f"\nüìè Dimens√µes: {df_raw.shape[0]:,} linhas x {df_raw.shape[1]} colunas")
print(f"üíæ Tamanho em mem√≥ria: {df_raw.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

# Primeiras linhas
print("\nüîç Primeiras 3 linhas:")
display(df_raw.head(3))

# √öltimas linhas
print("\nüîç √öltimas 3 linhas:")
display(df_raw.tail(3))

üìä INFORMA√á√ïES B√ÅSICAS DO DATASET ATUALIZADO

üìè Dimens√µes: 777,632 linhas x 23 colunas
üíæ Tamanho em mem√≥ria: 598.64 MB

üîç Primeiras 3 linhas:


Unnamed: 0,contrato_id,proposta_id,Mercadoria,idade,genero,tipo_residencia,estado_civil,Cargo,descricao_da_Profissao,Cidade_Loja,Parcela_Numero,Modalidade_da_Proposta,Data_Vencimento_da_Prestacao,data_de_pagamento,valor_inicial_da_prestacao,valor_financiado,Data_Lancamento,score_SPC,Score_MC,Grupo_MC,renda_cliente,plano_financiamento,Tipo_Cliente
0,1095358,568622,estofado,44,Masculino,Propria,Casado,EMPRESARIO,MANICURE,AGUDOS DO SUL,1,CDC,2023-02-10,2023-02-13 00:00:00,317.36,3106.0,2022-12-30,495,68.9,GRUPO 4,2500.0,15,NORMAL
1,1095358,568622,estofado,44,Masculino,Propria,Casado,EMPRESARIO,MANICURE,AGUDOS DO SUL,2,CDC,2023-03-10,2023-03-20 00:00:00,317.36,3106.0,2022-12-30,495,68.9,GRUPO 4,2500.0,15,NORMAL
2,1095358,568622,estofado,44,Masculino,Propria,Casado,EMPRESARIO,MANICURE,AGUDOS DO SUL,3,CDC,2023-04-10,2023-04-18 00:00:00,317.36,3106.0,2022-12-30,495,68.9,GRUPO 4,2500.0,15,NORMAL



üîç √öltimas 3 linhas:


Unnamed: 0,contrato_id,proposta_id,Mercadoria,idade,genero,tipo_residencia,estado_civil,Cargo,descricao_da_Profissao,Cidade_Loja,Parcela_Numero,Modalidade_da_Proposta,Data_Vencimento_da_Prestacao,data_de_pagamento,valor_inicial_da_prestacao,valor_financiado,Data_Lancamento,score_SPC,Score_MC,Grupo_MC,renda_cliente,plano_financiamento,Tipo_Cliente
777629,3169835,757231,PROCEDIMENTO ESTETICO,22,Feminino,Propria,Solteiro,ASSALARIADO,Analista RH,PORTO ALEGRE,3,CDC,2024-04-05,2024-05-02 00:00:00,234.2,949.0,2023-12-28,612,,,3000.0,5,NOVO
777630,3169835,757231,PROCEDIMENTO ESTETICO,22,Feminino,Propria,Solteiro,ASSALARIADO,Analista RH,PORTO ALEGRE,4,CDC,2024-05-05,2024-06-05 00:00:00,234.2,949.0,2023-12-28,612,,,3000.0,5,NOVO
777631,3169835,757231,PROCEDIMENTO ESTETICO,22,Feminino,Propria,Solteiro,ASSALARIADO,Analista RH,PORTO ALEGRE,5,CDC,2024-06-05,2024-07-26 00:00:00,234.2,949.0,2023-12-28,612,,,3000.0,5,NOVO


## 4. An√°lise dos Dados para Modelagem de Risco

Compreendendo a estrutura e conte√∫do dos dados internos dispon√≠veis para o projeto de modelagem de risco de cr√©dito.

*Nota: A defini√ß√£o dos 5 estados de pagamento ser√° feita ap√≥s a implementa√ß√£o do web scraping de dados macroecon√¥micos.*

In [None]:
# An√°lise detalhada de tipos de dados e estrutura
print("=" * 60)
print("üìã AN√ÅLISE DE TIPOS DE DADOS E ESTRUTURA")
print("=" * 60)

# Info b√°sico do dataset
print("\nüìä Informa√ß√µes gerais:")
df_raw.info()

# An√°lise de tipos de dados
print("\nüîç Distribui√ß√£o por tipo de dados:")
types_count = df_raw.dtypes.value_counts()
for dtype, count in types_count.items():
    print(f"  ‚Ä¢ {dtype}: {count} colunas")

# Separando colunas por tipo
numeric_cols = df_raw.select_dtypes(include=[np.number]).columns.tolist()
categorical_cols = df_raw.select_dtypes(include=['object', 'category']).columns.tolist()
datetime_cols = df_raw.select_dtypes(include=['datetime64']).columns.tolist()

print(f"\nüìä Resumo por categoria:")
print(f"  ‚Ä¢ Colunas num√©ricas: {len(numeric_cols)}")
print(f"  ‚Ä¢ Colunas categ√≥ricas/texto: {len(categorical_cols)}")
print(f"  ‚Ä¢ Colunas de data: {len(datetime_cols)}")

if numeric_cols:
    print(f"\nüî¢ Colunas num√©ricas:")
    for col in numeric_cols:
        print(f"    - {col}")

if categorical_cols:
    print(f"\nüìù Colunas categ√≥ricas/texto:")
    for col in categorical_cols:
        print(f"    - {col}")

if datetime_cols:
    print(f"\nüìÖ Colunas de data:")
    for col in datetime_cols:
        print(f"    - {col}")

## 5. An√°lise de Qualidade dos Dados

Verificando a qualidade dos dados: valores faltantes, duplicatas, inconsist√™ncias.

In [None]:
# An√°lise de valores faltantes
print("=" * 60)
print("üîç AN√ÅLISE DE VALORES FALTANTES")
print("=" * 60)

missing_data = df_raw.isnull().sum()
missing_percent = (missing_data / len(df_raw)) * 100
missing_df = pd.DataFrame({
    'Coluna': missing_data.index,
    'Valores_Faltantes': missing_data.values,
    'Percentual': missing_percent.values
})

# Apenas colunas com valores faltantes
missing_df = missing_df[missing_df['Valores_Faltantes'] > 0].sort_values('Percentual', ascending=False)

print(f"\nüìä Total de registros: {len(df_raw):,}")
print(f"üìä Total de c√©lulas: {df_raw.shape[0] * df_raw.shape[1]:,}")
print(f"üìä C√©lulas com valores faltantes: {missing_data.sum():,}")

if len(missing_df) > 0:
    print(f"\n‚ö†Ô∏è  {len(missing_df)} colunas com valores faltantes:")
    display(missing_df)
    
    # Gr√°fico de valores faltantes se houver
    if len(missing_df) > 0:
        plt.figure(figsize=(12, 6))
        plt.bar(range(len(missing_df)), missing_df['Percentual'])
        plt.xticks(range(len(missing_df)), missing_df['Coluna'], rotation=45, ha='right')
        plt.ylabel('Percentual de Valores Faltantes (%)')
        plt.title('Distribui√ß√£o de Valores Faltantes por Coluna')
        plt.tight_layout()
        plt.show()
else:
    print("\n‚úÖ Nenhum valor faltante encontrado!")

In [None]:
# An√°lise de duplicatas
print("=" * 60)
print("üîç AN√ÅLISE DE REGISTROS DUPLICADOS")
print("=" * 60)

duplicates = df_raw.duplicated().sum()
duplicate_percent = (duplicates / len(df_raw)) * 100

print(f"\nüìä Total de registros: {len(df_raw):,}")
print(f"üîÑ Registros duplicados: {duplicates:,}")
print(f"üìà Percentual de duplica√ß√£o: {duplicate_percent:.2f}%")

if duplicates > 0:
    print(f"\n‚ö†Ô∏è  Aten√ß√£o: {duplicates} registros duplicados encontrados!")
    print("\nüîç Primeiros registros duplicados:")
    duplicate_rows = df_raw[df_raw.duplicated(keep=False)]
    display(duplicate_rows.head(10))
else:
    print("\n‚úÖ Nenhum registro duplicado encontrado!")

## 6. An√°lise Detalhada das Colunas

Examinando cada coluna individualmente para entender os dados dispon√≠veis.

In [None]:
# An√°lise detalhada de cada coluna
print("=" * 60)
print("üìã AN√ÅLISE DETALHADA DAS COLUNAS")
print("=" * 60)

column_analysis = []

for col in df_raw.columns:
    col_info = {
        'Coluna': col,
        'Tipo': str(df_raw[col].dtype),
        'Valores_Unicos': df_raw[col].nunique(),
        'Valores_Faltantes': df_raw[col].isnull().sum(),
        'Pct_Faltantes': round((df_raw[col].isnull().sum() / len(df_raw)) * 100, 2)
    }
    
    # Para colunas num√©ricas, adicionar estat√≠sticas
    if df_raw[col].dtype in ['int64', 'float64']:
        col_info['Min'] = df_raw[col].min()
        col_info['Max'] = df_raw[col].max()
        col_info['Media'] = round(df_raw[col].mean(), 2)
        col_info['Mediana'] = round(df_raw[col].median(), 2)
    else:
        # Para colunas categ√≥ricas, mostrar alguns valores √∫nicos
        unique_vals = df_raw[col].unique()[:5]  # Primeiros 5 valores √∫nicos
        col_info['Exemplos'] = ', '.join([str(v) for v in unique_vals if pd.notna(v)])
    
    column_analysis.append(col_info)

analysis_df = pd.DataFrame(column_analysis)
print(f"\nüìä Resumo das {len(df_raw.columns)} colunas:")
display(analysis_df)

In [None]:
# An√°lise espec√≠fica das colunas mais relevantes
print("=" * 60)
print("üéØ AN√ÅLISE ESPEC√çFICA DAS COLUNAS MAIS RELEVANTES")
print("=" * 60)

# Para cada coluna, mostrar estat√≠sticas detalhadas
for i, col in enumerate(df_raw.columns, 1):
    print(f"\nüîπ {i}. Coluna: '{col}'")
    print(f"   ‚îî‚îÄ‚îÄ Tipo: {df_raw[col].dtype}")
    print(f"   ‚îî‚îÄ‚îÄ Valores √∫nicos: {df_raw[col].nunique()}")
    print(f"   ‚îî‚îÄ‚îÄ Valores faltantes: {df_raw[col].isnull().sum()} ({(df_raw[col].isnull().sum()/len(df_raw)*100):.1f}%)")
    
    if df_raw[col].dtype in ['int64', 'float64']:
        # Coluna num√©rica
        print(f"   ‚îî‚îÄ‚îÄ Min: {df_raw[col].min()}")
        print(f"   ‚îî‚îÄ‚îÄ Max: {df_raw[col].max()}")
        print(f"   ‚îî‚îÄ‚îÄ M√©dia: {df_raw[col].mean():.2f}")
        print(f"   ‚îî‚îÄ‚îÄ Mediana: {df_raw[col].median():.2f}")
        print(f"   ‚îî‚îÄ‚îÄ Desvio padr√£o: {df_raw[col].std():.2f}")
    else:
        # Coluna categ√≥rica
        print(f"   ‚îî‚îÄ‚îÄ Valores mais frequentes:")
        value_counts = df_raw[col].value_counts().head(3)
        for val, count in value_counts.items():
            pct = (count / len(df_raw)) * 100
            print(f"       ‚Ä¢ {val}: {count:,} ({pct:.1f}%)")
    
    # Linha separadora para legibilidade
    if i < len(df_raw.columns):
        print("   " + "‚îÄ" * 50)

## 7. Resumo da An√°lise e Pr√≥ximos Passos

Consolidando os achados da an√°lise explorat√≥ria dos dados internos.

In [None]:
# Resumo final da an√°lise
print("=" * 70)
print("üìã RESUMO DA AN√ÅLISE DOS DADOS INTERNOS ATUALIZADOS")
print("=" * 70)

print(f"\nüìä DATASET CARREGADO:")
print(f"   ‚Ä¢ Shape: {df_raw.shape[0]:,} registros x {df_raw.shape[1]} colunas")
print(f"   ‚Ä¢ Tamanho: {df_raw.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

print(f"\nüîç QUALIDADE DOS DADOS:")
missing_cols = df_raw.isnull().sum().sum()
duplicates = df_raw.duplicated().sum()
print(f"   ‚Ä¢ Valores faltantes: {missing_cols:,}")
print(f"   ‚Ä¢ Registros duplicados: {duplicates:,}")

print(f"\nüìã TIPOS DE DADOS:")
numeric_cols = df_raw.select_dtypes(include=[np.number]).columns.tolist()
categorical_cols = df_raw.select_dtypes(include=['object', 'category']).columns.tolist()
datetime_cols = df_raw.select_dtypes(include=['datetime64']).columns.tolist()
print(f"   ‚Ä¢ Colunas num√©ricas: {len(numeric_cols)}")
print(f"   ‚Ä¢ Colunas categ√≥ricas: {len(categorical_cols)}")
print(f"   ‚Ä¢ Colunas de data: {len(datetime_cols)}")

print(f"\n‚úÖ STATUS: An√°lise explorat√≥ria dos dados internos CONCLU√çDA!")
print(f"\nüìù PR√ìXIMOS PASSOS DEFINIDOS:")
print(f"   1. ‚úÖ An√°lise explorat√≥ria dos dados internos - CONCLU√çDA")
print(f"   2. üîÑ Implementar sistema de web scraping de dados macroecon√¥micos")
print(f"   3. üîÑ Integrar dados externos (regionais)")
print(f"   4. üîÑ Definir e criar os 5 estados de pagamento")
print(f"   5. ‚è≥ Engenharia de features avan√ßada")
print(f"   6. ‚è≥ Desenvolvimento do modelo de ML")

print(f"\nüéØ FOCO ATUAL: Entendimento completo da estrutura dos dados internos")
print(f"üöÄ PR√ìXIMO PASSO: Sistema de web scraping para dados macroecon√¥micos regionais")

## ‚úÖ Valida√ß√£o da Primeira Fase

**Status:** PRONTA PARA EXECU√á√ÉO ‚úÖ

A estrutura de an√°lise explorat√≥ria dos dados internos foi criada. Agora podemos executar todas as c√©lulas para entender completamente os dados atualizados.

**Sequ√™ncia de execu√ß√£o:**
1. **Bibliotecas** ‚Üí Importar depend√™ncias
2. **Carregamento** ‚Üí Ler dados atualizados  
3. **Vis√£o Geral** ‚Üí Entender estrutura b√°sica
4. **Tipos de Dados** ‚Üí Analisar estrutura detalhada
5. **Qualidade** ‚Üí Verificar completude e consist√™ncia
6. **An√°lise Individual** ‚Üí Examinar cada coluna
7. **Resumo** ‚Üí Consolidar achados

**Pr√≥xima etapa:** Ap√≥s validar os dados internos, implementar o sistema de web scraping para dados macroecon√¥micos regionais.

---

*Este notebook faz parte do projeto Top One Model - Sistema de Modelagem de Risco de Cr√©dito*