# üìä An√°lise Explorat√≥ria - Score de Cr√©dito QuantumFinance

## Objetivo
Explorar e entender o dataset de score de cr√©dito para desenvolver um modelo de classifica√ß√£o.

## Autor
Aluno MBA FIAP - MLOps

---

## 1. Importar Bibliotecas

In [None]:
# Bibliotecas para an√°lise de dados
import pandas as pd
import numpy as np

# Bibliotecas para visualiza√ß√£o
import matplotlib.pyplot as plt
import seaborn as sns

# Configura√ß√µes de visualiza√ß√£o
plt.style.use('seaborn-v0_8')
sns.set_palette('husl')

# Ignorar warnings
import warnings
warnings.filterwarnings('ignore')

# Configurar pandas para mostrar mais colunas
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

print("‚úÖ Bibliotecas importadas com sucesso!")

## 2. Carregar Dados

In [None]:
# Definir caminho dos dados
import os
from pathlib import Path

# Subir um n√≠vel do notebook para acessar a pasta data
DATA_PATH = Path('../data/raw')

# Listar arquivos dispon√≠veis
print("üìÅ Arquivos dispon√≠veis em data/raw:")
if DATA_PATH.exists():
    for file in DATA_PATH.glob('*.csv'):
        print(f"  - {file.name}")
else:
    print("‚ùå Pasta data/raw n√£o encontrada!")

In [None]:
# Carregar o dataset
# Ajustar o nome do arquivo conforme o que foi baixado do Kaggle
df = pd.read_csv(DATA_PATH / 'train.csv')  # ou outro nome do arquivo

print(f"‚úÖ Dataset carregado com sucesso!")
print(f"üìä Dimens√µes: {df.shape[0]} linhas x {df.shape[1]} colunas")

## 3. Vis√£o Geral dos Dados

In [None]:
# Primeiras linhas do dataset
print("üìã Primeiras 5 linhas do dataset:")
df.head()

In [None]:
# Informa√ß√µes gerais
print("üìä Informa√ß√µes do Dataset:")
df.info()

In [None]:
# Estat√≠sticas descritivas das vari√°veis num√©ricas
print("üìà Estat√≠sticas Descritivas:")
df.describe()

## 4. An√°lise da Vari√°vel Target (Credit Score)

In [None]:
# Verificar a distribui√ß√£o do Credit Score
print("üéØ Distribui√ß√£o do Credit Score:")
print(df['Credit_Score'].value_counts())
print("\nPercentual:")
print(df['Credit_Score'].value_counts(normalize=True) * 100)

In [None]:
# Visualizar distribui√ß√£o do Credit Score
plt.figure(figsize=(8, 6))
df['Credit_Score'].value_counts().plot(kind='bar')
plt.title('Distribui√ß√£o do Credit Score', fontsize=16, fontweight='bold')
plt.xlabel('Credit Score', fontsize=12)
plt.ylabel('Quantidade', fontsize=12)
plt.xticks(rotation=0)

# Adicionar valores nas barras
for i, v in enumerate(df['Credit_Score'].value_counts()):
    plt.text(i, v + 100, str(v), ha='center', fontweight='bold')

plt.tight_layout()
plt.show()

## 5. An√°lise de Valores Faltantes

In [None]:
# Verificar valores faltantes
missing_values = df.isnull().sum()
missing_percent = (missing_values / len(df)) * 100

missing_df = pd.DataFrame({
    'Coluna': missing_values.index,
    'Valores_Faltantes': missing_values.values,
    'Percentual': missing_percent.values
})

# Mostrar apenas colunas com valores faltantes
missing_df = missing_df[missing_df['Valores_Faltantes'] > 0].sort_values('Percentual', ascending=False)

if len(missing_df) > 0:
    print("‚ùì Colunas com valores faltantes:")
    print(missing_df)
    
    # Visualizar valores faltantes
    plt.figure(figsize=(10, 6))
    missing_df.plot(x='Coluna', y='Percentual', kind='bar')
    plt.title('Percentual de Valores Faltantes por Coluna', fontsize=16, fontweight='bold')
    plt.xlabel('Coluna', fontsize=12)
    plt.ylabel('Percentual (%)', fontsize=12)
    plt.xticks(rotation=45, ha='right')
    plt.tight_layout()
    plt.show()
else:
    print("‚úÖ N√£o h√° valores faltantes no dataset!")

## 6. An√°lise das Vari√°veis Num√©ricas

In [None]:
# Identificar colunas num√©ricas
numeric_cols = df.select_dtypes(include=['int64', 'float64']).columns.tolist()
print(f"üìä Encontradas {len(numeric_cols)} colunas num√©ricas:")
print(numeric_cols)

In [None]:
# Criar histogramas para vari√°veis num√©ricas
if len(numeric_cols) > 0:
    fig, axes = plt.subplots(nrows=(len(numeric_cols) + 3) // 4, ncols=4, figsize=(16, 4 * ((len(numeric_cols) + 3) // 4)))
    axes = axes.flatten()
    
    for i, col in enumerate(numeric_cols[:16]):  # Limitar a 16 gr√°ficos
        df[col].hist(bins=30, ax=axes[i], edgecolor='black')
        axes[i].set_title(f'Distribui√ß√£o: {col}', fontsize=10)
        axes[i].set_xlabel(col, fontsize=8)
        axes[i].set_ylabel('Frequ√™ncia', fontsize=8)
    
    # Remover eixos extras
    for i in range(len(numeric_cols), len(axes)):
        fig.delaxes(axes[i])
    
    plt.suptitle('Distribui√ß√£o das Vari√°veis Num√©ricas', fontsize=16, fontweight='bold')
    plt.tight_layout()
    plt.show()

## 7. An√°lise das Vari√°veis Categ√≥ricas

In [None]:
# Identificar colunas categ√≥ricas
categorical_cols = df.select_dtypes(include=['object']).columns.tolist()

# Remover Credit_Score da lista se estiver presente
if 'Credit_Score' in categorical_cols:
    categorical_cols.remove('Credit_Score')

print(f"üìä Encontradas {len(categorical_cols)} colunas categ√≥ricas:")
print(categorical_cols)

In [None]:
# Analisar vari√°veis categ√≥ricas com poucos valores √∫nicos
for col in categorical_cols[:10]:  # Limitar a 10 colunas
    unique_count = df[col].nunique()
    
    if unique_count <= 10:  # Mostrar apenas se tiver at√© 10 valores √∫nicos
        print(f"\nüìå {col} ({unique_count} valores √∫nicos):")
        print(df[col].value_counts())
        
        # Criar gr√°fico de barras
        plt.figure(figsize=(8, 4))
        df[col].value_counts().plot(kind='bar')
        plt.title(f'Distribui√ß√£o: {col}', fontsize=14)
        plt.xlabel(col, fontsize=12)
        plt.ylabel('Quantidade', fontsize=12)
        plt.xticks(rotation=45, ha='right')
        plt.tight_layout()
        plt.show()

## 8. An√°lise de Correla√ß√£o

In [None]:
# Criar matriz de correla√ß√£o apenas para vari√°veis num√©ricas
if len(numeric_cols) > 1:
    # Calcular correla√ß√£o
    correlation_matrix = df[numeric_cols].corr()
    
    # Criar heatmap
    plt.figure(figsize=(12, 10))
    sns.heatmap(correlation_matrix, 
                annot=True, 
                cmap='coolwarm', 
                center=0, 
                fmt='.2f',
                square=True,
                linewidths=1,
                cbar_kws={"shrink": 0.8})
    plt.title('Matriz de Correla√ß√£o das Vari√°veis Num√©ricas', fontsize=16, fontweight='bold')
    plt.tight_layout()
    plt.show()

## 9. An√°lise Bivariada - Rela√ß√£o com Credit Score

In [None]:
# Analisar algumas vari√°veis num√©ricas importantes em rela√ß√£o ao Credit Score
# Vamos pegar as primeiras 4 vari√°veis num√©ricas como exemplo
important_numeric_cols = numeric_cols[:4]

if len(important_numeric_cols) > 0:
    fig, axes = plt.subplots(nrows=2, ncols=2, figsize=(12, 10))
    axes = axes.flatten()
    
    for i, col in enumerate(important_numeric_cols):
        df.boxplot(column=col, by='Credit_Score', ax=axes[i])
        axes[i].set_title(f'{col} por Credit Score', fontsize=12)
        axes[i].set_xlabel('Credit Score', fontsize=10)
        axes[i].set_ylabel(col, fontsize=10)
    
    plt.suptitle('An√°lise Bivariada: Vari√°veis Num√©ricas vs Credit Score', fontsize=16, fontweight='bold')
    plt.tight_layout()
    plt.show()

## 10. Insights e Conclus√µes

In [None]:
# Resumo dos insights encontrados
print("üìã RESUMO DA AN√ÅLISE EXPLORAT√ìRIA")
print("=" * 50)
print(f"\n1. Dataset:")
print(f"   - Total de registros: {df.shape[0]:,}")
print(f"   - Total de features: {df.shape[1]}")
print(f"   - Features num√©ricas: {len(numeric_cols)}")
print(f"   - Features categ√≥ricas: {len(categorical_cols)}")

print(f"\n2. Vari√°vel Target (Credit Score):")
for score, count in df['Credit_Score'].value_counts().items():
    percent = (count / len(df)) * 100
    print(f"   - {score}: {count:,} ({percent:.1f}%)")

print(f"\n3. Qualidade dos Dados:")
total_missing = df.isnull().sum().sum()
if total_missing > 0:
    print(f"   - Valores faltantes: {total_missing:,} ({(total_missing / (df.shape[0] * df.shape[1]) * 100):.2f}%)")
else:
    print(f"   - Sem valores faltantes ‚úÖ")

print(f"\n4. Pr√≥ximos Passos:")
print("   - Tratar valores faltantes (se houver)")
print("   - Codificar vari√°veis categ√≥ricas")
print("   - Normalizar/padronizar features num√©ricas")
print("   - Selecionar features mais relevantes")
print("   - Treinar modelo de classifica√ß√£o")
print("   - Implementar valida√ß√£o cruzada")
print("   - Otimizar hiperpar√¢metros")
print("\n" + "=" * 50)

## 11. Salvar Dataset Limpo

In [None]:
# Op√ß√£o para salvar o dataset ap√≥s an√°lise inicial
# df.to_csv('../data/processed/credit_score_eda.csv', index=False)
# print("‚úÖ Dataset salvo em data/processed/credit_score_eda.csv")