# Análise Exploratória de Dados - Risco de Crédito

Este notebook realiza a análise inicial dos dados, incluindo tratamento de valores ausentes, visualizações e preparação inicial para modelagem.

In [None]:
%pip install pandas
%pip install seaborn
%pip install matplotlib

In [None]:
# Imports
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Leitura dos dados
dados = pd.read_csv('../dados/UCI_Credit_Card.csv')

# Renomear a variável alvo
dados.rename(columns={'default.payment.next.month': 'inadimplente'}, inplace=True)

# Informações iniciais
print(dados.shape)
print(dados.info())

# Estatísticas descritivas
print(dados.describe())

# Distribuição da variável alvo
sns.countplot(x='inadimplente', data=dados)
plt.title('Distribuição de inadimplentes')
plt.show()

# Boxplot da idade
sns.boxplot(x=dados['AGE'])
plt.title('Distribuição da idade')
plt.show()

# Correlação
corr = dados.corr(numeric_only=True)
sns.heatmap(corr[['inadimplente']].sort_values(by='inadimplente', ascending=False), annot=True, cmap='coolwarm')
plt.title('Correlação com inadimplência')
plt.show()

# Salvando versão tratada
dados.to_csv('../dados/dados_credito_tratados.csv', index=False)