# Análise Exploratória - Lending Club

Neste notebook, vamos explorar os dados de empréstimos do Lending Club para entender melhor os padrões e fatores que influenciam o risco de default.

## Objetivos:
1. Entender a distribuição das variáveis
2. Identificar relações entre as features e o default
3. Visualizar padrões importantes nos dados

In [None]:
# Importar bibliotecas necessárias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configurações de visualização
plt.style.use('seaborn')
sns.set_palette('husl')
%matplotlib inline

In [None]:
# Carregar os dados processados
df = pd.read_csv('../data/processed/lending_club_processed.csv')

print(f"Dimensões do dataset: {df.shape}")
print("\nPrimeiras linhas:")
df.head()

## 1. Análise da Taxa de Default

Vamos começar entendendo a distribuição de empréstimos em default vs. não default

In [None]:
# Visualizar distribuição de default
plt.figure(figsize=(10, 6))
sns.countplot(data=df, x='default')
plt.title('Distribuição de Default')
plt.xlabel('Default (0=Não, 1=Sim)')
plt.ylabel('Número de Empréstimos')

# Calcular e mostrar percentuais
default_rate = (df['default'].mean() * 100)
print(f"Taxa de default: {default_rate:.2f}%")

## 2. Análise por Grade de Crédito

Vamos ver como a grade de crédito se relaciona com o default

In [None]:
# Taxa de default por grade
default_by_grade = df.groupby('grade')['default'].mean().sort_index()

plt.figure(figsize=(12, 6))
default_by_grade.plot(kind='bar')
plt.title('Taxa de Default por Grade de Crédito')
plt.xlabel('Grade')
plt.ylabel('Taxa de Default')

# Mostrar valores
print("\nTaxa de default por grade:")
print(default_by_grade.multiply(100).round(2))

## 3. Análise de Valor do Empréstimo e Taxa de Juros

In [None]:
# Criar subplot para valor do empréstimo e taxa de juros
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# Boxplot do valor do empréstimo por default
sns.boxplot(data=df, x='default', y='loan_amnt', ax=ax1)
ax1.set_title('Valor do Empréstimo vs Default')
ax1.set_xlabel('Default (0=Não, 1=Sim)')
ax1.set_ylabel('Valor do Empréstimo ($)')

# Boxplot da taxa de juros por default
sns.boxplot(data=df, x='default', y='int_rate', ax=ax2)
ax2.set_title('Taxa de Juros vs Default')
ax2.set_xlabel('Default (0=Não, 1=Sim)')
ax2.set_ylabel('Taxa de Juros (%)')

plt.tight_layout()

## 4. Análise de Correlações

In [None]:
# Selecionar apenas colunas numéricas
numeric_cols = df.select_dtypes(include=['float64', 'int64']).columns
correlation_matrix = df[numeric_cols].corr()

# Criar heatmap
plt.figure(figsize=(12, 10))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0)
plt.title('Matriz de Correlação - Features Numéricas')
plt.tight_layout()

## 5. Análise por Finalidade do Empréstimo

In [None]:
# Taxa de default por finalidade
default_by_purpose = df.groupby('purpose')['default'].agg(['mean', 'count'])
default_by_purpose = default_by_purpose.sort_values('mean', ascending=False)

plt.figure(figsize=(15, 6))
sns.barplot(data=default_by_purpose.reset_index(), x='purpose', y='mean')
plt.title('Taxa de Default por Finalidade do Empréstimo')
plt.xticks(rotation=45)
plt.xlabel('Finalidade')
plt.ylabel('Taxa de Default')

print("\nTaxa de default por finalidade:")
print(default_by_purpose['mean'].multiply(100).round(2))