Análise exploratória somente com clientes pré-aprovados

In [0]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import math

In [0]:
pd.set_option('display.max_colwidth', None)
pd.set_option('display.max_rows', None)

In [0]:
sns.set_style('whitegrid')
plt.style.use('seaborn-v0_8-whitegrid')
%matplotlib inline

In [0]:
df = pd.read_csv('/Workspace/Users/nagahamasami@gmail.com/creditas-case/data/processed/clean-dataset.csv')
df.head()

# Análise univariada

In [0]:
cols_to_plot = [
    {'col': 'age', 'title': 'Distribuição da Idade', 'xlabel': 'Idade'},
    {'col': 'monthly_income', 'title': 'Distribuição da Renda Mensal', 'xlabel': 'Renda Mensal'},
    {'col': 'collateral_value', 'title': 'Distribuição do Valor do Veículo (Garantia)', 'xlabel': 'Valor do Veículo'},
    {'col': 'loan_amount', 'title': 'Distribuição do Valor do Empréstimo', 'xlabel': 'Valor do Empréstimo'},
    {'col': 'collateral_debt', 'title': 'Distribuição da Dívida do Veículo', 'xlabel': 'Dívida do Veículo'},
    {'col': 'monthly_payment', 'title': 'Distribuição do Pagamento Mensal', 'xlabel': 'Pagamento Mensal'}
]

num_rows = len(cols_to_plot)
fig, axes = plt.subplots(nrows=num_rows, ncols=2, figsize=(14, num_rows * 4))

fig.suptitle('Análise Univariada das Variáveis Numéricas', fontsize=20, y=1.02)

for i, var_info in enumerate(cols_to_plot):
    col_name = var_info['col']
    title = var_info['title']
    xlabel = var_info['xlabel']

    sns.histplot(data=df, x=col_name, kde=True, bins=30, ax=axes[i, 0], color='skyblue')
    axes[i, 0].set_title(f'{title} - Histograma')
    axes[i, 0].set_xlabel(xlabel)
    axes[i, 0].set_ylabel('Frequência')

    sns.boxplot(data=df, x=col_name, ax=axes[i, 1], showfliers=False, color='lightgreen')
    axes[i, 1].set_title(f'{title} - Boxplot')
    axes[i, 1].set_xlabel(xlabel)

plt.tight_layout(rect=[0, 0, 1, 1])
plt.show()

In [0]:
horizontal_cols = {
    'city': 'Top 10 Cidades',
    'state': 'Top 10 Estados',
    'auto_brand': 'Top 10 Marcas de Veículos',
    'auto_model': 'Top 10 Modelos de Veículos',
    'auto_year': 'Top 10 Anos de Veículos',
    'education_level': 'Distribuição do Nível Educacional'
}

vertical_cols = {
    'verified_restriction': 'Restrição Verificada',
    'dishonored_checks': 'Cheques sem Fundo',
    'expired_debts': 'Dívidas Expiradas',
    'banking_debts': 'Dívidas Bancárias',
    'commercial_debts': 'Dívidas Comerciais',
    'protests': 'Protestos',
    'informed_restriction': 'Restrição Informada',
    'pre_approved': 'Pré-Aprovados',
    'form_completed': 'Formulário Completo',
    'sent_to_analysis': 'Enviado para Análise',
    'channel': 'Canal de Aquisição',
    'landing_page_product': 'Produto da Landing Page',
    'gender': 'Gênero',
}

total_plots = len(horizontal_cols) + len(vertical_cols)
num_cols = 3
num_rows = math.ceil(total_plots / num_cols)

fig, axes = plt.subplots(nrows=num_rows, ncols=num_cols, figsize=(20, num_rows * 5))
axes = axes.flatten()

fig.suptitle('Análise Univariada das Variáveis Categóricas', fontsize=24, y=1.03)

current_ax_index = 0
for col, title in horizontal_cols.items():
    ax = axes[current_ax_index]
    top_10 = df[col].value_counts().nlargest(10).index
    sns.countplot(y=df[col], order=top_10, ax=ax, palette='viridis')
    ax.set_title(title, fontsize=14)
    ax.set_xlabel('Contagem')
    ax.set_ylabel('')
    current_ax_index += 1

for col, title in vertical_cols.items():
    ax = axes[current_ax_index]
    order = df[col].value_counts().index
    sns.countplot(x=df[col], order=order, ax=ax, palette='viridis')
    ax.set_title(title, fontsize=14)
    ax.set_xlabel('')
    ax.set_ylabel('Contagem')
    if len(order) > 3:
         ax.tick_params(axis='x', rotation=45)
    current_ax_index += 1

for i in range(current_ax_index, len(axes)):
    axes[i].set_visible(False)

plt.tight_layout(rect=[0, 0, 1, 0.99])
plt.show()

In [0]:
numeric_cols = [
    'age',                   # Idade do cliente (provavelmente em dias ou outra unidade, mas é quantitativa).
    'monthly_income',        # Renda mensal declarada.
    'collateral_value',      # Valor de avaliação do veículo em garantia.
    'loan_amount',           # Valor do empréstimo solicitado.
    'collateral_debt',       # Dívida existente sobre a garantia (ex: financiamento não quitado).
    'verified_restriction',  # Flag indicando restrição verificada (tratada como 0 ou 1).
    'dishonored_checks',     # Número de cheques devolvidos.
    'expired_debts',         # Quantidade de dívidas expiradas.
    'banking_debts',         # Valor ou quantidade de dívidas bancárias.

    'commercial_debts',      # Valor ou quantidade de dívidas comerciais.
    'protests',              # Número de protestos em nome do cliente.
    'informed_restriction',  # Flag se o cliente informou possuir restrição (tratada como 0 ou 1).
    'monthly_payment',       # Valor da parcela mensal do empréstimo.
    'auto_year',             # Ano de fabricação do veículo.
    'form_completed'         # Flag se o cliente completou a ficha cadastral (tratada como 0 ou 1).
]

categorical_cols = [
    'city',                  # Cidade do cliente.
    'state',                 # Estado (UF) do cliente.
    'informed_purpose',      # Motivo declarado para o empréstimo.
    'auto_brand',            # Marca do veículo.
    'auto_model',            # Modelo específico do veículo.
    'channel',               # Canal de aquisição do cliente (search, direct, etc.).
    'zip_code',              # CEP do cliente (tratado como categoria, pois a ordem numérica não importa).
    'landing_page',          # Página específica por onde o cliente entrou.
    'landing_page_product',  # Produto específico da landing page.
    'gender',                # Gênero do cliente.
    'education_level'        # Nível de escolaridade.
]

In [0]:
target = 'sent_to_analysis'

for col in numeric_cols:
    plt.figure(figsize=(10, 6))
    sns.boxplot(x=target, y=col, data=df, palette='muted')
    plt.title(f'{col} vs. {target}')
    # Para visualizar melhor a renda, podemos limitar o eixo y
    if col == 'monthly_income':
        plt.ylim(0, 30000) # Exemplo de limite para melhor visualização
    plt.show()

In [0]:
for col in categorical_cols:
    # Calculando a taxa de 'sent_to_analysis' = 1 para cada categoria
    conversion_rate = df.groupby(col)[target].mean().sort_values(ascending=False)
    
    plt.figure(figsize=(10, 6))
    sns.barplot(y=conversion_rate.index, x=conversion_rate.values, palette='crest')
    plt.title(f'Taxa de Envio para Análise por {col}')
    plt.xlabel('Taxa de Envio para Análise (%)')
    plt.ylabel('')
    plt.xlim(0, max(conversion_rate.values) * 1.1) # Ajuste do limite do eixo x
    plt.show()

In [0]:
plt.figure(figsize=(12, 8))
sns.scatterplot(x='monthly_income', y='loan_amount', data=df, hue=target, palette='seismic', alpha=0.7)
plt.title('Renda Mensal vs. Valor do Empréstimo (Colorido por Envio para Análise)')
plt.xlim(0, 50000) # Limitando para melhor visualização
plt.ylim(0, 80000)
plt.show()

In [0]:
g = sns.FacetGrid(df, col="channel", hue=target, col_wrap=3, height=5)
g.map(sns.scatterplot, "monthly_income", "loan_amount", alpha=.7)
g.add_legend()
g.set_xlabels("Renda Mensal")
g.set_ylabels("Valor do Empréstimo")
# Limitando eixos para visualização
g.set(xlim=(0, 40000), ylim=(0, 75000))
plt.show()

In [0]:
plt.figure(figsize=(15, 10))
# Incluímos o target na correlação para ver a relação de cada feature com ele
corr_matrix = df.select_dtypes(include=np.number).corr()
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', fmt=".2f", linewidths=.5)
plt.title('Matriz de Correlação das Variáveis Numéricas')
plt.show()

# Feature Engineering

In [0]:
df['loan_to_value_ratio'] = df['loan_amount'] / df['collateral_value'].replace(0, np.nan)

financial_drivers = ['monthly_income', 'loan_amount', 'collateral_value', 'loan_to_value_ratio']
target = 'sent_to_analysis'

In [0]:
# Criando um grid de plots para melhor visualização
fig, axes = plt.subplots(2, 2, figsize=(18, 12))
fig.suptitle('Análise Comparativa dos Fatores Financeiros', fontsize=20, y=1.03)

# Flattening the axes array for easy iteration
axes = axes.flatten()

for i, col in enumerate(financial_drivers):
    sns.boxplot(ax=axes[i], x=target, y=col, data=df, palette='viridis')
    axes[i].set_title(f'Distribuição de "{col}"', fontsize=14)
    axes[i].set_xlabel("Enviado para Análise (0 = Não, 1 = Sim)", fontsize=12)
    axes[i].set_ylabel("Valor", fontsize=12)
    
    # Aplicando limites nos eixos Y para melhor visualização, removendo outliers extremos do plot
    if col == 'monthly_income':
        axes[i].set_ylim(0, df['monthly_income'].quantile(0.95)) # Mostra até o 95º percentil
    if col == 'loan_amount':
        axes[i].set_ylim(0, df['loan_amount'].quantile(0.95))
    if col == 'collateral_value':
        axes[i].set_ylim(0, df['collateral_value'].quantile(0.95))
    if col == 'loan_to_value_ratio':
         axes[i].set_ylim(0, df['loan_to_value_ratio'].quantile(0.95))


plt.tight_layout()
plt.show()

In [0]:
behavioral_drivers = ['channel', 'education_level', 'state']
for col in behavioral_drivers:
    # Calculando a taxa de conversão (média do target) e ordenando
    conversion_rate = df.groupby(col)[target].mean().sort_values(ascending=False)
    
    # Para 'state', que tem muitas categorias, vamos pegar apenas os 10 principais
    if col == 'state':
        conversion_rate = conversion_rate.head(10)
        
    plt.figure(figsize=(12, 7))
    ax = sns.barplot(y=conversion_rate.index, x=conversion_rate.values, palette='plasma')
    
    plt.title(f'Taxa de Conversão (Envio para Análise) por "{col}"', fontsize=16)
    plt.xlabel('Taxa de Conversão Média', fontsize=12)
    plt.ylabel(col, fontsize=12)
    
    # Adicionando os rótulos de porcentagem nas barras para clareza
    for p in ax.patches:
        width = p.get_width()
        ax.text(width + 0.005, p.get_y() + p.get_height()/2.,
                f'{width:.2%}', 
                ha='left', va='center')
    
    plt.show()

In [0]:
conversion_by_form = df.groupby('form_completed')[target].mean().sort_values(ascending=False)

plt.figure(figsize=(8, 6))
ax = sns.barplot(x=conversion_by_form.index, y=conversion_by_form.values, palette='coolwarm')

plt.title('Taxa de Conversão por Preenchimento do Formulário', fontsize=16)
plt.ylabel('Taxa de Conversão Média', fontsize=12)
plt.xlabel('Formulário Completo (0 = Não, 1 = Sim)', fontsize=12)
plt.xticks([0, 1], ['Não Completou', 'Completou'])

# Adicionando rótulos de porcentagem
for p in ax.patches:
    ax.annotate(f'{p.get_height():.2%}', 
                (p.get_x() + p.get_width() / 2., p.get_height()), 
                ha='center', va='center', 
                xytext=(0, 9), 
                textcoords='offset points')

plt.show()

print(conversion_by_form)

In [0]:
target = 'sent_to_analysis'

plt.figure(figsize=(10, 7))
sns.boxplot(x=target, y='auto_year', data=df, palette='magma')
plt.title('Distribuição do Ano do Veículo por Status de Análise', fontsize=16)
plt.xlabel('Enviado para Análise (0 = Não, 1 = Sim)', fontsize=12)
plt.ylabel('Ano do Veículo', fontsize=12)
plt.show()


top_10_brands = df['auto_brand'].value_counts().nlargest(10).index

# Filtramos o DataFrame para incluir apenas essas marcas
df_top_brands = df[df['auto_brand'].isin(top_10_brands)]

# Calculamos a taxa de conversão para essas marcas
conversion_by_brand = df_top_brands.groupby('auto_brand')[target].mean().sort_values(ascending=False)

plt.figure(figsize=(12, 8))
ax = sns.barplot(y=conversion_by_brand.index, x=conversion_by_brand.values, palette='viridis')
plt.title('Taxa de Conversão para as 10 Principais Marcas de Veículos', fontsize=16)
plt.xlabel('Taxa de Conversão Média', fontsize=12)
plt.ylabel('Marca do Veículo', fontsize=12)
# Adicionando rótulos
for p in ax.patches:
    width = p.get_width()
    ax.text(width + 0.005, p.get_y() + p.get_height()/2., f'{width:.2%}', ha='left', va='center')
plt.show()

In [0]:
financial_history_flags = [
    'dishonored_checks', 
    'expired_debts', 
    'banking_debts', 
    'commercial_debts', 
    'protests',
    'verified_restriction',
    'informed_restriction'
]

# Criando um DataFrame para armazenar os resultados e facilitar a plotagem
results = []
for col in financial_history_flags:
    # Convertendo para um formato binário: 0 = Sem problema, 1 = Com problema
    flag_series = (df[col] > 0).astype(int)
    
    # Calculando a conversão para cada grupo
    rates = df.groupby(flag_series)[target].mean()
    
    results.append({'flag': col, 'Conversion_No_Issue': rates.get(0, 0), 'Conversion_With_Issue': rates.get(1, 0)})

df_results = pd.DataFrame(results).set_index('flag')

# Plotando os resultados
ax = df_results.plot(kind='bar', figsize=(15, 8), colormap='coolwarm_r', rot=45)
plt.title('Impacto do Histórico Financeiro Negativo na Conversão', fontsize=16)
plt.ylabel('Taxa de Conversão Média', fontsize=12)
plt.xlabel('Indicador de Histórico Negativo', fontsize=12)
ax.legend(["Sem Histórico Negativo", "Com Histórico Negativo"])
plt.show()

# Exibindo a tabela para maior clareza
print("Tabela de Impacto do Histórico Financeiro:")
print(df_results)