# Análisis de Aceptación de Préstamos Personales - Naive Bayes

**Problema del libro: Data Mining for Business Analytics**

El archivo UniversalBank.csv contiene datos de 5000 clientes del Universal Bank. Entre estos 5000 clientes, solo 480 (=9.6%) aceptaron el préstamo personal que se les ofreció en la campaña anterior.

En este ejercicio nos enfocamos en dos predictores:
- **Online**: si el cliente es usuario activo de servicios bancarios en línea
- **CreditCard (CC)**: si el cliente tiene una tarjeta de crédito emitida por el banco

Y el resultado:
- **Personal Loan (Loan)**: si el cliente aceptó el préstamo personal


## 1. Importar librerías necesarias


In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')

# Instalar dmba si no está instalado
try:
    from dmba import classificationSummary, gainsChart
except ImportError:
    !pip install dmba
    from dmba import classificationSummary, gainsChart



[notice] A new release of pip is available: 25.1.1 -> 25.2
[notice] To update, run: python.exe -m pip install --upgrade pip


Defaulting to user installation because normal site-packages is not writeable
Collecting dmba
  Downloading dmba-0.2.4-py3-none-any.whl.metadata (1.9 kB)
Collecting graphviz (from dmba)
  Downloading graphviz-0.21-py3-none-any.whl.metadata (12 kB)
Downloading dmba-0.2.4-py3-none-any.whl (11.8 MB)
   ---------------------------------------- 0.0/11.8 MB ? eta -:--:--
   ------- -------------------------------- 2.4/11.8 MB 11.2 MB/s eta 0:00:01
   ------------------- -------------------- 5.8/11.8 MB 13.6 MB/s eta 0:00:01
   ----------------------------------- ---- 10.5/11.8 MB 16.8 MB/s eta 0:00:01
   ---------------------------------------- 11.8/11.8 MB 14.8 MB/s eta 0:00:00
Downloading graphviz-0.21-py3-none-any.whl (47 kB)
Installing collected packages: graphviz, dmba

   ---------------------------------------- 0/2 [graphviz]
   ---------------------------------------- 0/2 [graphviz]
   ---------------------------------------- 0/2 [graphviz]
   ----------------------------------------

## 2. Cargar y examinar los datos


In [None]:
# Cargar los datos
bank_df = pd.read_csv('UniversalBank.csv')

# Examinar la estructura de los datos
print("Forma de los datos:", bank_df.shape)
print("\nPrimeras 5 filas:")
print(bank_df.head())

print("\nTipos de datos:")
print(bank_df.dtypes)

print("\nEstadísticas descriptivas de las variables relevantes:")
print(bank_df[['Online', 'CreditCard', 'Personal Loan']].describe())

print("\nDistribución de Personal Loan:")
print(bank_df['Personal Loan'].value_counts())
print("\nProporción de aceptación de préstamos:")
print(bank_df['Personal Loan'].value_counts(normalize=True))


## 3. Particionar los datos en entrenamiento (60%) y validación (40%)


In [None]:
# Seleccionar las variables relevantes
predictors = ['Online', 'CreditCard']
outcome = 'Personal Loan'

# Crear variables dummy para las variables categóricas
X = pd.get_dummies(bank_df[predictors], drop_first=False)
y = bank_df[outcome]

# Particionar los datos
X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_size=0.40, random_state=1)

print("Tamaño del conjunto de entrenamiento:", X_train.shape[0])
print("Tamaño del conjunto de validación:", X_valid.shape[0])

print("\nDistribución de Personal Loan en entrenamiento:")
print(y_train.value_counts())
print("\nProporción en entrenamiento:")
print(y_train.value_counts(normalize=True))

print("\nDistribución de Personal Loan en validación:")
print(y_valid.value_counts())
print("\nProporción en validación:")
print(y_valid.value_counts(normalize=True))


## 4. Crear tabla pivot para los datos de entrenamiento

### a) Tabla pivot con Online como variable de columna, CC como variable de fila y Loan como variable de fila secundaria


In [None]:
# Crear un DataFrame de entrenamiento con las variables relevantes
train_df = pd.DataFrame({
    'Online': X_train['Online_1'],
    'CC': X_train['CreditCard_1'],
    'Loan': y_train
})

# Crear tabla pivot usando melt() y pivot()
# Primero, crear una tabla con conteos
pivot_data = train_df.groupby(['CC', 'Online', 'Loan']).size().reset_index(name='Count')

# Usar pivot para crear la tabla final
pivot_table = pivot_data.pivot_table(
    index=['CC', 'Loan'], 
    columns='Online', 
    values='Count', 
    fill_value=0
)

print("Tabla pivot con Online como columnas, CC y Loan como filas:")
print(pivot_table)

# Mostrar también la tabla con nombres más claros
pivot_table_named = pivot_table.copy()
pivot_table_named.index.names = ['CreditCard', 'PersonalLoan']
pivot_table_named.columns = ['Online=0', 'Online=1']
print("\nTabla pivot con nombres descriptivos:")
print(pivot_table_named)


### b) Calcular P(Loan = 1 | CC = 1, Online = 1)


In [None]:
# Calcular P(Loan = 1 | CC = 1, Online = 1) desde la tabla pivot
# Esto es el conteo de (CC=1, Online=1, Loan=1) dividido por el total de (CC=1, Online=1)

# Contar casos donde CC=1, Online=1, Loan=1
loan_accept_cc_online = pivot_table.loc[(1, 1), 1]  # CC=1, Loan=1, Online=1

# Contar total de casos donde CC=1, Online=1
total_cc_online = pivot_table.loc[(1, 0), 1] + pivot_table.loc[(1, 1), 1]  # CC=1, Online=1 (tanto Loan=0 como Loan=1)

prob_loan_given_cc_online = loan_accept_cc_online / total_cc_online

print(f"Casos con CC=1, Online=1, Loan=1: {loan_accept_cc_online}")
print(f"Total casos con CC=1, Online=1: {total_cc_online}")
print(f"P(Loan = 1 | CC = 1, Online = 1) = {prob_loan_given_cc_online:.4f}")

# Verificar con cálculo directo
mask = (train_df['CC'] == 1) & (train_df['Online'] == 1)
subset = train_df[mask]
prob_direct = subset['Loan'].mean()
print(f"\nVerificación directa: P(Loan = 1 | CC = 1, Online = 1) = {prob_direct:.4f}")


### c) Crear dos tablas pivot separadas


In [None]:
# Tabla pivot 1: Loan (filas) como función de Online (columnas)
pivot_loan_online = train_df.groupby(['Loan', 'Online']).size().unstack(fill_value=0)
print("Tabla pivot: Loan vs Online")
print(pivot_loan_online)

# Tabla pivot 2: Loan (filas) como función de CC (columnas)
pivot_loan_cc = train_df.groupby(['Loan', 'CC']).size().unstack(fill_value=0)
print("\nTabla pivot: Loan vs CreditCard")
print(pivot_loan_cc)


### d) Calcular las probabilidades condicionales requeridas


In [None]:
# Calcular todas las probabilidades requeridas

# P(CC = 1 | Loan = 1) - proporción de titulares de tarjeta de crédito entre los que aceptaron préstamos
p_cc1_given_loan1 = pivot_loan_cc.loc[1, 1] / pivot_loan_cc.loc[1, :].sum()

# P(Online = 1 | Loan = 1)
p_online1_given_loan1 = pivot_loan_online.loc[1, 1] / pivot_loan_online.loc[1, :].sum()

# P(Loan = 1) - proporción de aceptadores de préstamos
p_loan1 = y_train.sum() / len(y_train)

# P(CC = 1 | Loan = 0)
p_cc1_given_loan0 = pivot_loan_cc.loc[0, 1] / pivot_loan_cc.loc[0, :].sum()

# P(Online = 1 | Loan = 0)
p_online1_given_loan0 = pivot_loan_online.loc[0, 1] / pivot_loan_online.loc[0, :].sum()

# P(Loan = 0)
p_loan0 = 1 - p_loan1

print("Probabilidades calculadas:")
print(f"P(CC = 1 | Loan = 1) = {p_cc1_given_loan1:.4f}")
print(f"P(Online = 1 | Loan = 1) = {p_online1_given_loan1:.4f}")
print(f"P(Loan = 1) = {p_loan1:.4f}")
print(f"P(CC = 1 | Loan = 0) = {p_cc1_given_loan0:.4f}")
print(f"P(Online = 1 | Loan = 0) = {p_online1_given_loan0:.4f}")
print(f"P(Loan = 0) = {p_loan0:.4f}")


### e) Calcular P(Loan = 1 | CC = 1, Online = 1) usando Naive Bayes


In [None]:
# Aplicar la fórmula de Naive Bayes
# P(Loan = 1 | CC = 1, Online = 1) = P(CC = 1 | Loan = 1) * P(Online = 1 | Loan = 1) * P(Loan = 1) / P(CC = 1, Online = 1)

# Calcular P(CC = 1, Online = 1) usando la ley de probabilidad total
p_cc1_online1 = (p_cc1_given_loan1 * p_online1_given_loan1 * p_loan1 + 
                 p_cc1_given_loan0 * p_online1_given_loan0 * p_loan0)

# Calcular P(Loan = 1 | CC = 1, Online = 1) usando Naive Bayes
p_loan1_given_cc1_online1_naive = (p_cc1_given_loan1 * p_online1_given_loan1 * p_loan1) / p_cc1_online1

print("Cálculo usando Naive Bayes:")
print(f"P(CC = 1, Online = 1) = {p_cc1_online1:.4f}")
print(f"P(Loan = 1 | CC = 1, Online = 1) = {p_loan1_given_cc1_online1_naive:.4f}")

print(f"\nComparación:")
print(f"Desde tabla pivot: {prob_loan_given_cc_online:.4f}")
print(f"Desde Naive Bayes: {p_loan1_given_cc1_online1_naive:.4f}")
print(f"Diferencia: {abs(prob_loan_given_cc_online - p_loan1_given_cc1_online1_naive):.4f}")


### f) Implementar Naive Bayes con scikit-learn


In [None]:
# Entrenar el modelo Naive Bayes
nb_model = MultinomialNB(alpha=0.01)
nb_model.fit(X_train, y_train)

# Predecir probabilidades en el conjunto de entrenamiento
pred_proba_train = nb_model.predict_proba(X_train)

# Crear un DataFrame con las probabilidades predichas
prob_df = pd.DataFrame(pred_proba_train, columns=['P(Loan=0)', 'P(Loan=1)'], index=X_train.index)
prob_df['Online'] = X_train['Online_1']
prob_df['CreditCard'] = X_train['CreditCard_1']
prob_df['Actual'] = y_train

# Encontrar la probabilidad para el caso específico: CC=1, Online=1
mask = (prob_df['CreditCard'] == 1) & (prob_df['Online'] == 1)
specific_case = prob_df[mask]

print("Casos con CC=1, Online=1:")
print(specific_case[['P(Loan=0)', 'P(Loan=1)', 'Actual']].head(10))

if len(specific_case) > 0:
    sklearn_prob = specific_case['P(Loan=1)'].iloc[0]  # Tomar el primer caso como ejemplo
    print(f"\nP(Loan = 1 | CC = 1, Online = 1) desde scikit-learn: {sklearn_prob:.4f}")
    print(f"\nComparación final:")
    print(f"Tabla pivot: {prob_loan_given_cc_online:.4f}")
    print(f"Naive Bayes manual: {p_loan1_given_cc1_online1_naive:.4f}")
    print(f"Scikit-learn: {sklearn_prob:.4f}")
else:
    print("No se encontraron casos con CC=1, Online=1 en el conjunto de entrenamiento")


### g) Evaluación del modelo


In [None]:
# Predecir en el conjunto de validación
y_valid_pred = nb_model.predict(X_valid)
pred_proba_valid = nb_model.predict_proba(X_valid)

# Mostrar resumen de clasificación
print("Resumen de clasificación en conjunto de validación:")
classificationSummary(y_valid, y_valid_pred)

# Mostrar algunas predicciones de probabilidad
print("\nPrimeras 10 predicciones de probabilidad:")
prob_valid_df = pd.DataFrame(pred_proba_valid, columns=['P(Loan=0)', 'P(Loan=1)'])
prob_valid_df['Predicted'] = y_valid_pred
prob_valid_df['Actual'] = y_valid.values
print(prob_valid_df.head(10))

# Buscar casos específicos en validación
valid_df = pd.DataFrame({
    'Online': X_valid['Online_1'],
    'CreditCard': X_valid['CreditCard_1'],
    'Actual': y_valid.values,
    'Predicted': y_valid_pred,
    'P(Loan=0)': pred_proba_valid[:, 0],
    'P(Loan=1)': pred_proba_valid[:, 1]
})

# Casos con CC=1, Online=1 en validación
valid_specific = valid_df[(valid_df['CreditCard'] == 1) & (valid_df['Online'] == 1)]
print(f"\nCasos con CC=1, Online=1 en validación: {len(valid_specific)}")
if len(valid_specific) > 0:
    print(valid_specific[['Actual', 'Predicted', 'P(Loan=0)', 'P(Loan=1)']].head())


## Conclusiones

### Respuestas a las preguntas del ejercicio:

**b) Probabilidad desde tabla pivot:** La probabilidad P(Loan = 1 | CC = 1, Online = 1) calculada directamente desde la tabla pivot es la estimación más precisa porque utiliza todos los datos disponibles sin asumir independencia entre las variables.

**f) Comparación de estimaciones:** La estimación desde la tabla pivot es más precisa que la de Naive Bayes porque Naive Bayes asume independencia condicional entre las variables predictoras, lo cual puede no ser cierto en la realidad.

**g) Entradas necesarias:** Para calcular P(Loan = 1 | CC = 1, Online = 1) usando Naive Bayes, necesitamos:
- P(CC = 1 | Loan = 1)
- P(Online = 1 | Loan = 1) 
- P(Loan = 1)
- P(CC = 1 | Loan = 0)
- P(Online = 1 | Loan = 0)
- P(Loan = 0)

El modelo de scikit-learn proporciona una implementación robusta de Naive Bayes que maneja automáticamente estos cálculos.
