# üìä An√°lisis exploratorio: üè¶ Bank Marketing Dataset (UCI)

## 1Ô∏è‚É£ **Introducci√≥n y contexto del proyecto**

El an√°lisis exploratorio que se va a realizar est√° basado en el dataset **Bank Marketing**, publicado por el Banco de Portugal y disponible en el repositorio UCI Machine Learning:  
üîó https://archive.ics.uci.edu/dataset/222/bank+marketing  

Este conjunto de datos recoge informaci√≥n de campa√±as de marketing telef√≥nico realizadas por una entidad bancaria portuguesa. El banco contactaba a clientes potenciales con el fin de ofrecerles un dep√≥sito a plazo fijo. Cada fila representa a un cliente contactado y las variables recogen aspectos demogr√°ficos, financieros y operativos del proceso de captaci√≥n. Los datos recogidos en este dataset est√°n ordenadores por fecha, desde Mayo del 2008 a Noviembre del 2010.

El fichero que analizaremos, **bank-full.csv**, contiene **45.211 registros** y **17 variables** relacionadas con datos demogr√°ficos, laborales, financieros y caracter√≠sticas de la interacci√≥n comercial.

Aunque el objetivo original del dataset era predecir si un cliente contratar√≠a un dep√≥sito a plazo fijo, en este proyecto vamos a reutilizar estas variables para analizar y modelar dos grandes escenarios reales dentro del sector financiero: **gesti√≥n de patrimonio** y **gesti√≥n del riesgo**.

---

## üéØ **Objetivo del an√°lisis**

El prop√≥sito de este an√°lisis es **comprender el perfil financiero y sociodemogr√°fico de los clientes del banco**, analizando sus patrones econ√≥micos y su posible estabilidad o capacidad de ahorro.

Para ello, exploraremos en profundidad la columna `balance`, que refleja el **saldo anual promedio de la cuenta bancaria del cliente**. A partir de esta m√©trica construiremos **dos posibles variables objetivo (targets)**, inspiradas en escenarios reales del sector bancario:

---


## üÖ∞Ô∏è **Escenario A: El Umbral del 90% ‚Äî Gesti√≥n de Patrimonio**

En banca privada existe un fen√≥meno conocido: **el 10% de los clientes m√°s ricos generan alrededor del 80% de los ingresos del banco** (Principio de Pareto). Identificar este grupo es clave para priorizar servicios personalizados y productos de alto valor.

**Acci√≥n realista:**  
Calcular el **percentil 90 (P90)** del `balance`. Ese valor representa el **m√≠nimo saldo que posee el 10% de clientes m√°s adinerados**.

A partir de ese umbral crearemos la variable binaria `Patrimonio_Alto`:

- `Patrimonio_Alto = 1` si `balance > P90`  
- `Patrimonio_Alto = 0` si `balance ‚â§ P90`

**Interpretaci√≥n pr√°ctica:**  
El modelo resultante permitir√° estimar si un cliente **pertenece al segmento de alto patrimonio**, a partir de su edad, trabajo, educaci√≥n, historial crediticio y comportamiento financiero.  
Esto imita c√≥mo las divisiones de **Wealth Management** detectan clientes con potencial para productos premium.

---

## üÖ±Ô∏è **Escenario B: El Umbral Cero ‚Äî Riesgo y Sobregiro**

En gesti√≥n de riesgos bancarios, uno de los indicadores m√°s cr√≠ticos es detectar **clientes con saldo negativo** o riesgo de entrar en sobregiro. Un balance por debajo de cero se√±ala inestabilidad financiera o dependencia del cr√©dito.

**Acci√≥n realista:**  
Utilizar el valor **0 como umbral**.

Crearemos la variable binaria `Riesgo_Sobregiro`:

- `Riesgo_Sobregiro = 1` si `balance < 0`  
- `Riesgo_Sobregiro = 0` si `balance ‚â• 0`

**Interpretaci√≥n pr√°ctica:**  
El modelo predecir√° qu√© clientes tienen una **alta probabilidad de estar en n√∫meros rojos**, lo que resulta esencial para los departamentos de **Risk Management**.  
Esto ayuda a anticipar comportamientos financieros que puedan derivar en impagos o necesidad de intervenci√≥n.

---

## üß© **Significado de las variables del dataset**

| **Columna** | **Descripci√≥n** |
|-------------|-----------------|
| `age` | Edad del cliente. |
| `job` | Tipo de trabajo u ocupaci√≥n. |
| `marital` | Estado civil. |
| `education` | Nivel de educaci√≥n alcanzado. |
| `default` | ¬øTiene impagos en cr√©ditos anteriores? |
| `balance` | Saldo medio anual de la cuenta bancaria. |
| `housing` | ¬øTiene hipoteca en curso? (yes/no) |
| `loan` | ¬øTiene alg√∫n pr√©stamo personal? |
| `contact` | Tipo de contacto empleado (tel√©fono m√≥vil o fijo). |
| `day` | D√≠a del mes en que se realiz√≥ el √∫ltimo contacto. |
| `month` | Mes del √∫ltimo contacto. |
| `duration` | Duraci√≥n (en segundos) de la √∫ltima llamada. |
| `campaign` | N√∫mero de contactos realizados durante la campa√±a. |
| `pdays` | D√≠as desde el √∫ltimo contacto previo a esta campa√±a. |
| `previous` | N√∫mero de contactos en campa√±as anteriores. |
| `poutcome` | Resultado de campa√±as anteriores. |
| `y` | Variable original del banco: ¬øsuscribi√≥ el dep√≥sito a plazo? (yes/no). |

---

üìå *Fuente de los datos: UCI Machine Learning Repository, Bank Marketing Dataset (2012).*  

Este an√°lisis nos permitir√° comprender mejor los perfiles financieros de los clientes y construir modelos predictivos aplicables a contextos reales de banca, tanto en **gesti√≥n de patrimonio** como en **evaluaci√≥n de riesgo**.

---

## 2Ô∏è‚É£ **Importaci√≥n de librer√≠as y carga del dataset**

Incluye todas las librer√≠as necesarias para manipular datos, visualizar resultados y entrenar modelos.  
Se carga tambi√©n el fichero `bank-full.csv` y se muestran sus primeras filas para verificar que se ha importado correctamente.

In [1]:
# Manipulaci√≥n y an√°lisis de datos
import pandas as pd
import numpy as np
import io # Agregamos io para el manejo de strings como archivos

# Visualizaci√≥n
import matplotlib.pyplot as plt
import seaborn as sns

# Preprocesamiento y modelos (scikit-learn)
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

# Modelos que usaremos m√°s adelante
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from sklearn.neural_network import MLPClassifier

# M√©tricas
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

Cargamos el dataset y visualizamos las primeras filas

In [2]:
dataset = './data/bank-full.csv'

# 1. Leer el archivo completo como texto
try:
    with open(dataset, 'r', encoding='utf-8') as f:
        content = f.read()
except FileNotFoundError:
    # Manejo de error si el archivo no est√° en la ubicaci√≥n esperada
    print(f"Error: No se encontr√≥ el archivo '{dataset}'. Aseg√∫rate de que est√° cargado correctamente.")
    exit()

# 2. Modificaci√≥n solicitada: Reemplazar todas las comillas dobles (") con una cadena vac√≠a
# Esto limpia tanto el encabezado como el resto de los datos.
cleaned_content = content.replace('"', '')

# 3. Leer el DataFrame usando io.StringIO
# io.StringIO permite a Pandas leer la cadena de texto como si fuera un archivo.
df = pd.read_csv(io.StringIO(cleaned_content), sep=';')

df.head()

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,y
0,58,management,married,tertiary,no,2143,yes,no,unknown,5,may,261,1,-1,0,unknown,no
1,44,technician,single,secondary,no,29,yes,no,unknown,5,may,151,1,-1,0,unknown,no
2,33,entrepreneur,married,secondary,no,2,yes,yes,unknown,5,may,76,1,-1,0,unknown,no
3,47,blue-collar,married,unknown,no,1506,yes,no,unknown,5,may,92,1,-1,0,unknown,no
4,33,unknown,single,unknown,no,1,no,no,unknown,5,may,198,1,-1,0,unknown,no


---

## 3Ô∏è‚É£ **Exploraci√≥n inicial del dataset (EDA b√°sico)**

Este apartado da las primeras pistas sobre posibles problemas o particularidades del dataset.

- .info(), .describe(), .nunique()
- Dimensiones, tipos de datos, distribuci√≥n inicial.

In [3]:
# Dimensiones del dataset
df.shape

(45211, 17)

In [4]:
# Informaci√≥n general del dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45211 entries, 0 to 45210
Data columns (total 17 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   age        45211 non-null  int64 
 1   job        45211 non-null  object
 2   marital    45211 non-null  object
 3   education  45211 non-null  object
 4   default    45211 non-null  object
 5   balance    45211 non-null  int64 
 6   housing    45211 non-null  object
 7   loan       45211 non-null  object
 8   contact    45211 non-null  object
 9   day        45211 non-null  int64 
 10  month      45211 non-null  object
 11  duration   45211 non-null  int64 
 12  campaign   45211 non-null  int64 
 13  pdays      45211 non-null  int64 
 14  previous   45211 non-null  int64 
 15  poutcome   45211 non-null  object
 16  y          45211 non-null  object
dtypes: int64(7), object(10)
memory usage: 5.9+ MB


In [5]:
# Estad√≠sticas generales
df.describe()

Unnamed: 0,age,balance,day,duration,campaign,pdays,previous
count,45211.0,45211.0,45211.0,45211.0,45211.0,45211.0,45211.0
mean,40.93621,1362.272058,15.806419,258.16308,2.763841,40.197828,0.580323
std,10.618762,3044.765829,8.322476,257.527812,3.098021,100.128746,2.303441
min,18.0,-8019.0,1.0,0.0,1.0,-1.0,0.0
25%,33.0,72.0,8.0,103.0,1.0,-1.0,0.0
50%,39.0,448.0,16.0,180.0,2.0,-1.0,0.0
75%,48.0,1428.0,21.0,319.0,3.0,-1.0,0.0
max,95.0,102127.0,31.0,4918.0,63.0,871.0,275.0


In [6]:
# N√∫mero de valores √∫nicos por columna
df.nunique()

age            77
job            12
marital         3
education       4
default         2
balance      7168
housing         2
loan            2
contact         3
day            31
month          12
duration     1573
campaign       48
pdays         559
previous       41
poutcome        4
y               2
dtype: int64

In [7]:
# Revisamos la distribuci√≥n inicial de la variable objetivo para saber si el dataset est√° desbalanceado
df['balance'].value_counts()

balance
 0        3514
 1         195
 2         156
 4         139
 3         134
          ... 
-381         1
 4617        1
 20584       1
 4358        1
 16353       1
Name: count, Length: 7168, dtype: int64

---

## 4Ô∏è‚É£ **Limpieza de datos**
En esta parte se revisa y corrige la calidad de los datos:
- Detecci√≥n de valores nulos  
- Comprobaci√≥n de categor√≠as inconsistentes  
- Revisi√≥n de posibles valores at√≠picos extremos que distorsionen el an√°lisis  
El prop√≥sito es garantizar que el dataset sea adecuado para construir modelos fiables.

In [8]:
# Revisamos los valores nulos que pueda tener el dataset
df.isnull().sum()

age          0
job          0
marital      0
education    0
default      0
balance      0
housing      0
loan         0
contact      0
day          0
month        0
duration     0
campaign     0
pdays        0
previous     0
poutcome     0
y            0
dtype: int64

In [9]:
print("\n--- CANTIDAD TOTAL DE DUPLICADOS ---")
print(df.duplicated().sum())


--- CANTIDAD TOTAL DE DUPLICADOS ---
0


In [10]:
# Definir el cambio de nombre
rename_map = {
    'y': 'subscribed_term_deposit'
}

# Aplicar el cambio de nombre
df = df.rename(columns=rename_map)

# Mostrar las primeras filas y los nombres de las columnas para verificar
print("Nombres de columnas despu√©s de renombrar:")
print(df.columns.tolist())

Nombres de columnas despu√©s de renombrar:
['age', 'job', 'marital', 'education', 'default', 'balance', 'housing', 'loan', 'contact', 'day', 'month', 'duration', 'campaign', 'pdays', 'previous', 'poutcome', 'subscribed_term_deposit']


---

## 5Ô∏è‚É£ **An√°lisis profundo del balance (variable clave del proyecto)**
La columna `balance` es el pilar de las dos variables objetivo.  
En este apartado se debe:
- Analizar la distribuci√≥n del balance  
- Identificar valores negativos, picos extra√±os o colas largas  
- Calcular rangos, percentiles clave (P50, P75, P90, P95)  
- Visualizarlo con histogramas, boxplots o KDE  
Este an√°lisis justifica los umbrales propuestos para los dos escenarios financieros.

---

## 6Ô∏è‚É£ **Creaci√≥n de los dos escenarios (targets)**

En ambos casos se debe analizar qu√© proporci√≥n de clientes pertenece a cada grupo y si es necesario aplicar t√©cnicas para tratar desbalances.

### üîπ A: `Patrimonio_Alto`
- Calcular el percentil 90 (`np.percentile(df['balance'], 90)`)  
- Crear la variable binaria seg√∫n el umbral  
- Comprobar cu√°ntos registros quedan en cada clase (balanceadas/desbalanceadas)

In [11]:
# Suponiendo que tu DataFrame con la columna 'balance' se llama df
# Usaremos el DataFrame df, que ya tiene los datos limpios.

# Calcular el percentil 90 de la columna 'balance'
percentil_90_umbral = np.percentile(df['balance'], 90)

print(f"El valor del Percentil 90 de 'balance' es: {percentil_90_umbral:,.2f}")
print("---------------------------------")

El valor del Percentil 90 de 'balance' es: 3,574.00
---------------------------------


In [12]:
# Crear la variable binaria 'Patrimonio_Alto'
# 1 si el balance es mayor que el umbral, 0 si no lo es.
df['Patrimonio_Alto'] = np.where(df['balance'] > percentil_90_umbral, 1, 0)

# Comprobar la creaci√≥n de la nueva columna
print("Primeras filas con la nueva variable 'Patrimonio_Alto':")
print(df[['balance', 'Patrimonio_Alto']].head(10))

Primeras filas con la nueva variable 'Patrimonio_Alto':
   balance  Patrimonio_Alto
0     2143                0
1       29                0
2        2                0
3     1506                0
4        1                0
5      231                0
6      447                0
7        2                0
8      121                0
9      593                0


In [13]:
# Contar el n√∫mero de registros en cada clase
conteo_clases = df['Patrimonio_Alto'].value_counts()
proporcion_clases = df['Patrimonio_Alto'].value_counts(normalize=True) * 100

print("\nResultados del An√°lisis de Desbalance de 'Patrimonio_Alto':")
print("---------------------------------------------------------")
print(f"Conteo de Clases:\n{conteo_clases}")
print("\nProporci√≥n de Clases:")
print(proporcion_clases.map('{:.2f}%'.format))


Resultados del An√°lisis de Desbalance de 'Patrimonio_Alto':
---------------------------------------------------------
Conteo de Clases:
Patrimonio_Alto
0    40690
1     4521
Name: count, dtype: int64

Proporci√≥n de Clases:
Patrimonio_Alto
0    90.00%
1    10.00%
Name: proportion, dtype: object


### üîπ B: `Riesgo_Sobregiro`
- Aplicar el umbral cero  
- Crear la variable binaria correspondiente  
- Revisar la distribuci√≥n resultante  

In [14]:
# Definir el umbral como 0
umbral_cero = 0

# Crear la variable binaria 'Riesgo_Sobregiro'
# 1 si el balance es menor que cero (riesgo/sobregiro), 0 si es cero o positivo.
df['Riesgo_Sobregiro'] = np.where(df['balance'] < umbral_cero, 1, 0)

# Comprobar la creaci√≥n de la nueva columna
print("Primeras filas con la nueva variable 'Riesgo_Sobregiro':")
print(df[['balance', 'Riesgo_Sobregiro']].head(10))

Primeras filas con la nueva variable 'Riesgo_Sobregiro':
   balance  Riesgo_Sobregiro
0     2143                 0
1       29                 0
2        2                 0
3     1506                 0
4        1                 0
5      231                 0
6      447                 0
7        2                 0
8      121                 0
9      593                 0


In [15]:
# Contar el n√∫mero de registros en cada clase
conteo_clases_riesgo = df['Riesgo_Sobregiro'].value_counts()
proporcion_clases_riesgo = df['Riesgo_Sobregiro'].value_counts(normalize=True) * 100

print("\nResultados del An√°lisis de Desbalance de 'Riesgo_Sobregiro':")
print("----------------------------------------------------------")
print(f"Conteo de Clases:\n{conteo_clases_riesgo}")
print("\nProporci√≥n de Clases:")
print(proporcion_clases_riesgo.map('{:.2f}%'.format))


Resultados del An√°lisis de Desbalance de 'Riesgo_Sobregiro':
----------------------------------------------------------
Conteo de Clases:
Riesgo_Sobregiro
0    41445
1     3766
Name: count, dtype: int64

Proporci√≥n de Clases:
Riesgo_Sobregiro
0    91.67%
1     8.33%
Name: proportion, dtype: object


---

## 7Ô∏è‚É£ **An√°lisis univariante y bivariante**
En este apartado se exploran relaciones relevantes:
- Distribuciones individuales de variables categ√≥ricas y num√©ricas  
- Relaci√≥n entre variables demogr√°ficas (age, job, education‚Ä¶) y `balance`  
- Relaci√≥n entre variables y cada target (`Patrimonio_Alto` o `Riesgo_Sobregiro`)  
- Visualizaciones: countplots, barplots, boxplots, heatmaps de correlaci√≥n  

El objetivo es descubrir patrones que puedan ser √∫tiles para los modelos predictivos.

# Preprocesamiento A

In [16]:
# Separar variables predictoras y target
X_a = df.drop('Patrimonio_Alto', axis=1)
y_a = df['Patrimonio_Alto']

# Identificar columnas para preprocesamiento
num_features = X_a.select_dtypes(include=['int64', 'float64']).columns.tolist()
cat_features = X_a.select_dtypes(include=['object']).columns.tolist()

# Pipeline para transformaciones (Escalado para num√©ricas y One-Hot para categ√≥ricas)
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), num_features),
        ('cat', OneHotEncoder(handle_unknown='ignore'), cat_features)
    ],
    remainder='passthrough' # Incluye la edad sin transformar (o 'passthrough' si la dejaste)
)

# Creamos el Pipeline Completo con el preprocesador y el modelo
model_pipe = Pipeline(steps=[('preprocessor', preprocessor), ('classifier', LogisticRegression(solver='liblinear', random_state=42))])

---

## 8Ô∏è‚É£ **Preprocesamiento para Machine Learning**
Aqu√≠ se preparan los datos antes de entrenar modelos:
- Identificar variables categ√≥ricas y num√©ricas  
- Crear transformadores:  
  - `OneHotEncoder` para categor√≠as  
  - `StandardScaler` para variables num√©ricas  
- Separar en train/test  

---

## 9Ô∏è‚É£ **Entrenamiento de modelos de clasificaci√≥n**
Para cada escenario (A y/o B), se entrenan modelos como:
- Regresi√≥n Log√≠stica  
- √Årbol de Decisi√≥n  
- Random Forest  
- KNN  
- Naive Bayes  
- SVM  
- MLP (Red Neuronal sencilla)

El enfoque es comparativo: ver cu√°l funciona mejor seg√∫n las m√©tricas.

---

## üîü **Evaluaci√≥n de modelos**
Se analizan:
- Accuracy  
- F1-score  
- Matriz de confusi√≥n  
- Clasification report  

El objetivo es seleccionar el modelo m√°s robusto seg√∫n el caso de uso (segmentaci√≥n de clientes o gesti√≥n de riesgo).


---

## 1Ô∏è‚É£1Ô∏è‚É£ **Conclusiones**
La √∫ltima secci√≥n resume:
- Principales hallazgos del EDA  
- Interpretaci√≥n financiera de los resultados  
- Mejor modelo encontrado y por qu√©  
- Limitaciones del dataset  
- Posibles mejoras o l√≠neas futuras  