In [1]:
!pip install pandas



In [2]:
!pip install ucimlrepo



### Mercado Bancario



Este dataset se compone de 45.211 registros de clientes que han sido contactados en campañas de marketing. Cada instancia tiene datos asociados sobre características específicas del cliente y la campaña, y el objetivo es clasificar estas instancias para predecir si el cliente aceptará una oferta de depósito a plazo (variable objetivo).

In [3]:
 # Importar las liberias que se utilizaran para el análisis de datos.
import pandas as pd
from sklearn.model_selection import train_test_split  # Divide los datos en conjuntos de entrenamiento y prueba
from sklearn.linear_model import LogisticRegression #Modelo de regresión Log.
from sklearn.compose import ColumnTransformer   #Aplica transformaciones a columnas específicas.
from sklearn.pipeline import Pipeline #Encadena múltiples pasos de procesamiento y modelado en un solo objeto.
from sklearn.preprocessing import StandardScaler, OneHotEncoder # Procesar datos. StandardScaler normaliza y OneHotEncoder convierte variables categóricas para ser utilizadas por algoritmos de aprendizaje.
from sklearn.metrics import accuracy_score #Evalua precisión del modelo
from ucimlrepo import fetch_ucirepo #Obtiene conjunto de datos del repositorio

In [4]:
## Cargar y explorar un conjunto de datos desde el repositorio UCI.

# fetch dataset 
bank_marketing = fetch_ucirepo(id=222)  # # Conjunto de datos relacionado con marketing bancario. 

# DATA (as pandas dataframes) variables pendientes e independientes.
x = bank_marketing.data.features 
y = bank_marketing.data.targets 

bank_marketing.data.features.head()

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day_of_week,month,duration,campaign,pdays,previous,poutcome
0,58,management,married,tertiary,no,2143,yes,no,,5,may,261,1,-1,0,
1,44,technician,single,secondary,no,29,yes,no,,5,may,151,1,-1,0,
2,33,entrepreneur,married,secondary,no,2,yes,yes,,5,may,76,1,-1,0,
3,47,blue-collar,married,,no,1506,yes,no,,5,may,92,1,-1,0,
4,33,,single,,no,1,no,no,,5,may,198,1,-1,0,


In [5]:
y

Unnamed: 0,y
0,no
1,no
2,no
3,no
4,no
...,...
45206,yes
45207,yes
45208,yes
45209,no


In [6]:
x

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day_of_week,month,duration,campaign,pdays,previous,poutcome
0,58,management,married,tertiary,no,2143,yes,no,,5,may,261,1,-1,0,
1,44,technician,single,secondary,no,29,yes,no,,5,may,151,1,-1,0,
2,33,entrepreneur,married,secondary,no,2,yes,yes,,5,may,76,1,-1,0,
3,47,blue-collar,married,,no,1506,yes,no,,5,may,92,1,-1,0,
4,33,,single,,no,1,no,no,,5,may,198,1,-1,0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
45206,51,technician,married,tertiary,no,825,no,no,cellular,17,nov,977,3,-1,0,
45207,71,retired,divorced,primary,no,1729,no,no,cellular,17,nov,456,2,-1,0,
45208,72,retired,married,secondary,no,5715,no,no,cellular,17,nov,1127,5,184,3,success
45209,57,blue-collar,married,secondary,no,668,no,no,telephone,17,nov,508,4,-1,0,


In [8]:
# Definición de variables categóricas y numéricas.
variables_cat = ['job', 'marital', 'education', 'housing', 'loan', 'contact', 'month', 'poutcome']
variables_num = ['age', 'balance', 'day_of_week', 'duration', 'campaign', 'pdays', 'previous']

# Preprocesamiento: se aplican diferntes transformaciones a todas las variables, se normalizan las variables numéricas y se convierte las categorías en columnas binarias.  
preprocesador = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), variables_num),
        ('cat', OneHotEncoder(handle_unknown='ignore',drop='first'), variables_cat)
    ])

# División de los datos
x_entrenamiento, x_prueba, y_entrenamiento, y_prueba = train_test_split(x, y, test_size=0.25, random_state=42) # el 25% de los datos serán para pruebas y el random asegura que la división sea reproducible.

#### Creación de pipeline

In [9]:
mi_primer_pipeline=Pipeline(steps=[('preprocesador', preprocesador), 
                ('modelo', LogisticRegression(max_iter=1000))])

mi_primer_pipeline

Entrenamiento del modelo con pipeline

In [10]:
mi_primer_pipeline.fit(x_entrenamiento, y_entrenamiento)

  y = column_or_1d(y, warn=True)


In [11]:
# Predicciones en el conjunto de prueba
y_predicha = mi_primer_pipeline.predict(x_prueba)

# Precisión del modelo
precision = accuracy_score(y_prueba, y_predicha)
print(f'Precisión: {precision}')

Precisión: 0.8986994603202689


In [12]:
# Prueba entrada de un cliente
client_data = {
    'age': 41, 
    'job': 'technician', 
    'marital': 'single', 
    'education': 'secondary', 
    'default': 'no', 
    'balance': 28, 
    'housing': 'no', 
    'loan': 'yes', 
    'contact': 'NaN', 
    'day_of_week': 3, 
    'month': 'june', 
    'duration': 255, 
    'campaign': 1, 
    'pdays': -1, 
    'previous': 0, 
    'poutcome': 'unknown'
}

# Conversión : datos a  DataFrame
client_df = pd.DataFrame([client_data])

# Realizar la predicción
prediction = mi_primer_pipeline.predict(client_df)
if prediction == 1:
    print("El cliente suscribirá el depósito a plazo")
else:
    print("El cliente no suscribirá el depósito a plazo")

El cliente no suscribirá el depósito a plazo


