___
<img style="float: right; margin: 0px 0px 15px 15px;" src="https://media.springernature.com/original/springer-static/image/chp%3A10.1007%2F978-981-32-9294-9_28/MediaObjects/483279_1_En_28_Fig1_HTML.png" width="350px" height="180px" />


# <font color= #8A0829> Laboratorio de Modelado de Datos </font>
#### <font color= #2E9AFE> `Martes y Viernes (Videoconferencia) de 13:00 - 15:00 hrs`</font>
- <Strong> Sara Eugenia Rodríguez </Strong>
- <Strong> Año </Strong>: 2024
- <Strong> Email: </Strong>  <font color="blue"> `cd682324@iteso.mx` </font>
___

<p style="text-align:right;"> Imagen recuperada de: https://media.springernature.com/original/springer-static/image/chp%3A10.1007%2F978-981-32-9294-9_28/MediaObjects/483279_1_En_28_Fig1_HTML.png</p>

### <font color= #2E9AFE> Tema: Regresión Logística</font>

La regresión logística es un algoritmo de machine learning para clasificación que es usado para predecir la probabilidad de variables dependientes categóricas. 

En la regresión logística la variable dependiente es una variable binaria que contiene como 1 (sí, ganar, etc) o 0 (no, perder, etc). 

La regresión logística es también conocida como la "Regresión logística binomial", la cual es basada en la función sigmoidal donde la salida es la probabilidad y la entrada puede ir desde -infinito a +infinito. 

**Supuestos de regresión logística**

- La regresión logística binaria requiere que la variable dependiente sea binaria.
- Para una regresión binaria, el nivel de factor 1 de la variable dependiente debe representar el resultado deseado.
- Solo deben incluirse las variables significativas.
- Las variables independientes deben ser independientes entre sí. Es decir, el modelo debe tener poca o ninguna multicolinealidad.
- Las variables independientes están relacionadas linealmente con las probabilidades logarítmicas.
- La regresión logística requiere tamaños de muestra bastante grandes.

**¿Puede ser utilizada en problemas multiclase?**

Sí... utiliza el método de One vs Rest (One vs all)
Donde hace problemas binarios para cada combinación de clases y predice la clase con la probabilidad más alta. 


### En otro tema... lidiar con clases imbalanceadas en el target

**¿Cómo saber cuándo hay que balancear las clases?**

1. Imbalanceo severo. Cuando una clase es significativamente más frecuente (Ej. 90% vs 10% o peor). 
2. Importancia del problema a resolver. Si la clase minoritaria representa un resultado crítico (ej. detectar fraudes, diagnósticos médicos, fallas, etc.), balancear clases se vuelve necesario para evitar fallar en predicciones importantes. 

**¿Cuándo evitar el balanceo de clases?**
1. Balanceo no tan severo. Si el imbalanceo es menor (ej. 60% vs 40%), balancear puede que no sea tan necesario y hasta puede ser perjudicial ya que puede llevar al overfitting. 



**Ejercicio**

Se tienen datos de campañas de marketing (llamadas telefónicas) de un banco portugués. Se tiene la necesidad de predecir si un cliente va a suscribirse a un depósito a término (variable a predecir). 

Un depósito a término es un depósito que un banco ofrece con una tasa fija en la cual el dinero se regresará en cierto tiempo de madurez. 


### Los datos

Los datos se obtuvieron del repositorio de UCI Machine learning https://archive.ics.uci.edu/ml/datasets/bank+marketing
Consiste de 41188 datos. 


Variables de entrada:

- age (numerica)
- job : tipo de trabajo (categorica: 'admin.','blue-collar','entrepreneur','housemaid','management','retired','self-employed','services','student','technician','unemployed','unknown')
- marital : estado marital (categorica: 'divorced','married','single','unknown'; note: 'divorced' means divorced or widowed)
- education (categorica: basic.4y','basic.6y','basic.9y','high.school','illiterate','professional.course','university.degree','unknown')
- housing: tiene hipoteca? (categorica: 'no','yes','unknown')
- loan: tiene préstamos personales? (categorica: 'no','yes','unknown')
- contact: tipo de comunicación (categorical: 'cellular','telephone')
- month:último mes de contacto del año (categorical: 'jan', 'feb', 'mar', ..., 'nov', 'dec')
- day_of_week: último día de contacto de la semana (categorical: 'mon','tue','wed','thu','fri')
- duration: duración en segundos de la llamada. 
- campaign: número de llamadas realizadas durante esta campaña y para este cliente (numeric, includes last contact)
- pdays: número de días que pasaron después de que el cliente fue contactado de la campaña anterior (numeric; 999 means client was not previously contacted)
- previous: número de contactos realizados antes de esta campaña y para este cliente (numeric)
- poutcome: resultado de la campaña de marketing anterior (categorical: 'failure','nonexistent','success')
- emp.var.rate: tasa de variación del empleo - indicador trimestral (numeric)
- cons.price.idx: índice de precios al consumidor - indicador mensual  (numeric)
- cons.conf.idx: índice de confianza del consumidor - indicador mensual (numeric)
- euribor3m: euribor 3 month rate - daily indicator (numeric)


Variable de salida:
- y - se suscribió el cliente a un depósito a término? (binario: 'yes','no')

In [None]:
#Importar librerías
import pandas as pd
import numpy as np
from sklearn import preprocessing
import matplotlib.pyplot as plt 
plt.rc("font", size=14)
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
import seaborn as sns
sns.set(style="white")
sns.set(style="whitegrid", color_codes=True)

from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler

In [None]:
#importar datos
data = pd.read_csv('bank_full.csv')
#Quitar valores nulos
data = data.dropna()
print(data.shape)

In [None]:
data.head()

### Exploración de datos

In [None]:
#cómo se ve la distribución de nuestra variable de salida
data['y'].value_counts()

In [None]:
4640/(4640+36548)

In [None]:
#graficando la distribucion de la variable a predecir
sns.countplot(x='y', data=data)
plt.show()


Los datos de salida están imbalanceados

Vamos a ver la distribución de las variables contra la variable de salida "Y" para empezar a ver qué variables podemos quitar o dejar

In [None]:
#Analizar variable Y vs tipo de trabajo
pd.crosstab(data.job, data.y).plot(kind='bar')
plt.title('Tipo de trabajo vs compra')
plt.xlabel('Tipo de trabajo')
plt.ylabel('Proporcion de clientes')

In [None]:
#Analizar variable Y vs estatus marital
table=pd.crosstab(data.marital,data.y)
table.div(table.sum(1).astype(float), axis=0).plot(kind='bar', stacked=True)
plt.title('Estado marital vs compra')
plt.xlabel('Estado marital')
plt.ylabel('Proporcion de clientes')

El estado marital no parece ser un predictor bueno para predecir la compra

In [None]:
#Analizar variable Y vs educación
table=pd.crosstab(data.education,data.y)
table.div(table.sum(1).astype(float), axis=0).plot(kind='bar', stacked=True)
plt.title('Educacion vs compra')
plt.xlabel('Educacion')
plt.ylabel('Proporcion de clientes')

La educación parece ser un buen predictor para la variable a predecir

In [None]:
#Analizar variable Y vs día de la semana
pd.crosstab(data.day_of_week,data.y).plot(kind='bar')
plt.title('Día de la semana vs compra')
plt.xlabel('Día')
plt.ylabel('Proporcion de clientes')

El día de la semana puede no ser muy buen predictor

In [None]:
#Analizar variable Y vs mes
pd.crosstab(data.month,data.y).plot(kind='bar')
plt.title('Mes vs compra')
plt.xlabel('Mes')
plt.ylabel('Proporcion de clientes')

El mes puede ser un buen predictor

In [None]:
#distribución de las edades
data.age.hist()
plt.title('Histograma de edad')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')

La mayoría de los clientes del banco están entre los 30-40 años

In [None]:
#Dividir X de Y
X = data.loc[:,data.columns!='y']
y = data.loc[:,data.columns=='y']

In [None]:
#Dividir en test y train
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0, stratify=y)
columns = X_train.columns

In [None]:
sns.countplot(x='y', data=y_train)
plt.show()

### Limpieza de datos


**Limpiar variables categóricas**

Vamos a usar one-hot encoding para convertir variables categóricas a numéricas

In [None]:
#Separamos las variables numericas de las categoricas
numeric_features = X_train.select_dtypes(include=['float64', 'int64']).columns.values
numeric_features = numeric_features[numeric_features != 'y']

category_features = X_train.select_dtypes(include=['object', 'bool']).columns.values

print("Variables numericas:", numeric_features)
print("Variables categoricas:",category_features)

In [None]:
#Se crean dos pipelines: uno para transformar las variables numéricas y otro para las categóricas.

numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='median')),
    ('scaler', StandardScaler())])

categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='constant', fill_value='missing')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))])

# Se combina ambos transformadores (numérico y categórico) en un solo preprocesador que puede aplicarse a los datos para procesar todas las variables en conjunto.
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, category_features)])

ohe = preprocessor.fit(X_train)

X_train_t = ohe.transform(X_train)
X_test_t = ohe.transform(X_test)

In [None]:
#Aunque OneHotEncoder ya realiza la codificación de variables categóricas, la función dummify tiene dos propósitos:
#1. Obtener los Nombres de las Columnas Generadas
# 2. Convertir el Array Transformado en un DataFrame

def dummify(ohe, x, columns):
    transformed_array = ohe.transform(x)

    enc = ohe.named_transformers_['cat'].named_steps['onehot']
    feature_lst = enc.get_feature_names_out(category_features.tolist())   
    
    cat_colnames = np.concatenate([feature_lst]).tolist()
    all_colnames = numeric_features.tolist() + cat_colnames 
    
    df = pd.DataFrame(transformed_array, index = x.index, columns = all_colnames)
    
    return transformed_array, df

In [None]:
X_train_t_array, X_train_t = dummify(ohe, X_train, category_features)
X_test_t_array, X_test_t = dummify(ohe, X_test, category_features)

X_train_t.head()

In [None]:
#Sobremuestreo Synthetic Minority Oversampling Technique (SMOTE)
from IPython.display import Image
Image(filename='SMOTE.png')

Recordar que el balanceo de clases es después de dividir los datos en train/test

In [None]:
#pip install scikit-learn==1.2.0

In [None]:
#SMOTE
from imblearn.over_sampling import SMOTE
os = SMOTE(random_state=0)

#Hacer oversampling en datos del train
os_data_X, os_data_y=os.fit_resample(X_train_t, y_train)
os_data_X = pd.DataFrame(data=os_data_X,columns=X_train_t.columns )
os_data_y= pd.DataFrame(data=os_data_y,columns=['y'])



Con esto ya los datos están balanceados. Si se fijan sólo hicimos el oversampling en los datos de entrenamiento, ninguna de la información de los datos de test fueron usados para crear muestras sintéticas, por lo tanto ninguna información del test se filtra al entrenamiento del modelo. 

In [None]:
sns.countplot(x='y', data=os_data_y)
plt.show()


#### Selección de variables

Usamos el algoritmo de Recursive Feature Elimination (RFE) para seleccionar variables considerando cada vez menos y menos conjuntos de variables. 

RFE es fácil de configurar y bastante eficaz a la hora de seleccionar funciones en un conjunto de datos de entrenamiento.

In [None]:
#RFE
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression

#crear modelo de regresión logística
model = LogisticRegression(solver='lbfgs', max_iter=2000)

#crear el recursive feature elimination para la regresión logística
rfe = RFE(model, n_features_to_select=20, verbose=0) #vamos a dejar sólo 20 variables
rfe = rfe.fit(os_data_X, os_data_y.values.ravel())
print("Características seleccionadas: %s" % rfe.support_)
print("Rank de las características: %s" % rfe.ranking_)

In [None]:
X_train_columns = X_train_t.columns
selected_columns = X_train_columns[rfe.support_]
print(selected_columns.tolist())

In [None]:
X_train_final = os_data_X[selected_columns.tolist()]
y_train_final = os_data_y['y']
X_test_final = X_test_t[selected_columns.tolist()]
y_test_final = y_test

X_test_final.head()

In [None]:
#pip install stastmodels

In [None]:
#Implementar modelo

# statsmodels es un paquete que proporciona funciones para la estimación de muchos modelos estadísticos,
#así como para realizar pruebas estadísticas y exploración de datos estadísticos.
import statsmodels.api as sm
logit_model=sm.Logit(y_train_final,X_train_final)
result=logit_model.fit()
print(result.summary2())

p value > 0.05, significa que podemos quitar la variable

Los p-values para la mayoría de las variables son menores a 0.05, excepto por 1 variable, por lo tanto la vamos a quitar. 

In [None]:
cols=['duration', 'emp_var_rate', 'cons_price_idx', 'euribor3m',
       'job_retired', 'job_unknown', 'marital_unknown',
       'education_illiterate', 'default_no', 'contact_telephone', 'month_aug',
       'month_jun', 'month_mar', 'month_may', 'month_nov', 'month_oct',
       'poutcome_failure', 'poutcome_success']
logit_model=sm.Logit(y_train_final,X_train_final[cols])
result=logit_model.fit()
print(result.summary2())

Una vez que terminamos de seleccionar variables, creamos el modelo de regresión logística. 

Pero antes... ¿Cómo interpretar estos coeficientes?

- Para las variables numéricas que se les aplicó escalamiento: los coeficientes representan el efecto de un aumento de una desviación estándar en la variable sobre las probabilidades logarítmicas de la variable objetivo.
 
Ejemplo: Para la variable de "duration". Un coeficiente de 1.83 significa que si la duración de la llamada aumenta en una desviación estándar por encima del promedio, las probabilidades de que el cliente acepte la oferta aumentan por un factor de 6.23.

- Para las variables categóricas que se les aplicó el one-hot encoding: Los coeficientes de estas características binarias representan el cambio en las probabilidades logarítmicas de la variable objetivo al pasar de la categoría de referencia a la categoría representada por la característica.

Ejemplo: Para la variable categórica "month_nov". El coeficiente negativo (-1.4411) indica que estar en noviembre disminuye significativamente las probabilidades de que los clientes acepten la oferta.
Específicamente, estar en noviembre reduce las odds de aceptar la oferta a aproximadamente un 23.6%.

In [None]:
#Regresión logítica con sklearn
from sklearn.linear_model import LogisticRegression
from sklearn import metrics

#Inicializar objeto
logreg = LogisticRegression()
#Ajustar modelo a datos de entrenamiento
logreg.fit(X_train_final[cols], y_train_final)

In [None]:
#Predecir con datos del test
y_pred = logreg.predict(X_test_t[cols])


Para clasificación usamos otras métricas diferentes a las de regresión

In [None]:
#Matriz de confusión
from sklearn.metrics import confusion_matrix
confusion_matrix = confusion_matrix(y_test, y_pred)
print(confusion_matrix)

El resultado nos dice que tenemos 9390+1226=10616 predicciones correctas y 1575+166=1741 predicciones incorrectas 

In [None]:
#Calcular Accuracy
print('Accuracy de la regresión logística en los datos de test: {:.4f}'.format(logreg.score(X_test_t[cols], y_test)))

In [None]:
(9390+1226)/(9390+1226+166+1575)

**Ventajas de la regresión logística**

- Fácil de implementar, interpretar y muy eficiente de entrenar
- No sólo provee la medida de la importancia (tamaño) del coeficiente, sino que también nos dice la dirección de la asociación (positiva/negativa).
- Es muy rápida clasificando datos nuevos
- Tiene buena precisión para datos simples y funciona bien cuando los datos son linealmente separables
- Se pueden interpretar los coeficientes del modelo como indicadores de importancia de variables
- La regresión logística hace poco sobre-ajuste cuando los datos son simples pero puede sobre-ajustar cuando tenemos datos de alta dimensionalidad. 

**Desventajas de la regresión logística**
- Si el número de observaciones (filas) es menor que el número de variables (columnas) la regresión logística no se debe usar, sino lo que puede pasar es que sobre ajuste
- La mayor limitación de la regresión logística es que asume una relación lineal entre variables dependientes y variables independientes. 
- No es un buen modelo si no tenemos datos linealmente separables. 
- Es difícil obtener resultados cuando tenemos relaciones de datos complejos, las redes neuronales pueden mejorar mucho este algoritmo