<a href="https://colab.research.google.com/github/cristiandarioortegayubro/BDS/blob/main/modulo.04/bds_algoritmos_003_01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20BDS%20Horizontal%208.png?raw=true">
</p>


<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20Scikit-learn.png?raw=true">
</p>


 # **<font color="DeepPink">Modelos supervisados: Regresión Logística con `sklearn`</font>**

<p align="justify">
En la regresión, vimos que el objetivo a predecir era una variable numérica continua. En la clasificación, este objetivo será discreto (por ejemplo, categórico).
<br>
<br>
La <b>regresión logística</b> es un método estadístico que trata de modelar la probabilidad de una variable cualitativa o categórica en función de una o más variables independientes o predictoras ($x_1, x_2,...,x_n$).
<br>
<br>
Al igual que en la regresión lineal, la variable a predecir se le conoce como variable dependiente o variable respuesta, y a las variables independientes como regresoras, predictoras o <b>features</b>.

Hay 2 bibliotecas muy populares para modelos de regresión logística en Python son: [scikit-learn](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html) y [statsmodels](https://www.statsmodels.org/stable/discretemod.html).


<p align="justify">
La regresión logística utiliza la siguiente fórmula para predecir la probabilidad de que la variable cualitativa tenga un valor determinado:

$$p = \frac{1}{1+e^{-(\beta_0 + \beta_1 x_1 + \cdots + \beta_n x_n)}}$$

Donde:
* $p$ es la probabilidad de que la variable categórica tenga un valor de 1 (por ejemplo, compra),
* $\beta_1, \beta_2, ..., \beta_n$ son los coeficientes de regresión estimados para cada variable predictora,
* $x_1, x_2, ..., x_n$ son los valores observados de cada variable predictora.

<p align="justify">
Dado que el resultado de la fórmula es una probabilidad, para conseguir la clasificación, es necesario establecer un umbral (*threshold*) a partir del cual se considera que la variable pertenece a una de las clases. Por ejemplo, se puede asignar una observación a la clase 1 si la probabilidad estimada es mayor de 0.5 y a la clase 0 en caso contrario.

La fórmula anterior responde graficamente a una **función sigmoide**:

<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Regresion-logistica-001.png?raw=true" width="450">
</p>


 ## **<font color="DeepPink">Bibliotecas</font>**

In [1]:
# Operaciones matemáticas y estadísticas
import pandas as pd
import numpy as np

In [2]:
# Visualización
import plotly.express as px
import plotly.graph_objs as go

 ## **<font color="DeepPink">Conjunto de datos</font>**

In [9]:
url = "https://raw.githubusercontent.com/cristiandarioortegayubro/BDS/main/datasets/banco.csv"

In [10]:
datos = pd.read_csv(url)

In [11]:
datos.head()

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,deposit
0,58,management,married,tertiary,no,2143,yes,no,unknown,5,may,261,1,-1,0,unknown,no
1,44,technician,single,secondary,no,29,yes,no,unknown,5,may,151,1,-1,0,unknown,no
2,33,entrepreneur,married,secondary,no,2,yes,yes,unknown,5,may,76,1,-1,0,unknown,no
3,47,blue-collar,married,unknown,no,1506,yes,no,unknown,5,may,92,1,-1,0,unknown,no
4,33,unknown,single,unknown,no,1,no,no,unknown,5,may,198,1,-1,0,unknown,no


<p align="justify">
Es un conjunto de datos que describe los resultados de las campañas de marketing del banco de Portugal. Las campañas realizadas se basaron principalmente en llamadas telefónicas, ofreciendo al cliente del banco realizar un depósito a plazo.








In [12]:
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45211 entries, 0 to 45210
Data columns (total 17 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   age        45211 non-null  int64 
 1   job        45211 non-null  object
 2   marital    45211 non-null  object
 3   education  45211 non-null  object
 4   default    45211 non-null  object
 5   balance    45211 non-null  int64 
 6   housing    45211 non-null  object
 7   loan       45211 non-null  object
 8   contact    45211 non-null  object
 9   day        45211 non-null  int64 
 10  month      45211 non-null  object
 11  duration   45211 non-null  int64 
 12  campaign   45211 non-null  int64 
 13  pdays      45211 non-null  int64 
 14  previous   45211 non-null  int64 
 15  poutcome   45211 non-null  object
 16  deposit    45211 non-null  object
dtypes: int64(7), object(10)
memory usage: 5.9+ MB


Tenemos 45211 registros (filas) y 17 columnas. La información dice que no hay valores nulos.

**Variables:**
* age
* job: tipo de trabajo
* marital: estado civil
* education: nivel educativo
* default: situación de incobrabilidad
* balance: saldo
* housing: prestamo hipotecario
* loan: préstamo personal
* contact: tmedio de comuniación
* day: día de último contacto
* month: mes de último contacto
* duration: del último contacto, en segundos
* campaign: número de contactos de la última campaña.
* pdays: número de días que pasaron desde el último contacto (-1 significa que no fue previamente contactado)
* previous: número de contactos de campañas anteriores.
* poutcome: resultado de la última campaña de marketing
* deposit: el cliente realizó el plazo fijo?

[Fuente de los datos](https://archive.ics.uci.edu/ml/datasets/bank+marketing)



In [None]:
datos.head()

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,deposit
0,58,management,married,tertiary,no,2143,yes,no,unknown,5,may,261,1,-1,0,unknown,no
1,44,technician,single,secondary,no,29,yes,no,unknown,5,may,151,1,-1,0,unknown,no
2,33,entrepreneur,married,secondary,no,2,yes,yes,unknown,5,may,76,1,-1,0,unknown,no
3,47,blue-collar,married,unknown,no,1506,yes,no,unknown,5,may,92,1,-1,0,unknown,no
4,33,unknown,single,unknown,no,1,no,no,unknown,5,may,198,1,-1,0,unknown,no


 ## **<font color="DeepPink">Análisis univariado: `duration`</font>**

In [13]:
px.histogram(datos,
             x="duration",
             template="gridon")

In [14]:
px.violin(datos,
          y="duration",
          color="deposit",
          box=True,
          template="gridon")

In [16]:
px.box(datos,
       y="duration",
       template="gridon")

In [17]:
datos = datos[datos.duration <= 643]
datos = datos.reset_index(drop=True)
datos

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,deposit
0,58,management,married,tertiary,no,2143,yes,no,unknown,5,may,261,1,-1,0,unknown,no
1,44,technician,single,secondary,no,29,yes,no,unknown,5,may,151,1,-1,0,unknown,no
2,33,entrepreneur,married,secondary,no,2,yes,yes,unknown,5,may,76,1,-1,0,unknown,no
3,47,blue-collar,married,unknown,no,1506,yes,no,unknown,5,may,92,1,-1,0,unknown,no
4,33,unknown,single,unknown,no,1,no,no,unknown,5,may,198,1,-1,0,unknown,no
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
41971,73,retired,married,secondary,no,2850,no,no,cellular,17,nov,300,1,40,8,failure,yes
41972,25,technician,single,secondary,no,505,no,yes,cellular,17,nov,386,2,-1,0,unknown,yes
41973,71,retired,divorced,primary,no,1729,no,no,cellular,17,nov,456,2,-1,0,unknown,yes
41974,57,blue-collar,married,secondary,no,668,no,no,telephone,17,nov,508,4,-1,0,unknown,no


 ## **<font color="DeepPink">División del conjunto de datos</font>**

<p align="justify">
👀 Solo utilizaremos la variable <code>duration</code> (duración de la última llamada), para predecir si un cliente va a realizar un plazo fijo en el banco.



In [18]:
X=datos[["duration"]]
y=datos["deposit"]

In [20]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    random_state = 1234)

 ## **<font color="DeepPink">Creación y ajuste del modelo con `sklearn`</font>**

<p align="justify">
La clase <code>LogisticRegression</code> de <code>scikit_learn</code> es ampliamente utilizada en problemas de clasificación binaria o inclusive multiclases.
<br>
<br>
Primero se crea una instancia del modelo de regresión logística. A continuación, se ajusta el método <code>fit(X_train, y_train)</code> utilizando el conjunto de entrenamiento, donde <code>X_train</code> es la variable independiente o predictora (duración de la última llamada) e <code>y_train</code> es la variable objetivo correspondiente a la realización o no del plazo fijo.
<br>
<br>
La regresión logística proporciona información sobre la probabilidad de que un cliente realice un depósito a plazo en el banco en función de la duración de la última llamada.

In [21]:
from sklearn.linear_model import LogisticRegression

model_lr = LogisticRegression()
model_lr.fit(X_train, y_train)
print()
print(model_lr.intercept_)
print(model_lr.coef_)


[-3.76186466]
[[0.00555218]]


<p align="justify">
<code>intercept_</code> y <code>coef_</code> son atributos asociados al modelo entrenado que proporcionan información sobre los coeficientes estimados ($\beta_0$ y $\beta_1$). Utilizando los cieficientes $\beta$, el modelo queda expresado según la siguiente fórmula:
<br>
<br>

$$p = \frac{1}{1+e^{-(-3.76186466 + 0.00555218 x_1 )}}$$

<br>

Se puede profundizar sobre el modelo de regresión logística en el siguiente [artículo](https://drive.google.com/file/d/1bdp7lkoWiOZGslqw4fKdfkE24WgyG4Xy/view).



 ## **<font color="DeepPink">Predicción</font>**

<p align="justify">
Se utiliza el modelo entrenado para realizar predicciones en el conjunto de prueba llamando al método <code>predict(X_test)</code> con las variables explicativas de prueba (<code>X_test</code>).

In [22]:
prediction = model_lr.predict(X_test)
prediction[:10]

array(['no', 'no', 'no', 'no', 'no', 'no', 'no', 'no', 'no', 'no'],
      dtype=object)

<p align="justify">
La mayoría de implementaciones de <code>scikit_learn</code>, permiten predicir probabilidades cuando se trata de problemas de clasificación. Es importante entender cómo se calculan estos valores para interpretarlos y utilizarlos correctamente.
<br>
<br>
En el ejemplo anterior, al aplicar método <code>predict()</code> se devuelve  <code>yes</code> (si realiza el plazo fijo) o <code>no</code> (no realiza el plazo fijo) para cada observación del conjunto de prueba. Sin embargo, no se dispone de ningún tipo de información sobre la seguridad con la que el modelo realiza esta asignación. Con <code>predict_proba()</code>, en lugar de una clasificación, se obtiene la probabilidad ($p$) con la que el modelo considera que cada observación puede pertenecer a cada una de las clases.

In [23]:
prob = model_lr.predict_proba(X_test)
prob

array([[0.94364051, 0.05635949],
       [0.94153754, 0.05846246],
       [0.96613769, 0.03386231],
       ...,
       [0.96842122, 0.03157878],
       [0.96251152, 0.03748848],
       [0.75586346, 0.24413654]])

In [24]:
X_test.iloc[0,0]

170

In [25]:
1/ (1 + np.exp( - (model_lr.intercept_[0] + model_lr.coef_[0][0] * X_test.iloc[0,0])))

0.05635948706907177

<p align="justify">
Si empleamos el valor de la variable <code>duration</code> del conjunto de pruebas (<code>X_test</code>) en la fórmula previamente mencionada, se obtiene como resultado la probabilidad correspondiente a la clase positiva. Específicamente, si utilizamos el valor de 170 segundos, se obtiene una probabilidad de 0.056359, lo cual sugiere la posibilidad de que no se realice un plazo fijo y, por ende, se predice que la instancia pertenece a la clase <code>no</code>.

<p align="justify">
El resultado de <code>predict_proba()</code> es un <code>numpy array</code> con una fila por observación y tantas columnas como clases tenga la variable respuesta. El valor de la primera columna se corresponde con la probabilidad, acorde al modelo, de que la observación pertenezca a la clase 0, y así sucesivamente. En este ejemplo, la primera columna corresponde a la clase <code>no</code>, mientras que la segunda a la clase <code>yes</code>.

<p align="justify">
Por defecto, <code>predict()</code> asigna cada nueva observación a la clase con mayor probabilidad (el umbral se establece en el 50 %). Sin embargo, este no tiene por qué ser el umbral deseado en todos los casos. Supongamos un escenario usando un umbral del 20% para la clase <code>yes</code>.

In [26]:
df_predictions = pd.DataFrame(prob, columns=['no', 'yes'])
df_predictions['clasification_0.5'] = df_predictions.yes.apply(lambda x: 'yes' if x > 0.5 else 'no')
df_predictions['clasification_0.2'] = df_predictions.yes.apply(lambda x: 'yes' if x > 0.2 else 'no')
df_predictions

Unnamed: 0,no,yes,clasification_0.5,clasification_0.2
0,0.943641,0.056359,no,no
1,0.941538,0.058462,no,no
2,0.966138,0.033862,no,no
3,0.961291,0.038709,no,no
4,0.841402,0.158598,no,no
...,...,...,...,...
10489,0.830752,0.169248,no,no
10490,0.904315,0.095685,no,no
10491,0.968421,0.031579,no,no
10492,0.962512,0.037488,no,no


 ## **<font color="DeepPink">Evaluación</font>**

<p align="justify">
Por último, se evalúa el rendimiento del modelo utilizando métricas como <b>precision</b>, <b>recall</b>, <b>f1-score</b> o <b>kappa</b>. Estas métricas, al igual que la <b>matriz de confusión</b>, serán abordadas de manera exhaustiva en el próximo módulo. En esta etapa, nos enfocaremos únicamente en la <b>exactitud</b> o <b>accuracy</b> del modelo.

In [27]:
tabla = pd.DataFrame({"Prediccion":prediction,
                      "Real":y_test,
                      })
tabla.head()

Unnamed: 0,Prediccion,Real
39485,no,yes
64,no,no
30777,no,no
16193,no,no
12188,no,no


In [28]:
model_lr.score(X_test, y_test).round(3)

0.914

<p align="justify">
El valor de 0.91 es la <b>exactitud</b> o <b>accuracy</b> del modelo. Calcula la relación entre el número de predicciones correctas y el número total de predicciones realizadas por el modelo de clasificación.
<br>
<br>

$$accuracy=\frac{predicciones\ correcatas}{predicciones\ totales}$$

 # **<font color="DeepPink">Conclusiones</font>**

<p align="justify">
👀 En este colab nosotros:
<br><br>
✅ Vimos como entrenar un modelo de regresión logística usando la biblioteca <code>scikit_learn</code> para resolver un problema de clasificación binaria.
<br>
✅ Realizamos la predicción y evaluación, usando la métrica de exactitud, con un conjunto de prueba.
<br>
✅ Analizamos el concepto de probabilidad en la regresión logística en particular y los modelos de clasificación en general.
<br>


<br>
<br>
<p align="center"><b>
💗
<font color="DeepPink">
Hemos llegado al final de nuestro colab, a seguir codeando...
</font>
</p>
<br>
<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20BDS%20Horizontal%208.png?raw=true">
</p>

---
