# Regresión logística

## Carga y análisis de los datos

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/JASDataCTG/Diplomado-ML/main/Modulo%202/Datasets/casas.csv', header = 0)

In [None]:
df.head()

In [None]:
df.shape

In [None]:
df.info()

In [None]:
df.describe()

In [None]:
sns.boxplot(y = 'n_cam_hos', data = df)

In [None]:
sns.boxplot(y = df['n_hab_hotel'])

In [None]:
sns.jointplot(x = df['lluvia_ano'], y = df['Vendida'])

In [None]:
sns.countplot(x = df['aeropuerto'])

In [None]:
df.groupby(by = 'Vendida')['area_resid'].mean()

In [None]:
sns.countplot(y = df['cuerpo_agua'])

In [None]:
sns.countplot(x = df['ter_bus'])

In [None]:
x1 = df.precio[df.Vendida == 1]
x2 = df.precio[df.Vendida == 0]#df[df.Vendida == 0]['precio']

kwargs = dict(alpha = 0.5, bins = 8, density = True, stacked = True)

plt.hist(x1, **kwargs, color = 'g', label = 'Vendida')
plt.hist(x2, **kwargs, color = 'b', label = 'No vendida')
plt.legend()

## Tratamiento de valores extremos

In [None]:
np.percentile(df.n_hab_hotel, [99])[0]

In [None]:
lim_sup = np.percentile(df.n_hab_hotel, [99])[0]

In [None]:
df[df.n_hab_hotel > lim_sup]

In [None]:
df.n_hab_hotel[df.n_hab_hotel > 3 * lim_sup] = 3 * lim_sup

In [None]:
np.percentile(df.lluvia_ano, [0.3])[0]

In [None]:
lim_inf = np.percentile(df.lluvia_ano, [0.3])[0]

In [None]:
df[df.lluvia_ano < lim_inf]

In [None]:
df.lluvia_ano[df.lluvia_ano < 0.3 * lim_inf] = 0.3 * lim_inf

In [None]:
df.describe()

In [None]:
df.n_cam_hos = df.n_cam_hos.fillna(df.n_cam_hos.mean())

In [None]:
df.info()

In [None]:
df['prom_dist'] = (df.dist1 + df.dist2 + df.dist3 + df.dist4) / 4

In [None]:
del df['dist1']

In [None]:
del df['dist2']

In [None]:
del df['dist3']

In [None]:
del df['dist4']

In [None]:
del df['ter_bus']

In [None]:
df = pd.get_dummies(df)

In [None]:
df.head()

In [None]:
del df['aeropuerto_NO']

In [None]:
del df['cuerpo_agua_Ninguno']

In [None]:
df.head()

In [None]:
df.to_csv('DataReg.csv', header = True, index = False)

## Regresión logística
Dado que la función lineal no se puede ajustar a variables catagóricas binarias (0, 1), se hace necesario utilizar la función sigmoide $\sigma(y)$:

$\large{\sigma(y)=\frac{1}{1+e^{-y}}}$

Cuando $y$ toma valores positivos muy grandes, $e^{-y}$ toma volores muy cercanos a cero, lo que ocasiona que la función $\sigma(y)$ tome valores muy cercanos a $1$. Por el contrario, cuando $y$ toma valores negativos muy grandes, $e^{-y}$ toma volores muy cercanos a $+\infty$, lo que ocasiona que la función $\sigma(y)$ tome valores muy cercanos a $0$

Probabilidad de $y$ dado $X$:

$\large{P(y=1|X=x)=\frac{e^{\theta_{0}+\theta_{1}x_{1}+\theta_{2}x_{2}+\theta_{3}x_{3}+...+\theta_{p}x_{p}}}{1+e^{-(\theta_{0}+\theta_{1}x_{1}+\theta_{2}x_{2}+\theta_{3}x_{3}+...+\theta_{p}x_{p})}}}$

La regresión logística calcula los logaritmos de las probabilidades de cada variable para transformarlas en 0 o 1, usando un umbral de decisión.

In [None]:
# Se utiliza doble corchete porque para el modelo X debe ser un dataframe y por defecto una sola columna es un
# tipo de dato Serie
X = df[['precio']]

In [None]:
X.head()

In [None]:
# El modelo requiere la variable predicha como una serie, por eso no se aplican dobles corchetes
y = df['Vendida']

In [None]:
y.head()

In [None]:
from sklearn.linear_model import LogisticRegression
#from sklearn.metrics import accuracy_score, precision_score, confusion_matrix

In [None]:
# Crear modelo de regresión logística
reg_log_simple = LogisticRegression()

In [None]:
# Entrenar el modelo
reg_log_simple.fit(X, y)

In [None]:
# Obener el valor de theta(1)
reg_log_simple.coef_

In [None]:
# Obtener el valor de theta(0)
reg_log_simple.intercept_

In [None]:
# Importar el modulo statsmodel para poder crear la constante que requiere el modelo Logit
import statsmodels.api as sn

In [None]:
const_X = sn.add_constant(X)

In [None]:
const_X

In [None]:
# Importar el modulo para trabajar con variables discretas con Logit
import statsmodels.discrete.discrete_model as sm

In [None]:
# Entrenar y ajustar el modelo a los datos de entrada
logit = sm.Logit(y, const_X).fit()

In [None]:
# Obtener el resumen del modelo
logit.summary() 

In [None]:
# Realizar una predicción de ejemplo
np.floor(logit.predict([1,-300])[0])

## Gráfica del modelo de regresión logística simple

In [None]:
# Crear los puntos necesarios de la variable predicha desarrollar la gráfica

grilla_X = np.linspace(
    start = -100, # min(df.precio),
    stop = 100, # max(df.precio),
    num = 500
).reshape(-1,1)

# Agregar la constante para poder desarrollar la predicción por el modelo Logit
grilla_X = sn.add_constant(grilla_X, prepend = True)

# Desarrollar la predicción
prediccion = logit.predict(exog = grilla_X)

In [None]:
grilla_X.shape # El resultado es un vector de 500 x 2

In [None]:
fig, ax = plt.subplots(figsize=(10, 6))
# Nube de puntos para cuando la propiedad es vendida
ax.scatter(
    x = df[['precio']][(y==1)].to_numpy().flatten(), y = df[['Vendida']][y==1].to_numpy().flatten()
)
# Nube de puntos para el caso en que la propiedad no es vendida
ax.scatter(
    x = df[['precio']][(y==0)].to_numpy().flatten(), y = df[['Vendida']][y==0].to_numpy().flatten()
)

ax.plot(grilla_X[:500, 1], prediccion, color = "gray") # Segunda columna de la grilla
ax.set_title("Modelo regresión logística")
ax.set_ylabel("P(Vendida = 1 | precio)")
ax.set_xlabel("Precio de venta")

In [None]:
prediccion