# Regresión logística

La regresión lineal se utiliza para predecir una variable de salida numérica continua, ajustando una relación lineal entre las variables de entrada. El objetivo de la regresión lineal es encontrar la línea que mejor se ajuste
y que minimize el errore cuadrático medio entre los valores previstos y los reales.

La regresión logística se usa para predecir una variable de salida binaria, generalmente un 0 o un 1. Modela la probabilidad de que la variable de salida tome un valor determinado, dadas las variables de entrada. Lo hace ajustando una función logística (también conocida como función sigmoidea) a las variables de entrada. La función logística asigna cualquier valor de entrada a un valor entre 0 y 1, que se puede interpretar como la probabilidad de que la variable de salida sea 1.

La principal diferencia entre la regresión lineal y la regresión logística es el tipo de variable de salida que predicen. La regresión lineal predice una salida numérica continua, mientras que la regresión logística predice una variable de salida binaria modelando la probabilidad de que la variable de salida tome un valor determinado.

## Función sigmoide
 
\begin{align}
\large f(x)=\sigma(x)=\frac{1}{1+e^{(β₀ + β₁x₁ + β₂x₂ +…+ βₐxₐ + ε)}}
\end{align}



La regresión logística transforma el valor devuelto por la regresión lineal con una función cuyo resultado siempre está comprendido entre 0 y 1.

https://es.wikipedia.org/wiki/Regresi%C3%B3n_log%C3%ADstica

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import math
  
x = np.linspace(start=-10, stop= 10, num=100)
z = 1/(1 + np.exp(-x))
  
plt.plot(x, z)
plt.xlabel("x")
plt.ylabel("Sigmoid(X)")
plt.show()

In [None]:
import seaborn as sns 
import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression # Importamos la clase de Regresión Lineal de scikit-learn
from sklearn.metrics import mean_squared_error, r2_score # error
from sklearn import metrics

In [None]:
datos = pd.read_csv('../datasets/salary_data.csv')
datos

In [None]:
datos['IsHighSalary'] = datos['Salary'] >= 100000
datos['IsHighSalary'] = pd.get_dummies(datos['IsHighSalary'], drop_first=True)
datos

In [None]:
sns.set_palette('colorblind')
sns.pairplot(datos, height=3,kind = 'reg')

In [None]:
x = datos['YearsExperience']
y = datos['IsHighSalary']

In [None]:
sns.pairplot(datos,x_vars=['YearsExperience'],y_vars=['IsHighSalary'],kind='scatter')
plt.xlabel('Años')
plt.ylabel('Salario')
plt.title('Años de experiencia si el salario es > 100000')
plt.show()

In [None]:
from sklearn.model_selection import train_test_split
x_train,x_test, y_train, y_test = train_test_split(x, y, test_size = 1/3, random_state=10)

In [None]:
x_train = x_train[:,np.newaxis]
x_test = x_test[:,np.newaxis]

In [None]:
lr = LogisticRegression()
lr.fit(x_train,y_train)

In [None]:
y_pred = lr.predict(x_test)
print('beta_0:',lr.intercept_)
print('beta_1:',lr.coef_)


In [None]:
def model(x):
    exponent = lr.intercept_ + lr.coef_[0] * x
    return 1/(1+math.exp(-exponent))

x = np.arange(1, 11., 0.2)
sig = [model(i) for i in x]


plt.figure(figsize=(5,5))
plt.xlabel('Years')
plt.ylabel('Salary')
plt.title('Salary Prediction')
plt.scatter(datos['YearsExperience'], datos['IsHighSalary'], c='black')
plt.plot(x,sig)
plt.show()