# Regresión logística

Es una adecuación de los modelos lineales, para ser utilizados en tareas de clasificación. Esto sucede primero ajustando el modelo lineal a la probabilidad de que una cierta categoría o clase ocurra ejemplo: correo seguro o correo spam, sano o enfermo; luego mediante el uso de una función se crea un umbral en el cual se especifica el resultado de una de estas categorías o clases, la función utilizada para establecer dicho umbral es la función logística o función sigmoide.

![funcion_sigmoide](img/funcion_sigmoide.png)

La convención para clasificación binaria es tener dos clases 0 y 1.<br>
Un ejemplo de cómo utilizar regresión lineal en problemas de clasificación, tomemos como ejemplo los datos que relacionan la cantidad de grasas consumidas y el peso de las personas, esto claramente es un problema de regresión:


![peso_grasa](img/peso_grasas.png)

Si un experto determina que un peso superior a 95 kilogramos implica riesgo de diabetes; entonces el problema se convierte en uno de clasificación: 0 = sano; 1 = en riesgo.<br>
Una regresión lineal podría ayudar a estimar el limite sobre el cual estaría en riesgo de diabetes; no obstante, no puede interpretar sus predicciones como probabilidades (sus valores no están en 0 - 1)


![regresion_peso](img/regresion_peso.png)

Utilizando regresión lineal en clasificación<br>
Supongamos el siguiente ejemplo, un banco desea determinar si un cliente entrara en mora con sus pagos, la ecuación es similar a:<br>
P (cliente = en mora |ingresos mensuales, balance en la cuenta)<br>
Y = 1 si en mora (Rojo); Y= 0 no está en mora (Azul)


![dispersion](img/dispersion.png)

Utilizando regresión lineal, se podría plantear el siguiente modelo:<br>
P ( y = 1| balance, ingresos) = β0 + β1balance + β2 ingresos<br>
Entonces por qué no aplicar regresión lineal, como se puede observar en la siguiente gráfica, se ha calculado una estimada probabilidad utilizando regresión lineal, no obstante puede observarse que algunas probabilidades estimadas son negativas; el grafico de la parte derecha ha calculado las probabilidades estimadas usando regresión logística, donde todas las probabilidades están situadas entre 0 y 1.


![plano_sigmoide](img/plano_sigmoide.png)

Por lo tanto, nosotros podemos pasar la solución de regresión lineal y colocarla dentro de la función sigmoide o logística. Como resultado una probabilidad que va desde 0 a 1, de perteneces a la clase x. Entonces se puede decir que cualquier probabilidad mayor a igual a 0.5, la predicción corresponde a la clase1, cualquier valor por debajo de este corresponde a la clase 0.

![regresion_logistica](img/regresion_logistica.png)

Resumiendo<br>
- La regresión logística produce las probabilidades de una clase especifica
- Esas probabilidades pueden ser convertidas en predicciones de una clase
- La función logística toma la forma de una “s” y limita la salida por 0 y 1.


Para problemas de clasificación multiclases o de mas de 2 clases, se utilizan los siguientes enfoques:<br>
- 1 vs todos, se trata de descomponer el problema en múltiples problemas de clasificación binario
- Utilizar la multinomial regresión logística que lo resuelve como un simple problema.


Ejemplo de regresión logística con R
Cargamos el dataset de trabajo en este caso de una comunidad aborigen de Estados unidos diagnosticadas con diabetes.


In [1]:
setwd("D:/iush2020/Mineria de datos/notebooks/datasets")

In [2]:
diabetes <- read.csv("pima-indians-diabetes.data.csv")

In [3]:
diabetes

X6,X148,X72,X35,X0,X33.6,X0.627,X50,X1
<int>,<int>,<int>,<int>,<int>,<dbl>,<dbl>,<int>,<int>
1,85,66,29,0,26.6,0.351,31,0
8,183,64,0,0,23.3,0.672,32,1
1,89,66,23,94,28.1,0.167,21,0
0,137,40,35,168,43.1,2.288,33,1
5,116,74,0,0,25.6,0.201,30,0
3,78,50,32,88,31.0,0.248,26,1
10,115,0,0,0,35.3,0.134,29,0
2,197,70,45,543,30.5,0.158,53,1
8,125,96,0,0,0.0,0.232,54,1
4,110,92,0,0,37.6,0.191,30,0


In [4]:
# Dividiendo el dataset en entrenamiento y evaluacion
X_entrenamiento = diabetes[1:500,1:8]
X_evaluacion = diabetes[501:767,1:8]
y_entrenamiento = diabetes[1:500,9]
y_evaluacion = diabetes[501:767,9]

In [5]:
rlog = glm(X1 ~ ., family = binomial, data = diabetes) # Creando el modelo

In [6]:
rlog


Call:  glm(formula = X1 ~ ., family = binomial, data = diabetes)

Coefficients:
(Intercept)           X6         X148          X72          X35           X0  
 -8.3862464    0.1232043    0.0350533   -0.0132215    0.0003301   -0.0011554  
      X33.6       X0.627          X50  
  0.0897505    0.9414265    0.0146080  

Degrees of Freedom: 766 Total (i.e. Null);  758 Residual
Null Deviance:	    991.4 
Residual Deviance: 722.8 	AIC: 740.8

In [7]:
predicciones <- predict(rlog, type = "response")

In [8]:
predicciones

In [9]:
diabetes_prediccions = ifelse(predicciones > 0.5,1,0)

In [10]:
diabetes_prediccions

In [11]:
diabestes_pruebas  <- predict(rlog, type = "response", newdata = X_evaluacion)

In [12]:
diabetes_prediccions_test = ifelse(diabestes_pruebas > 0.5,1,0)


In [13]:
diabetes_prediccions_test

evaluación de un modelo de regresión logística

Se utiliza una matriz de confusión para evaluar la clasificación del modelo

![matiz_confusion](img/matriz_confusion.png)

Cuando se toman decisiones en ambiente de incertidumbre, estas decisiones pueden ser incorrectas. En situaciones de incertidumbre pueden cometerse dos tipos de errores:<br>
- Una decision positiva falsa, tambien conocida como error de tipo I
- y Una decision negativa falsa, tambien conocida como error de tipo II.


En un caso de diagnóstico médico, por ejemplo, los posibles errores son:<br>
- Error de Tipo I: Un paciente no tiene la enfermedad pero el doctor concluye que la tiene.
- Error de Tipo II: Un paciente tiene la enfermedad pero el doctor concluye que no la tiene.


<b>Exactitud(Accuracy)</b>: Número relativo de instancias correctamente clasificadas frente al total de instancias clasificadas.<br>
<b>Precision</b> (por clase): es el porcentaje de las instancias bien clasificadas en esa clase del total de clasificadas en esa clase.<br>
<b>Exhaustividad</b>, cobertura-Recall (por clase): Porcentaje de instancias bien clasificadas en esa clase del total de instancias que debían ser clasificadas en esa clase. 



![sensibilidad](img/sensibilidad.png)

Sensibilidad vs. especificidad

¿Cuántos de los elementos relevantes fueron correctamente identificados? <b>Sensibilidad</b>= TP / (TP+FN)

¿Cuántos elementos no relevantes fueron correctamente identificados?  <b>Especificidad</b>= TN / (TN+FP)

![falsos_positivos](img/falsos_positivos.png)

In [14]:
confusion_matrix =  table(y_evaluacion, diabetes_prediccions_test)

In [15]:
confusion_matrix

            diabetes_prediccions_test
y_evaluacion   0   1
           0 167  14
           1  35  51

Ejercicio
- calcular la sensibilidad y la especificidad del modelo

Ventajas de la regresión logística
- Entrenamiento del modelo y predicción son rápidos
- No requiere configuración de parámetros o “tuning”
- Produce pronósticos de probabilidades bien calibradas
- Pueden funcionar bien con un número pequeño de observaciones


Desventajas 
- Presume una linear relación entre las variables y la respuesta


Reconocimiento y agradecimiento especial a:

- [Kevin Markham](https://github.com/justmarkham)
- [Alejandro Correa](https://github.com/albahnsen)
- [Janani Ravi](https://www.pluralsight.com/authors/janani-ravi)

In [None]:
from IPython.core.display import HTML
def css_styling():
    styles = open("estilos/custom.css", "r").read()
    return HTML(styles)
css_styling()