# Regresión logística

Es una adecuación de los modelos lineales, para ser utilizados en tareas de clasificación. Esto sucede primero ajustando el modelo lineal a la probabilidad de que una cierta categoría o clase ocurra ejemplo: correo seguro o correo spam, sano o enfermo; luego mediante el uso de una función se crea un umbral en el cual se especifica el resultado de una de estas categorías o clases, la función utilizada para establecer dicho umbral es la función logística o función sigmoide.

![funcion_sigmoide](img/funcion_sigmoide.png)

La convención para clasificación binaria es tener dos clases 0 y 1.<br>
Un ejemplo de cómo utilizar regresión lineal en problemas de clasificación, tomemos como ejemplo los datos que relacionan la cantidad de grasas consumidas y el peso de las personas, esto claramente es un problema de regresión:


![peso_grasa](img/peso_grasas.png)

Si un experto determina que un peso superior a 95 kilogramos implica riesgo de diabetes; entonces el problema se convierte en uno de clasificación: 0 = sano; 1 = en riesgo.<br>
Una regresión lineal podría ayudar a estimar el limite sobre el cual estaría en riesgo de diabetes; no obstante, no puede interpretar sus predicciones como probabilidades (sus valores no están en 0 - 1)


![regresion_peso](img/regresion_peso.png)

Utilizando regresión lineal en clasificación<br>
Supongamos el siguiente ejemplo, un banco desea determinar si un cliente entrara en mora con sus pagos, la ecuación es similar a:<br>
P (cliente = en mora |ingresos mensuales, balance en la cuenta)<br>
Y = 1 si en mora (Rojo); Y= 0 no está en mora (Azul)


![dispersion](img/dispersion.png)

Utilizando regresión lineal, se podría plantear el siguiente modelo:<br>
P ( y = 1| balance, ingresos) = β0 + β1balance + β2 ingresos<br>
Entonces por qué no aplicar regresión lineal, como se puede observar en la siguiente gráfica, se ha calculado una estimada probabilidad utilizando regresión lineal, no obstante puede observarse que algunas probabilidades estimadas son negativas; el grafico de la parte derecha ha calculado las probabilidades estimadas usando regresión logística, donde todas las probabilidades están situadas entre 0 y 1.


![plano_sigmoide](img/plano_sigmoide.png)

Por lo tanto, nosotros podemos pasar la solución de regresión lineal y colocarla dentro de la función sigmoide o logística. Como resultado una probabilidad que va desde 0 a 1, de perteneces a la clase x. Entonces se puede decir que cualquier probabilidad mayor a igual a 0.5, la predicción corresponde a la clase1, cualquier valor por debajo de este corresponde a la clase 0.

![regresion_logistica](img/regresion_logistica.png)

Resumiendo<br>
- La regresión logística produce las probabilidades de una clase especifica
- Esas probabilidades pueden ser convertidas en predicciones de una clase
- La función logística toma la forma de una “s” y limita la salida por 0 y 1.


Para problemas de clasificación multiclases o de mas de 2 clases, se utilizan los siguientes enfoques:<br>
- 1 vs todos, se trata de descomponer el problema en múltiples problemas de clasificación binario
- Utilizar la multinomial regresión logística que lo resuelve como un simple problema.


Ejemplo de regresión logística con scikit-learn<br>
Creamos un conjunto de datos con 1000 muestras o registros con 4 características.


In [1]:
from sklearn.datasets import make_classification
X, y = make_classification(n_samples=1000, n_features=4)

In [2]:
# Importando el modelo
from sklearn.linear_model import LogisticRegression

rlog = LogisticRegression() # Creando el modelo

In [3]:
# Dividiendo el dataset en entrenamiento y evaluacion
X_entrenamiento = X[:-200]
X_evaluacion = X[-200:]
y_entrenamiento = y[:-200]
y_evaluacion = y[-200:]

In [4]:
rlog.fit(X_entrenamiento, y_entrenamiento) #ajustando el modelo



LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='warn',
          n_jobs=None, penalty='l2', random_state=None, solver='warn',
          tol=0.0001, verbose=0, warm_start=False)

In [5]:
# Realizando las predicciones
y_predic_entrenamiento = rlog.predict(X_entrenamiento) 
y_predic_evaluacion = rlog.predict(X_evaluacion)


In [6]:
# Verificando la exactitud del modelo
entrenamiento = (y_predic_entrenamiento == y_entrenamiento).sum().astype(float) / y_entrenamiento.shape[0]
print("sobre datos de entrenamiento: {0:.2f}".format(entrenamiento))
evaluacion = (y_predic_evaluacion == y_evaluacion).sum().astype(float) / y_evaluacion.shape[0]
print("sobre datos de evaluación: {0:.2f}".format(evaluacion))


sobre datos de entrenamiento: 0.94
sobre datos de evaluación: 0.91


evaluación de un modelo de regresión logística

Se utiliza una matriz de confusión para evaluar la clasificación del modelo

![matiz_confusion](img/matriz_confusion.png)

Cuando se toman decisiones en ambiente de incertidumbre, estas decisiones pueden ser incorrectas. En situaciones de incertidumbre pueden cometerse dos tipos de errores:<br>
- Una decision positiva falsa, tambien conocida como error de tipo I
- y Una decision negativa falsa, tambien conocida como error de tipo II.


En un caso de diagnóstico médico, por ejemplo, los posibles errores son:<br>
- Error de Tipo I: Un paciente no tiene la enfermedad pero el doctor concluye que la tiene.
- Error de Tipo II: Un paciente tiene la enfermedad pero el doctor concluye que no la tiene.


<b>Exactitud(Accuracy)</b>: Número relativo de instancias correctamente clasificadas frente al total de instancias clasificadas.<br>
<b>Precision</b> (por clase): es el porcentaje de las instancias bien clasificadas en esa clase del total de clasificadas en esa clase.<br>
<b>Exhaustividad</b>, cobertura-Recall (por clase): Porcentaje de instancias bien clasificadas en esa clase del total de instancias que debían ser clasificadas en esa clase. 



![sensibilidad](img/sensibilidad.png)

Sensibilidad vs. especificidad

¿Cuántos de los elementos relevantes fueron correctamente identificados? <b>Sensibilidad</b>= TP / (TP+FN)

¿Cuántos elementos no relevantes fueron correctamente identificados?  <b>Especificidad</b>= TN / (TN+FP)

![falsos_positivos](img/falsos_positivos.png)

In [7]:
from sklearn.metrics import classification_report,confusion_matrix

In [9]:
print(classification_report(y_evaluacion,y_predic_evaluacion))

              precision    recall  f1-score   support

           0       0.92      0.90      0.91       100
           1       0.90      0.92      0.91       100

   micro avg       0.91      0.91      0.91       200
   macro avg       0.91      0.91      0.91       200
weighted avg       0.91      0.91      0.91       200



In [10]:
print(confusion_matrix(y_evaluacion,y_predic_evaluacion))

[[90 10]
 [ 8 92]]


Ventajas de la regresión logística
- Entrenamiento del modelo y predicción son rápidos
- No requiere configuración de parámetros o “tuning”
- Produce pronósticos de probabilidades bien calibradas
- Pueden funcionar bien con un número pequeño de observaciones


Desventajas 
- Presume una linear relación entre las variables y la respuesta


Reconocimiento y agradecimiento especial a:

- [Kevin Markham](https://github.com/justmarkham)
- [Alejandro Correa](https://github.com/albahnsen)
- [Janani Ravi](https://www.pluralsight.com/authors/janani-ravi)

In [1]:
from IPython.core.display import HTML
def css_styling():
    styles = open("estilos/custom.css", "r").read()
    return HTML(styles)
css_styling()