# **Regresión Logística**

### Aprendizaje Supervisado / Clasificación


_Minería de datos_

---

## **Introducción**

La regresión logística forma parte de la familia de algoritmos/modelos de aprendizaje supervisado y a pesar de su nombre, **su utilización es generalmente para tareas de clasificación**. La regresión logística puede entenderse como un tipo de  modelo lineal generalizado y como tales, **recibe un _input_ (variables/atributos) y estima una variable target como _output_**. Sin embargo, **a diferencia de la regresión lineal ordinaria**, en la regresión logística **la variable _target_ es de tipo binaria**, en vez de una continua, como hemos visto en ejemplos anteriores (sueldo de una persona/años de experiencia, valor de una casa, entre otros). Existen también variaciones del modelo de regresión logística que permiten realizar clasificaciones entre múltiples variables/clases _target_, sin embargo, nuestro foco se centrará netamente en variables _target_ binarias.

La regresión logística es uno de los algoritmos de aprendizaje automático más simples y comúnmente utilizados para la clasificación de dos clases, se puede utilizar para varios problemas de clasificación, como la detección de spam, predicción de diabetes, o si un cliente determinado comprará un producto en particular, entre otros. Este modelo es fácil de implementar y puede usarse como base para cualquier problema de clasificación binaria.


## **Tipos de resultados**

La clasificación binaria tiene 4 posibles resultados:

1. **Negativos verdaderos**: negativos predichos correctamente (ceros)
2. **Positivos verdaderos**: positivos pronosticados correctamente (unos)
3. **Falsos negativos**: negativos incorrectamente pronosticados (ceros)
4. **Positivos falsos**: positivos pronosticados incorrectamente (unos)

Por lo general, el rendimiento del clasificador se evalúa comparando los resultados reales y pronosticados con las predicciones correctas e incorrectas. El indicador más directo de la precisión de la clasificación es la relación entre el número de predicciones correctas y el número total de predicciones (u observaciones).

## **La función Sigmoide**

![img](https://drive.google.com/uc?id=1pZ2dcNs2LHAmfa9SKKp5n9DT9E48pVNc)

La [función sigmoide](https://es.wikipedia.org/wiki/Funci%C3%B3n_sigmoide), también llamada función logística, proporciona una curva en forma de 'S' que **puede tomar cualquier número real y asignarlo a un valor entre 0 y 1**. Si la curva va al infinito positivo, la variable a predecir **_y_** se convertirá en 1, si la curva va al infinito negativo, **_y_** se convertirá en 0. Si la salida (output) de la función sigmoide es mayor a 0.5, podemos clasificar el resultado como 1 o _SÍ_, si es menor a 0.5, podemos clasificarlo como 0 o _NO_. Si el resultado/salida/output de la función es por ejemplo 0.75, podemos decir en términos de probabilidad: Hay un 75 por ciento de posibilidad de...

## **Ejemplo**

![img](https://drive.google.com/uc?id=1snre_8jeKdXSfGJkeVVBbKs4hWK63_s5)

El gráfico ejemplifica un caso donde tenemos un set de datos de entrenamiento que especifica las horas de estudio de cada estudiante (x) y su probabilidad de aprobar el examen (y). Los puntos/datos en color rojo representan puntos/observaciones/registros de alumnos que no aprobaron el examen y los de color azul representan los casos en los cuales sí aprobaron el examen.

- **x** : Horas de estudio
- **y** : Probabilidad de aprobar el examen del curso

## **Quiz retroactivo**:
### a) ¿Qué es clasificación? ¿Qué diferencias posee comparada con la regresión?
### b) **¿Cuál es la tarea de un modelo lineal?** (Apoyándonos en lo visto en clases y material pasadas)

### c) En base a la pregunta anterior **¿Qué rol cumple el error y los tipos de error en general?**

### d) Describe los tipos de errores, sus diferencias y casos de uso.

[material complementario 1](https://www.iartificial.net/analisis-de-errores-en-machine-learning/)  
[material complementario 2](https://ligdigonzalez.com/evaluando-el-error-en-los-modelos-de-clasificacion-machine-learning/)

## **Aplicación**

Con el material visto en clases y las actividades realizadas deberás:

1. Realizar un análisis exploratorio de los datos
2. Determinar si los datos requieren de limpieza y realizarla si es necesaria
3. Crear un modelo de Machine Learning de tipo Regresión logística
4. Entrenar el modelo siguiendo el flujo estándar
5. Medir la precisión del modelo en conjunto con su error y explicitar qué tan bien se desempeña y por qué
6. Proponer estrategias de optimización (texto)

[Documentación scikit-learn](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html)


In [None]:
from sklearn.datasets import load_digits
digits = load_digits()


In [None]:
print(digits.DESCR)

.. _digits_dataset:

Optical recognition of handwritten digits dataset
--------------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 5620
    :Number of Attributes: 64
    :Attribute Information: 8x8 image of integer pixels in the range 0..16.
    :Missing Attribute Values: None
    :Creator: E. Alpaydin (alpaydin '@' boun.edu.tr)
    :Date: July; 1998

This is a copy of the test set of the UCI ML hand-written digits datasets
https://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits

The data set contains images of hand-written digits: 10 classes where
each class refers to a digit.

Preprocessing programs made available by NIST were used to extract
normalized bitmaps of handwritten digits from a preprinted form. From a
total of 43 people, 30 contributed to the training set and different 13
to the test set. 32x32 bitmaps are divided into nonoverlapping blocks of
4x4 and the number of on pixels are counted in each blo