<font color="Lime"><h1 align ='center'><b><u>Aprendizaje y conocimiento de los modelos de regresión en el aprendizaje automático</u></b></h1></font>

## <font color='B8E139'><b>Introducción</b></font>
La regresión es una técnica de análisis de datos sencilla, común y muy útil, que se conoce de forma coloquial como "ajustar una línea de tendencia". La regresión identifica la intensidad de la relación entre una o varias características y una sola etiqueta. Su simplicidad, comportamiento predecible, capacidad de previsión y alto nivel de interpretabilidad significa que esta técnica se usa en finanzas, empresas, ciencias sociales, epidemiología y medicina.

En este módulo, profundizaremos en el funcionamiento de la regresión, comprenderemos sus limitaciones y aprenderemos a evaluar su rendimiento.

## <font color='B8E139'><b>Escenario: saturación de una clínica veterinaria</b></font>

A lo largo de este módulo, usaremos el siguiente escenario de ejemplo para explicar los conceptos subyacentes a la regresión. Este escenario está diseñado para proporcionar un ejemplo de cómo podría usar esta técnica al analizar datos futuros.

Los perros de rescate de la organización benéfica que administra han sufrido una repentina ola de enfermedad. Después de un día de entrenamiento y actividades sociales, muchos de los perros con los que trabaja han enfermado, siendo la fiebre el síntoma principal (temperatura corporal elevada). Preocupados por los perros que aún no han presentado síntomas, el equipo ha recopilado información básica sobre los primeros 100 perros que enfermaron. Su trabajo es identificar cuáles de ellos tienen mayor riesgo de enfermar, de modo que los pueda visitar un veterinario.

## <font color='B8E139'><b>Objetivos de aprendizaje</b></font>

En este módulo, aprenderá a:

- Comprender el funcionamiento de la regresión
- Trabajar con algoritmos nuevos: regresión lineal, regresión lineal múltiple y regresión polinómica
- Comprender los puntos fuertes y las limitaciones de los modelos de regresión
- Visualización de funciones de error y costo en la regresión lineal
- Comprender las métricas de evaluación básicas para la regresión



---



## <font color='B8E139'><b>¿Qué es la regresión?</b></font>

La regresión es una técnica de análisis de datos sencilla, común y muy útil, que a menudo se conoce de forma coloquial como "ajustar una línea". En su forma más sencilla, la regresión se ajusta a una línea recta entre una variable (característica) y otra (etiqueta). En formas más complicadas, la regresión puede encontrar relaciones no lineales entre una sola etiqueta y varias características.

### <font color='B8E139'><b>Regresión lineal simple</b></font>

La regresión lineal simple modela una relación lineal entre una sola característica y una etiqueta normalmente continua, lo que permite que la función prediga la característica. Es posible que tenga un aspecto similar a este:

<div>
<p align="center">
<img src="https://raw.githubusercontent.com/JuanCamilo18/MM_Datos/main/imags/Cur_AC_MR/AC_MR_01.JPG" alt="JuveYell" width="700px">
</p>
</div>

La regresión lineal simple tiene dos parámetros: una intersección (c) que indica el valor de la etiqueta cuando la característica se establece en cero, y una pendiente (m) que indica cuánto aumentará la etiqueta para cada aumento de un punto de la característica.

Si le gusta pensar matemáticamente, es muy simple:

$$y = mx + c$$

Donde y es la etiqueta y x es la característica.

Por ejemplo, en nuestro escenario, si intentamos predecir qué pacientes tendrán una temperatura corporal elevada en función de su edad, tendríamos el modelo:

temperatura = m * edad + c

Debe buscar los valores de "m" y "c" durante el procedimiento de ajuste. Si resulta que m = 0,5 y c = 37, es posible que lo visualicemos de la siguiente forma:

<div>
<p align="center">
<img src="https://raw.githubusercontent.com/JuanCamilo18/MM_Datos/main/imags/Cur_AC_MR/AC_MR_02.JPG" alt="JuveYell" width="700px">
</p>
</div>

Esto significaría que cada año de edad está asociado con un aumento de la temperatura corporal de 0,5 °C, con un punto inicial de 37 °C.

## <font color='B8E139'><b>Ajuste de la regresión lineal</b></font>

Normalmente, usamos bibliotecas existentes para ajustarnos a los modelos de regresión. La regresión normalmente pretende encontrar la línea que genera la menor cantidad de error, donde el error significa la diferencia entre el valor del punto de datos real y el valor previsto. Por ejemplo, en la imagen siguiente, la línea negra indica el error entre la predicción, la línea roja y un valor real: el punto.

<div>
<p align="center">
<img src="https://raw.githubusercontent.com/JuanCamilo18/MM_Datos/main/imags/Cur_AC_MR/AC_MR_03.JPG" alt="JuveYell" width="700px">
</p>
</div>

Al mirar estos dos puntos en un eje Y, podemos ver que la predicción era 39,5, pero el valor real era 41.

<div>
<p align="center">
<img src="https://raw.githubusercontent.com/JuanCamilo18/MM_Datos/main/imags/Cur_AC_MR/AC_MR_04.JPG" alt="JuveYell" width="700px">
</p>
</div>

Por lo tanto, el modelo estaba equivocado en 1,5 para este punto de datos.

Normalmente, ajustamos un modelo minimizando la suma residual de cuadrados. Esto `significa que la función de costo se calcula de la siguiente manera`:

1. Calcular la diferencia entre los valores reales y previstos (como los anteriores) para cada punto de datos.
2. Eleve estos valores al cuadrado.
3. Suma (o promedio) de estos valores al cuadrado.

El paso de elevar al cuadrado significa que no todos los puntos contribuyen uniformemente a la línea: los valores atípicos, que son puntos que no se encuentran en el patrón esperado, tienen un error desproporcionadamente mayor, lo que puede influir la posición de la línea.

## <font color='B8E139'><b>Puntos fuertes de la regresión</b></font>

Las técnicas de regresión disponen de múltiples ventajas que otros modelos más complejos no tienen.

### <font color='B8E139'><b>3.1 Predecible y fácil de interpretar</b></font>

Las regresiones son fáciles de interpretar porque describen ecuaciones matemáticas simples, que a menudo se pueden representar en gráficos. Los modelos más complejos a menudo se conocen como soluciones de "caja negra", porque es difícil comprender cómo hacen las predicciones o cómo se comportarán con determinadas entradas.

### <font color='B8E139'><b>3.2 Fácil de extrapolar</b></font>

Las regresiones hacen que sea fácil extrapolar: realizar predicciones para valores fuera del intervalo de nuestro conjunto de datos. Por ejemplo, es fácil calcular en el ejemplo anterior que con nueve años se tendrá una temperatura de 40,5 °C. Siempre se debe tener precaución a la hora de extrapolar: este modelo haría la predicción siguiente: a los 90 años se tendría una temperatura lo suficientemente alta como para hervir agua.

### <font color='B8E139'><b>3.3 Normalmente, se garantiza un ajuste óptimo</b></font>

La mayoría de los modelos de aprendizaje automático usan el trazo descendente del gradiente para ajustar los modelos, lo que implica el ajuste del algoritmo de trazo descendente del gradiente y no proporciona ninguna garantía de que se encontrará una solución óptima. Por el contrario, la regresión lineal que usa la suma de cuadrados como una función de costo realmente no necesita un procedimiento de trazo descendente de gradiente iterativo. En su lugar, se pueden usar las matemáticas para calcular la ubicación óptima de la línea. Las matemáticas están fuera del ámbito de este módulo, pero es útil saber que (siempre que el tamaño de la muestra no sea demasiado grande) la regresión lineal no necesita prestar especial atención al proceso de ajuste y se garantiza la solución óptima.



---



## <font color='B8E139'><b>Ejercicio: entrenamiento de un modelo de regresión lineal simple</b></font>

## <font color='B8E139'><b>Ejercicio: entrenar un modelo de regresión lineal simple</b></font>

En este ejercicio, entrenaremos un modelo de regresión lineal simple para predecir la temperatura corporal en función de la edad del perro e interpretaremos el resultado.

### <font color='B8E139'><b>Cargando datos</b></font>

Empecemos echando un vistazo a nuestros datos.

In [1]:
import pandas
!pip install statsmodels
!wget https://raw.githubusercontent.com/MicrosoftDocs/mslearn-introduction-to-machine-learning/main/graphing.py
!wget https://raw.githubusercontent.com/MicrosoftDocs/mslearn-introduction-to-machine-learning/main/Data/doggy-illness.csv

# Convert it into a table using pandas
dataset = pandas.read_csv("doggy-illness.csv", delimiter="\t")

# Print the data
print(dataset)

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
--2023-03-23 20:54:38--  https://raw.githubusercontent.com/MicrosoftDocs/mslearn-introduction-to-machine-learning/main/graphing.py
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 21511 (21K) [text/plain]
Saving to: ‘graphing.py’


2023-03-23 20:54:38 (13.9 MB/s) - ‘graphing.py’ saved [21511/21511]

--2023-03-23 20:54:38--  https://raw.githubusercontent.com/MicrosoftDocs/mslearn-introduction-to-machine-learning/main/Data/doggy-illness.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.110.133, 185.199.109.133, 185.199.108.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.110.133|:443... connected.
HT


Tenemos una variedad de información, que incluye lo que hicieron los perros la noche anterior, su edad, si tienen sobrepeso y sus signos clínicos. En este ejercicio, nuestros valores y, o etiquetas, están representados por la `core_temperature` columna, mientras que nuestra característica será `age`, en años.

### <font color='B8E139'><b>Visualización de datos</b></font>

Echemos un vistazo a cómo se distribuyen las características y las etiquetas.

In [2]:
import graphing

graphing.histogram(dataset, label_x='age', nbins=10, title="Feature", show=True)
graphing.histogram(dataset, label_x='core_temperature', nbins=10, title="Label")

Mirando nuestra función (`age`), podemos ver que los perros tenían 9 años o menos, y las edades están distribuidas uniformemente. En otras palabras, ninguna edad en particular es sustancialmente más común que otra.

Mirando nuestra etiqueta (`core_temperature`), la mayoría de los perros parecen tener una temperatura central ligeramente elevada (normalmente esperaríamos ~37.5 grados centígrados), lo que indica que no se encuentran bien. Un pequeño número de perros tienen una temperatura superior a los 40 grados, lo que indica que no se encuentran bien.

Simplemente porque la forma de estas distribuciones es diferente, podemos suponer que la característica no podrá predecir la etiqueta muy bien. Por ejemplo, si la vejez predijera perfectamente quién tendría fiebre alta, entonces el número de perros viejos coincidiría exactamente con el número de perros con fiebre alta.

Sin embargo, el modelo podría terminar siendo útil, así que continuemos.

El siguiente paso es observar la relación. Permite trazar la relación entre las etiquetas y las características.

In [3]:
graphing.scatter_2D(dataset, label_x="age", label_y="core_temperature", title='core temperature as a function of age')


Parece que los perros mayores tienden a tener temperaturas más altas que los perros más jóvenes. Sin embargo, la relación es bastante "ruidosa": muchos perros de la misma edad tienen temperaturas bastante diferentes.

### <font color='B8E139'><b>Regresión lineal simple</b></font>

Examinemos formalmente la relación entre nuestras etiquetas y características ajustando una línea (modelo de regresión lineal simple) al conjunto de datos.

In [4]:
import statsmodels.formula.api as smf
import graphing # custom graphing code. See our GitHub repo for details

# First, we define our formula using a special syntax
# This says that core temperature is explained by age
formula = "core_temperature ~ age"

# Perform linear regression. This method takes care of
# the entire fitting procedure for us.
model = smf.ols(formula = formula, data = dataset).fit()

# Show a graph of the result
graphing.scatter_2D(dataset,    label_x="age", 
                                label_y="core_temperature",
                                trendline=lambda x: model.params[1] * x + model.params[0]
                                )

La línea parece ajustarse bastante bien a los datos, lo que valida nuestra hipótesis de que existe una correlación positiva entre la edad de un perro y su temperatura central.

### <font color='B8E139'><b>Interpretando nuestro modelo</b></font>

Visualmente, la regresión lineal simple es fácil de entender. Sin embargo, recapitulemos sobre lo que significan los parámetros.

In [5]:
print("Intercept:", model.params[0], "Slope:", model.params[1])

Intercept: 38.087867548892085 Slope: 0.15333957754731864



Recuerde que los modelos de regresión lineal simple se explican por la intersección de la línea y la pendiente de la línea.

Aquí, nuestra intercepción es de 38 grados centígrados. Esto significa que cuando agees 0, el modelo predecirá 38 grados.

Nuestra pendiente es de 0,15 grados centígrados, lo que significa que por cada año de edad, el modelo pronosticará temperaturas 0,15 grados más altas.

En el cuadro a continuación, intente cambiar la edad a algunos valores diferentes para ver predicciones diferentes y compárelas con la línea en el gráfico anterior.

In [6]:
def estimate_temperature(age):
    # Model param[0] is the intercepts and param[1] is the slope
    return age * model.params[1] + model.params[0]

print("Estimate temperature from age")
print(estimate_temperature(age=0))

Estimate temperature from age
38.087867548892085



**Resumen**

Cubrimos los siguientes conceptos en este ejercicio:

- Visualización rápida de un conjunto de datos
- Evaluación cualitativa de una relación lineal
- Cree un modelo de regresión lineal simple
- Comprender los parámetros de un modelo de regresión lineal simple