# Ejercicio: Entrenar un modelo de regresión lineal simple
En este ejercicio, entrenaremos un modelo de regresión lineal simple para predecir la temperatura corporal basándonos en las edades de los perros, e interpretaremos el resultado.

## Carga de datos
Empecemos por echar un vistazo a nuestros datos.

In [1]:
import pandas
#!wget https://raw.githubusercontent.com/MicrosoftDocs/mslearn-introduction-to-machine-learning/main/graphing.py
#!wget https://raw.githubusercontent.com/MicrosoftDocs/mslearn-introduction-to-machine-learning/main/Data/doggy-illness.csv

# Convert it into a table using pandas
dataset = pandas.read_csv("doggy-illness.csv", delimiter="\t")

# Print the data
print(dataset)

    male  attended_training  age  body_fat_percentage  core_temperature  \
0      0                  1  6.9                   38         38.423169   
1      0                  1  5.4                   32         39.015998   
2      1                  1  5.4                   12         39.148341   
3      1                  0  4.8                   23         39.060049   
4      1                  0  4.8                   15         38.655439   
..   ...                ...  ...                  ...               ...   
93     0                  0  4.5                   38         37.939942   
94     1                  0  1.8                   11         38.790426   
95     0                  0  6.6                   20         39.489962   
96     0                  0  6.9                   32         38.575742   
97     1                  1  6.0                   21         39.766447   

    ate_at_tonys_steakhouse  needed_intensive_care  \
0                         0                  

Disponemos de información variada, como qué hicieron los perros la noche anterior, su edad, si tienen sobrepeso y sus signos clínicos. En este ejercicio, nuestros valores y, o etiquetas, están representados por la columna core_temperature, mientras que nuestra característica será la edad, en años.

## Visualización de datos
Veamos cómo se distribuyen las características y las etiquetas.

In [2]:
import graphing

graphing.histogram(dataset, label_x='age', nbins=10, title="Feature", show=True)
graphing.histogram(dataset, label_x='core_temperature', nbins=10, title="Label")

Si nos fijamos en nuestra característica (edad), podemos ver que los perros tenían 9 años o menos, y que las edades están distribuidas uniformemente. En otras palabras, ninguna edad en particular es sustancialmente más común que otra.

Si observamos nuestra etiqueta (core_temperature), la mayoría de los perros parecen tener una temperatura central ligeramente elevada (normalmente esperaríamos ~37,5 grados centígrados), lo que indica que no se encuentran bien. Un pequeño número de perros tiene una temperatura superior a 40 grados, lo que indica que se encuentran bastante mal.

Simplemente porque la forma de estas distribuciones es diferente, podemos suponer que la característica no será capaz de predecir la etiqueta extremadamente bien. Por ejemplo, si la vejez predijera perfectamente quién tendrá una temperatura alta, entonces el número de perros viejos coincidiría exactamente con el número de perros con una temperatura alta.

Sin embargo, el modelo puede resultar útil, así que continuemos.

El siguiente paso es observar la relación. Vamos a trazar la relación entre las etiquetas y las características.

In [3]:
graphing.scatter_2D(dataset, label_x="age", label_y="core_temperature", title='core temperature as a function of age')

Parece que los perros mayores tienden a tener temperaturas más altas que los jóvenes. Sin embargo, la relación es bastante "ruidosa": muchos perros de la misma edad tienen temperaturas muy diferentes.

## Regresión lineal simple
Examinemos formalmente la relación entre nuestras etiquetas y características ajustando una línea (modelo de regresión lineal simple) al conjunto de datos.

In [4]:
import statsmodels.formula.api as smf
import graphing # custom graphing code. See our GitHub repo for details

# First, we define our formula using a special syntax
# This says that core temperature is explained by age
formula = "core_temperature ~ age"

# Perform linear regression. This method takes care of
# the entire fitting procedure for us.
model = smf.ols(formula = formula, data = dataset).fit()

# Show a graph of the result
graphing.scatter_2D(dataset,    label_x="age", 
                                label_y="core_temperature",
                                trendline=lambda x: model.params[1] * x + model.params[0]
                                )

La línea parece ajustarse bastante bien a los datos, validando nuestra hipótesis de que existe una correlación positiva entre la edad de un perro y su temperatura central.

Interpretación de nuestro modelo
Visualmente, la regresión lineal simple es fácil de entender. Sin embargo, recapitulemos lo que significan los parámetros.

In [5]:
print("Intercept:", model.params[0], "Slope:", model.params[1])

Intercept: 38.08786754889209 Slope: 0.15333957754731897


Recuerda que los modelos de regresión lineal simple se explican por la intercepción y la pendiente de la recta.

Aquí, nuestra intercepción es 38 grados centígrados. Esto significa que cuando la edad es 0, el modelo predecirá 38 grados.

Nuestra pendiente es de 0,15 grados centígrados, lo que significa que por cada año de edad, el modelo predecirá temperaturas 0,15 grados más altas.

En el recuadro de abajo, intenta cambiar la edad a unos cuantos valores diferentes para ver las distintas predicciones, y compáralas con la línea del gráfico anterior.

In [6]:
def estimate_temperature(age):
    # Model param[0] is the intercepts and param[1] is the slope
    return age * model.params[1] + model.params[0]

print("Estimate temperature from age")
print(estimate_temperature(age=0))

Estimate temperature from age
38.08786754889209


Resumen
En este ejercicio hemos tratado los siguientes conceptos

Visualización rápida de un conjunto de datos
Evaluar cualitativamente una relación lineal
Construir un modelo de regresión lineal simple
Comprender los parámetros de un modelo de regresión lineal simple