Ejercicio: entrenar un modelo de regresión lineal simple

En este ejercicio, entrenaremos un modelo de regresión lineal simple para predecir la temperatura corporal en función de la edad del perro e interpretaremos el resultado.

Cargando datos
Empecemos echando un vistazo a nuestros datos.

In [None]:
import pandas
!pip install statsmodels
!wget https://raw.githubusercontent.com/MicrosoftDocs/mslearn-introduction-to-machine-learning/main/graphing.py
!wget https://raw.githubusercontent.com/MicrosoftDocs/mslearn-introduction-to-machine-learning/main/Data/doggy-illness.csv

# Convert it into a table using pandas
dataset = pandas.read_csv("doggy-illness.csv", delimiter="\t")

# Print the data
print(dataset)

Tenemos una variedad de información, que incluye lo que hicieron los perros la noche anterior, su edad, si tienen sobrepeso y sus signos clínicos. En este ejercicio, nuestros valores y, o etiquetas, están representados por la columna core_temperature, mientras que nuestra característica será la edad, en años.

Visualización de datos
Echemos un vistazo a cómo se distribuyen las características y las etiquetas.

In [None]:
import graphing

graphing.histogram(dataset, label_x='age', nbins=10, title="Feature", show=True)
graphing.histogram(dataset, label_x='core_temperature', nbins=10, title="Label")

Mirando nuestra característica (edad), podemos ver que los perros tenían 9 años o menos, y las edades están distribuidas uniformemente. En otras palabras, ninguna edad en particular es sustancialmente más común que otra.

Mirando nuestra etiqueta (core_temperature), la mayoría de los perros parecen tener una temperatura central ligeramente elevada (normalmente esperaríamos ~37.5 grados centígrados), lo que indica que no se encuentran bien. Un pequeño número de perros tienen una temperatura superior a los 40 grados, lo que indica que no se encuentran bien.

Simplemente porque la forma de estas distribuciones es diferente, podemos suponer que la característica no podrá predecir la etiqueta muy bien. Por ejemplo, si la vejez predijera perfectamente quién tendría fiebre alta, entonces el número de perros viejos coincidiría exactamente con el número de perros con fiebre alta.

Sin embargo, el modelo podría terminar siendo útil, así que continuemos.

El siguiente paso es observar la relación. Permite trazar la relación entre las etiquetas y las características.



In [None]:
graphing.scatter_2D(dataset, label_x="age", label_y="core_temperature", title='core temperature as a function of age')

Parece que los perros mayores tienden a tener temperaturas más altas que los perros más jóvenes. Sin embargo, la relación es bastante "ruidosa": muchos perros de la misma edad tienen temperaturas bastante diferentes.

Regresión lineal simple
Examinemos formalmente la relación entre nuestras etiquetas y características ajustando una línea (modelo de regresión lineal simple) al conjunto de datos.

In [None]:
import statsmodels.formula.api as smf
import graphing # custom graphing code. See our GitHub repo for details

# First, we define our formula using a special syntax
# This says that core temperature is explained by age
formula = "core_temperature ~ age"

# Perform linear regression. This method takes care of
# the entire fitting procedure for us.
model = smf.ols(formula = formula, data = dataset).fit()

# Show a graph of the result
graphing.scatter_2D(dataset,    label_x="age", 
                                label_y="core_temperature",
                                trendline=lambda x: model.params[1] * x + model.params[0]
                                )

La línea parece ajustarse bastante bien a los datos, lo que valida nuestra hipótesis de que existe una correlación positiva entre la edad de un perro y su temperatura central.

Interpretando nuestro modelo
Visualmente, la regresión lineal simple es fácil de entender. Sin embargo, recapitulemos sobre lo que significan los parámetros.

In [None]:
print("Intercept:", model.params[0], "Slope:", model.params[1])

Recuerde que los modelos de regresión lineal simple se explican por la intersección de la línea y la pendiente de la línea.

Aquí, nuestra intercepción es de 38 grados centígrados. Esto significa que cuando la edad sea 0, el modelo predecirá 38 grados.

Nuestra pendiente es de 0,15 grados centígrados, lo que significa que por cada año de edad, el modelo pronosticará temperaturas 0,15 grados más altas.

En el cuadro a continuación, intente cambiar la edad a algunos valores diferentes para ver predicciones diferentes y compárelas con la línea en el gráfico anterior.

In [None]:
def estimate_temperature(age):
    # Model param[0] is the intercepts and param[1] is the slope
    return age * model.params[1] + model.params[0]

print("Estimate temperature from age")
print(estimate_temperature(age=0))

Resumen

Cubrimos los siguientes conceptos en este ejercicio:

Visualización rápida de un conjunto de datos
Evaluación cualitativa de una relación lineal
Cree un modelo de regresión lineal simple
Comprender los parámetros de un modelo de regresión lineal simple