    ¿Qué es la regresión?

La regresión es una técnica de análisis de datos sencilla, común y muy útil, que a menudo se conoce de forma coloquial como "ajustar una línea". En su forma más sencilla, la regresión se ajusta a una línea recta entre una variable (característica) y otra (etiqueta). En formas más complicadas, la regresión puede encontrar relaciones no lineales entre una sola etiqueta y varias características.

    Regresión lineal simple
La regresión lineal simple modela una relación lineal entre una sola característica y una etiqueta normalmente continua, lo que permite que la función prediga la característica.

La regresión lineal simple tiene dos parámetros: una intersección (c) que indica el valor de la etiqueta cuando la característica se establece en cero, y una pendiente (m) que indica cuánto aumentará la etiqueta para cada aumento de un punto de la característica.

Si le gusta pensar matemáticamente, es muy simple:

y = mx + c

Donde y es la etiqueta y x es la característica.

Por ejemplo, en nuestro escenario, si intentamos predecir qué pacientes tendrán una temperatura corporal elevada en función de su edad, tendríamos el modelo:

temperatura = m * edad + c

Debe buscar los valores de "m" y "c" durante el procedimiento de ajuste. Si resulta que m = 0,5 y c = 37,

    Ejercicio: entrenar un modelo de regresión lineal simple
En este ejercicio, entrenaremos un modelo de regresión lineal simple para predecir la temperatura corporal en función de la edad del perro e interpretaremos el resultado.

    Cargando datos
Empecemos echando un vistazo a nuestros datos.

In [1]:
import pandas as pd

# Conviértelo en una tabla usando pandas.
dataset = pd.read_csv('C:/Users/santi/OneDrive/Escritorio/Desktop/doggy-illness.csv',delimiter='\t')

# Imprime los datos
print(dataset)

    male  attended_training  age  body_fat_percentage  core_temperature  \
0      0                  1  6.9                   38         38.423169   
1      0                  1  5.4                   32         39.015998   
2      1                  1  5.4                   12         39.148341   
3      1                  0  4.8                   23         39.060049   
4      1                  0  4.8                   15         38.655439   
..   ...                ...  ...                  ...               ...   
93     0                  0  4.5                   38         37.939942   
94     1                  0  1.8                   11         38.790426   
95     0                  0  6.6                   20         39.489962   
96     0                  0  6.9                   32         38.575742   
97     1                  1  6.0                   21         39.766447   

    ate_at_tonys_steakhouse  needed_intensive_care  \
0                         0                  


Tenemos una variedad de información, que incluye lo que hicieron los perros la noche anterior, su edad, si tienen sobrepeso y sus signos clínicos. En este ejercicio, nuestros valores y, o etiquetas, están representados por la core_temperature columna, mientras que nuestra característica será age, en años.

    Visualización de datos
Echemos un vistazo a cómo se distribuyen las características y las etiquetas.

In [2]:
import graphing

graphing.histogram(dataset, label_x='age', nbins=10, title="Feature", show=True)
graphing.histogram(dataset, label_x='core_temperature', nbins=10, title="Label")

Mirando nuestra función ( age), podemos ver que los perros tenían 9 años o menos, y las edades están distribuidas uniformemente. En otras palabras, ninguna edad en particular es sustancialmente más común que otra.

Mirando nuestra etiqueta ( core_temperature), la mayoría de los perros parecen tener una temperatura central ligeramente elevada (normalmente esperaríamos ~37.5 grados centígrados), lo que indica que no se encuentran bien. Un pequeño número de perros tienen una temperatura superior a los 40 grados, lo que indica que no se encuentran bien.

Simplemente porque la forma de estas distribuciones es diferente, podemos suponer que la característica no podrá predecir la etiqueta muy bien. Por ejemplo, si la vejez predijera perfectamente quién tendría fiebre alta, entonces el número de perros viejos coincidiría exactamente con el número de perros con fiebre alta.

Sin embargo, el modelo podría terminar siendo útil, así que continuemos.

El siguiente paso es observar la relación. Permite trazar la relación entre las etiquetas y las características.

In [4]:
graphing.scatter_2D(dataset, label_x="age", label_y="core_temperature", title='temperatura central en función de la edad')


Parece que los perros mayores tienden a tener temperaturas más altas que los perros más jóvenes. Sin embargo, la relación es bastante "ruidosa": muchos perros de la misma edad tienen temperaturas bastante diferentes

    Regresión lineal simple
Examinemos formalmente la relación entre nuestras etiquetas y características ajustando una línea (modelo de regresión lineal simple) al conjunto de datos.

In [5]:
import statsmodels.formula.api as smf
import graphing

# Primero, definimos nuestra fórmula usando una sintaxis especial 
# Esto dice que la temperatura central se explica por la edad
formula = "core_temperature ~ age"

# Realizar regresión lineal. Este método se encarga 
# todo el procedimiento de ajuste para nosotros.
model = smf.ols(formula = formula, data = dataset).fit()

# Mostrar un gráfico del resultado.
graphing.scatter_2D(dataset,    label_x="age", 
                                label_y="core_temperature",
                                trendline=lambda x: model.params[1] * x + model.params[0]
                                )

La línea parece ajustarse bastante bien a los datos, lo que valida nuestra hipótesis de que existe una correlación positiva entre la edad de un perro y su temperatura central.

    Interpretando nuestro modelo
Visualmente, la regresión lineal simple es fácil de entender. Sin embargo, recapitulemos sobre lo que significan los parámetros.

In [7]:
print("Intercepto:", model.params[0], "Pendiente:", model.params[1])

Intercepto: 38.08786754889209 Pendiente: 0.15333957754731897


Recuerde que los modelos de regresión lineal simple se explican por la intersección de la línea y la pendiente de la línea.

Aquí, nuestra intercepción es de 38 grados centígrados. Esto significa que cuando age es 0, el modelo predecirá 38 grados.

Nuestra pendiente es de 0,15 grados centígrados, lo que significa que por cada año de edad, el modelo pronosticará temperaturas 0,15 grados más altas.

En el cuadro a continuación, intente cambiar la edad a algunos valores diferentes para ver predicciones diferentes y compárelas con la línea en el gráfico anterior.

In [11]:
def estimate_temperature(age):
    # El modelo param[0] son ​​las intersecciones y param[1] es la pendiente
    return age * model.params[1] + model.params[0]

print("Calcular la temperatura a partir de la edad")
print(estimate_temperature(age=0))

Calcular la temperatura a partir de la edad
38.08786754889209


    Ejercicio: entrenar un modelo de regresión lineal múltiple
En este ejercicio, entrenaremos un modelo de regresión lineal simple y un modelo de regresión lineal múltiple, y compararemos su desempeño usando R-Squared.

    Cargando datos
Comencemos echando un vistazo a nuestros datos.

In [12]:
import pandas as pd

#Importar los datos
dataset = pd.read_csv('C:/Users/santi/OneDrive/Escritorio/Desktop/doggy-illness.csv',delimiter='\t')

#mirar los datos
dataset

Unnamed: 0,male,attended_training,age,body_fat_percentage,core_temperature,ate_at_tonys_steakhouse,needed_intensive_care,protein_content_of_last_meal
0,0,1,6.9,38,38.423169,0,0,7.66
1,0,1,5.4,32,39.015998,0,0,13.36
2,1,1,5.4,12,39.148341,0,0,12.90
3,1,0,4.8,23,39.060049,0,0,13.45
4,1,0,4.8,15,38.655439,0,0,10.53
...,...,...,...,...,...,...,...,...
93,0,0,4.5,38,37.939942,0,0,7.35
94,1,0,1.8,11,38.790426,1,1,12.18
95,0,0,6.6,20,39.489962,0,0,15.84
96,0,0,6.9,32,38.575742,1,1,9.79


Para este ejercicio, intentaremos predecir core_temperature a partir de algunas de las otras funciones disponibles

    Visualización de datos
Veamos rápidamente qué características parecen tener algún tipo de relación con core_temperature

In [13]:
import graphing 

graphing.box_and_whisker(dataset, "male", "core_temperature", show=True)
graphing.box_and_whisker(dataset, "attended_training", "core_temperature", show=True)
graphing.box_and_whisker(dataset, "ate_at_tonys_steakhouse", "core_temperature", show=True)
graphing.scatter_2D(dataset, "body_fat_percentage", "core_temperature", show=True)
graphing.scatter_2D(dataset, "protein_content_of_last_meal", "core_temperature", show=True)
graphing.scatter_2D(dataset, "age", "core_temperature")

De un vistazo, los perros más gordos, mayores y machos parecen tener temperaturas más altas que los perros más delgados, jóvenes o hembras. Los perros que comieron muchas proteínas anoche también parecen estar más enfermos. Las otras características no parecen particularmente útiles.

    Regresión lineal simple
Tratemos de predecir core_temperature usando una regresión lineal simple y observemos el R-Cuadrado para estas relaciones.

In [14]:
import statsmodels.formula.api as smf
import graphing

for feature in ["male", "age", "protein_content_of_last_meal", "body_fat_percentage"]:
    # Realizar regresión lineal. Este método se encarga 
    # todo el procedimiento de ajuste para nosotros.
    formula = "core_temperature ~ " + feature
    simple_model = smf.ols(formula = formula, data = dataset).fit()

    print(feature)
    print("R-squared:", simple_model.rsquared)
    
    # Mostrar un gráfico del resultado.
    graphing.scatter_2D(dataset, label_x=feature, 
                                 label_y="core_temperature",
                                 title = feature,
                                 trendline=lambda x: simple_model.params[1] * x + simple_model.params[0],
                                 show=True)

male
R-squared: 0.0999007443071992


age
R-squared: 0.2648116081342463


protein_content_of_last_meal
R-squared: 0.9155158150005704


body_fat_percentage
R-squared: 0.00020809002637678375



Al desplazarnos por estos gráficos, obtenemos valores de R-cuadrado de 0,0002 ( body_fat_percentage), 0,1 ( male) y 0,26 ( age).

Si bien protein_content_of_last_meal también parece muy prometedor, la relación parece curva, no lineal. Dejaremos esta función por ahora y volveremos a ella en el próximo ejercicio.

    R-cuadrado 
Mostramos el valor R-Squared para estos modelos y lo usamos como una medida de "corrección" para nuestra regresión, pero ¿qué es? 

Intuitivamente, podemos pensar en R-Squared como una proporción de cuánto mejor es nuestra línea de regresión que una regresión ingenua que pasa directamente por la media de todos los ejemplos. Aproximadamente, el R-Squared se calcula tomando la pérdida/error del modelo entrenado y dividiéndola por la pérdida/error del modelo ingenuo. Eso da un rango donde 0 es mejor y 1 es peor, por lo que todo se resta de 1 para cambiar esos resultados. 

A continuación, mostramos una vez más el diagrama de dispersión con la edad y la temperatura central, pero esta vez, mostramos dos líneas de regresión. La primera es la línea ingenua que simplemente pasa directamente por la media. Esto tiene un R-Squared de 0 (ya que no es mejor que él mismo). Un R-Squared de 1 sería una línea que encajaría perfectamente en cada ejemplo de entrenamiento. La segunda gráfica muestra nuestra línea de regresión entrenada y una vez más vemos su R-Squared.

In [16]:
formula = "core_temperature ~ age"
age_trained_model = smf.ols(formula = formula, data = dataset).fit()
age_naive_model = smf.ols(formula = formula, data = dataset).fit()
age_naive_model.params[0] = dataset['core_temperature'].mean()
age_naive_model.params[1] = 0

print("naive R-squared:", age_naive_model.rsquared)
print("trained R-squared:", age_trained_model.rsquared)

# mira elgrafico de resultados
graphing.scatter_2D(dataset, label_x="age", 
                                label_y="core_temperature",
                                title = "Modelo ingenuo",
                                trendline=lambda x: dataset['core_temperature'].repeat(len(x)), 
                                show=True)
# mira el grafico de resultados
graphing.scatter_2D(dataset, label_x="age", 
                                label_y="core_temperature",
                                title = "Modelo entrenado",
                                trendline=lambda x: age_trained_model.params[1] * x + age_trained_model.params[0])

naive R-squared: 0.0
trained R-squared: 0.2648116081342463


    Regresión lineal múltiple 
En lugar de modelarlos por separado, intentemos combinarlos en un solo modelo. Después de todo, la grasa corporal no parecía ser útil, así que usemos el sexo masculino y la edad como características.

In [17]:
model = smf.ols(formula = "core_temperature ~ age + male", data = dataset).fit()

print("R-squared:", model.rsquared)

R-squared: 0.31485126997680135


Al usar ambas características al mismo tiempo, obtuvimos un mejor resultado que cualquiera de los modelos de una característica (univariante). 

Sin embargo, ¿cómo podemos ver esto? Bueno, se dibuja una regresión lineal simple en 2d. Si estamos trabajando con una variable extra, agregamos una dimensión y trabajamos en 3D.

In [19]:
import numpy as np
# Mostrar un gráfico del resultado 
# esto debe ser 3D, porque ahora tenemos tres variables en juego: dos funciones y una etiqueta

def predict(age, male):
    '''
    Esto convierte la edad y los valores masculinos dados en una predicción del modelo.
    '''
    # para hacer una predicción con statsmodels, necesitamos proporcionar un marco de datos 
    # así que crea un marco de datos con solo la edad y las variables masculinas
    df = pd.DataFrame(dict(age=[age], male=[male]))
    return model.predict(df)

# Crear el gráfico de superficie
fig = graphing.surface(
    x_values=np.array([min(dataset.age), max(dataset.age)]),
    y_values=np.array([0, 1]),
    calc_z=predict,
    axis_title_x="Age",
    axis_title_y="Male",
    axis_title_z="Core temperature"
)

# Agregue nuestros puntos de datos y muestre
fig.add_scatter3d(x=dataset.age, y=dataset.male, z=dataset.core_temperature, mode='markers')
fig.show()

El gráfico anterior es interactivo. Intente girarlo para ver cómo el modelo (que se muestra como un plano sólido) predeciría la temperatura central a partir de diferentes combinaciones de edad y sexo.

    Inspeccionando nuestro modelo 
Cuando tenemos más de dos características, se vuelve muy difícil visualizar estos modelos. Por lo general, tenemos que mirar los parámetros directamente. Hagamos eso ahora. Statsmodels, una de las bibliotecas comunes de estadísticas y aprendizaje automático, proporciona un método de resumen() que brinda información sobre nuestro modelo.

In [20]:
# Imprme la informacion resumen
model.summary()

0,1,2,3
Dep. Variable:,core_temperature,R-squared:,0.315
Model:,OLS,Adj. R-squared:,0.3
Method:,Least Squares,F-statistic:,21.83
Date:,"Wed, 29 Mar 2023",Prob (F-statistic):,1.58e-08
Time:,13:19:49,Log-Likelihood:,-85.295
No. Observations:,98,AIC:,176.6
Df Residuals:,95,BIC:,184.3
Df Model:,2,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,37.9793,0.135,282.094,0.000,37.712,38.247
age,0.1406,0.026,5.459,0.000,0.089,0.192
male,0.3182,0.121,2.634,0.010,0.078,0.558

0,1,2,3
Omnibus:,21.61,Durbin-Watson:,2.369
Prob(Omnibus):,0.0,Jarque-Bera (JB):,5.227
Skew:,0.121,Prob(JB):,0.0733
Kurtosis:,1.895,Cond. No.,12.9



Si observamos la esquina superior derecha, podemos ver nuestra estadística R-cuadrada que imprimimos anteriormente.

 Ligeramente hacia abajo y hacia la izquierda, también podemos ver información sobre los datos con los que entrenamos nuestro modelo. Por ejemplo, podemos ver que lo entrenamos en 98 observaciones (No. Observaciones). 
 
 Debajo de esto, encontramos información sobre nuestros parámetros, en una columna llamada coef (que significa coeficientes, un sinónimo de parámetros en aprendizaje automático). Aquí podemos ver que la intersección fue de aproximadamente 38, lo que significa que el modelo predice una temperatura central de 38 para un perro con edad = 0 y macho = 0. Debajo de esto, vemos que el parámetro para la edad es 0,14, lo que significa que por cada año adicional de edad, la temperatura pronosticada aumentaría 0,14 grados centígrados. Para los machos, podemos ver un parámetro de 0,32, lo que significa que el modelo estima que todos los perros (es decir, donde los machos == 1) tienen temperaturas 0,32 grados centígrados más altas que las perras (es decir, donde los machos == 0). 
 
 Aunque no tenemos espacio aquí para entrar en detalles, la columna P también es muy útil. Esto nos dice qué tan seguro está el modelo sobre el valor de este parámetro. Como regla general, si el valor de p es inferior a 0,05, existe una buena posibilidad de que esta relación sea fiable. Por ejemplo, aquí tanto la edad como el sexo masculino son inferiores a 0,05, por lo que debemos sentirnos seguros al usar este modelo en el mundo real. 
 
 Como ejercicio final, hagamos lo mismo con nuestro modelo de regresión lineal simple anterior, relacionando la edad con la temperatura central. Lea la siguiente tabla y vea lo que puede deducir de este modelo.

In [21]:
age_trained_model.summary()

0,1,2,3
Dep. Variable:,core_temperature,R-squared:,0.265
Model:,OLS,Adj. R-squared:,0.257
Method:,Least Squares,F-statistic:,34.58
Date:,"Wed, 29 Mar 2023",Prob (F-statistic):,5.94e-08
Time:,13:21:46,Log-Likelihood:,-88.749
No. Observations:,98,AIC:,181.5
Df Residuals:,96,BIC:,186.7
Df Model:,1,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,38.0879,0.132,288.373,0.000,37.826,38.350
age,0.1533,0.026,5.880,0.000,0.102,0.205

0,1,2,3
Omnibus:,43.487,Durbin-Watson:,2.492
Prob(Omnibus):,0.0,Jarque-Bera (JB):,6.605
Skew:,0.087,Prob(JB):,0.0368
Kurtosis:,1.74,Cond. No.,11.3


    Regresión polinómica
La regresión polinómica modela las relaciones como un tipo determinado de curva. Los polinomios son una familia de curvas que abarcan desde formas simples hasta complejas. Cuantos más parámetros tenga la ecuación (modelo), más compleja puede ser la curva.

Por ejemplo, un polinomio de dos parámetros es simplemente una línea recta:

y = intersección + B1 * x

Mientras que un polinomio de tres parámetros tiene una única curva:

y = intersección + B1 * x + B2 * x2

Un polinomio de cuatro parámetros puede tener dos curvas:

y = intersección + B1 * x + B2 * x2 + B3 * x3

    Ejercicio: ajuste de una curva polinomial
En este ejercicio, veremos un tipo diferente de regresión llamada regresión polinomial . A diferencia de la regresión lineal que modela las relaciones como líneas rectas, la regresión polinomial modela las relaciones como curvas.

Recuerda en nuestro ejercicio anterior cómo la relación entre core_temperaturey protein_content_of_last_mealno podía explicarse correctamente utilizando una línea recta. En este ejercicio, usaremos la regresión polinomial para ajustar una curva a los datos.

    visualización de datos
Comencemos este ejercicio cargando y echando un vistazo a nuestros datos.

In [22]:
import pandas as pd

#Importar los datos
dataset = pd.read_csv('C:/Users/santi/OneDrive/Escritorio/Desktop/doggy-illness.csv',delimiter='\t')

#mirar los datos
dataset

Unnamed: 0,male,attended_training,age,body_fat_percentage,core_temperature,ate_at_tonys_steakhouse,needed_intensive_care,protein_content_of_last_meal
0,0,1,6.9,38,38.423169,0,0,7.66
1,0,1,5.4,32,39.015998,0,0,13.36
2,1,1,5.4,12,39.148341,0,0,12.90
3,1,0,4.8,23,39.060049,0,0,13.45
4,1,0,4.8,15,38.655439,0,0,10.53
...,...,...,...,...,...,...,...,...
93,0,0,4.5,38,37.939942,0,0,7.35
94,1,0,1.8,11,38.790426,1,1,12.18
95,0,0,6.6,20,39.489962,0,0,15.84
96,0,0,6.9,32,38.575742,1,1,9.79


    Regresión lineal simple
Refresquemos rápidamente nuestra memoria realizando la misma regresión lineal simple que hicimos en el ejercicio anterior usando las columnas temperature y protein_content_of_last_meal del conjunto de datos.

In [23]:
import statsmodels.formula.api as smf
import graphing # custom graphing code. See our GitHub repo for details

# Perform linear regression. This method takes care of
# the entire fitting procedure for us.
simple_formula = "core_temperature ~ protein_content_of_last_meal"
simple_model = smf.ols(formula = simple_formula, data = dataset).fit()

# Show a graph of the result
graphing.scatter_2D(dataset, label_x="protein_content_of_last_meal", 
                             label_y="core_temperature",
                             trendline=lambda x: simple_model.params[1] * x + simple_model.params[0])

Observe cómo la relación entre las dos variables no es realmente lineal. Mirando la gráfica, es bastante claro ver que los puntos tienden más fuertemente hacia un lado de la línea, especialmente para los valores más altos core-temperaturey . protein_content_of_last_meal Una línea recta podría no ser la mejor manera de describir esta relación.

Echemos un vistazo rápido a la puntuación R-Squared del modelo:

In [24]:
print("R-squared:", simple_model.rsquared)

R-squared: 0.9155158150005704


Esa es una puntuación R-Squared bastante razonable, ¡pero veamos si podemos obtener una aún mejor!

    Regresión polinomial simple 
Ajustemos una regresión polinomial simple esta vez. De manera similar a una regresión lineal simple, una regresión polinomial simple modela la relación entre una etiqueta y una sola característica. A diferencia de una regresión lineal simple, una regresión polinomial simple puede explicar relaciones que no son simplemente líneas rectas. 

En nuestro ejemplo, vamos a utilizar un polinomio de tres parámetros.

In [25]:
# Perform polynomial regression. This method takes care of
# the entire fitting procedure for us.
polynomial_formula = "core_temperature ~ protein_content_of_last_meal + I(protein_content_of_last_meal**2)"
polynomial_model = smf.ols(formula = polynomial_formula, data = dataset).fit()

# Show a graph of the result
graphing.scatter_2D(dataset, label_x="protein_content_of_last_meal", 
                             label_y="core_temperature",
                             # Our trendline is the equation for the polynomial
                             trendline=lambda x: polynomial_model.params[2] * x**2 + polynomial_model.params[1] * x + polynomial_model.params[0])

Eso ya se ve mucho mejor. Confirmemos echando un vistazo rápido a la puntuación R-Squared:

In [26]:
print("R-squared:", polynomial_model.rsquared)

R-squared: 0.9514426069911689


Esa es una puntuación R-Squared_ mejor que la obtenida con el modelo anterior, ¡excelente! Ahora podemos decirle con confianza a nuestro veterinario que dé prioridad a los perros que comieron una dieta rica en proteínas la noche anterior.

Tracemos nuestro modelo como un gráfico 3D. vamos a ver X y X^2 como dos parámetros separados. Tenga en cuenta que si gira el elemento visual a la derecha, nuestro modelo de regresión sigue siendo un plano. Esta es la razón por la que los modelos polinómicos todavía se consideran modelos lineales.

In [27]:
import numpy as np
fig = graphing.surface(
    x_values=np.array([min(dataset.protein_content_of_last_meal), max(dataset.protein_content_of_last_meal)]),
    y_values=np.array([min(dataset.protein_content_of_last_meal)**2, max(dataset.protein_content_of_last_meal)**2]),
    calc_z=lambda x,y: polynomial_model.params[0] + (polynomial_model.params[1] * x) + (polynomial_model.params[2] * y),
    axis_title_x="x",
    axis_title_y="x2",
    axis_title_z="Core temperature"
)
# Add our datapoints to it and display
fig.add_scatter3d(x=dataset.protein_content_of_last_meal, y=dataset.protein_content_of_last_meal**2, z=dataset.core_temperature, mode='markers')
fig.show()

    Extrapolando 
Veamos qué sucede si extraplacamos nuestros datos. Nos gustaría ver si se espera que los perros que comieron alimentos incluso más ricos en proteínas se enfermen aún más. 

Comencemos con la regresión lineal. Podemos establecer a qué rango nos gustaría extrapolar nuestros datos usando el argumento x_range en la función de trazado. Extrapolemos sobre el rango [0,100]:

In [28]:
# Show an extrapolated graph of the linear model
graphing.scatter_2D(dataset, label_x="protein_content_of_last_meal", 
                             label_y="core_temperature",
                             # We extrapolate over the following range
                             x_range = [0,100],
                             trendline=lambda x: simple_model.params[1] * x + simple_model.params[0])

A continuación, extrapolamos la regresión polinomial sobre el mismo rango:

In [29]:
# Show an extrapolated graph of the polynomial model
graphing.scatter_2D(dataset, label_x="protein_content_of_last_meal", 
                             label_y="core_temperature",
                             # We extrapolate over the following range
                             x_range = [0,100],
                             trendline=lambda x: polynomial_model.params[2] * x**2 + polynomial_model.params[1] * x + polynomial_model.params[0])

¡Estas dos gráficas predicen dos cosas muy diferentes! 

La regresión polinómica extrapolada espera que la temperatura central disminuya, mientras que la regresión lineal extrapolada espera que la temperatura central aumente. Una mirada rápida a los gráficos obtenidos en el ejercicio anterior confirma que deberíamos esperar que la temperatura central aumente a medida que aumenta el contenido de proteínas de la última comida, no que disminuya. 

En general, no se recomienda extrapolar a partir de una regresión polinomial a menos que tenga una razón a priori para hacerlo (que rara vez ocurre, por lo que es mejor pecar de precavido y nunca extrapolar a partir de regresiones polinómicas)