# **Para saber más: estimación de la regresión lineal simple**

La regresión lineal fue la metodología que ajustó la mejor línea que representa linealmente la interacción entre X e Y; en nuestro caso, el tamaño del área del primer piso y el precio de venta de la casa.

Vale la pena repasar cada componente de la regresión lineal:

## **Función**

![imagen](http://cdn3.gnarususercontent.com.br/2145-data-science-probando-relaciones-con-regresion-lineal/Imagenes/5.IMG1-ParaSaberMasEquacion.png)

- **Variable Respuesta (Y):** También llamada variable dependiente, es aquella que estamos tratando de predecir.
- **Intercepto (β₀):** El punto donde la línea de regresión intercepta el eje vertical (Y), es decir, el valor de Y cuando X es igual a 0.
- **Variable Explicativa (X):** También llamada variable independiente, es el factor que usamos para predecir y explicar la variable respuesta.
- **Coeficientes de Regresión (β₁):** Impacto de cada variable explicativa X en la variable respuesta, es el efecto de X en Y.
- E**rror Residual (e):** Diferencia entre los valores reales y previstos de la variable respuesta.

## **Coeficientes**

La relación lineal entre las variables X e Y se representa gráficamente por una línea. Este proceso de encontrar la línea ideal implica minimizar la distancia entre los puntos reales y la propia línea.

El ajuste de la línea de regresión lineal se simplifica mediante el método de los mínimos cuadrados. Este método tiene como objetivo encontrar la línea que mejor se ajusta a los datos observados, minimizando la suma de los cuadrados de las diferencias entre los valores reales y los valores previstos por la línea y calculando los coeficientes del modelo.

![imagen1](http://cdn3.gnarususercontent.com.br/2145-data-science-probando-relaciones-con-regresion-lineal/Imagenes/5.IMG2-ParaSaberMasGrafico.png)

# **Para saber más: explicabilidad**

El coeficiente de determinación, frecuentemente llamado R², es una medida estadística que indica cuánto de la variabilidad de la variable dependiente (respuesta) es explicada por el modelo de regresión lineal.

## **Interpretando el R**²

Varía de 0 a 1, un valor cercano a 1 indica que el modelo se ajusta bien a los datos, explicando la mayor parte de la variación en la variable dependiente/respuesta. Por otro lado, un valor cercano a 0 indica que el modelo no puede explicar mucha variación en la variable dependiente/respuesta.

## **Usando en la prueba**

Además, el R² puede ser utilizado para comparar el rendimiento del modelo en diferentes conjuntos de datos, como entrenamiento y prueba. Esto ayuda a identificar problemas de sobreajuste (overfitting) o subajuste (underfitting). Idealmente, deseamos que el R² sea consistente entre los conjuntos de entrenamiento y prueba, indicando una buena capacidad de generalización del modelo para nuevos datos.

## **Fórmula**

Una de las fórmulas del R² puede ser representada por la razón entre la variación explicada y la variación total. Por eso decimos que cuanto más cerca de 1, mejor es la adecuación del modelo, ya que la variación explicada será más cercana a la variación total en esta razón.

![imagen2](http://cdn3.gnarususercontent.com.br/2145-data-science-probando-relaciones-con-regresion-lineal/Imagenes/7.ParaSaberMas.png)

# **Importancia de las variables**

Imagina que eres un(a) analista de datos trabajando en el Banco Bytebank. Este banco desea ofrecer a sus clientes préstamos con tasas de interés más precisas, basadas en un análisis detallado del valor de las propiedades. Para ello, debes desarrollar un modelo de regresión lineal que pueda predecir el precio de venta de casas en función de diversas características.

Inicialmente, ajustaste un modelo, utilizando solo el tamaño del primer piso como variable. Sin embargo, para mejorar tu modelo, decides explorar otros factores que pueden influir en el precio de venta, utilizando la herramienta pairplot para visualizar las relaciones entre estas variables y el precio.

**¿Cuál de las siguientes afirmaciones describe mejor la importancia de incluir múltiples variables explicativas en el modelo de regresión lineal?**

**RESPUESTA:**

Al agregar más variables explicativas relacionadas con el precio de venta de las casas, el modelo se vuelve menos propenso a sesgos, ya que considera una gama más amplia de características que afectan el valor de la propiedad, proporcionando estimaciones más precisas.

> *La inclusión de más variables explicativas puede ayudar a reducir el sesgo y mejorar la precisión del modelo, considerando una variedad más amplia de factores que influyen en el precio de una propiedad.*

# **El papel del R² en la selección del modelo**

En un proyecto de análisis de datos, un científico de datos compara cuatro modelos estadísticos para predecir el precio de las casas. Cada modelo utiliza un conjunto diferente de variables explicativas. El científico observa que los modelos con más variables tienen valores de R² más altos, pero es consciente de que esto puede no ser el único factor para elegir el mejor modelo. Con base en esta situación, **¿cuál de las siguientes afirmaciones es la más adecuada para seleccionar el modelo más apropiado?**

**Respuesta:**

Prefiera el modelo con el R² ajustado más alto, ya que este tiene en cuenta el número de variables explicativas, ayudando a evitar el sobreajuste.

> *El R² ajustado es una medida más robusta que el R² simple, ya que penaliza la inclusión de variables que no contribuyen significativamente al modelo. Esto ayuda a equilibrar la complejidad del modelo con su capacidad explicativa, proporcionando una base más sólida para la elección del modelo.*

# **Para saber más: refinando la selección de modelos**

En la clase sobre comparación de modelos de regresión lineal, exploramos cómo evaluar y seleccionar el modelo más adecuado utilizando el R² y otros criterios. Además de la selección manual que discutimos, existen métodos automáticos de selección de variables que pueden ser extremadamente útiles en situaciones donde el número de variables explicativas es grande. Estos métodos, como stepwise, backward y forward selection, siguen criterios predefinidos para agregar o eliminar variables del modelo de forma iterativa. Explora a continuación los métodos automáticos de selección de variables, que buscan equilibrar la complejidad del modelo y su capacidad explicativa.

- El método de forward selection comienza con un modelo sin variables explicativas y agrega una a una, eligiendo en cada paso la variable que más mejora el modelo de acuerdo con un criterio estadístico específico, como el menor valor de p-valor o el mayor aumento en el R² ajustado.
- El backward selection inicia con todas las variables posibles en el modelo y, de manera iterativa, elimina la variable que menos contribuye al modelo, nuevamente basándose en criterios como el p-valor o el impacto en el R² ajustado.
- El stepwise selection es una combinación de los dos métodos anteriores, donde las variables pueden ser agregadas o eliminadas en cada paso, dependiendo de su contribución a la mejora del modelo.

Estos métodos de selección automática son herramientas poderosas que ayudan en la identificación del modelo más parsimonioso, es decir, aquel que puede explicar los datos de manera eficiente sin ser excesivamente complejo. Sin embargo, es crucial que el científico de datos comprenda y supervise el proceso, ya que la elección automática puede, a veces, introducir sesgo o sobreajuste, especialmente si el criterio de selección no es bien elegido o si el modelo no es validado adecuadamente con datos nuevos o de prueba.

# **Comparación entre R² de entrenamiento y prueba**

El coeficiente de determinación (R²) es una métrica fundamental en modelos de regresión, ya que indica la proporción de la varianza en la variable de respuesta que es explicada por las variables explicativas. Considerando este contexto, ¿por qué es importante comparar el R² calculado con los datos de entrenamiento y también con los datos de prueba en modelos de regresión? Elige la alternativa correcta.

**Respuesta:**

Para determinar si el modelo está sobreajustado a los datos de entrenamiento (overfitting), perdiendo la capacidad de generalización.

> Comparar el R² de entrenamiento y prueba ayuda a identificar si el modelo está sobreajustado a los datos de entrenamiento (overfitting), lo que perjudica su capacidad de generalización. Si hay una diferencia muy grande entre los valores de entrenamiento y prueba, puede indicar que el modelo está siendo influenciado por patrones específicos de los datos de entrenamiento que no son generalizables a los datos de prueba.

# **Para saber más: guardando el modelo en un archivo**

Al desarrollar modelos de regresión con Statsmodels, es común querer guardar estos modelos para uso futuro, ya sea para implementación en producción, compartir con otros miembros del equipo o simplemente para respaldo. Una manera conveniente de hacer esto en Python es usando la biblioteca `pickle`, que permite serializar objetos de Python en archivos y deserializarlos de vuelta a objetos de Python. Esta biblioteca no necesita ser instalada, ya que viene por defecto en Python.

Vamos a explorar cómo guardar un modelo de regresión lineal de Statsmodels con la biblioteca `pickle` y luego cómo leer el archivo.

## **Cómo guardar el Modelo con Pickle**

Después de entrenar el modelo, podemos guardarlo en un archivo usando la biblioteca pickle. Para ello, es necesario importar la biblioteca y luego podemos usar la función `pickle.dump()`, indicando el modelo y el archivo como parámetros.



```
import pickle

# Nombre del archivo donde se guardará el modelo
nombre_archivo = 'modelo_regresion_lineal.pkl'

# Guardar el modelo en un archivo usando pickle
with open(nombre_archivo, 'wb') as archivo:
    pickle.dump(modelo, archivo)
```



## **Cargar el Modelo de vuelta con Pickle**

Después de guardar el modelo, podemos cargarlo de vuelta para uso posterior. Para hacer esto, simplemente usamos el método [pickle.load()](https://docs.python.org/3/library/pickle.html#pickle.load) utilizando el archivo como parámetro de la función.



```
# Cargar el modelo de vuelta del archivo
with open(nombre_archivo, 'rb') as archivo:
    modelo_cargado = pickle.load(archivo)
```



A partir de la lectura del archivo, es posible utilizar el modelo para hacer predicciones y verificar métricas de la misma manera que usamos el modelo original.

Para más detalles sobre el uso de la biblioteca pickle, consulte la [documentación](https://docs.python.org/3/library/pickle.html).

# **Estrategia para la optimización de modelos de regresión**

Ana está analizando la multicolinealidad en su modelo de regresión lineal, que fue construido para predecir los precios de inmuebles en función de varias características. Ella notó que dos variables, "existe_segundo_andar" y "area_segundo_andar", tienen VIFs de 7.455059 y 7.589396, respectivamente. ¿Cuál de las siguientes afirmaciones describe mejor la situación y los pasos que Ana puede tomar para abordar el problema de multicolinealidad?

**Respuestas:**

1. Los VIFs muestran una fuerte evidencia de multicolinealidad. Ana puede considerar combinar ambas en una sola variable.

> *Combinar ambas características en una sola variable es una posibilidad viable para resolver el problema de la multicolinealidad, pero también tiene desventajas. La principal es la pérdida de interpretabilidad. Al combinar variables, puedes perder la capacidad de entender cómo cada variable original contribuye individualmente a explicar la variable dependiente. Además, no hay garantía de que la combinación de variables resolverá completamente el problema de la multicolinealidad, especialmente si hay múltiples variables altamente correlacionadas que contribuyen a la complejidad del modelo...*

2. Los VIFs muestran una fuerte evidencia de multicolinealidad. Ana puede considerar eliminar una de las variables para reducir la multicolinealidad.

> *Los valores de VIF superiores a 5 generalmente indican una fuerte multicolinealidad, sugiriendo que las variables están correlacionadas y pueden influir negativamente en la interpretación de los coeficientes del modelo. Al eliminar o combinar variables correlacionadas, Ana puede mejorar la precisión y la interpretabilidad de su modelo de regresión lineal.*

# **Para saber más: entendiendo la heterocedasticidad**

Cuando nos sumergimos en el universo del análisis de datos, un concepto fundamental que encontramos con frecuencia es la regresión lineal. Esta técnica nos permite entender relaciones y prever tendencias basándonos en datos existentes. Sin embargo, al aplicar la regresión lineal, es crucial estar atentos a la heterocedasticidad, una característica que puede afectar significativamente la interpretación de los resultados.

## **¿Qué es la Heterocedasticidad?**

La heterocedasticidad es un término utilizado en estadística para describir una situación en la que la varianza de los errores (o residuos) de un modelo de regresión no es constante a lo largo del rango de valores previstos. En términos simples, si la dispersión de los residuos varía en diferentes niveles del predictor, estamos ante la heterocedasticidad. Esto es un problema porque la mayoría de los métodos de regresión lineal asumen homocedasticidad, es decir, que los residuos tienen varianza constante en todos los niveles de los predictores.

![img1](http://cdn3.gnarususercontent.com.br/2145-data-science-probando-relaciones-con-regresion-lineal/Imagenes/6.ParaSaberMas.png)

## **¿Por qué es un Problema la Heterocedasticidad?**

La presencia de heterocedasticidad puede llevar a estimaciones de coeficientes ineficientes y a pruebas de hipótesis inválidas, comprometiendo la confiabilidad de las inferencias estadísticas. Aunque no afecta la imparcialidad o la consistencia de los estimadores de mínimos cuadrados ordinarios, impacta en la eficiencia de estos estimadores, haciéndolos menos confiables.

## **Identificando la Heterocedasticidad**

Uno de los métodos más comunes para detectar la heterocedasticidad es a través del análisis visual de los residuos. Después de ajustar un modelo de regresión lineal, podemos graficar los residuos en función de los valores previstos. Si los residuos se dispersan de manera uniforme, sin formar patrones o embudos, el modelo probablemente presenta homocedasticidad. Por otro lado, si la dispersión de los residuos aumenta o disminuye con los valores previstos, esto indica heterocedasticidad.

## **¿Cómo Evaluar la Heterocedasticidad?**

Además de un análisis visual de los residuos, existen varias pruebas estadísticas para evaluar formalmente la presencia de heterocedasticidad, como la prueba de White y la prueba de Breusch-Pagan. Estas pruebas ayudan a cuantificar si la varianza de los residuos está relacionada con los valores previstos, proporcionando una base más sólida para decidir si la heterocedasticidad es una preocupación significativa en el modelo.

## **Tratando la Heterocedasticidad**

Si identificamos heterocedasticidad, se pueden adoptar varias enfoques para abordar el problema, como la transformación de variables (por ejemplo, logarítmica o raíz cuadrada) o el uso de técnicas de regresión robustas, que son menos sensibles a la varianza de los residuos.

## **Conclusión**

Al comprender e identificar la heterocedasticidad, podemos tomar medidas apropiadas para garantizar que nuestros análisis de regresión lineal sean confiables y válidos. Este cuidado nos permite hacer inferencias más precisas y fundamentadas, esenciales para la toma de decisiones basadas en datos.

# **Evaluando la dispersión de los residuos**

João está analizando la eficacia de un modelo de regresión utilizado para fijar precios de casas. Examinó un gráfico de dispersión de los residuos (diferencia entre los valores reales y estimados) en relación con los precios previstos de las casas. João se dio cuenta de que, aunque la mayoría de los residuos están alrededor de 0, la dispersión de los residuos aumenta a medida que el precio previsto de las casas aumenta. Ante este escenario, ¿qué indica esta observación sobre el modelo? Elige la alternativa correcta.

**Respuesta:**

A medida que el precio de las casas aumenta, el modelo se vuelve menos confiable, indicado por la mayor dispersión de los residuos.

> *Una dispersión creciente de los residuos en relación con el aumento del precio previsto indica que el modelo tiene dificultades para predecir con precisión casas de mayor valor. Esto sugiere que el modelo puede no estar capturando todas las variables o patrones relevantes para casas más caras, resultando en predicciones menos precisas para esos inmuebles.*

# **Para ir más profundo**

- [Documentación de Statsmodels - Regresión](https://www.statsmodels.org/stable/regression.html) (gratuito, inglés, texto/código)

> *Esta página proporciona una visión detallada de las funcionalidades de regresión disponibles en la biblioteca Statsmodels. Ideal para quienes buscan profundizar sus conocimientos en modelos estadísticos y análisis de datos en Python, la documentación presenta explicaciones técnicas, ejemplos de código e información sobre diferentes tipos de regresión, como la regresión lineal y logística.*

- [Análisis de Regresión - ESALQ](https://www.esalq.usp.br/biblioteca/sites/default/files/Analise_Regress%C3%A3o.pdf) (gratuito, portugués, texto)

> *Este documento de ESALQ aborda conceptos y aplicaciones del análisis de regresión, ofreciendo un material rico para estudiantes y profesionales del área de estadística. Con un enfoque didáctico, el texto discute los fundamentos de la regresión, incluyendo modelos lineales y no lineales, además de presentar ejemplos prácticos que ilustran la aplicación de estas técnicas en diferentes contextos.*

- [Guía Manga Análisis de Regresión - Google Libros](https://www.google.com.br/books/edition/Guia_Mang%C3%A1_An%C3%A1lise_de_Regress%C3%A3o/QWCHDwAAQBAJ?hl=pt-BR&gbpv=0) (de pago, portugués, texto)

> *El "Guía Manga Análisis de Regresión" es un enfoque innovador y lúdico para entender el análisis de regresión. Este libro combina ilustraciones al estilo manga con explicaciones técnicas, haciendo que el aprendizaje sea más accesible y divertido. Es una excelente opción para quienes buscan una introducción amigable a los conceptos de regresión, ideal para estudiantes y entusiastas que desean explorar esta área de las matemáticas y la estadística.*