### 1. ¿Qué es el R-cuadrado? 

El R-cuadrado es una medida estadística de qué tan cerca están los datos de la línea de regresión ajustada. También se conoce como coeficiente de determinación, o coeficiente de determinación múltiple si se trata de regresión múltiple.

La definición de R-cuadrado es bastante sencilla: es el porcentaje de la variación en la variable de respuesta que es explicado por un modelo lineal. Es decir:

R-cuadrado = Variación explicada / variación total

El R-cuadrado siempre está entre 0 y 100%:

- 0% indica que el modelo no explica ninguna porción de la variabilidad de los datos de respuesta en torno a su media.
- 100% indica que el modelo explica toda la variabilidad de los datos de respuesta en torno a su media.

### Limitaciones claves del R-Cuadrado
- El R-cuadrado no puede determinar si las estimaciones y predicciones de los coeficientes están sesgadas, y es por eso que se deben examinar las gráficas de residuos.

- El R-cuadrado no indica si un modelo de regresión es adecuado. Se puede tener un valor bajo del R-cuadrado para un modelo adecuado o un valor alto del R-cuadrado para un modelo que no se ajusta a los datos.

### R-cuadrado ajustado

- R2 ajustado es una medida corregida de bondad de ajuste (precisión de modelo) para los modelos lineales. Identifica el porcentaje de varianza en el campo de destino que se explica por la entrada o las entradas.

- R2 tiende a estimar de forma optimista el ajuste de la regresión lineal. Siempre aumenta a medida que el número de efectos se incluye en el modelo. R2 ajustado intenta corregir esta sobrestimación. R2 ajustado puede disminuir si un efecto específico no mejora el modelo.

- R cuadrado ajustado se calcula dividiendo el error cuadrático medio residual por el error cuadrático total (que es la varianza de muestreo del campo objetivo). A continuación, al resultado se le resta 1.

- R2 ajustado es siempre menor que o igual a R2. Un valor de 1 indica un modelo que predice perfectamente los valores en el campo de destino. Un valor que es menor o igual que 0 indica un modelo que no tiene ningún valor predictivo. En el mundo real, R2 ajustado se encuentra entre estos valores.

### 2. F-statistic 

La F-statistic es una medida que se usa en los análisis de regresión para evaluar si el modelo en su totalidad tiene una relación significativa con la variable dependiente. Básicamente, ayuda a determinar si las variables independientes (las que están explicando el modelo) realmente están aportando información valiosa para predecir la variable dependiente, o si podría ser que todo sea por azar.

- Un valor más alto sugiere que las variables del modelo están haciendo un buen trabajo al explicar la variación en la variable dependiente.

- **Prob (F-statistic)**: Esta es la probabilidad asociada con la F-statistic, **cuanto más cercano a 0 sea el valor de "Prob (F-statistic)" mejor**, más confianza tenemos de que las variables independientes explican significativamente la variación en la variable dependiente.

### 3. AIC (Criterio de información de Akaike):
- El AIC busca equilibrar el ajuste del modelo y su simplicidad.
- Un AIC más bajo significa que el modelo es mejor. Sin embargo, esto no significa que un AIC bajo sea siempre lo mejor, ya que puede implicar que el modelo es más complejo (más variables incluidas), lo que podría llevar a sobreajuste.

### 4. BIC (Criterio de información Bayesiano):
- El BIC también penaliza los modelos complejos, pero lo hace de manera más fuerte que el AIC.
- Al igual que el AIC, un BIC más bajo es mejor. Sin embargo, el BIC tiende a favorecer modelos más simples (menos parámetros) que el AIC.

### 5. Coeficientes y Significación
Cada fila en esta sección representa una variable independiente en el modelo, y la columna más importante aquí es P>|t|, que muestra el valor p de la prueba de hipótesis para cada coeficiente:

-  Si el p-value es menor a 0.05, se puede decir que la variable es significativa.

- Si es mayor a 0.05, la variable no es significativa y podría no tener un impacto claro en el modelo.

**Ejemplo**

**Coeficientes:**

- **const (intercepto):45.1925** → El valor promedio de MEDV cuando todas las variables independientes son 0.
- **CRIM: -0.1144 (p-value: 0.001)** → El coeficiente es negativo, lo que indica que un aumento en la tasa de criminalidad (CRIM) se asocia con una disminución en el valor de las viviendas. Es significativo.
- **ZN: 0.0571 (p-value: 0.001)** → Un aumento en la proporción de terrenos residenciales (ZN) está asociado con un aumento en MEDV. Es significativo.
- **INDUS: 0.0383 (p-value: 0.590)** → No es significativo.
- **CHAS: 2.4285 (p-value: 0.010)** → Si una vivienda está cerca del río Charles, aumenta el valor de la vivienda en 2.4285. Es significativo.
- **NOX: -21.2326 (p-value: 0.000)** → Un aumento en el óxido de nitrógeno (NOX) reduce considerablemente el valor de la vivienda. Es altamente significativo.
- **RM: 2.8772 (p-value: 0.000)** → A mayor cantidad de habitaciones (RM), mayor es el valor de la vivienda. Es altamente significativo.
- **AGE: 0.0069 (p-value: 0.662)** → No es significativo.
- **DIS: -1.4716 (p-value: 0.000)** → Mayor distancia a los centros de empleo reduce el valor de la vivienda. Es significativo.
- **RAD: 0.3058 (p-value: 0.000)** → Un coeficiente positivo y significativo; el índice de accesibilidad a carreteras radiales tiene un efecto positivo en el valor de la vivienda.
- **TAX: -0.0107 (p-value: 0.022)** → El coeficiente es negativo, lo que sugiere que los impuestos altos (TAX) reducen el valor de las viviendas. Es significativo.
- **PTRATIO: -0.9961 (p-value: 0.000)** → Un mayor índice de estudiantes por profesor (PTRATIO) reduce el valor de las viviendas. Es altamente significativo.
- **B: 0.0063 (p-value: 0.052)** → Casi significativo (p = 0.052). Indica que cuanto mayor sea este índice (que mide la proporción de la población negra), mayor será el valor de la vivienda.
- **LSTAT: -0.5574 (p-value: 0.000)** → A mayor porcentaje de personas con bajos recursos, menor es el valor de la vivienda. Es altamente significativo.

### 6. El Durbin-Watson (DW) 
Es una estadística que se utiliza para detectar la autocorrelación en los residuos (errores) de un modelo de regresión. La autocorrelación ocurre cuando los errores no son independientes entre sí, lo cual puede afectar la validez de los resultados del modelo.

**Interpretación básica:**
El estadístico de Durbin-Watson tiene un rango de valores entre 0 y 4:

- DW ≈ 2: Esto indica que no hay autocorrelación en los residuos. Es el valor ideal y el que buscas en un buen modelo.
- DW < 2: Indica que hay autocorrelación positiva en los residuos, lo que significa que los errores tienden a estar correlacionados en el mismo sentido (si un error es positivo, el siguiente también tiende a ser positivo).
- DW > 2: Indica que hay autocorrelación negativa, lo que significa que los errores tienden a alternarse entre positivo y negativo.

**Guía de interpretación de valores:**
- DW ≈ 2: No hay autocorrelación.
- DW < 1.5: Existe autocorrelación positiva.
- DW > 2.5: Existe autocorrelación negativa.

### 7. Cond. NO (Número de condición)
Es una métrica que indica el nivel de multicolinealidad entre las variables independientes (predictoras) en un modelo de regresión. La multicolinealidad ocurre cuando dos o más variables independientes están altamente correlacionadas, lo que puede causar problemas en la estimación de los coeficientes del modelo.

**Interpretación:**
- **Cond. No. < 10:** No hay multicolinealidad significativa, el modelo está bien.
- **Cond. No. entre 10 y 30:** Hay una moderada multicolinealidad, lo cual puede comenzar a afectar las estimaciones.
- **Cond. No. > 30:** Hay una alta multicolinealidad, lo que sugiere que algunos de los coeficientes del modelo pueden no ser fiables debido a la relación fuerte entre las variables independientes.

**Consecuencias de un alto Número de Condición:**
- Coeficientes inestables: Los coeficientes pueden variar mucho si cambias ligeramente los datos.
- Interpretación difícil: Es difícil interpretar los efectos de las variables individuales porque están demasiado correlacionadas entre sí.
- Menor precisión: Las predicciones del modelo pueden ser menos precisas.

**Soluciones para multicolinealidad:**
- Eliminar variables altamente correlacionadas.
- Transformar algunas variables (por ejemplo, crear combinaciones lineales de variables que están correlacionadas).
- Usar técnicas como la regresión Ridge o la regresión Lasso, que están diseñadas para manejar multicolinealidad.

### 8. Correlacion de Pearson(Coeficiente de correlacion de Perason)
 correlación de Pearson (o coeficiente de correlación de Pearson) es una medida estadística que indica la fuerza y dirección de la relación lineal entre dos variables continuas. Es una de las formas más comunes de evaluar si dos variables están relacionadas de manera lineal.

 **Interpretación del coeficiente de Pearson**
 El coeficiente de correlación de Pearson tiene un valor que oscila entre -1 y 1:

- r = 1: Correlación lineal perfecta positiva (las variables aumentan juntas).
- r = -1: Correlación lineal perfecta negativa (una variable aumenta mientras la otra disminuye).
- r = 0: No hay correlación lineal (no hay una relación lineal entre las variables).

**Rangos de interpretación:**
- 0.0 < r < 0.3: Correlación débil positiva.
- 0.3 ≤ r < 0.7: Correlación moderada positiva.
- 0.7 ≤ r ≤ 1.0: Correlación fuerte positiva.
- 0.0 > r > -0.3: Correlación débil negativa.
- -0.3 ≥ r > -0.7: Correlación moderada negativa.
- -0.7 ≥ r ≥ -1.0: Correlación fuerte negativa.

**Suposiciones de la correlación de Pearson:**
- Relación lineal: Las dos variables deben tener una relación lineal.
- Datos continuos: Las variables deben ser continuas (no categóricas).
- Normalidad: Las variables deben estar distribuidas normalmente.
- Homocedasticidad: La variabilidad de los datos debe ser similar a lo largo de la línea de ajuste.

### Test Assumption 

### 1. Linealidad
La linealidad es un supuesto fundamental en la regresión lineal, ya que implica que la relación entre las variables independientes (predictoras) y la variable dependiente es una combinación lineal. En términos sencillos, esto significa que los efectos de las variables predictoras se suman de manera lineal, sin interacciones o curvaturas complejas.

**Cómo comprobar la linealidad**
1. Gráficos de residuos frente a valores ajustados (fitted values)

### 2. Normalidad 
La normalidad de los errores significa que los residuos (es decir, las diferencias entre los valores observados y los predichos por el modelo) deben distribuirse de manera aproximadamente normal.

Esto no afecta directamente a la precisión de los coeficientes del modelo, pero sí es importante para realizar inferencias sobre los coeficientes (como el cálculo de valores p, intervalos de confianza y pruebas de hipótesis). En particular, los supuestos de la normalidad son importantes para la validez de la estadística 𝑡 y la estadística 𝐹 en los análisis de regresión.

**Cómo comprobar la normalidad de los errores**

**1. Gráfico Q-Q (Quantile-Quantile Plot)**
```
import statsmodels.api as sm

# Graficar Q-Q plot
sm.qqplot(residuals, line='45')
plt.title('Gráfico Q-Q de los residuos')
plt.show()
```
**2. Pruebas estadísticas: Prueba de Shapiro-Wilk**
    
La prueba de Shapiro-Wilk es una prueba estadística que evalúa la hipótesis nula de que los datos (en este caso, los residuos) provienen de una distribución normal.

Interpretación:

- Si el p-valor es mayor que 0.05, no se rechaza la hipótesis nula, lo que indica que los residuos pueden considerarse normalmente distribuidos.
- Si el p-valor es menor que 0.05, se rechaza la hipótesis nula, lo que sugiere que los residuos no son normales.

### 3. Homoscedasticidad 
En términos simples, la homoscedasticidad significa que los errores (residuos) están dispersos de manera similar para todos los valores de las variables predictoras. Si representamos un gráfico de residuos vs valores ajustados, los residuos deben estar distribuidos uniformemente alrededor de cero, sin formar un patrón de "abanico" o "embudo".

- **Homoscedasticidad:** Los residuos tienen varianza constante a lo largo de los valores predichos.
- **Heterocedasticidad:** La varianza de los residuos cambia dependiendo del valor predicho o de las variables independientes (por ejemplo, se agranda o se reduce).

**Cómo comprobar la homoscedasticidad**

1. **Prueba de Breusch-Pagan**
La prueba de Breusch-Pagan es una prueba estadística que evalúa la presencia de heterocedasticidad. Esta prueba verifica si los residuos están relacionados con las variables independientes. Si el p-valor de la prueba es menor que 0.05, se rechaza la hipótesis nula de homoscedasticidad, lo que indica la presencia de heterocedasticidad.

Interpretación:

- Si el p-valor es mayor que 0.05, no se rechaza la hipótesis nula, lo que sugiere homoscedasticidad.
- Si el p-valor es menor que 0.05, se rechaza la hipótesis de homoscedasticidad y existe heterocedasticidad.

### 4. Multicolinealidad 

Es un problema que ocurre en los modelos de regresión cuando dos o más variables independientes están altamente correlacionadas entre sí. En otras palabras, hay una redundancia de información entre las variables explicativas, lo que dificulta al modelo estimar correctamente los coeficientes de regresión.

**Causas de la multicolinealidad**

La multicolinealidad puede surgir de varias maneras:

1. **Variables altamente correlacionadas:** Si las variables independientes están fuertemente correlacionadas entre sí (por ejemplo, tamaño de la casa y número de habitaciones).

2. **Exceso de variables en el modelo:** Incluir demasiadas variables relacionadas puede crear redundancias en el modelo.

3. **Variables derivadas:** Si algunas variables independientes se derivan de otras (por ejemplo, incluir tanto el cuadrado como el valor original de una variable en el modelo).

**Cómo detectar la multicolinealidad**
1. Factor de inflacion de la varianza (VIF)
El Factor de Inflación de la Varianza (VIF) es una medida cuantitativa utilizada para detectar la multicolinealidad. Evalúa cuánto aumenta la varianza de un coeficiente debido a la colinealidad con otras variables. Un valor de VIF alto indica multicolinealidad.

Interpretación:

- Un VIF menor que 5 indica baja multicolinealidad (generalmente aceptable).
- Un VIF mayor que 5 sugiere multicolinealidad moderada.
- Un VIF mayor que 10 indica una multicolinealidad severa.

### La curva de distribución normal o «Campana de Gauss»

![image.png](attachment:image.png)

La distribución normal es una distribución de probabilidad de variable continua que describe los datos que se agrupan en torno a un valor central. Todo proceso en el que solo existan causas aleatorias de variación sigue una ley de distribución normal. Esta condición que aparece con frecuencia en fenómenos naturales (de ahí que se la denomine “normal”), puede obtenerse en los procesos industriales si los procesos se llevan a un esta do en el que solo existen causas comunes de variación

Una distribución normal se caracteriza por:

1. Los valores de las mediciones tienden a agruparse alrededor de un punto central, la media

2. La representación de los datos es simétrica a ambos lados de la media

3. Las desviaciones estándares quedan situadas a igual distancia unas de otras

4. La proporción de mediciones situada entre la media y las desviaciones es una constante en la que:

      - La media ± 1 * desviación estándar = cubre el 68,3% de los casos
      - La media ± 2 * desviación estándar = cubre el 95,5% de los casos
      - La media ± 3 * desviación estándar = cubre el 99,7% de los casos

### IQR (Rango Intercuartílico)

IQR es otro método sólido para etiquetar los valores atípicos. El método IQR (rango intercuartílico) de la detección de valores atípicos fue desarrollado por John Tukey, pionero del análisis de datos de exploración. Esto ocurría cuando el cálculo y trazado se realizaba a mano, con conjuntos de datos normalmente pequeños y en los que el énfasis estaba en entender la historia que contaban los datos.

Un diagrama de caja y bigotes usa los cuartiles (puntos que dividen los datos en cuatro grupos del mismo tamaño) para trazar la forma de los datos. El cuadro representa los cuartiles primero y tercero, que son iguales a los percentiles 2 y 75. La línea del interior del cuadro representa el segundo cuartil, que es la mediana.

El rango intercuartílico, que da nombre a este método de detección de valores atípicos, es el rango entre el primer y el tercer cuartil (los bordes de la caja). Tukey pensó que cualquier punto de datos que quedara fuera de o bien 1,5 veces el IQR por debajo del primer cuartil, o 1,5 veces el IQR por encima del tercer cuartil, estaría fuera o sería lejano. En un diagrama de caja y bigotes, los bigotes se amplían hasta el último punto de datos que no quede fuera.

El rango intercuartílico (IQR) es una medida de variabilidad, basada en la división de un conjunto de datos en cuartiles. Los cuartiles dividen un conjunto de datos clasificados en cuatro partes iguales. T1, T2 y T3. IQR se define como Q3–Q1, y los datos que quedan fuera de Q3+1,5xIQR o de Q1-1,5xIQR se consideran valores atípicos.

![image.png](attachment:image.png)

# Modelo de Regresion 

Es una funcion que nos permite explicar entre una o multiples variables y una varible objetivo, que nos permite predecir una variable en función de otras variables.

Las metricas nos sirve para evaluar modelos lineales como no lineales

![image.png](attachment:image.png)

### MSE(Mean Squared ERROR)

El error cuadrático(MSE) mide el promedio de los errores elevados al cuadrado.

El hecho que el MSE es casi siempre estrictamente positivo(y no zero) es debido a la aleatoriedad o a que el estimador carece de información con la que pueda producir una mejor estimación.

**Ideas Generales**:

Supongamos que tenemos siete puntos, nuestro objetivo es encontrar la línea que minimiza la suma de las distancias elevadas al cuadrado de estos puntos.

Tratemos de comprender esto.

Tomemos un ejemplo y tracemos una línea en medio de siete puntos aleatorios.

![image.png](attachment:image.png)

Podrías estar preguntándote ¿Qué significa esta gráfica?

- **Los puntos púrpuras** son los siete puntos aleatorios en la gráfica. Cada punto posee una coordenada X y una coordenada Y.
- **La línea azul** es nuestra línea de predicción. Es una línea que pasa a través de todos los puntos y que se ajusta a ellos de la mejor manera posible, de este modo esta línea contiene todos los puntos.
- **La línea roja** entre cada punto púrpura y la línea de predicción son los errores. Cada error es la distancia desde el punto hasta su punto estimado.

### MAE 

El MAE (Mean Absolute Error) o Error Absoluto Medio es una métrica utilizada para medir el error promedio entre los valores predichos por un modelo y los valores reales. A diferencia del MSE (Error Cuadrático Medio), el MAE toma la diferencia absoluta entre los valores predichos y los reales, lo que significa que no penaliza los errores grandes de manera tan severa como el MSE.

**Interpretación del MAE**
- **MAE pequeño:** Indica que el modelo tiene alta precisión, ya que la media de los errores absolutos es pequeña.
- **MAE grande:** Sugiere que el modelo tiene baja precisión, con grandes diferencias en promedio entre las predicciones y los valores reales.

**Diferencias entre MSE y MAE:**
- **MSE (Error Cuadrático Medio):** Penaliza errores grandes de forma más severa debido a que los errores están elevados al cuadrado.
- **MAE (Error Absoluto Medio):** Penaliza todos los errores de manera uniforme y es menos sensible a outliers, ya que solo toma el valor absoluto de los errores.

### RMSE (ROOT MEAN SQUARED ERROR) 
Es una métrica que mide el error promedio de las predicciones del modelo, pero en las mismas unidades que los datos originales, lo que facilita su interpretación. Es útil porque penaliza de manera más severa los errores grandes que otras métricas como el MAE.

**Interpretación del RMSE:**
- RMSE pequeño: Indica que el modelo tiene alta precisión, es decir, las predicciones están muy cerca de los valores reales.
- RMSE grande: Indica que el modelo tiene baja precisión, es decir, las predicciones están lejos de los valores reales.