<img src="logo.png">

# Resumen de regresión lineal

En nuestro repositorio de scripts encontrarás el script [linear_reg_function.py](https://github.com/scidatmath2020/Inferencia_Estadistica_2024/blob/main/scripts/linear_reg_function.py) que es donde se han programado todos los pasos para nuestra regresión. Se sugiere utilizar el siguiente preámbulo de trabajo:

```python
################################################################
########################    EN PYTHON    #######################
################################################################

import os
ruta_funcion = # ruta donde descargaste la función
os.chdir(ruta_funcion)
from linear_reg_function import *

####################################################################

ruta_tabla = # ruta donde está tu tabla
os.chdir(ruta_tabla)

data = pd.read_csv(ruta_tabla)
Y = #nombre de la columna objetivo
predictores = #lista de nombres de las columnas predictoras

################################################################
```

## Planteamiento del modelo

### Paso 1. Establecer el modelo
Decidimos si trabajar con algunas columnas de la tabla o con el modelo con menor Índice de Akaike.

```python
################################################################
########################    EN PYTHON    #######################
################################################################

mi_regresion = linear_regression(data,Y,predictores,best_ml = True)

################################################################
```

donde

- ``best_ml=True`` indica que se buscará el modelo con menor índice de Akaike de entre todos los modelos posibles que se pueden establecer con las columnas ``predictores``; y ``best_ml=False`` indica que se trabajará con exactamente las columnas ``predictores`` y no se buscará el mejor modelo

### Construcción del modelo

```python
################################################################
########################    EN PYTHON    #######################
################################################################

claves = [
    "modelo", "parametros", "intervalos_de_confianza", "r2", "r2_adj", "AIC",
    "residuos", "residuos_qq", "residuos_histograma", "gaussianidad_residuos",
    "homocedasticidad_grafica", "bp_p_value", "resultado_bptest", "dw_stat",
    "resultado_dw", "p_value_tukey", "resultado_pval_tukey", 
    "residuos_parciales_grafica", "indices_alto_leverage", 
    "indices_outliers_significativos", "indices_alta_influencia", "predictores"
]

resultado = dict(zip(claves, mi_regresion))

################################################################
```

### Paso 2. Información de los parámetros del modelo.

Encontrar los valores estimados $b_0$, $b_1$,...,$b_k$ con sus intervalos de confianza y p-valores de significancia:

```python
################################################################
########################    EN PYTHON    #######################
################################################################

resultado["parametros"]  # da los coeficientes b_i

################################################################
```

### Paso 3. Calificación del modelo.

Encontrar los valores $R^2$, $R^2$ ajustado y el Índice de Akaike

```python
################################################################
########################    EN PYTHON    #######################
################################################################

resultado["r2"]  # da el valor de R2
resultado["r2_adj"] # da el valor de R2 ajustado
resultado["AIC"] # da el valor del Índice de Akaike

################################################################
```

## Diagnósticos de la regresión

### Paso 4.  Verificamos la normalidad de los residuos

Se aplican las pruebas de gaussianidad a los residuos

```python
################################################################
########################    EN PYTHON    #######################
################################################################

resultado["residuos"]  # devuelve los residuos
resultado["residuos_qq"] # devuelve el QQ-plot de los residuos
resultado["residuos_histograma"] # devulve el histograma de los residuos
resultado["gaussianidad_residuos"] # devuelve el resultado de las pruebas de gaussianidad a los residuos

################################################################
```

**Reglas de decisión**

$p$-valor|Decisión|Significado
:--|:--|:--
Pequeño|Rechazar $H_0$|Hay buena probabilidad de que **NO es gaussiana**
Grande|Rechazar $H_1$|Hay buena probabilidad de que **SÍ es gaussiana**

### Paso 5. Homocedasticidad de los residuos: Test de Breuch-Pagan

Se aplica la prueba de Breuch-Pagan al modelo.

```python
################################################################
########################    EN PYTHON    #######################
################################################################

resultado["homocedasticidad_grafica"] #devuelve el gráfico de la homocedasticidad
resultado["bp_p_value"] # devuelve el p-valor de la prueba de Breuch-Pagan
resultado["resultado_bptest"] # indica si hay o no homocedasticidad

################################################################
```

**Regla de decisión.** Observar un cielo estrellado en el gráfico de homocedasticidad y  

$p$-valor|Decisión|Significado
:--|:--|:--
Pequeño|Rechazar $H_0$|Hay buena probabilidad de que los residuos **NO sean homocedásticos**
Grande|Rechazar $H_1$|Hay buena probabilidad de que los residuos **SÍ sean homocedásticos**

### Paso 6. Residuos no correlacionados (independientes): Test de Durbin-Watson

Se aplica la prueba de Durbin-Watson al modelo.

```python
################################################################
########################    EN PYTHON    #######################
################################################################

resultado["dw_stat"] # devuelve el estadístico de la prueba de Durbin-Watson
resultado["resultado_dw"] # indica si hay o no incorrelación de los residuos

################################################################
```

**Regla de decisión**

$p$-valor|Decisión|Significado
:--|:--|:--
Pequeño|Rechazar $H_0$|Hay buena probabilidad de que los residuos **SÍ tengan autocorrelación**
Grande|Rechazar $H_1$|Hay buena probabilidad de que los residuos **NO tengan autocorrelación**

### Paso 7. Aditividad del modelo: Test de Tukey

Se aplica la prueba de Tukey al modelo

```python
################################################################
########################    EN PYTHON    #######################
################################################################

resultado["p_value_tukey"] # devuelve el p-valor de la Prueba de Tukey
resultado["resultado_pval_tukey"] # indica si hay o no aditividad en el modelo

################################################################
```

**Regla de decisión**

$p$-valor|Decisión|Significado
:--|:--|:--
Pequeño|Rechazar $H_0$|Hay buena probabilidad de que el modelo **NO es aditivo**
Grande|Rechazar $H_1$|Hay buena probabilidad de que el modelo **SÍ es aditivo**

### Paso 8. Linealidad del modelo

Se muestran las gráficas de residuos parciales

```python
################################################################
########################    EN PYTHON    #######################
################################################################

resultado["residuos_parciales_grafica"] # Se muestran las gráficas de residuos parciales

################################################################
```

Los residuos parciales se dibujan contra los valores de  $x_j$  y se hace su recta de regresión.

Si esta no se ajusta a la curva dada por una regresión no paramétrica suave (las variables independientes no están predeterminadas y se construyen con los datos), el modelo no es lineal.

### Paso 9. Observaciones anómalas

* **Leverages.** son observaciones con un valor anómalo de las variables de control. No tienen por qué afectar los coeficientes de la regresión.

* **Outliers de regresión** son observaciones que tienen un valor anómalo de la variable $Y$, condicionado a los valores de sus variables independientes $X_i$. Tendrán un residuo muy alto pero no pueden afectar demasiado a los coeficientes de la regresión.

* **Observaciones influyentes** son aquellas que tienen un leverage alto; son outliers de regresión y afectan fuertemente a la regresión.

Obtenemos los índices de las observaciones anómalas 
```python
################################################################
########################    EN PYTHON    #######################
################################################################

resultados["indices_alto_leverage"] # puntos de apalancamiento
resultados["indices_indices_outliers_significativos"] # puntos indices_outliers_significativos
resultados["indices_alta_influencia"] # puntos de alta influencia

################################################################
```


## Intervalos de confianza y significancia

Siempre es buena idea incluir los intervalos de confianza para los coeficientes $\beta_i$ y sus significancias

```python
################################################################
########################    EN PYTHON    #######################
################################################################

resultado["intervalos_de_confianza"]  # da los intervalos de confianza al 95%
resultado["modelo"].summary()  # resumen general del modelo

################################################################
```

Descripción|$p$-valor|Significado
:--|:--:|:--
¿Algún coeficiente es diferente de cero?|$<0.05$|Vale la pena hacer la regresión
¿Qué coeficientes no son cero?|$<0.05$|El coeficiente respectivo tiene efectos significativos


## Predicciones

### Paso 12.

Supongamos que llegan los nuevos $j$ datos que no fueron parte de las observaciones de nuestra tabla original:

$X_1$|$X_2$|...|$X_k$
:--:|:--:|:--:|:--:
$x_1^{(1)}$|$x_1^{(2)}$|...|$x_1^{(k)}$
$x_2^{(1)}$|$x_2^{(2)}$|...|$x_2^{(k)}$
...|...|...|...
$x_j^{(1)}$|$x_j^{(2)}$|...|$x_j^{(k)}$

Aquí, $x_{r}^{(s)}$ representa el valor de la característica $X_s$ del nuevo individuo $r$. 

Llama ``newdata`` a la tabla anterior. Es decir, la columna 1 son los valores de la característica $X_1$ en los nuevos individuos; la columna 2 son los valores de la característica $X_2$ en los nuevos individuos; etcétera. **Es importante que los nombres de las columnas coincidan con los nombres de las características las características**.

```python
################################################################
########################    EN PYTHON    #######################
################################################################

new_data = # tabla de nuevos valores
new_data = new_data[resultado["predictores"]]
new_data = sm.add_constant(new_data, has_constant='add')

prediccion = resultado["modelo"].get_prediction(new_data).summary_frame(alpha=0.05)

# Mostrar resultados
print("Intervalo de confianza:")
print(prediccion[['mean', 'mean_ci_lower', 'mean_ci_upper']])

print("\nIntervalo de predicción:")
print(prediccion[['mean', 'obs_ci_lower', 'obs_ci_upper']])

################################################################
```