<img src="logo.png">

## Pasos para una regresión lineal.

### Planteamiento del modelo

**Paso 1. Establecer el modelo**

Función|Descripción
:--:|:--
``resultado_regresion <- lm(nombre_variable_predictora~nombre_variable_1+nombre_variable_2+...+nombre_variable_k,data=tabla)``| Construye el modelo




**Paso 2. Establecer $R^2$.**

El valor de $R^2*100$ representa el porcentaje de la variabilidad total que es explicada por el modelo lineal.

Función|Descripción|Decisión
:--:|:--|:--
``summary(resultado_regresion)``|Muestra un resumen de la regresión|
``summary(resultado_regresion)$r.squared``|Muestra el $R^2$| Si es $>0.7$ se considera que vale la pena continuar
``summary(resultado_regresion)$adj.r.squared``|Muestra el $R^2$ ajustado| A mayor valor, mejor es el modelo

**Paso 3. Elegir el modelo mas simple (solo en el caso de regresión múltiple).**

Basado en el Coeficiente de información de Akaike, se elige el modelo con el menor AIC

Función|Descripción|Decisión
:--:|:--|:--
``step(resultado_regresion)``|Indica el mejor modelo|El nuevo modelo es modelo_simplificado que es el *call* del resultado del ``step``

Hacemos ``summary(modelo_simplificado)$r.squared`` para ver la nueva $R^2$. 

## Diagnósticos de regresión

**Paso 4. Verificamos la normalidad de los residuos**

**Paso 5. Homocedasticidad de los residuos**

**Paso 6. Independencia de los residuos**

## Intervalos de confianza y significancia

Siempre es buena idea incluir los intervalos de confianza para los coeficientes $\beta_i$ y su significancia.

**Paso 7. Intervalos de confianza de los coeficientes $\beta_i$**

Función|Descripción
:--|:--:
``confint(modelo_simplificado)``|Muestra los intervalos de confianza de los $\beta$'s


**Paso 8. Significación de los coeficientes $\beta_i$**

Función|Descripción|$p$-valor|Significado
:--:|:--|:--:|:--
``summary(modelo_simplificado)``|¿Algún coeficiente es diferente de cero?|$<0.05$|Vale la pena hacer la regresión
``summary(modelo_simplificado)``|¿Qué coeficientes no son cereo?|$<0.05$|El coeficiente respectivo tiene efectos significativos

Una vez que tienes los efectos significativos, los enuncias de acuerdo a la siguiente tabla:

Símbolo|Significado
:--:|:--
``*``|la variable $X_i$ tiene efectos significativos
``**``|la variable $X_i$ tiene efectos muy significativos
``***``|la variable $X_i$ tiene efectos fuertemente significativos
``.``|la variable $X_i$ probablemente tiene efectos significativos
`` ``|la variable $X_i$ no tiene efectos significativos

## Predicciones

**Paso 9.**

Supongamos que llegan los nuevos $j$ datos que no fueron parte de las observaciones de nuestra tabla original:

Individuo|$X_1$|$X_2$|...|$X_k$
:--:|:--:|:--:|:--:|:--:
1|$x_1^{(1)}$|a
2|$x_1^{(2)}$|b
...|...|c
$j$|$x_1^{(j)}$|c

**Problema final.** Se probó un modelo de simulación para el flujo máximo de agua de las cuencas hidrográficas comparando el flujo máximo medido de 10 tormentas con predicciones del flujo máximo obtenido del modelo de simulación. $Q_o$ y $Q_p$ son los flujos máximos observados y pronosticados, respectivamente. Se registraron cuatro variables independientes:

* **area.** Área de la cuenca (m^2),

* **pendiente.** Pendiente promedio de la cuenca (en porcentaje),

* **absorbencia.** Índice de absorbencia superficial (0 = absorbencia completa, 100 = sin absorbencia), y

* **intensidad.** Intensidad de pico de lluvia calculada en intervalos de media hora.

|$Q_o$ | $Q_p$| area| pendiente|absorbencia |intensidad|
|:--:|:--:|:--:|:--:|:--:|:--:|
|28|              32|              .03|             3.0|             70|              .6|
|112  |           142     |        .03  |           3.0    |         80 |             1.8|
|398  |           502      |       .13  |           6.5    |         65 |             2.0|
|772  |           790   |          1.00   |         15.0  |          60   |           .4|
|2294  |          3075|            1.00  |          15.0|            65|              2.3|
|2484   |         3230  |          3.00    |        7.0     |        67 |             1.0|
|2586    |        3535   |         5.00 |           6.0 |            62|              .9|
|3024   |         4265 |           7.00    |        6.5     |        56      |        1.1|
|4179   |         6529   |         7.00    |        6.5     |        56|              1.4|
|710    |         935  |           7.00   |         6.5   |          56   |           .7|


La tabla la encuentras en [flujos_pronosticados.csv]()


Tomemos $Y=\ln\left(\frac{Q_o}{Q_p}\right)$ como variable dependiente y consideramos la regresión de Y como función de area, pendiente, absorbencia e intensidad. Se pide:

**a)** Añadir la columna $Y$ a la tabla (sugerencia: si la columna se llama ``cociente`` y la tabla la llamaste ``mi_data``, entonces ``mi_data$cociente <- log(mi_data$Qo/mi_data$Qp)``) 

a) Estimar los valores los coeficientes de regresión.

b) Hallar un intervalo de confianza al 95% de confianza para los coeficientes de regresión.

c) Hallar el coeficiente de regresión y el coeficiente de regresión ajustado.

d) ¿Se puede disminuir el número de variables según AIC?

e) Estudiar la normalidad de los residuos.

f) Estudiar si los residuos son homocedásticos.

g) Estudiar la independencia de los residuos.

h) Contrastar la linealidad y la aditividad del modelo.

i) Hallar las observaciones "outliers", los "leverages" y las observaciones influyentes.

