![imagenes](logo.png)

## Geometría analítica

Antes de avanzar, recordemos nuestros cursos de Geometría Analítica: toda recta en el plano es una ecuación de la forma $$y=mx+b$$ donde 

* $b$ se conoce como *ordenada al origen* y es el valor sobre el eje Y en que en la recta lo atraviesa. En regresión lineal se le llama *intercepto*.

* $m$ se conoce como *pendiente de la recta* y se identifica como la tangente inversa del ángulo que hace la recta con el eje X. En cristiano: $m$ mide la inclinación de la recta. También en regresión lineal se llama pendiente. Si $m>0$ la recta va hacia arriba; si $m<0$ la recta va hacia abajo; si $m=0$, la recta es horizontal.

Observa la interacción del archivo **geogebra-recta_pendiente_origen.ggb** de nuestro repositoria [que mostramos aquí con GeoGebra](https://github.com/scidatmath2020/Inferencia-Estad-stica-2022/blob/main/geogebra-recta_pendiente_origen.ggb)

Por lo tanto, **hallar la ecuación de una recta equivale a hallar los valores de $m$ y $b$**.

# Regresiones lineales

Las regresiones son maneras de *modelar* una característica medida utilizando otras, también medidas, de la misma muestra con el objetivo de crear predicciones. Esto es: si $X_1,X_2,...,X_n,X_{n+1}$ son algunas de las columnas de la tabla, encontrar una función $f$ tal que $X_{n+1}=f(X_1,X_2,...,X_n)$. En cristiano: **¿será posible explicar el comportamiento de una de las características a través del conocimiento de otras?**

Bajo la idea anterior, decimos que las características $X_1,X_2,...,X_n$ son **explicativas** o **predictoras** y la característica $X_{n+1}$ es la **variable objetivo** o **a predecir**.  

# Regresión lineal simple

En esta sección platicaremos de un problema de regresión muy sencillo conocido como **regresión lineal**. Observemos la siguiente nube de puntos: 

<img src="im022.png" style="display:block; margin:auto;">

Debido a su forma, vale preguntarse cuál será la recta que mejor se aproxime, en algún sentido, a todos los puntos al mismo tiempo.

Observemos varias rectas graficadas con la nube de puntos. ¿Cuál dirías que es la que más se *ajusta* a todos los puntos al mismo tiempo?

<img src="im023.png" style="display:block; margin:auto;">

De esta manera, sean $X$ y $Y$ dos características de tu población. Decimos que el modelo que explica a $Y$ a través de $X$ es lineal si tenemos razones para pensar que existen números $\beta_0$ y $\beta_1$ tales que $Y=\beta_0+\beta_1X+\varepsilon$ donde $\varepsilon$ es una variable aleatoria gaussiana con media 0 (un ruido blanco).

## Mínimos cuadrados

Recordemos nuestro objetivo: tenemos una lista de parejas de puntos $(x_1,y_1),(x_2,y_2),...,(x_n,y_n)$. Los graficamos como nube de puntos y buscamos la recta que mejor aproxime, en cierto sentido, a todos los puntos al mismo tiempo. 

En principio, cualquier recta $y=mx+b$ es una recta que podemos tomar como aproximación. Por lo tanto, a cada $x_i$ se le asignan dos números: el $y_i$ (que es un valor que conocemos) y el $\hat{y_i}=mx_i+b$, que es el valor que nos da la recta para ese número $x_i$.

* **Predicciones.** Son los valores $\hat{y_1},\hat{y_2},...,\hat{y_n}$. Es decir, los valores que *la recta predice*.

* **Residuos.** ¿Qué tanto se equivocó la recta? Recordemos: la recta le asigna a $x_i$ el valor $\hat{y_i}$. Pero el valor verdadero que acompaña a $x_i$ es $y_i$. Los residuos son los errores que la recta cometió: $\varepsilon_i=y_i-\hat{y_i}$.

Por lo tanto tenemos el siguiente resultado:

Si $(X_1,Y_1),(X_2,Y_2),...,(X_n,Y_n)$ son una muestra de tamaño $n$ de la característica $(X,Y)$ (es decir, $n$ renglones de tu tabla tomando solo las columnas $X$ y $Y$), entonces los estimadores para $\beta_0$ y $\beta_1$ de la recta de mínimos cuadrados son $$b_1=\frac{\sum(X_i-\overline{X})(Y_i-\overline{Y})}{\sum(X_i-\overline{X})^2}\,\,\mbox{ y 
}\,\,b_0=\overline{Y}-b_1\overline{X}$$

## Tipos de anomalías en regresiones lineales

Las observaciones anómalas pueden provocar que se malinterpreten patrones en el conjunto de datos. Además, puntos aislados pueden tener una gran influencia en el modelo de regresión, dando resultados completamente diferentes. Por ejemplo, pueden provocar que nuestro modelo no capture características importantes de los datos. 

Por ello, es importante detectarlas.

Existen tres tipos de observaciones anómalas:

* **Leverages.** son observaciones con un valor anómalo de las variables de control. No tienen por qué afectar los coeficientes de la regresión.

* **Outliers de regresión** son observaciones que tienen un valor anómalo de la variable $Y$, condicionado a los valores de sus variables independientes $X_i$. Tendrán un residuo muy alto pero no pueden afectar demasiado a los coeficientes de la regresión.

* **Observaciones influyentes** son aquellas que tienen un leverage alto; son outliers de regresión y afectan fuertemente a la regresión.

<img src="im024.png" style="display:block; margin:auto;">


## Regresión lineal con puntos influyentes

Como ya dijimos, estos los puntos influyentes son precisamente los renglones de la tabla que pueden cambiar drásticamente la regresión lineal. Para ejemplificarlo, utilizaremos la tabla **cisne.csv** de nuestro repositorio de datos.

En general, existen varios métodos de regresión lineal robusta. En esta sección estudiaremos tres de ellos.

Recordemos que el problema de Regresión lineal usual consiste en minimizar $$\sum_{i=1}^n\varepsilon_i^2$$

### Desviación absoluta mínima: LAD

Consiste en minimizar $$\sum_{i=1}^n|\varepsilon_i|$$

### Mínimos cuadrados medianos: LMS

Consiste en minimizar $$mediana(\varepsilon_i^2)$$

### Mínimos cuadrados recortados: LTS

Consiste en minimizar $$\sum_{i=1}^h(\varepsilon_i)^2$$

donde $h=n/2$ y los errores se ordenan de menor a mayor.


### Implementación en R y Python.

Puedes revisar los scripts reg_lineal_robusta de nuestro repositorio de auxiliares: https://github.com/scidatmath2020/An_rob_2025/tree/main/auxiliares