# Aprendizaje automático

Consideremos que tenemos un conjunto de datos estructurados en una tabla (observaciones en filas y variables en columnas):

\begin{matrix}
    \hline
    \mathbf{X_1} & \mathbf{X_2} & \mathbf{X_3} & \cdots & \mathbf{X_d} & \mathbf{Y}\\    
    \hline
    x_{11} & x_{12} & x_{13} & \cdots & x_{1d} & y_1\\ 
    x_{21} & x_{22} & x_{23} & \cdots & x_{2d} & y_2\\
    \vdots & \vdots & \vdots & \cdots & \vdots & \vdots\\
    x_{N1} & x_{N2} & x_{N3} & \cdots & x_{Nd} & y_N\\    
    \hline
\end{matrix}

Llamamos a las variables $\mathbf{X_i}$ *características* de cada observación y a la variable $\mathbf{Y}$ *etiqueta*.

Considera los siguientes ejemplos:

**Iris**

In [None]:
head(iris)

In [None]:
tail(iris)

In [None]:
# La etiqueta es una variable categórica que tiene tres valores
unique(iris$Species)

**Titanic**

In [None]:
titanic <- read.csv("https://raw.githubusercontent.com/jbryer/CompStats/master/Data/titanic3.csv")
head(titanic)

In [None]:
# la etiqueta es una variable binaria que indica si el pasajero sobrevivió o no
unique(titanic$survived)

**Recursos humanos**

In [None]:
hr <- read.csv("hr.csv")
head(hr) 

In [None]:
str(hr) # índice de satisfacción, evaluación en el proyecto más reciente, número de proyectos (últimos doce meses), total de horas trabajadas (¿periodo?), tiempo en la compañía, el empleado fue padre/madre en el último año 

In [None]:
# La etiqueta es binaria e indica si el empleado abandonó a la compañía

**Ventas**

In [None]:
ventas <- read.csv("advertising.csv")
head(ventas)

La etiqueta es una variable numérica, continua.

In [None]:
casas <- read.csv("kc_house_data.csv")
head(casas)

## Objetivo del aprendizaje

El objetivo del aprendizaje automático es el de encontrar una función (regla) que permita predecir el valor de la etiqueta de una observación a partir de sus características.

Buscamos $$f(\mathbf{X}_1, \mathbf{X}_2, \ldots, \mathbf{X}_d) = \mathbf{Y}$$

A las características $\mathbf{X}_i$ también se les llama variables **predictoras**.

Distinguimos dos grandes tipos de problemas:

1. **Regresión**. Cuando la etiqueta es una variable numérica.
2. **Clasificación**. Cuando la etiqueta es categórica.

Enfrentar el objetivo del aprendizaje estadístico, de forma general, es una **tarea muy compleja**, por lo que es necesario abordar los problemas de manera gradual.


# Regresión lineal simple

En la regresión lineal simple, suponemos que nuestro conjunto de datos está compuesto por un solo predictor y una etiqueta numérica:

\begin{matrix}
    \hline
    \mathbf{X} & \mathbf{Y}\\    
    \hline
    x_{1} & y_1\\ 
    x_{2} & y_2\\
    \vdots & \vdots\\
    x_{N} & y_N\\    
    \hline
\end{matrix}

Suponemos que el **modelo** que relaciona a ambas variables es lineal:

$$Y = \alpha_0+\alpha_1X + \epsilon$$

Siendo $\epsilon$ una variable aleatoria con distribución normal, con media cero y varianza constante:

$$\epsilon \sim \text{N}(0, \sigma^2),$$

$\sigma^2$ es la varianza. 

En la siguiente celda, construimos un conjunto de datos bajo este modelo:

In [None]:
a0 <- 2
a1 <- -3.5
s <- 0.25

x <- runif(100)
e <- rnorm(100, 0, s)
y <- a0+a1*x+e

dat <- data.frame(x=x, y=y)
head(dat)

Construimos la gráfica de dispersión de las muestras y el modelo lineal

In [None]:
plot(dat$x, dat$y)
abline(a0,a1,col="red")

<font color="red">Actividad</font>

Modifica los tres parámetros del modelo y reconstruye la gráfica. Describe el papel de cada uno.

\begin{align}
    \alpha_0 &: \text{ Intersección.}\\
    \alpha_1 &: \text{ Pendiente.}\\    
    \sigma &: \text{ Desviación estándar del ruido.}
\end{align}

En la práctica, los parámetors del modelo son desconocidos y debemos estimarlos a partir de las muestras. 

La estimación se realiza con las siguientes expresiones:

\begin{align}
    \widehat{\alpha_1} &= \frac{s_{xy}}{s^2_{x}}\\
    \widehat{\alpha_0} &= \overline{y}-\widehat{\alpha_1}\overline{x}\\
\end{align}

siendo $s_{xy}$ la covarianza entre $x$ y $y$, $s^2_{x}$ la varianza de $x$, $\overline{x}$ la media muestral de $x$. Finalmente, $\overline{y}$ es la media muestral de la variable $y$.

En la siguiente celda estimamos los parámetros para los datos de ejemplo que generamos más arriba.

In [None]:
attach(dat)

In [None]:
s_xy <- cov(x, y)
s2_x <- var(x)

a1 <- s_xy/s2_x
a1

In [None]:
mx <- mean(x)
my <- mean(y)

a0 <- my-mx*a1
a0

Con estas estimaciones, **construimos el modelo**:

$$y=1.97-3.4x$$

para explicar la relación entre las variables en el conjunto de muestras que generamos.

## Predicciones

Una vez que estimamos los parámetros del modelo lineal, podemos realizar predicciones para una nueva característica ($x$):

$$\widehat{y} = \widehat{a_0}+\widehat{a_1}x$$

En nuestro ejemplo, si $x=0.8$, entonces el valor predicho por el modelo es:

In [None]:
xi <- 0.8 #predicción para un solo valor
a0+a1*xi

In [None]:
# valores predichos sobre el conjunto de datos
yp <- a0+a1*x
dat$yp <- yp
head(dat)

# Calidad del ajuste

Podemos evaluar la calidad del ajuste revisando las diferencias entre los valores predichos y los valores reales de las muestras disponibles. Para un valor $x_i$ del conjunto de muestras, definimos el error de predicción:

$$e_i = y_i-\widehat{y_i}$$


In [None]:
e <- y-yp # error de predicción (a veces es negativo y a veces positivo)
dat$e <- e
head(dat)

Desde luego, buscamos que el error de predicción sea mínimo y de hecho, se puede demostrar que los estimadores definidos arriba, minimizan la suma de error de predicción (al cuadrado) sobre el total de las muestras.

Puedes verificarlo en la siguientes celdas.

In [None]:
sum(e) #la suma de errores siempre será cero (puede demostrarse teóricamente)

In [None]:
# elevamos los errores al cuadrado para evitar su cancelación en la suma
sum(e^2)

In [None]:
# cualquier otra combinación de parámetros produce una suma de errores al cuadrado mayor
#incluso los valores con los que fueron generadas las muestras
a0 <- 2
a1 <- -3.5

yp <- a0+a1*x
e <- y-yp # error de predicción
sum(e^2)

<font color="red">Actividad</font>

Evalúa la suma de errores cuadrados para diferentes combinaciones de parámetros y verifica que ninguna combinación tiene una evaluación mayor al de los parámetros estimados con las fórmulas definidas arriba.

## Coeficiente de determinación

Una medida de la calidad del ajuste del modelo construido consiste en la evaluación del coeficiente de determinación:

$$R^2 = \frac{\sum_i (\widehat{y}_i-\overline{y})^2}{\sum_i(y_i-\overline{y})^2}$$

Este coeficiente está acotado: $R^2\in [0, 1]$.

In [None]:
# evalúa el coeficiente de determinación para los datos de ejemplo


In [None]:
# ajustar modelo por comando lm

<font color="red">Proyecto</font>

En este proyecto explorarás la regresión lineal simple para predecir el precio de venta de un inmueble a partir de la superficie construida. 

1. Construye una tabla de datos a partir del conjunto $\texttt{kc_house_data.csv}$ que contenga solamente las columnas $\texttt{sqft_living}$ (predictor) y $\texttt{price}$ (etiqueta). 
2. Explora ambas variables. Utiliza medidas estadísticas y gráficas para describir la distribución de valores de cada variable.
3. Evalúa medidas de asociación y construye una gráfica de dispersión para explorar una posible relación. Describe los resultados
4. Utilizando regresión lineal simple, ajusta un modelo para explicar el precio de venta del inmueble en función de la superficie de la sala (sqft_living). Evalúa la calidad del ajuste a través del coeficiente de determinación.
5. Describe las conclusiones y reflexiones que se desprendan de tu análisis.