# Introducción


![](img/Diagrama.jpg)

# Bibliografía

**Deep Learning**, Ian Goodfellow
http://www.deeplearningbook.org/

**Pattern Recognition and Machine Learning**, M.Bishop: 
http://users.isr.ist.utl.pt/~wurmd/Livros/school/Bishop%20-%20Pattern%20Recognition%20And%20Machine%20Learning%20-%20Springer%20%202006.pdf


# Aprendizaje máquina vs Minería de Datos vs Estadística


## Estadística

En estadística vimos como realizar un análisis exploratorio de datos. Sabemos usar:
* Histogramas/Curvas de probabilidad/Kernel density estimation
* Diagramas de cajas (Boxplot)
* Comparar poblaciones: Tests estadísticos
* Entender como afectan una o varias variables a nuestros datos: Test estadísticos y regresiones

Siempre analizabamos el 100% de nuestros datos. Obteníamos una descripción detallada de nuestra población.
No haciamos predicciones

## Minería de datos

Utilizado para extraer información, conocimiento, útil de los datos en bruto.

## Aprendizaje máquina

En el aprendizaje máquina tenemos algoritmos que dados unos datos de entrada, es capaz de *aprender* como se comportan esos datos en función de los parámetros de entrada. 

El objetivo **no** es entender como afecta una variable o varias variables a nuestros datos.

El **objetivo** es **generalizar** el problema. Cuando llegue una variable con un valor que no ha visto nunca antes, es capaz de hacer una **estimación** lo suficientemente correcta.

### Aprendizaje supervisado


En el aprendizaje supervisado nosotros enseñamos entradas y salidas. 

El algoritmo creará una **función** a partir de esos ejemplos. Este proceso se llama **entrenamiento**. El entrenamiento donde el algoritmo aprende.

Cuando le damos **datos nuevos**, una **función entrenada** nos dará el resultado correcto. 


![](./img/CajaNegra.png)



#### Ejemplo de aprendizaje supervisado

Recordemos de estadística lo que era una regresión lineal:

Es un modelo matemático usado para aproximar la relación de dependencia entre una variable dependiente $Y$, las variables independientes $X_i$ y un término aleatorio $\varepsilon$. Este modelo puede ser expresado como:

\\[
Y=\beta_1 X_1+\beta_2 X_2+\cdots +\beta_p X_p+\varepsilon = \sum \beta_k X_k+\varepsilon
\\]

Un modelo de aprendizaje supervisado va a aprender de unos ejemplos que le pasemos de la forma más general posible. Así la próxima vez que le mostremos datos nuevos dará un resultado confiable.

In [1]:
library("dslabs")

Vamos a simular que soltamos un objeto desde lo alto de la torre de Pisa (55.86m) y medimos la distancia hasta al suelo que ese objeto presenta pasados $t$ segundos.

Evientemente, nuestras medidas tendrán un error, por eso vamos a tomar varias medidas y repetir el experimento varias veces.

In [2]:
data_train<-rfalling_object(n = 10)[c("time","observed_distance")]
head(data_train)

Unnamed: 0_level_0,time,observed_distance
Unnamed: 0_level_1,<dbl>,<dbl>
1,0.0,55.59265
2,0.3611111,54.52492
3,0.7222222,52.32089
4,1.0833333,50.18996
5,1.4444444,46.06636
6,1.8055556,40.81459


In [3]:
data_train<-rbind(data_train,rfalling_object(n = 5)[c("time","observed_distance")])
data_train<-rbind(data_train,rfalling_object(n = 7)[c("time","observed_distance")])
data_train<-rbind(data_train,rfalling_object(n = 20)[c("time","observed_distance")])

En este caso estamos tratando de mejorar el error cuadrático medio:

Estamos tratando de minimizar la función de error.

In [None]:
sqrt(mean((data_train$observed_distance-model$fitted.values)^2))

La próxima vez que tengamos datos nuevos, podremos realizar una estimación del resultado esperado.

In [None]:
data_test<-data.frame(time=c(1,3,5))

Pero atentos, el modelo solo puede generalizar cuando los datos son parecidos a los que hemos visto. 

Aquí el modelo falla en predecir que una vez que el objeto toca el suelo no va a seguir cayendo.

### Aprendizaje NO supervisado 

Encuentra estructuras en los datos sin necesidad de intervención externa.

Nos puede servir para agrupar datos por similitud.

In [None]:
head(olive)

In [None]:
library(GGally)
options(repr.plot.height=4,repr.plot.width=8)
ggpairs(olive[,c("palmitic","palmitoleic","stearic","oleic","linoleic","linolenic","arachidic","eicosenoic")],
       lower = list(continuous = wrap("points", alpha = 0.3,size=0.1,color='blue'))
       )