Parte del contendio de este notebook esta basado en el libro:

Python Machine Learning

Copyright (c) 2017 [Sebastian Raschka](sebastianraschka.com)

# Machine Learning

Machine Learning es una area que pertenece a la Inteligencia Artificial, y consiste en el desarrollo de algortimos para que la maquina aprenda automaticamente. La palabra aprendizaje en este contexto se refiere a la identificacion de patrones dentro de grandes conjuntos de datos. La palabra automaticamente se refiere a que los algoritmos introducidos en la maquina son capaces de mejorar sin la intervencion humana. 

Un excelente recurso para el entendimiento del Machine Learning lo ofrece la universidad de Helsinki con su curso gratuito y certificado, llamado _Elements of AI_ , el cual se imparte en ingles en el siguiente enlace:

https://course.elementsofai.com/

![image.png](attachment:image.png)

Tomada de: https://www.devacademy.es/machine-learning-deep-learning-e-inteligencia-artificial-mundo-habla-ello

# Los tres tipos de aprendizaje automatico

![image.png](attachment:image.png)

<br>
<br>

## Aprendizaje supervisado

![image.png](attachment:image.png)

Ejemplo de este tipo de proceso es la calsificacion de correos en no deseados y no no deseados. Al correr el algoritmo sobre un conjunto de correos etiquetados como no deseados, el algoritmo aprendera a indentificar ciertas palabras que son caracteristicas de estos correos, por ejemplo _dinero, oportunidad, premio, dolares,_ etc, y con esto podra seleccionar los correos a futuro que presenten estas caracteristicas. Adicionalmente, el usuario del correo podra indicarle al software cuando un correo debe ser identificado como spam y cuando no, con lo cual tambien estamos entrenando el algoritmo en tiempo real.

Por cierto, una tarea como la anterior, en donde la salida son tipos de datos discretos (0: no no deseado, 1: no deseado), se conoce como tarea de **clasificacion**. Otra subcategoria del aprendizaje supervisado en la **regresion**, en la cual la señal resultante es un valor continuo.

### Clasificacion para predecir etiquetas de clase

La clasificacion es una subcategoria del aprendizaje supervisado, cuyo objetivo es la identificacion de etiquetas de clase de nuevas instancias, basadas en observaciones pasadas. Las estiquetas de clase son discretas, valores desordenados que permiten la separacion en grupos. El ejemplo del correo no deseado es un ejemplo de calfificacion binaria, pero tambien podemos tener clasificaciones multiclase. 

Por ejemplo el reconocimiento del letras escritas a mano; si consideramos que existen 26 letras en el alfabeto ingles, entonces al entrenar nuestro algoritmo, este sera capaz de reconocer cualquiera de las 26 letras que le ingresemoscon cierto precision, pero fallara cuando le ingresemos un numero. En este ultimo ejemplo esta claro que el modelo clasifica una nueva entrada en una de 26 posibilidades o clases.

La siguiente grafica toma 30 datos con caracteristicas $x_1$ y $x_2$, unas de clase negativa, y otras de clase positiva:

![image.png](attachment:image.png)

Al pasar este conjunto de datos a nuestro algoritmo de clasificacion, este determinara que la mejor manera de clasificar los datos es a traves de un limite lineal.

### Regresion para predecir resultados continuos

En el analisis de regresion tendremos un conjunto de variables predictoras continuas y una variable de respuesta continua, y tenemos que encontrar una relacion entre estas variables, de tal forma que esto nos permita predecir resultados.

Por ejemplo, consideremos una variable $x$ predictora que esta relacionada de alguna manera con una variables respuesta $y$. Entonces, al pasara estos datos a nuestro algoritmo, este determinara la mejor relacion entre ellas, es decir, la funcion que mejor se ajusta a los datos.

![image.png](attachment:image.png)

En el ejemplo se observa una linea recta, determinada por el algoritmo como la funcion que mejor se adapta al conjunto de datos ingresado. Despues de esto, ahora si podriamos hacer predicciones sobre nuevos datos usando la regresion obtenida.

## Resolviendo problemas interactivos con aprendizaje reforzado

En este tipo de aprendizaje el objetivo es desarrollar un sistema (agente) que mejore su rendimiento basado en interacciones con el entorno. Como la informacion sobre el estado actual del entorno normalmente tambien incluye una señal de recompensa, podemos pensar en este tipo de aprendizaje como un campo relacionado con el aprendizaje supervisado, sin embargo, el feedback en este caso sera una recompensa basada en como ha sido medida la accion. El agente evaluara por medio del ensayo y error como maximizar esta recompensa.

![image.png](attachment:image.png)

Por ejemplo, en un juego de ajedrez, el agente puede realizar un movimiento basado en el entorno, y la recompensa sera medida con un "ganas" o "pierdes" al final del juego. Por otro lado, durante el juego, habran estados intermedios positivos y negativos, como por ejemplo perder una pieza en el siguiente turno.

## Descubrir estructuras ocultas con el aprendizaje sin supervision

En este caso tratamos con datos sin etiquetar o con estructura desconocida. La idea es explorar la estructura de los datos para extraer informacion significativa sin la ayuda de alguna variable resultado o alguna informacion de recompensa.

### Encontrando grupos con agrupamiento (clustering)

El clustering es una tecnica exploratoria de analisis de datos que nos permite organizar un monton de informacion en subgrupos significativos (clusters) sin tener ningun conocimiento previo de los miembros del grupo.

Los elementos de cada cluster seran objetos con un cierto grado de semejanza, pero que difieren de los elementos de otros clusters.

Sera util, por ejemplo, para empresas que quieres clasificar a sus clientes en grupos segun sus intereses y asi generar estrategias de marketing exclusivas.

Supongamos que tenemos una serie de datos que dependen de dos caracteristicas $x_1$ y $x_2$ y sin ningun valor de salida. Nuestro algoritmo realizaria un agrupamiento como el mostrado en la figura 

![image.png](attachment:image.png)

### Reduccion de dimensionalidad para comprimir datos

Otro subcampo del aprendizaje sin supervision es el de la reduccion de dimensionalidad. Es bastante utili para trabajar con datos de alta dimensionalidad, lo cual puede afectar el rendimiento del algoritmo, debido a las limitaciones de las computadoras, y presentar problemas de almacenamiento al ser de mayor tamaño que los datos de menor dimensionalidad. Esta tecnica se utiliza para reducir el ruido en los datos, pero tambien puede degradar el rendimiento predictivo de ciertos algoritmos.

Tambien es ampliamente utilizada para visualizar datos:

![image.png](attachment:image.png)

# Terminologia basica y notaciones

Vamos reutilizar el conjunto de datos iris que contiene 150 filas(entradas), correspondientes a tres variedades de flores con 4 caracteristicas diferentes:

![image.png](attachment:image.png)

El conjunto de datos anterior se puede separar en dos matrices, una de caracteristicas ($\textbf{X}$) y otras matriz de etiquetas de clase ($\textbf{y}$).

Asi, para nuestro ejemplo, diremos que $\textbf{X} \; \in {\mathbb R}^{150\times 4}$:

$$\begin{bmatrix}
 x_1^{(1)}  & x_2^{(1)} & x_3^{(1)} & x_4^{(1)}\\ 
 x_1^{(2)}  & x_2^{(2)} & x_3^{(2)} & x_4^{(2)} \\ 
\vdots &  \vdots&  \vdots&\vdots \\ 
x_1^{(150)}  & x_2^{(150)} & x_3^{(150)} & x_4^{(150)} 
\end{bmatrix}$$

El superindice indicara el numero de la muestra, y el subindice indicara el numero de la caracteristica.

$x_1^{(150)}$ se refiere a la primera caracteristica de la muestra 150.

La matriz $\textbf{y}$ sera respresentada por el vector columnas:

$$\begin{bmatrix}
 y^{(1)}\\ 
 y^{(2)}\\ 
\dots\\ 
y^{(150)} 
\end{bmatrix}\; (y \in \{ setosa, versicolor, virginica\})$$

# Una hoja de ruta para construir sistemas de aprendizaje automatico.

![image.png](attachment:image.png)