# Introducción al Machine Learning

En los últimos años, el aprendizaje automático se ha dado a conocer por sus grandes logros, un ejemplo de esto, es el tan conocido clasificador de *Spam*. Aunque el aprendizaje automático ha cogido mucha fuerza en los últimos años, muchos de los algoritmos ya existían desde hace mucho tiempo.

Algo muy común es creer que el aprendizaje automático es Inteligencia Artificial, si bien es una rama de la inteligencia artificial, y existe una retroalimentación constante entre ML e IA, no todas las aplicaciones de ML terminan en IA.

**¿Que es Machine Learning?**

El Machine Learning es la ciencia (y el arte) de programar ordenadores para que aprendan a partir de los datos. Algunas definiciones:

* El ML es el campo de estudio que da a los ordenadores la capacidad de aprender sin ser programados de manera explícita. (**Arthur Samuel, 1959**)
* Se dice que un programa de ordenador aprende de la experiencia **E**, con respecto a una tarea **T** y una medida de rendimiento **R**, si su rendimiento en **T**, medido por **R**, mejora con la experiencia **E**. (**Tom Mitchell, 1997**)

## Tipos de aprendizaje

* Aprendizaje supervisado
    * Clasificación.
        * Clasificación binaria.
        * Clasificación multiclase.
    * Regresión.

* Aprendizaje no supervisado.
    * Clustering.
    * Reducción de la dimensionalidad.
    * Detección de anomalías.

* Aprendizaje semi-supervisado
* Aprendizaje por refuerzo

### Aprendizaje no supervisado

Aunque la mayoría de las aplicaciones del Machine Learning se basan hoy en día en el aprendizaje supervisado (y, como resultado, es ahí donde se realizan las mayores inversiones), la inmensa mayoría de los datos disponibles no están etiquetados: tenemos las características de entrada ***X***, pero no tenemos las etiquetas ***y***.

#### Clustering

El clustering busca particionar el set de datos en grupos, los cuales son llamados *clusters*. El objetivo consiste en separar los datos de tal forma que los puntos dentro de un clúster sean muy similares y se diferencien con puntos de otros clusters.

##### K-Means

El algoritmo K-Means trata de encontrar los centros de los clusters que sean representativos de ciertas regiones de los datos. El algoritmo alterna tres pasos en su ejecución:

1. Se determina un número de clusters.
2. Busca alrededor de cada centro los puntos más cercanos.
3. Recalcula el centro como el promedio de los puntos dentro de ese cluster.

![SegmentLocal](https://media.giphy.com/media/12vVAGkaqHUqCQ/giphy.gif "segment")


In [None]:
!pip install mglearn

In [None]:
import mglearn
import warnings
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.impute import SimpleImputer
from sklearn.pipeline import make_pipeline
from sklearn.metrics import silhouette_score
from sklearn.preprocessing import StandardScaler
from sklearn.compose import make_column_transformer
from yellowbrick.cluster import KElbowVisualizer, InterclusterDistance, SilhouetteVisualizer

In [None]:
mglearn.plots.plot_kmeans_algorithm()

* K-Means (Solo numéricas)
* K-Modes (Solo catagóricas)
* K-Prototypes (Datos mixtos)
* PAM
* CLARANs

##### ¿Cómo determinamos cuantos K?

El algoritmo agrupa los datos en **k** grupos, incluso si *k* no es el número correcto de grupos para usar.

Un método para validar el número de grupos es el ***método del codo***. La idea del método del codo es ejecutar la agrupación en el set de datos para un rango determinado de _k_, y para cada valor de _k_ calcular la suma de los errores al cuadrado (SSE).
