# **10. Algoritmos de aprendizaje no supervisado**

En esta clase hablaremos acerca de algoritmos de aprendizaje no supervisado.

### **K-means**

Recordando un poco acerca del aprendizaje no supervisado, este trata de encontrar estructuras en nuestros datos. Si vemos en nuestro ejemplo; la imagen de abajo.

![image.png](attachment:image.png)

Tenemos 2 **features** de entrada ($X_1,X_2$) y en nuestro scatterplot podemos ver que existen 3 grupos dentro de nuestros datos. La meta de **K-means** es encontrar que **data-points** están asignados a esos grupos, ahora vamos a hablar sobre cómo trabaja **K-means** para encontrar esos grupos.

#### **Bases**

Vamos a usar el concepto de **centroid**, podemos pensar que el **centroid** es el líder que representa un **cluster** particular. Estas son posiciones en el espacio que representan a cada **input feature**. Algunos están posicionados de manera aleatoria, pero otros no lo están. 

Para simplicidad asumiremos que están posicionados de manera aleatoria.

![image.png](attachment:image.png)

Una vez que se posicionan de manera aleatoria, el siguiente paso es determinar que **data-points** pertenecen a cada cluster. 

La forma que podemos hacer esto para cada punto en nuestro dataset es **calcular** la distancia entre cada punto y cada **centroid**.

El **data-point** que pertenecería a cada **cluster** es el que tenga la distancia más pequeña entre el **centroid** correspondiente. 

Es decir; en nuestro ejemplo tenemos 3 **centroids** y varios puntos, lo que tenemos que hacer es calcular para un punto en especifico 3 distancias correspondientes a cada **centroid**, el que tenga el valor de distancia más pequeño, es el cluster que vamos a asignar a ese **data-point**. Y así se hacen con los diferentes puntos.

![image.png](attachment:image.png)

Podemos actualizar la posición de los **centroids** haciendo un promediado de las posiciones de los datos. En esta forma se actualizan las posiciones que los **centroids** deben tener, esto resulta en nuevos clusters.

Se repite el proceso si es necesario.

![image-2.png](attachment:image-2.png)

**Proceso completo**

![image.png](attachment:image.png)

#### **Parámetros**

¿Cuales son los parámetros en que tenemos que pensar para ejecutar un algoritmo **K-means**?

Hay un solo parámetro y este es el parámetro **K**, o el **número de grupos** al que se van a ajustar (que piensas que existen).

Veamos esto con un ejemplo ilustrativo.

![image.png](attachment:image.png)

Es decir cuando ajustamos a diferente número de grupos, vamos a obtener diferentes resultados como se ve en los **input-features**.

Después en esta clase vamos a ver como usar **metrics** para medir el **performance** de este algoritmo y así poder **preguntar** cuál es un apropiado valor para **K** en este algoritmo.

#### **Función de coste**

![image.png](attachment:image.png)

**La función de coste** busca optimizar el algoritmo cuando lo ejecutamos.

La meta de **K-means** es encontrar como ajustar los **centroids** a los **data-points** más cercanos. Así que podemos pensar en que la función está preguntando efectivamente por todos los **data-points** del dataset que pertenecen a cada cluster ¿cuál es la distancia de ese **data-point** al **centroid** que representa ese **cluster**? Así que la meta es asignar los **data-points** al **cluster** más cercano.

Después actualizamos la posición de los **centroids** por medio de encontrar el promedio de la posición en que se encuentran los **data-points** dado un cluster.

#### **Regla de actualización**
![image.png](attachment:image.png)

Así como recordamos que empezamos con un posición aleatoria en los **centroids**, este paso solo se realiza al inicio. Después calculamos la distancia de los **data-points** hacia cada **centroid**. Luego se asignan los **data-points** al cluster basado en la distancia más pequeña. 

Al final actualiza la posición de los **centroids** por medio del promediado de los **data-points** de cada cluster.

Puedes finalizar el algoritmo en 2 formas:

1. Tu puedes decir; la posición de los **centroids** no cambian mucho, así que por lo tanto vamos a finalizar el proceso porque no existe un gran diferencia.
2. Tu dices de manera efectiva; no hay cambio en el proceso de actualización y asignación de los **data-points** a los clusters, así que podemos finalizar el proceso del algoritmo.

Por supuesto que hay otras formas de hacerlo, pero estas 2 son las más comunes.

**$2^{do}$ ejemplo**

![image.png](attachment:image.png)

![image-2.png](attachment:image-2.png)

![image-3.png](attachment:image-3.png)

![image-4.png](attachment:image-4.png)

Vemos las diferentes iteraciones para el proceso

En todas las ilustraciones la **estrella negra** representa los **centroids** y los colores representan los diferentes **clusters** acorde a los **centroids**. Cómo se puede ver en la primera iteración, los **centroids** tienen una posición diferente, conforme se actualiza o se ejecuta una nueva iteración se van movimiento los **centroids**. Así conforme avanza el proceso, no existe un cambio significativo en las posiciones de los **centroids**.

#### **Rendimiento**
**Para un 1 solo modelo**

Si solo tenemos tiempo para un modelo es bueno calcular; **inertia** y **silhouette score**.

**Inertia:** La meta es ser capaz de decir qué tan cercano están los **data-points** al **centroid**. El valor ideal de **inertia** tiene que ser **pequeño**.

**silhouette score:** Queremos ser capaces de decir que tan lejos están los clusters que predecimos y va de [-1,1]. El valor ideal debe ser cercano a 1.

Sin embargo un solo modelo puede no ser suficiente para nuestros casos, por lo que el uso de multiples modelos hace que obtengamos un valor apropiado de **K**.

Por ejemplo para encontrar un valor apropiado de **K**, podemos usar la idea de un gráfico **Elbow.** 

**Elbow plot:** la meta de esta gráfica es por ejemplo que la **inertia** es un función de **K(Number of groups)**. La idea es que mientras agregues más grupos tu vas a obtener cada vez menos **cluster-packing**. Entonces este concepto trata de encontrar la **cantidad apropiada** para el valor de **K** de nuestro modelo, sin embargo esto requiere tener **multiples modelos.**

![image.png](attachment:image.png)

### **Review**

![image.png](attachment:image.png)

### **Proceso de decisión:**

- Colocar aleatoriamente los **centroids**
- **Calcular** la distancia de cada **data-point** a cada **centroid**.
- **Asignar** cada **data-point** solo al **centroid** más cercano.
- **Calcular** nuevos **centroids** promediando los **data-points** del cluster.

### **Función de coste - error:**
La meta es encontrar la distancia más corta de los **data-points** a los **centroids**

### **Regla de actualización:**
La encontramos en 2 formas de aplicación.
- Continuamos el proceso de decisión hasta que los **data-points** asignados a cada cluster sean los mismos y no cambien.
- Continuamos el proceso de decisión calculando nuevos **centroids** y terminamos el proceso hasta que no haya cambio de posición en los **centroids**.

Ahora con esto en mente, vamos a realizar un reto.

![image.png](attachment:image.png)

La meta de esto, es usar varios **features** de diferentes especies de flores:
- Sepal width
- Sepal length
- Petal width
- Petal length

Para poder ser capaz de predecir cualidades en las flores, así que vamos a utilizar los diferentes algoritmos que aprendimos en las clases pasadas. 

# **Conclusiones**

![image.png](attachment:image.png)

1. Hay 3 ingredientes que **tunean** en los problemas de Machine Learning.
   1. **Decision Process (Proceso de decisión)** que lo que nos dice es cómo el modelo realiza la predicción, típicamente a traves del uso de **parámetros**.
   2. **Cost function (Función de coste - error)** que dice cómo la predicción del modelo va de acuerdo a la salida. O el objetivo que tratamos de realizar.
   3. **Updated rule (Regla de actualización)** es la encargada de decir cómo un modelo actualiza y cambia sus parámetros para hacer mejores predicciones.

2. Hablamos sobre **algoritmos de aprendizaje supervisado**.
   - **Regresión lineal:** Muy bueno para valores numéricos en el contexto de **regresión.**
   - **Regresión logística** Esto para la tarea de **clasificación**, que trata definir una linea que nos ayude a encontrar la probabilidad de una clase y separar entre 2 grupos.
   - **Árboles de decisión:** Para tareas de **clasificación** y que realiza una serie de preguntas para ser capaz de localizar **etiquetas** en los datos.

3. Hablamos sobre **algoritmos de aprendizaje no supervisado**.
   - **K-means** lo que busca es tratar de encontrar grupos en los datos dadas ciertas **features**.