## Actividad 2: Aprendizaje no supervisado

En este notebook utilizaremos dos algoritmos de aprendizaje supervizado para resolver un problema de clusterización, primero utilizamos el algoritmo UMAP (Uniform Manifold Approximation and Projection) para hacer reducción de caracteristicas y asi poder graficar los datos en dos dimensiones, luego utilizaremos el algoritmo de k-means para agrupar los datos y asi etiquetarlos.

El problema que vamos a resolver se basa en que a partir de un dataset con información de algunas características del vino, ver si el vino se puede agrupar en dierentes tipos.

In [None]:
# UMAP es un algoritmo de aprendizaje no supervisado para reducción de características, usualmente utilizado para poder visualizar los datos en 2 o 3 dimensiones, no viene instalado por deecto en los notebooks de google colab
!pip install umap-learn

In [3]:
import pandas as pd
from umap import UMAP
from sklearn.cluster import KMeans, DBSCAN
import plotly.express as px
from matplotlib import pyplot as plt

## Carga de dataset


In [4]:
path = 'https://raw.githubusercontent.com/eyberthrojas/Actividad_2/main/wine-clustering.csv'
df = pd.read_csv(path, on_bad_lines='skip')

In [None]:
df.head()

In [None]:
print(f'Se cuenta con un dataset de {df.shape[0]} muestras con {df.shape[1]} diferentes caracteristicas')

In [21]:
reducer = UMAP(n_components=2, random_state=0)

In [22]:
# Fit and transform the data
X_trans = reducer.fit_transform(df)

In [None]:
X_trans.shape

In [24]:
df_trans = pd.DataFrame(X_trans, columns=['x', 'y'])

In [None]:
print(f'Como vemos se reucen las caracteristicas de {df.shape[1]} a {df_trans.shape[1]}')

In [26]:
# Creando Grafica 2d
fig = px.scatter(df_trans, x='x', y='y', height=500, width=550)

In [None]:
fig.show()

A primera vista se observa que contamos con 4 grupos o categorias, utilicemos el algoritmo de k-means para ver como quedan agrupados

In [None]:
kmeans = KMeans(n_clusters=4)
kmeans.fit(df)

# Predicción de los grupos a los que pertenecen los datos
y_pred = kmeans.predict(df)

In [None]:
y_pred

In [30]:
fig = px.scatter(df_trans, x='x', y='y', color=y_pred, height=500, width=500)

In [None]:
fig.show()

En este caso parece que 4 es el número adecuado de clusters, vamos a comprobarlo con el WCSS

El WCSS (Within-Cluster Sum of Squares) es una medida utilizada en el algoritmo K-Means para evaluar la calidad de los grupos creados. El objetivo del algoritmo K-Means es minimizar el WCSS, que representa la suma de las distancias al cuadrado de cada punto al centroide de su grupo.

El WCSS se utiliza para determinar el número óptimo de grupos que deben utilizarse en el algoritmo K-Means. La idea es ejecutar el algoritmo K-Means varias veces con diferentes números de grupos y comparar el valor de WCSS para cada ejecución. Si el valor de WCSS disminuye significativamente cuando se aumenta el número de grupos, es posible que se esté produciendo un sobreajuste. Por otro lado, si el valor de WCSS no disminuye mucho cuando se aumenta el número de grupos, es posible que se esté produciendo un subajuste.

Por lo tanto, se puede utilizar el WCSS para determinar el número óptimo de grupos para el conjunto de datos en cuestión. Por ejemplo, se puede trazar una gráfica del valor de WCSS en función del número de grupos y seleccionar el punto en el que la disminución en el valor de WCSS comienza a disminuir drásticamente. Este será el número óptimo de grupos para el conjunto de datos.

In [None]:
wcss = []
for i in range(1, 11):
    kmeans = KMeans(n_clusters=i, init='k-means++', max_iter=300, n_init=10, random_state=0)
    kmeans.fit(df)
    wcss.append(kmeans.inertia_)
plt.plot(range(1, 11), wcss)
plt.title('Elbow Method')
plt.xlabel('Number of clusters')
plt.ylabel('WCSS')
plt.show()