# **Evidencia Fractal Solutions - Clustering**

**Importar librerías**

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.metrics import pairwise_distances_argmin_min
import warnings
warnings.filterwarnings("ignore")
#from google.colab import drive

**Importar dataset**

In [2]:
from google.colab import drive
drive.mount('/content/drive')

In [4]:
dataset = pd.read_csv('winequalityNNoOutliers.csv')
dataset  = dataset.drop(['id'], axis=1)
dataset = dataset.dropna()
dataset

FileNotFoundError: [Errno 2] No such file or directory: 'winequalityNNoOutliers.csv'

**Seleccionar variables para el clustering**

En este caso se seleccionaron las variables más importantes que describen mayormente a un vino acorde a diversas fuentes especializadas. Entre estas, algunas de las más importantes resultan ser la acidez, la dulzura (determinado por la cantidad de azucares residuales), el alcohol y los taninos

In [None]:
x = dataset.iloc[:,[1,4,11]].values
x

**Método del codo**

Se implementa el método del codo para determinar bajo que valor de k se obtiene la mejor relación de (minimización/k) de la suma de cuadrados intraclusters.

In [None]:
wcss = list()

# Vamos a correr el algoritmo varias veces para ver construir la gráfica que nos ayudará a determinar
# el número óptimo de clusters

for i in range(1,11):
    kmeans = KMeans(n_clusters = i, init = 'k-means++', random_state = 42)
    kmeans.fit(x)
    wcss.append(kmeans.inertia_)  # Se añade el WCSS calculado para el KMeans con i clusters
    
# Gráfica de Método de Codo
    
plt.style.use('ggplot')
plt.plot(range(1,11), wcss)
plt.title('Elbow Method (WCSS vs Clusters)' )
plt.xlabel('Clusters')
plt.ylabel('WCSS')
plt.show()

In [None]:
k = 3
kmeans = KMeans(n_clusters = k, init = 'k-means++', random_state = 42)
y_clusters= kmeans.fit_predict(x)

print(y_clusters) # Lo que se imprime es el número que identifica al cluster. Esta en el orden en el que
                # vienen las instancias que forman al dataset

**Graficar los clusters obtenidos**

Ploteo del cluster en 3D

In [None]:
plt.style.use('default')
fig = plt.figure(figsize = (12,12),dpi=200)
ax = fig.add_subplot(111, projection='3d')
ax.scatter(x[y_clusters == 0,0],x[y_clusters == 0,1],x[y_clusters == 0,2], s = 40 , color = 'tab:orange', label = "Cluster 1")
ax.scatter(x[y_clusters == 1,0],x[y_clusters == 1,1],x[y_clusters == 1,2], s = 40 , color = 'tab:blue', label = "Cluster 2")
ax.scatter(x[y_clusters == 2,0],x[y_clusters == 2,1],x[y_clusters == 2,2], s = 40 , color = 'green', label = "Cluster 3")
ax.set_xlabel('Acidez')
ax.set_ylabel('Azúcares Residuales')
ax.set_zlabel('Alcohol')
ax.set_title('Clusters de Vinos',weight='bold',size=24)
ax.view_init(30,36)
ax.legend(loc='best')
plt.savefig('Clustering3D')

**Ploteo de sub-clusters en 2D**

Alcohol vs Azúcares Residuales

In [None]:
plt.style.use('default')
fig = plt.figure(figsize = (10,10))
ax = fig.add_subplot(111, projection='3d')
ax.scatter(x[y_clusters == 0,0],x[y_clusters == 0,1],x[y_clusters == 0,2], s = 40 , color = 'tab:orange', label = "Cluster 1")
ax.scatter(x[y_clusters == 1,0],x[y_clusters == 1,1],x[y_clusters == 1,2], s = 40 , color = 'tab:blue', label = "Cluster 2")
ax.scatter(x[y_clusters == 2,0],x[y_clusters == 2,1],x[y_clusters == 2,2], s = 40 , color = 'green', label = "Cluster 3")
ax.set_xlabel('Acidez')
ax.set_ylabel('Azúcares Residuales')
ax.set_zlabel('Alcohol')
ax.set_title('Clusters de Vinos',weight='bold',size=24)
ax.view_init(0,0)
ax.legend(loc='best')
plt.savefig('Clustering_ALvsAR')

Alcohol vs Acidez

In [None]:
plt.style.use('default')
fig = plt.figure(figsize = (10,10))
ax = fig.add_subplot(111, projection='3d')
ax.scatter(x[y_clusters == 0,0],x[y_clusters == 0,1],x[y_clusters == 0,2], s = 40 , color = 'tab:orange', label = "Cluster 1")
ax.scatter(x[y_clusters == 1,0],x[y_clusters == 1,1],x[y_clusters == 1,2], s = 40 , color = 'tab:blue', label = "Cluster 2")
ax.scatter(x[y_clusters == 2,0],x[y_clusters == 2,1],x[y_clusters == 2,2], s = 40 , color = 'green', label = "Cluster 3")
ax.set_xlabel('Acidez')
ax.set_ylabel('Azúcares Residuales')
ax.set_zlabel('Alcohol')
ax.set_title('Clusters de Vinos',weight='bold',size=24)
ax.view_init(0,90)
ax.legend(loc='best')
plt.savefig('Clustering_ALvsAC')

Azúcares Residuales vs Acidez

In [None]:
plt.style.use('default')
fig = plt.figure(figsize = (10,10))
ax = fig.add_subplot(111, projection='3d')
ax.scatter(x[y_clusters == 0,0],x[y_clusters == 0,1],x[y_clusters == 0,2], s = 40 , color = 'tab:orange', label = "Cluster 1")
ax.scatter(x[y_clusters == 1,0],x[y_clusters == 1,1],x[y_clusters == 1,2], s = 40 , color = 'tab:blue', label = "Cluster 2")
ax.scatter(x[y_clusters == 2,0],x[y_clusters == 2,1],x[y_clusters == 2,2], s = 40 , color = 'green', label = "Cluster 3")
ax.set_xlabel('Acidez')
ax.set_ylabel('Azúcares Residuales')
ax.set_zlabel('Alcohol')
ax.set_title('Clusters de Vinos',weight='bold',size=24)
ax.view_init(90,0)
ax.legend(loc='best')
plt.savefig('Clustering_ARvsAC')

In [None]:
import pandas as pd
dataset['y_kmeans'] = pd.DataFrame(y_clusters,columns=['y_kmeans'])
dataset