## Wine Clustering

**Proposta:** Aplicar algoritmos de clusterização para identificar os diferentes tipos de vinho presentes no dataset a partir de sua composição química.

**Link do Kaggle:** https://www.kaggle.com/datasets/harrywang/wine-dataset-for-clustering

In [None]:
import numpy as np
import pandas as pd
import plotly.express as px
import warnings
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from scipy.cluster.hierarchy import dendrogram, linkage
from sklearn.cluster import AgglomerativeClustering
from sklearn.cluster import DBSCAN
from sklearn.cluster import MeanShift
from sklearn.metrics import silhouette_score, davies_bouldin_score, calinski_harabasz_score



In [None]:
warnings.filterwarnings("ignore")

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
df = pd.read_csv('/content/drive/MyDrive/CursoML/WineClustering/wine-clustering.csv',
                    sep=',', encoding='iso-8859-1')

### Exploração dos Dados

In [None]:
df.head()

In [None]:
df.shape

In [None]:
df.dtypes

In [None]:
df.isnull().sum()

In [None]:
df.describe()

In [None]:
boxplot = px.box(df, y="Proline")
boxplot.show()

Têm alguns outliers: Malic_Acid, Ash, Ash_Alcanity, Magnesium, Proanthocyanins, Color_Intensity, Hue.

### Pré-processamento

**Escalonamento**

In [None]:
escala = StandardScaler()
df_esc = escala.fit_transform(df)

In [None]:
df

In [None]:
df_esc

### K-Means com PCA

In [None]:
pca = PCA(n_components = 2)

In [None]:
df_pca = pca.fit_transform(df_esc)

In [None]:
pca.explained_variance_ratio_

Elbow Method

In [None]:
wcss = []
for i in range(1, 11):
    kmeans = KMeans(n_clusters = i, init = 'k-means++', random_state = 5, max_iter = 300)
    kmeans.fit(df_pca)
    wcss.append(kmeans.inertia_)

In [None]:
plt.figure(figsize=(10,5))
sns.lineplot(x=range(1, 11), y=wcss,marker='o',color='red')
plt.title('The Elbow Method')
plt.xlabel('Número de clusters')
plt.ylabel('WCSS');

In [None]:
kmeans = KMeans(n_clusters = 3, init = 'k-means++', random_state = 5, max_iter = 300)


In [None]:
kmeans2 = kmeans.fit(df_pca)

In [None]:
centroides = kmeans2.cluster_centers_

In [None]:
classificacao1 = kmeans2.labels_
classificacao1

In [None]:
graf1 = px.scatter(x = df_pca[:,0], y = df_pca[:,1], color=classificacao1)
graf2 = px.scatter(x = centroides[:,0], y = centroides[:,1], size = [15, 15, 15])
graf3 = go.Figure(data = graf1.data + graf2.data)
graf3.update_layout(width=800,height=500,title_text='Agrupamento K-Means com PCA')
graf3.update_xaxes(title = 'Componente 1')
graf3.update_yaxes(title = 'Componente 2')
graf3.show()

In [None]:
agrupamento1 = pd.DataFrame(classificacao1, columns = ['Grupo'])
agrupamento1

In [None]:
df2 = pd.concat([df,agrupamento1],axis=1)
df2

In [None]:
grupo0 = df2.loc[df2['Grupo'] == 0]
grupo1 = df2.loc[df2['Grupo'] == 1]
grupo2 = df2.loc[df2['Grupo'] == 2]

In [None]:
grupo0.shape

In [None]:
grupo1.shape

In [None]:
grupo2.shape

In [None]:
sil1 = silhouette_score(df_pca, classificacao1)
dbi1 = davies_bouldin_score(df_pca, classificacao1)
chi1 = calinski_harabasz_score(df_pca, classificacao1)

print("Silhouette:", sil1, "DBI:", dbi1, "CHI:", chi1)

In [None]:
resultados = []
resultados.append(["KMeans", "Sim", 3, sil1, dbi1, chi1])

### K-Means com todos os atributos

In [None]:
from sklearn.cluster import KMeans
wcss = []
for i in range(1,15):
    kmeans = KMeans(n_clusters = i, init = 'k-means++', random_state = 5, max_iter = 300)
    kmeans.fit(df_esc)
    wcss.append(kmeans.inertia_)

In [None]:
plt.figure(figsize=(10,5))
sns.lineplot(x=range(1, 15), y=wcss,marker='o',color='red')
plt.title('The Elbow Method')
plt.xlabel('Número de clusters')
plt.ylabel('WCSS');

In [None]:
kmeans = KMeans(n_clusters = 3, init = 'k-means++', random_state = 5, max_iter = 300)

In [None]:
kmeans3 = kmeans.fit(df_esc)

In [None]:
centroides = kmeans3.cluster_centers_
centroides

In [None]:
classificacao2 = kmeans3.labels_
classificacao2

In [None]:
agrupamento2 = pd.DataFrame(classificacao2, columns = ['Grupo'])

In [None]:
df3 = pd.concat([df,agrupamento2],axis=1)
df3

In [None]:
grupo0 = df3.loc[df3.Grupo == 0]
grupo1 = df3.loc[df3.Grupo == 1]
grupo2 = df3.loc[df3.Grupo == 2]

In [None]:
grupo0.shape

In [None]:
grupo1.shape

In [None]:
grupo2.shape

In [None]:
sil2 = silhouette_score(df_esc, classificacao2)
dbi2 = davies_bouldin_score(df_esc, classificacao2)
chi2 = calinski_harabasz_score(df_esc, classificacao2)

print("Silhouette:", sil2, "DBI:", dbi2, "CHI:", chi2)

In [None]:
resultados.append(["KMeans", "Não", 3, sil2, dbi2, chi2])

### Agrupamento Hierárquico com PCA

In [None]:
dendrograma = dendrogram(linkage(df_pca, method = 'complete'))

In [None]:
hier = AgglomerativeClustering(n_clusters=3, metric='euclidean', linkage = 'complete')
classificacao3 = hier.fit_predict(df_pca)

In [None]:
classificacao3

In [None]:
graf = px.scatter(x = df_pca[:,0], y = df_pca[:,1], color=classificacao3)
graf.update_layout(width=800,height=500,title_text='Agrupamento Hierárquico')
graf.show()

In [None]:
agrupamento3 = pd.DataFrame(classificacao3, columns = ['Grupo'])

In [None]:
df4 = pd.concat([df,agrupamento3],axis=1)
df4

In [None]:
grupo0 = df4.loc[df4.Grupo == 0]
grupo1 = df4.loc[df4.Grupo == 1]
grupo2 = df4.loc[df4.Grupo == 2]

In [None]:
grupo0.shape

In [None]:
grupo1.shape

In [None]:
grupo2.shape

In [None]:
sil3 = silhouette_score(df_pca, classificacao3)
dbi3 = davies_bouldin_score(df_pca, classificacao3)
chi3 = calinski_harabasz_score(df_pca, classificacao3)

print("Silhouette:", sil3, "DBI:", dbi3, "CHI:", chi3)

In [None]:
resultados.append(["Hierárquico", "Sim", 3, sil3, dbi3, chi3])

### Agrupamento hierárquico com todos os atributos

In [None]:
dendrograma = dendrogram(linkage(df_esc, method = 'ward'))

In [None]:
hier = AgglomerativeClustering(n_clusters=3, metric='euclidean', linkage = 'ward')
classificacao4 = hier.fit_predict(df_esc)

In [None]:
classificacao4

In [None]:
agrupamento4 = pd.DataFrame(classificacao4, columns = ['Grupo'])

In [None]:
df5 = pd.concat([df,agrupamento4],axis=1)

In [None]:
grupo0 = df5.loc[df5.Grupo == 0]
grupo1 = df5.loc[df5.Grupo == 1]
grupo2 = df5.loc[df5.Grupo == 2]

In [None]:
grupo0.shape

In [None]:
grupo1.shape

In [None]:
grupo2.shape

In [None]:
sil4 = silhouette_score(df_esc, classificacao4)
dbi4 = davies_bouldin_score(df_esc, classificacao4)
chi4 = calinski_harabasz_score(df_esc, classificacao4)

print("Silhouette:", sil4, "DBI:", dbi4, "CHI:", chi4)

In [None]:
resultados.append(["Hierárquico", "Não", 3, sil4, dbi4, chi4])

### DBSCAN com PCA

In [None]:
dbscan = DBSCAN(eps = 0.53, min_samples=4)
dbscan.fit(df_pca)

In [None]:
classificacao5 = dbscan.labels_
classificacao5

In [None]:
graf = px.scatter(x = df_pca[:,0], y = df_pca[:,1], color=classificacao5)
graf.update_layout(width=800,height=500,title_text='Agrupamento DBSCAN')
graf.show()

In [None]:
agrupamento5 = pd.DataFrame(classificacao5, columns = ['Grupo'])
agrupamento5

In [None]:
df6 = pd.concat([df, agrupamento5],axis=1)

In [None]:
grupo0 = df6.loc[df6.Grupo == 0]
grupo1 = df6.loc[df6.Grupo == 1]
grupo2 = df6.loc[df6.Grupo == 2]

In [None]:
grupo0.shape

In [None]:
grupo1.shape

In [None]:
grupo2.shape

In [None]:
sil5 = silhouette_score(df_pca, classificacao5)
dbi5 = davies_bouldin_score(df_pca, classificacao5)
chi5 = calinski_harabasz_score(df_pca, classificacao5)

print("Silhouette:", sil5, "DBI:", dbi5, "CHI:", chi5)

In [None]:
resultados.append(["DBSCAN", "Sim", 3, sil5, dbi5, chi5])

### DBSCAN com todos os atributos

In [None]:
from sklearn.neighbors import NearestNeighbors
import numpy as np
import matplotlib.pyplot as plt

neighbors = NearestNeighbors(n_neighbors=3)
neighbors_fit = neighbors.fit(df_esc)
distances, indices = neighbors_fit.kneighbors(df_esc)

distances = np.sort(distances[:,2])
plt.plot(distances)
plt.show()

In [None]:
dbscan = DBSCAN(eps = 2.16, min_samples=3)
dbscan.fit(df_esc)

In [None]:
classificacao6 = dbscan.labels_
classificacao6

In [None]:
agrupamento6 = pd.DataFrame(classificacao6, columns = ['Grupo'])


In [None]:
df7 = pd.concat([df,agrupamento6],axis=1)

In [None]:
grupo0 = df7.loc[df7.Grupo == 0]
grupo1 = df7.loc[df7.Grupo == 1]
grupo2 = df7.loc[df7.Grupo == 2]

In [None]:
grupo0.shape

In [None]:
grupo1.shape

In [None]:
grupo2.shape

In [None]:
sil6 = silhouette_score(df_esc, classificacao6)
dbi6 = davies_bouldin_score(df_esc, classificacao6)
chi6 = calinski_harabasz_score(df_esc, classificacao6)

print("Silhouette:", sil6, "DBI:", dbi6, "CHI:", chi6)

In [None]:
resultados.append(["DBSCAN", "Não", 3, sil6, dbi6, chi6])

### MeanShift com PCA

In [None]:
mean = MeanShift(bandwidth=1.3, cluster_all=True)

In [None]:
mean.fit(df_pca)

In [None]:
classificacao7 = mean.labels_
classificacao7

In [None]:
agrupamento7 = pd.DataFrame(classificacao7, columns = ['Grupo'])

In [None]:
df8 = pd.concat([df,agrupamento7],axis=1)

In [None]:
grupo0 = df8.loc[df8.Grupo == 0]
grupo1 = df8.loc[df8.Grupo == 1]
grupo2 = df8.loc[df8.Grupo == 2]
grupo3 = df8.loc[df8.Grupo == 3]

In [None]:
grupo0.shape

In [None]:
grupo1.shape

In [None]:
grupo2.shape

In [None]:
grupo3.shape

In [None]:
sil7 = silhouette_score(df_pca, classificacao7)
dbi7 = davies_bouldin_score(df_pca, classificacao7)
chi7 = calinski_harabasz_score(df_pca, classificacao7)

print("Silhouette:", sil7, "DBI:", dbi7, "CHI:", chi7)

In [None]:
resultados.append(["MeanShift", "Sim", 4, sil7, dbi7, chi7])

### MeanShift com todos os atributos

In [None]:
mean = MeanShift(bandwidth=3.6, cluster_all=True)

In [None]:
mean.fit(df_esc)

In [None]:
classificacao8 = mean.labels_
classificacao8

In [None]:
agrupamento8 = pd.DataFrame(classificacao8, columns = ['Grupo'])

In [None]:
df9 = pd.concat([df,agrupamento8],axis=1)

In [None]:
grupo0 = df9.loc[df9.Grupo == 0]
grupo1 = df9.loc[df9.Grupo == 1]
grupo2 = df9.loc[df9.Grupo == 2]
grupo3 = df9.loc[df9.Grupo == 3]
grupo4 = df9.loc[df9.Grupo == 4]
grupo5 = df9.loc[df9.Grupo == 5]

In [None]:
grupo0.shape

In [None]:
grupo1.shape

In [None]:
grupo2.shape

In [None]:
grupo3.shape

In [None]:
grupo4.shape

In [None]:
grupo5.shape

In [None]:
sil8 = silhouette_score(df_esc, classificacao8)
dbi8 = davies_bouldin_score(df_esc, classificacao8)
chi8 = calinski_harabasz_score(df_esc, classificacao8)

print("Silhouette:", sil8, "DBI:", dbi8, "CHI:", chi8)

In [None]:
resultados.append(["MeanShift", "Não", 6, sil8, dbi8, chi8])

### Tabela comparativa

In [None]:
tabela = pd.DataFrame(resultados, columns=["Algoritmo", "PCA", "#Clusters", "Silhouette", "DBI", "CHI"])
tabela