# Clustering

@author: Jan Verwaeren - Arne Deloose

@course: Machine learning: van theorie tot praktijk

Deze notebook bevat enkele illustraties van frequent gebruikte clustering technieken:
- K-means
- Gaussian Mixture Models
- Hierarchische clustering
- Mean shift
- Dbscan

**Importeer nodige modules**

In [None]:
import pandas as pd
import seaborn as sns

from sklearn.metrics import davies_bouldin_score
from sklearn.decomposition import PCA
from sklearn import cluster, mixture

# 1. Illustratie op de iris dataset

In [None]:
#iris dataset
url='https://raw.githubusercontent.com/jverwaer/ugain_machine_learning/main/Data/iris.csv' #raw github link
df=pd.read_csv(url, sep = ";")
df.head()

In [None]:
#maak iris zonder soort erbij voor clustering
df_iris = df.copy()
df_iris = df_iris.drop('soort', axis=1)

#doe een PCA voor visualisaties
pca_model = PCA()                   # genereren PCA object
x_new = pca_model.fit_transform(df_iris)  # berekenen scores en loadings (x_new bevat de scores, de loadings kan je terugvinden
                                    # in pca_model.components_)

#maak een plot dataframe
df_plot = pd.DataFrame({'Dim1': x_new[:, 0], 
                        'Dim2': x_new[:, 1], 
                        'soort': df['soort'], 
                        'cluster': 0})
df_plot.head()

**Originele clusters (soorten)**

In [None]:
#maak plot   
sns.relplot(df_plot,
            x='Dim1',
            y='Dim2',
            hue='soort')

Het resultaat van een clustering kan gevisualiseerd worden op dezelfde manier door in deze functie 'soort' te vervangen door 'cluster'

## K-means

In [None]:
# k-means clustering
kmeans = cluster.KMeans(n_clusters=3, max_iter=300).fit_predict(df_iris)

#voeg resultaat toe aan plot data
df_plot['cluster']=kmeans

#maak plot   
sns.relplot(df_plot,
            x='Dim1',
            y='Dim2',
            hue='cluster')

Zoals we kunnen zien is de clustering zeer gelijkaardig met de originele soorten. De Davies-Bouldin index kan berekend worden via:

In [None]:
davies_bouldin_score(df_iris, kmeans)

## Gaussian Mixture Modelling with Expectation Maximisation (EM)

In [None]:
# k-means clustering
em = mixture.GaussianMixture(n_components=3, covariance_type='full').fit(df_iris)

#voeg resultaat toe aan plot data
df_plot['cluster']=em.predict(df_iris)

#maak plot   
sns.relplot(df_plot,
            x='Dim1',
            y='Dim2',
            hue='cluster')

In [None]:
davies_bouldin_score(df_iris, em.predict(df_iris))

## Hierarchische clustering

In [None]:
hc = cluster.AgglomerativeClustering(n_clusters=3, 
                                     linkage='ward').fit_predict(df_iris)

#voeg resultaat toe aan plot data
df_plot['cluster']=hc

#maak plot   
sns.relplot(df_plot,
            x='Dim1',
            y='Dim2',
            hue='cluster')

In [None]:
davies_bouldin_score(df_iris, hc)

## Mean shift

In [None]:
bandwidths = [cluster.estimate_bandwidth(df_iris, quantile=0.1)]
meanshifts = [cluster.MeanShift(bandwidth=band, bin_seeding=True).fit(dataset) 
              for dataset,band in zip([df_iris],bandwidths)]


#voeg resultaat toe aan plot data
df_plot['cluster']=meanshifts[0].predict(df_iris)

#maak plot   
sns.relplot(df_plot,
            x='Dim1',
            y='Dim2',
            hue='cluster')

In [None]:
davies_bouldin_score(df_iris, meanshifts[0].predict(df_iris))

## DBSCAN

In [None]:
dbscan = cluster.DBSCAN(eps=1, min_samples=5, metric='euclidean').fit_predict(df_iris)

#voeg resultaat toe aan plot data
df_plot['cluster']=dbscan

#maak plot   
sns.relplot(df_plot,
            x='Dim1',
            y='Dim2',
            hue='cluster')

In [None]:
davies_bouldin_score(df_iris, dbscan)

# 2. Oefening

Maak gebruik van de Olympic dataset

- Maak een plot van de punten via een PCA
- Kies op basis hiervan een clustering techniek om toe te passen (en eventueel een aantal clusters ook)
- Bereken de Davis-Bouldin index

In [None]:
#data inlezen
url='https://raw.githubusercontent.com/jverwaer/ugain_machine_learning/main/Data/olympic.csv' #raw github link
df_olympic=pd.read_csv(url)
df_olympic2 = df_olympic.drop('score', axis = 1)
df_olympic2.head()

In [None]:
#doe een PCA voor visualisaties
pca_model = PCA()                   # genereren PCA object
x_new = pca_model.fit_transform(df_olympic2)  # berekenen scores en loadings (x_new bevat de scores, de loadings kan je terugvinden
                                    # in pca_model.components_)

#maak een plot dataframe
df_plot_olympic = pd.DataFrame({'Dim1': x_new[:, 0], 
                        'Dim2': x_new[:, 1], 
                        'score': df_olympic['score'], 
                        'cluster': 0})
df_plot_olympic.head()

In [None]:
#maak plot   
sns.relplot(df_plot_olympic,
            x='Dim1',
            y='Dim2')

In [None]:
# k-means clustering
kmeans = cluster.KMeans(n_clusters=3, max_iter=300).fit_predict(df_olympic2)

#voeg resultaat toe aan plot data
df_plot_olympic['cluster']=kmeans

#maak plot   
sns.relplot(df_plot_olympic,
            x='Dim1',
            y='Dim2',
            hue='cluster')

In [None]:
davies_bouldin_score(df_olympic2, kmeans)