In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
from kneed import KneeLocator
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
from sklearn.preprocessing import StandardScaler

In [3]:
from sklearn.model_selection import cross_val_score, train_test_split, cross_val_predict

In [4]:
### Importando librerías para clusterización jerárquica

from scipy.cluster.hierarchy import linkage
from scipy.cluster.hierarchy import dendrogram
from scipy.cluster.hierarchy import cut_tree

### Importing dataset to cluster

In [5]:
df = pd.read_csv('df_to_model.csv')

In [6]:
df.drop(columns=['Unnamed: 0'], inplace=True)

### Reducción de variables mediante implementación de PCA (principal componente analysis)

In [7]:
from sklearn.decomposition import PCA

# Create a PCA instance: pca
pca = PCA(n_components=7)
principalComponents = pca.fit_transform(df)
# Plot the explained variances
features = range(pca.n_components_)
plt.bar(features, pca.explained_variance_ratio_, color='black')
plt.xlabel('PCA features')
plt.ylabel('variance %')
plt.xticks(features)
# Save components to a DataFrame
PCA_components = pd.DataFrame(principalComponents)

ValueError: Input contains NaN, infinity or a value too large for dtype('float64').

Casi la totalidad de la varianza es explicada por tan solo una variable --> Cotización ETH / Dollar

In [None]:
pca.explained_variance_ratio_

In [None]:
plt.figure(figsize=(10,8))
plt.plot(range(1,8), pca.explained_variance_ratio_.cumsum(), marker = 'o', linestyle = '--')

plt.title('Varianza Acumulada Explicada')
plt.xlabel('PCA features')
plt.ylabel('variance %')
plt.ylim(0.99999,1.0000001)
#plt.xticks(features)
# Save components to a DataFrame


Se ha retocado la visualización de los ejes a modo de poder observar la progresión de la incorporación marginal de variables. Como la primera variable es tan significativa, la incorporación marginal de variables tiene un efecto muy sutil

##### El principal componente epxlica más del 99% de la varianza

In [None]:
print(pca.explained_variance_)

### Visualización de los dos principales componentes

In [None]:
plt.scatter(PCA_components[0], PCA_components[1], alpha=.1, color='black')
plt.xlabel('PCA 1')
plt.ylabel('PCA 2')

### Visualización de Codo

In [None]:
ks = range(1, 10)
inertias = []
for k in ks:
    # Create a KMeans instance with k clusters: model
    model = KMeans(n_clusters=k)
    
    # Fit model to samples
    model.fit(PCA_components.iloc[:,:2])
    
    # Append the inertia to the list of inertias
    inertias.append(model.inertia_)
    
plt.plot(ks, inertias, '-o', color='black')
plt.xlabel('number of clusters, k')
plt.ylabel('inertia')
plt.xticks(ks)
plt.show()

In [None]:
df

# Implementación de clusterización sin Variable de Cotización de ETH

In [None]:
df_reduced = df[['human', 'rarity', 'traits_range', 'hidden_traits_range', 'amount_ethereum']]

In [None]:
df_reduced

### Reducción de variables mediante implementación de PCA (principal componente analysis)

In [None]:
from sklearn.decomposition import PCA

# Create a PCA instance: pca
pca = PCA(n_components=5)
principalComponents = pca.fit_transform(df_reduced)
# Plot the explained variances
features = range(pca.n_components_)
plt.bar(features, pca.explained_variance_ratio_, color='black')
plt.xlabel('PCA features')
plt.ylabel('variance %')
plt.xticks(features)
# Save components to a DataFrame
PCA_components = pd.DataFrame(principalComponents)

Casi la totalidad de la varianza es explicada por tan solo una variable --> Cotización ETH / Dollar

In [None]:
pca.explained_variance_ratio_

In [None]:
plt.figure(figsize=(10,8))
plt.plot(range(1,6), pca.explained_variance_ratio_.cumsum(), marker = 'o', linestyle = '--')

plt.title('Varianza Acumulada Explicada')
plt.xlabel('PCA features')
plt.ylabel('variance %')

#plt.xticks(features)
# Save components to a DataFrame


Se ha retocado la visualización de los ejes a modo de poder observar la progresión de la incorporación marginal de variables. Como la primera variable es tan significativa, la incorporación marginal de variables tiene un efecto muy sutil

##### El principal componente epxlica más del 99% de la varianza

In [None]:
print(pca.explained_variance_)

### Visualización de los dos principales componentes

In [None]:
plt.scatter(PCA_components[0], PCA_components[1], alpha=.1, color='black')
plt.xlabel('PCA 1')
plt.ylabel('PCA 2')

### Visualización de Codo

In [None]:
ks = range(1, 10)
inertias = []
for k in ks:
    # Create a KMeans instance with k clusters: model
    model = KMeans(n_clusters=k)
    
    # Fit model to samples
    model.fit(PCA_components.iloc[:,:2])
    
    # Append the inertia to the list of inertias
    inertias.append(model.inertia_)
    
plt.plot(ks, inertias, '-o', color='black')
plt.xlabel('number of clusters, k')
plt.ylabel('inertia')
plt.xticks(ks)
plt.show()

##### K = 5 pareciera ser el "codo" o "elbow" point. A partir de este punto, en principio no habrían cambios significativos en la expliación marginal de la varianza tras incorporar un Cluster adicional. Por este motivo la cantidad de Clusters óptima es de 4

# Clasificación de observaciones respecto a los 4 clusters posibles

In [None]:
kmeans_pca = KMeans(n_clusters = 5, init = 'k-means++', random_state = 42)

In [None]:
kmeans_pca.fit(PCA_components.iloc[:,:2])

In [None]:
df_segm_pca_kmeans = pd.concat([PCA_components.iloc[:,:2].reset_index(drop = True), pd.DataFrame(PCA_components.iloc[:,:2])], axis = 1)
df_segm_pca_kmeans.columns = ['Componente 1', 'Componente 2', 'Componente1b', 'Componente2b']
df_segm_pca_kmeans.drop(columns=['Componente1b', 'Componente2b'], inplace=True, axis=1)

#Quizas tenga que eliminar Componente1b y 2b y quitar el drop


df_segm_pca_kmeans['Segmento K-Means PCA'] = kmeans_pca.labels_

In [None]:
df_segm_pca_kmeans

In [None]:
x_axis = df_segm_pca_kmeans['Componente 1']
y_axis = df_segm_pca_kmeans['Componente 2']
plt.figure(figsize=(10,8))
sns.scatterplot(x_axis, y_axis, hue = df_segm_pca_kmeans['Segmento K-Means PCA'], palette = ['g', 'r', 'c', 'm', 'y'])
plt.title('Clusters by PCA Components')
plt.show()

# Clusterización jerárquica

In [None]:
hierarchical_data = PCA_components.iloc[:,:2]

In [None]:
# complete linkage
cl_mergings = linkage(hierarchical_data, method="complete", metric='euclidean')
dendrogram(cl_mergings)
plt.figure(figsize=(24,16))
plt.show()

In [None]:
# the single linkage clustering does not perform well in generating the clusters hence we go for complete linkage
# 4 clusters using complete linkage
cl_cluster_labels = pd.Series(cut_tree(cl_mergings, n_clusters=5).reshape(-1, ))
cl_cluster_labels

In [None]:
pca_hierarchical = pd.concat([hierarchical_data.reset_index(drop = True), cl_cluster_labels], axis=1)
pca_hierarchical.columns = ["PC1","PC2","Segmento Hierarchical Cluster"]
pca_hierarchical.head()

### Visualización gráfica mediante clusterización jerárquica

In [None]:
x_axis = pca_hierarchical['PC1']
y_axis = pca_hierarchical['PC2']
plt.figure(figsize=(10,8))
sns.scatterplot(x_axis, y_axis, hue = pca_hierarchical['Segmento Hierarchical Cluster'], palette = ['g', 'r', 'c', 'm', 'y'])
plt.title('Hierarchical Clusters by PCA Components')
plt.show()

### Sillhouette

In [None]:
from sklearn.metrics import silhouette_samples, silhouette_score
import matplotlib.cm as cm
n_clusters = 5
plt.figure(figsize = (10,10))
plt.gca().set_xlim([-0.1,1])
plt.gca().set_ylim([0, len(PCA_components.iloc[:,:2]) + (n_clusters + 1) * 10])
clusterer = KMeans(n_clusters=n_clusters, random_state=10)
labels = clusterer.fit_predict(PCA_components.iloc[:,:2])
print("The average silhouette_score is :{}".format(silhouette_score(PCA_components.iloc[:,:2], labels)))
sample_silhouette_values = silhouette_samples(PCA_components.iloc[:,:2], labels)
y_lower = 10
for i in range(n_clusters):
    ith_cluster_silhouette_values = \
    sample_silhouette_values[labels == i]
    ith_cluster_silhouette_values.sort()
    size_cluster_i = ith_cluster_silhouette_values.shape[0]
    y_upper = y_lower + size_cluster_i
    color = cm.nipy_spectral(float(i) / n_clusters)
    plt.gca().fill_betweenx(np.arange(y_lower, y_upper),
                          0, ith_cluster_silhouette_values,
                          facecolor=color, edgecolor=color, alpha=0.7)
    plt.gca().text(-0.05, y_lower + 0.5 * size_cluster_i, str(i))
    y_lower = y_upper + 10
plt.gca().axvline(x=silhouette_score(PCA_components.iloc[:,:2], labels), color="red", linestyle="--", label = "Avg silhouette score")
plt.title("The silhouette plot")
plt.xlabel("The silhouette coefficient values")
plt.ylabel("Cluster label")
plt.legend()
plt.show()

### Iteración de Sillhouette

In [None]:
from yellowbrick.cluster import SilhouetteVisualizer

fig, ax = plt.subplots(2, 3, figsize=(15,8))
for i in [2, 3, 4, 5, 6, 7]:
    '''
    Create KMeans instance for different number of clusters
    '''
    km = KMeans(n_clusters=i, init='k-means++', n_init=10, max_iter=100, random_state=42)
    q, mod = divmod(i, 3)
    '''
    Create SilhouetteVisualizer instance with KMeans instance
    Fit the visualizer
    '''
    visualizer = SilhouetteVisualizer(km, colors='yellowbrick', ax=ax[q-1][mod])
    visualizer.fit(pca_hierarchical)

# -------------------------------------------------------

# Implementación de clusterización con PCA = 4 y sin incluir ETH/$

In [None]:
df_reduced = df[['human', 'rarity', 'traits_range', 'hidden_traits_range', 'amount_ethereum']]

In [None]:
df_reduced

### Reducción de variables mediante implementación de PCA (principal componente analysis)

In [None]:
from sklearn.decomposition import PCA

# Create a PCA instance: pca
pca = PCA(n_components=5)
principalComponents = pca.fit_transform(df_reduced)
# Plot the explained variances
features = range(pca.n_components_)
plt.bar(features, pca.explained_variance_ratio_, color='black')
plt.xlabel('PCA features')
plt.ylabel('variance %')
plt.xticks(features)
# Save components to a DataFrame
PCA_components = pd.DataFrame(principalComponents)

Casi la totalidad de la varianza es explicada por tan solo una variable --> Cotización ETH / Dollar

In [None]:
pca.explained_variance_ratio_

In [None]:
plt.figure(figsize=(10,8))
plt.plot(range(1,6), pca.explained_variance_ratio_.cumsum(), marker = 'o', linestyle = '--')

plt.title('Varianza Acumulada Explicada')
plt.xlabel('PCA features')
plt.ylabel('variance %')

#plt.xticks(features)
# Save components to a DataFrame


Se ha retocado la visualización de los ejes a modo de poder observar la progresión de la incorporación marginal de variables. Como la primera variable es tan significativa, la incorporación marginal de variables tiene un efecto muy sutil

##### El principal componente epxlica más del 99% de la varianza

In [None]:
print(pca.explained_variance_)

### Visualización de los dos principales componentes

In [None]:
plt.scatter(PCA_components[0], PCA_components[1], alpha=.1, color='black')
plt.xlabel('PCA 1')
plt.ylabel('PCA 2')

In [None]:
plt.scatter(PCA_components[0], PCA_components[2], alpha=.1, color='black')
plt.xlabel('PCA 1')
plt.ylabel('PCA 3')

In [None]:
plt.scatter(PCA_components[0], PCA_components[3], alpha=.1, color='black')
plt.xlabel('PCA 1')
plt.ylabel('PCA 4')

In [None]:
plt.scatter(PCA_components[1], PCA_components[2], alpha=.1, color='black')
plt.xlabel('PCA 2')
plt.ylabel('PCA 3')

### Visualización de Codo

In [None]:
ks = range(1, 10)
inertias = []
for k in ks:
    # Create a KMeans instance with k clusters: model
    model = KMeans(n_clusters=k)
    
    # Fit model to samples
    model.fit(PCA_components.iloc[:,:4])
    
    # Append the inertia to the list of inertias
    inertias.append(model.inertia_)
    
plt.plot(ks, inertias, '-o', color='black')
plt.xlabel('number of clusters, k')
plt.ylabel('inertia')
plt.xticks(ks)
plt.show()

##### K = 5 pareciera ser el "codo" o "elbow" point. A partir de este punto, en principio no habrían cambios significativos en la expliación marginal de la varianza tras incorporar un Cluster adicional. Por este motivo la cantidad de Clusters óptima es de 4

# Clasificación de observaciones respecto a los 5 clusters posibles

In [None]:
kmeans_pca = KMeans(n_clusters = 5, init = 'k-means++', random_state = 42)

In [None]:
kmeans_pca.fit(PCA_components.iloc[:,:4])

In [None]:
df_segm_pca_kmeans = pd.concat([PCA_components.iloc[:,:4].reset_index(drop = True), pd.DataFrame(PCA_components.iloc[:,:4])], axis = 1)
df_segm_pca_kmeans.columns = ['Componente 1', 'Componente 2', 'Componente 3', 'Componente 4', 'Componente1b', 'Componente2b', 'Componente3b', 'Componente4b']
df_segm_pca_kmeans.drop(columns=['Componente1b', 'Componente2b', 'Componente3b', 'Componente4b'], inplace=True, axis=1)

#Quizas tenga que eliminar Componente1b y 2b y quitar el drop


df_segm_pca_kmeans['Segmento K-Means PCA'] = kmeans_pca.labels_

In [None]:
df_segm_pca_kmeans

In [None]:
x_axis = df_segm_pca_kmeans['Componente 1']
y_axis = df_segm_pca_kmeans['Componente 2']
plt.figure(figsize=(10,8))
sns.scatterplot(x_axis, y_axis, hue = df_segm_pca_kmeans['Segmento K-Means PCA'], palette = ['g', 'r', 'c', 'm', 'y'])
plt.title('Clusters by PCA Components')
plt.show()

# Clusterización jerárquica

In [None]:
hierarchical_data = PCA_components.iloc[:,:4]

In [None]:
# complete linkage
cl_mergings = linkage(hierarchical_data, method="complete", metric='euclidean')
dendrogram(cl_mergings)
plt.figure(figsize=(24,16))
plt.show()

In [None]:
# the single linkage clustering does not perform well in generating the clusters hence we go for complete linkage
# 4 clusters using complete linkage
cl_cluster_labels = pd.Series(cut_tree(cl_mergings, n_clusters=5).reshape(-1, ))
cl_cluster_labels

In [None]:
pca_hierarchical = pd.concat([hierarchical_data.reset_index(drop = True), cl_cluster_labels], axis=1)
pca_hierarchical.columns = ["PC1","PC2", "PC3", "PC4","Segmento Hierarchical Cluster"]
pca_hierarchical.head()

### Visualización gráfica mediante clusterización jerárquica

In [None]:
x_axis = pca_hierarchical['PC1']
y_axis = pca_hierarchical['PC2']
plt.figure(figsize=(10,8))
sns.scatterplot(x_axis, y_axis, hue = pca_hierarchical['Segmento Hierarchical Cluster'], palette = ['g', 'r', 'c', 'm', 'y'])
plt.title('Hierarchical Clusters by PCA Components')
plt.show()

### Sillhouette

In [None]:
from sklearn.metrics import silhouette_samples, silhouette_score
import matplotlib.cm as cm
n_clusters = 5
plt.figure(figsize = (10,10))
plt.gca().set_xlim([-0.1,1])
plt.gca().set_ylim([0, len(PCA_components.iloc[:,:4]) + (n_clusters + 1) * 10])
clusterer = KMeans(n_clusters=n_clusters, random_state=10)
labels = clusterer.fit_predict(PCA_components.iloc[:,:4])
print("The average silhouette_score is :{}".format(silhouette_score(PCA_components.iloc[:,:2], labels)))
sample_silhouette_values = silhouette_samples(PCA_components.iloc[:,:4], labels)
y_lower = 10
for i in range(n_clusters):
    ith_cluster_silhouette_values = \
    sample_silhouette_values[labels == i]
    ith_cluster_silhouette_values.sort()
    size_cluster_i = ith_cluster_silhouette_values.shape[0]
    y_upper = y_lower + size_cluster_i
    color = cm.nipy_spectral(float(i) / n_clusters)
    plt.gca().fill_betweenx(np.arange(y_lower, y_upper),
                          0, ith_cluster_silhouette_values,
                          facecolor=color, edgecolor=color, alpha=0.7)
    plt.gca().text(-0.05, y_lower + 0.5 * size_cluster_i, str(i))
    y_lower = y_upper + 10
plt.gca().axvline(x=silhouette_score(PCA_components.iloc[:,:2], labels), color="red", linestyle="--", label = "Avg silhouette score")
plt.title("The silhouette plot")
plt.xlabel("The silhouette coefficient values")
plt.ylabel("Cluster label")
plt.legend()
plt.show()

### Iteración de Sillhouette

In [None]:
from yellowbrick.cluster import SilhouetteVisualizer

fig, ax = plt.subplots(2, 3, figsize=(15,8))
for i in [2, 3, 4, 5, 6, 7]:
    '''
    Create KMeans instance for different number of clusters
    '''
    km = KMeans(n_clusters=i, init='k-means++', n_init=10, max_iter=100, random_state=42)
    q, mod = divmod(i, 3)
    '''
    Create SilhouetteVisualizer instance with KMeans instance
    Fit the visualizer
    '''
    visualizer = SilhouetteVisualizer(km, colors='yellowbrick', ax=ax[q-1][mod])
    visualizer.fit(pca_hierarchical)