# <u>Métodos No Supervisados

# Comparación de Cluster solo Usando la métrica de Silueta (Clustering Jerárquico, PAM y K-means)

#### Librerias

In [None]:
# pip install pyclustering

In [None]:
from pyclustering.cluster.clarans import clarans;
from pyclustering.utils import timedcall;
from pyclustering.cluster.kmedoids import kmedoids;
import pandas as pd
import numpy as np

# visualization
import seaborn as sns
import matplotlib.pyplot as plt

import warnings
warnings.filterwarnings("ignore")


In [None]:
basket = pd.read_csv("DATA/jugadores_basket.csv")
basket.head(8)

In [None]:
basket.shape

### Variables

- asisten_porcen_minuto:    
Asistencia porcentual por minuto = (Asistencias / Minutos jugados)    
Es una estadística útil para evaluar la habilidad de un jugador para generar oportunidades de anotación para sus compañeros. Puede ayudar a identificar jugadores con habilidades de visión de juego y capacidad para distribuir el balón eficientemente. Sin embargo, es importante tener en cuenta que esta métrica no tiene en cuenta otros factores como la calidad de los compañeros de equipo, la estrategia del equipo o el estilo de juego individual.

- talla: Talla del jugador en cm
- tiempo_juego: Tiempo en el juego en minutos
- edad: Edad del jugador en años
- puntos_porcen_minuto:     
Puntos por minuto = Puntos anotados / Minutos jugados   
Esta métrica puede ser útil para evaluar la capacidad anotadora de un jugador y su eficiencia en términos de puntos por tiempo en la cancha.


### Analizamos la data

In [None]:
basket.info()

In [None]:
sns.pairplot(basket)

In [None]:
sns.pairplot(basket, corner=True)

In [None]:
basket.describe()

In [None]:
basket.describe(include=['object'])

In [None]:
basket[basket['nombres']=='Kevin']

In [None]:
basket[basket['apellidos']=='Sanchez']

In [None]:
identificadores = basket[['nombres','apellidos']]
basket = basket[['asisten_porcen_minuto','talla','tiempo_juego','edad',	'puntos_porcen_minuto']]

In [None]:
identificadores

In [None]:
basket

## Clustering Jerarquico

### Normalizamos los datos
La normalización es un cambio de escala de los datos del rango original para que todos los valores estén dentro del nuevo rango de 0 y 1. 
$$x_{normalizado}= (x – min) / (max – min)$$  
Donde los valores mínimo y máximo pertenecen al valor x que se está normalizando.

In [None]:
from sklearn.preprocessing import MinMaxScaler

# MinMaxScaler: Transforme las variables escalando cada una de ellas a un rango determinado.
scaler = MinMaxScaler(feature_range=(0, 1))
scaler = scaler.fit(basket)

# Aplicar la transformación de normalización a los datos en basket
normalized = scaler.transform(basket)

normalized1 = pd.DataFrame(normalized,columns=list(basket.columns))
zscore_df = normalized1
zscore_df.head(10)

### Estandarizamos los datos
Un valor se estandariza de la siguiente manera: 
$$x_{estadarizado} = (x – media) / sd$$

Donde la media se calcula como: $$media = suma(x) / cuenta(x)$$ Y la desviación_estándar se calcula como: $$sd = raíz cuadrada (suma ((x – media) ^ 2) / cuenta (x))$$

In [None]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler = scaler.fit(basket)

# Aplicar la transformación de estandarización a los datos en "basket"
standarizar = scaler.transform(basket)

standarizar1 = pd.DataFrame(standarizar,columns=list(basket.columns))
zscore_df1 = standarizar1
zscore_df1.head(10)

## Dendograma

In [None]:
from scipy.cluster.hierarchy import dendrogram, linkage  
from matplotlib import pyplot as plt

seed = 16
np.random.seed(seed)

linked = linkage(zscore_df,method = 'ward')

labelList = range(1, 11)

plt.figure(figsize=(16, 8))  

## Se genera el dendrograma utilizando la función dendrogram de scipy.cluster.hierarchy
dendrogram(linked)
plt.show()  

## Construimos el Modelo Jerarquico con 4 cluster

In [None]:
from sklearn.cluster import AgglomerativeClustering

seed = 16
np.random.seed(seed)

cluster_Ag = AgglomerativeClustering(n_clusters=4, affinity='euclidean', linkage='ward')  
# ward: método de la varianza mínima. Tenemos otros como single, average, complete
cluster_Ag.fit_predict(zscore_df)   ## Recordar que aca se reemplaza su dataframe

In [None]:
label_ag = pd.DataFrame(cluster_Ag.labels_,columns= ['Cluster'])
cluster_Jerarq = pd.concat([basket,label_ag['Cluster']], axis=1)
cluster_Jerarq

In [None]:
cluster_Ag.labels_

In [None]:
cluster_Jerarq.columns

## Visualizacion en 2D

In [None]:
plt.figure(figsize=(10, 7))  
plt.scatter(zscore_df['asisten_porcen_minuto'], zscore_df['tiempo_juego'], c=cluster_Ag.labels_ , cmap='rainbow') 

## Visualizacion en 3D

In [None]:
import plotly.express as px

fig = px.scatter_3d(zscore_df, x='asisten_porcen_minuto', y='tiempo_juego', z='edad', color=cluster_Jerarq['Cluster'].astype(str))
fig.show()

### Métrica de Silueta

In [None]:
from sklearn.metrics import silhouette_score
silhouette_score(basket.values, cluster_Ag.labels_, metric='euclidean')

## Usamos Kmedoides con P.A.M

Debemos de fijar la cantidad de cluster

In [None]:
seed = 16 # con esto definimos la semilla o con random_state
np.random.seed(seed)

kmedoids_instance = kmedoids(zscore_df.values, [3, 6, 4,10],random_state=16); ## para probar mas cluster solo agregar en
# la lista [3, 6, 4] aca seria para 3 cluster si quieres 4 agrega [3, 6, 4, 10] un valor cualesquiera por que son aleatorios

# Ejecutar el algoritmo K-Medoids y medir el tiempo de ejecución
(ticks, result) = timedcall(kmedoids_instance.process);
print("Tiempo de ejecución : ", ticks, "\n");

# retornando los clusters 
clusters_Kmed = kmedoids_instance.get_clusters();

# Devolviendo las medoides 
medoids = kmedoids_instance.get_medoids();

print("Índice de los puntos que pertenecen a un clúster:: ",clusters_Kmed)
print("Índice de los medoides que el algoritmo encontró como los mejores:", medoids)

In [None]:
clusters_Kmed[0]

Adecuamos los cluster con etiquetas

In [None]:
label = pd.DataFrame()
for i in range(4):  
    print(i)
    a = pd.DataFrame(clusters_Kmed[i],columns = ['Index']) 
    a['Cluster'] = i
    label = label.append(a)

In [None]:
label

In [None]:
label_f = label.sort_values(by ='Index').reset_index(drop='true')
cluster_Med = pd.concat([basket,label_f['Cluster']], axis=1) # axis = 1 es por columnas
cluster_Med

In [None]:
cluster_Med.Cluster.value_counts()

## Visualizacion en 2D

In [None]:
plt.figure(figsize=(10, 7))  
plt.scatter(zscore_df['asisten_porcen_minuto'], zscore_df['puntos_porcen_minuto'], c=cluster_Med.Cluster, cmap='rainbow') 

## Visualizacion en 3D

In [None]:
import plotly.express as px

fig = px.scatter_3d(zscore_df, x='asisten_porcen_minuto', y='tiempo_juego', z='edad', color=cluster_Med['Cluster'].astype(str))
fig.show()


In [None]:
# Crear un diccionario que mapee cada clúster a un nombre
cluster_names = {
    0: 'Cluster A',
    1: 'Cluster B',
    2: 'Cluster C',
    3: 'Cluster D'
    # Añade más clústeres y nombres si es necesario
}

# Añadir una nueva columna 'Nombre' en el DataFrame 'basket' con los nombres de clúster correspondientes
cluster_Med['Segmento'] = cluster_Med['Cluster'].map(cluster_names)

In [None]:
cluster_Med

In [None]:
import plotly.express as px

fig = px.scatter_3d(zscore_df, x='asisten_porcen_minuto', y='tiempo_juego', z='edad', color=cluster_Med['Cluster'].astype(str),
                    hover_name=cluster_Med['Segmento'],labels={'color': 'Segmento'})
fig.show()


### Métrica de Silueta

In [None]:
from sklearn.metrics import silhouette_score
silhouette_score(basket.values, cluster_Med.Cluster, metric='euclidean')

## Usamos Kmeans

In [None]:
from sklearn.cluster import KMeans

kmeans = KMeans(n_clusters=4,random_state=16)
kmeans.fit(zscore_df.values)
centroids = kmeans.cluster_centers_
print("The index of kemans that algorithm found to be best :", kmeans.labels_)

Adecuamos los cluster con etiquetas

In [None]:
label_km = pd.DataFrame(kmeans.labels_,columns= ['Cluster'])
cluster_kmeans = pd.concat([basket,label_km['Cluster']], axis=1)
cluster_kmeans

In [None]:
cluster_kmeans.Cluster.value_counts()

## Visualizacion en 2D

In [None]:
plt.figure(figsize=(10, 7))  
plt.scatter(zscore_df['asisten_porcen_minuto'], zscore_df['puntos_porcen_minuto'], c=cluster_kmeans.Cluster, cmap='rainbow') 

## Visualizacion en 3D

In [None]:
import plotly.express as px

fig = px.scatter_3d(zscore_df, x='asisten_porcen_minuto', y='tiempo_juego', z='edad', color=cluster_kmeans['Cluster'].astype(str))
fig.show()

### Métrica de Silueta

In [None]:
from sklearn.metrics import silhouette_score
silhouette_score(basket.values, cluster_kmeans.Cluster, metric='euclidean')

### Referencias: 
https://machinelearningmastery.com/standardscaler-and-minmaxscaler-transforms-in-python/ 

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html