In [4]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
import numpy as np


In [2]:
df = pd.read_csv('./Datasets/20241016 Gym Members Exercise Dataset/gym_members_exercise_tracking.csv')
df.head(10)

Unnamed: 0,Age,Gender,Weight (kg),Height (m),Max_BPM,Avg_BPM,Resting_BPM,Session_Duration (hours),Calories_Burned,Workout_Type,Fat_Percentage,Water_Intake (liters),Workout_Frequency (days/week),Experience_Level,BMI
0,56,Male,88.3,1.71,180,157,60,1.69,1313.0,Yoga,12.6,3.5,4,3,30.2
1,46,Female,74.9,1.53,179,151,66,1.3,883.0,HIIT,33.9,2.1,4,2,32.0
2,32,Female,68.1,1.66,167,122,54,1.11,677.0,Cardio,33.4,2.3,4,2,24.71
3,25,Male,53.2,1.7,190,164,56,0.59,532.0,Strength,28.8,2.1,3,1,18.41
4,38,Male,46.1,1.79,188,158,68,0.64,556.0,Strength,29.2,2.8,3,1,14.39
5,56,Female,58.0,1.68,168,156,74,1.59,1116.0,HIIT,15.5,2.7,5,3,20.55
6,36,Male,70.3,1.72,174,169,73,1.49,1385.0,Cardio,21.3,2.3,3,2,23.76
7,40,Female,69.7,1.51,189,141,64,1.27,895.0,Cardio,30.6,1.9,3,2,30.57
8,28,Male,121.7,1.94,185,127,52,1.03,719.0,Strength,28.9,2.6,4,2,32.34
9,28,Male,101.8,1.84,169,136,64,1.08,808.0,Cardio,29.7,2.7,3,1,30.07


In [3]:
# Verificando o tamanho e os dados do dataset
data_shape = df.shape
data_preview = df.head()

data_shape, data_preview

((973, 15),
    Age  Gender  Weight (kg)  Height (m)  Max_BPM  Avg_BPM  Resting_BPM  \
 0   56    Male         88.3        1.71      180      157           60   
 1   46  Female         74.9        1.53      179      151           66   
 2   32  Female         68.1        1.66      167      122           54   
 3   25    Male         53.2        1.70      190      164           56   
 4   38    Male         46.1        1.79      188      158           68   
 
    Session_Duration (hours)  Calories_Burned Workout_Type  Fat_Percentage  \
 0                      1.69           1313.0         Yoga            12.6   
 1                      1.30            883.0         HIIT            33.9   
 2                      1.11            677.0       Cardio            33.4   
 3                      0.59            532.0     Strength            28.8   
 4                      0.64            556.0     Strength            29.2   
 
    Water_Intake (liters)  Workout_Frequency (days/week)  Experien

In [None]:
# O dataset contém 973 linhas e 15 colunas, incluindo variáveis relacionadas a idade, gênero, peso, altura, frequência cardíaca, 
# duração das sessões, calorias queimadas, tipo de exercício, percentual de gordura, entre outras. 
# Para aplicar o algoritmo K-means, algumas colunas precisarão ser normalizadas e algumas poderão ser descartadas 
# (como Gender e Workout_Type por serem categóricas, exceto se quisermos convertê-las).

In [5]:
# Intervalo de 2 a 20 grupos. Primeiro, preparar dos dados e normalizá-los para facilitar o cálculo das distâncias no K-means.
# Selecionando colunas numéricas para agrupamento e normalização
numerical_cols = ['Age', 'Weight (kg)', 'Height (m)', 'Max_BPM', 'Avg_BPM', 'Resting_BPM',
                  'Session_Duration (hours)', 'Calories_Burned', 'Fat_Percentage', 
                  'Water_Intake (liters)', 'Workout_Frequency (days/week)', 'Experience_Level', 'BMI']

In [7]:
# Extraindo os dados numéricos relevantes e normalizando-os
# novo DataFrame apenas com as colunas numéricas
data_numerical = df[numerical_cols]

# Inicializa o scaler, que irá normalizar os dados
scaler = StandardScaler()

# Aplica a normalização aos dados, ajustando a média para zero e a variância para 1, 
# essencial para que as diferentes unidades (ex: kg, m) não distorçam os cálculos de distância do K-means.
data_scaled = scaler.fit_transform(data_numerical)

In [8]:
# Se o conjunto de dados for muito grande, tomaremos uma amostra representativa
# sample_size = 500  : Aqui definimos que, se o conjunto de dados tiver mais de 500 linhas, faremos uma amostragem de 500 dados para tornar a execução mais rápida.

# np.random.choice() : Se o número de linhas for maior que 500, uma amostragem aleatória de 500 pontos será extraída 
#                      dos dados normalizados.

# data_sampled       : Caso o dataset tenha menos que 500 entradas, todos os dados serão usados. 
#                      Caso contrário, a amostra será utilizada.
sample_size = 500 if data_scaled.shape[0] > 500 else data_scaled.shape[0]
if data_scaled.shape[0] > sample_size:
    data_sampled = data_scaled[np.random.choice(data_scaled.shape[0], sample_size, replace=False), :]
else:
    data_sampled = data_scaled

In [9]:
# Executa K-means por k de 2 para 20
# k_values: Lista de valores de k (número de clusters) que será usada para tentar diferentes números de grupos, variando de 2 a 20.
k_values = list(range(2, 21))
# silhouette_scores: Lista que vai armazenar os valores de silhueta para cada valor de k.
silhouette_scores = []

In [10]:
# Calcula o coeficiente de silhueta, uma métrica para avaliar a qualidade dos clusters. 
# Ele varia de -1 a 1, onde 1 indica que os clusters estão bem separados.
for k in k_values:
    kmeans = KMeans(n_clusters=k, random_state=42)
    labels = kmeans.fit_predict(data_sampled)
    silhouette_avg = silhouette_score(data_sampled, labels)
    silhouette_scores.append(silhouette_avg)
    

# for k in k_values:: Itera sobre cada valor de k.
# KMeans(n_clusters=k, random_state=42): Inicializa o algoritmo de K-means para o valor atual de k, 
#                                        onde n_clusters=k define o número de clusters e 
#                                        random_state=42 garante que a aleatoriedade seja consistente entre execuções.

# kmeans.fit_predict(data_sampled): Ajusta o K-means aos dados (encontrando os clusters) e 
#                                   retorna os rótulos (labels) dos clusters para cada ponto de dados.

# silhouette_score(data_sampled, labels): Calcula o coeficiente de silhueta, que avalia quão bem os pontos 
#                                         estão agrupados em relação aos clusters formados.
    
# silhouette_scores.append(silhouette_avg): Adiciona a média do coeficiente de silhueta para esse valor de k 
#                                           à lista silhouette_scores.    

  super()._check_params_vs_input(X, default_n_init=10)
  super()._check_params_vs_input(X, default_n_init=10)
  super()._check_params_vs_input(X, default_n_init=10)
  super()._check_params_vs_input(X, default_n_init=10)
  super()._check_params_vs_input(X, default_n_init=10)
  super()._check_params_vs_input(X, default_n_init=10)
  super()._check_params_vs_input(X, default_n_init=10)
  super()._check_params_vs_input(X, default_n_init=10)
  super()._check_params_vs_input(X, default_n_init=10)
  super()._check_params_vs_input(X, default_n_init=10)
  super()._check_params_vs_input(X, default_n_init=10)
  super()._check_params_vs_input(X, default_n_init=10)
  super()._check_params_vs_input(X, default_n_init=10)
  super()._check_params_vs_input(X, default_n_init=10)
  super()._check_params_vs_input(X, default_n_init=10)


  super()._check_params_vs_input(X, default_n_init=10)
  super()._check_params_vs_input(X, default_n_init=10)
  super()._check_params_vs_input(X, default_n_init=10)
  super()._check_params_vs_input(X, default_n_init=10)


In [11]:
# Retornando as pontuações da silhueta para cada k
# Essa linha retorna a lista de valores de silhueta, onde cada valor corresponde a um número de clusters (k) que foi testado.
silhouette_scores

[0.246367337226801,
 0.19657046400344405,
 0.15483265268282523,
 0.148734528368914,
 0.13549133465090477,
 0.12797322334035013,
 0.12425329373422712,
 0.121124561628264,
 0.11983581853711976,
 0.12142369914635384,
 0.11815107334035332,
 0.11186263479477446,
 0.11517233433296056,
 0.1177898101907854,
 0.1134040350107788,
 0.11341252735399132,
 0.11218688765584187,
 0.11424586166061006,
 0.11170173254350474]

In [None]:
# RESUMO
# ############
# O código começa preparando os dados para o K-means, normalizando as variáveis numéricas. 
# Em seguida, faz uma amostragem dos dados se o dataset for muito grande.
# Depois, executa o algoritmo K-means para k variando de 2 a 20 e, para cada execução, 
# calcula a métrica de silhueta. Isso ajuda a encontrar o número ideal de clusters (aquele com maior valor de silhueta).
