In [None]:
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

In [None]:
#Load dataset
df_gym = pd.read_csv('gym_members_exercise_tracking.csv')
df_gym.head()

In [None]:
# Check for missing values
missing_values = df_gym.isnull().sum()

In [None]:
print(missing_values)

In [None]:
# Drop rows with missing target values, if any
data = df_gym.dropna(subset=['Experience_Level'])

In [None]:
# Encode categorical variables (Gender, Workout_Type)
label_encoders = {}
categorical_columns = ['Gender', 'Workout_Type']

for col in categorical_columns:
    le = LabelEncoder()
    df_gym[col] = le.fit_transform(df_gym[col])
    label_encoders[col] = le

In [None]:
df_gym.head

In [None]:
# Define features (X) and target (y)
X = df_gym.drop(columns=['Experience_Level'])
y = df_gym['Experience_Level']

In [None]:
# Normalize the features
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

In [None]:
#######################################################################
#create training and testing datasets. 30% for tests selected by random
X_train, X_test, y_train, y_test = train_test_split(X_scaled,y,test_size=0.3,random_state=42,stratify=y)
# X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.3, random_state=42, stratify=y)


print (X_train.shape, y_train.shape)
print (X_test.shape, y_test.shape)

In [None]:
# Train the KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=10)
knn.fit(X_train, y_train)

# neigh = KNeighborsClassifier(n_neighbors=5,weights='distance')
# neigh.fit(X_train,y_train)

In [None]:
# Predictions on training and testing sets
y_train_pred = knn.predict(X_train)
y_test_pred = knn.predict(X_test)

In [None]:
# Calculate accuracies
train_accuracy = accuracy_score(y_train, y_train_pred)
test_accuracy  = accuracy_score(y_test, y_test_pred)

In [None]:
# Generate confusion matrices
train_conf_matrix = confusion_matrix(y_train, y_train_pred)
test_conf_matrix = confusion_matrix(y_test, y_test_pred)

In [None]:
# Display results
# uuu
results = {
    "Train Accuracy": train_accuracy,
    "Test Accuracy": test_accuracy,
    "Train Confusion Matrix": train_conf_matrix,
    "Test Confusion Matrix": test_conf_matrix
}
results

In [None]:
# Plot confusion matrices
fig, axes = plt.subplots(1, 2, figsize=(12, 6))

# Training confusion matrix
sns.heatmap(train_conf_matrix, annot=True, fmt='d', cmap='Greens', ax=axes[0])
axes[0].set_title('Training Confusion Matrix')
axes[0].set_xlabel('Predicted Labels')
axes[0].set_ylabel('True Labels')

# Testing confusion matrix
sns.heatmap(test_conf_matrix, annot=True, fmt='d', cmap='Greens', ax=axes[1])
axes[1].set_title('Testing Confusion Matrix')
axes[1].set_xlabel('Predicted Labels')
axes[1].set_ylabel('True Labels')

plt.tight_layout()
plt.show()

Para determinar se o modelo está sofrendo de overfitting, podemos comparar a acurácia no conjunto de treinamento com a acurácia no conjunto de teste. Em geral:

Overfitting ocorre quando o modelo tem um desempenho significativamente melhor no treinamento do que no teste, indicando que ele está memorizando os dados de treinamento em vez de generalizar bem para novos dados.
Boa generalização ocorre quando a diferença entre as acurácias de treinamento e teste é pequena.
Resultados:
Acurácia no treinamento: 90.75%
Acurácia no teste: 81.51%
Diferença: 9.24 pontos percentuais
Análise:
Diferença de acurácia:

A diferença de ~9.24% entre o treinamento e o teste indica que o modelo está capturando bem os padrões dos dados, mas ainda tem algum grau de especialização no conjunto de treinamento.
Natureza do modelo KNN:

O KNN tende a ser mais resiliente ao overfitting, mas ele pode ser influenciado pela escolha de hiperparâmetros, como o número de vizinhos (n_neighbors).
Conclusão:
Este modelo apresenta uma leve tendência ao overfitting, mas ainda está dentro de uma margem aceitável. Para mitigar isso:

Testar valores diferentes para n_neighbors, ajustando para um melhor equilíbrio entre bias e variance.
Validar com mais métricas, como F1-score, especialmente se as classes estiverem desbalanceadas.
Considerar validação cruzada para avaliar o desempenho médio em diferentes divisões do conjunto de dados.