# **Trabalho Prático: Classificação (Fase 1)**

**Alunos:**  
Isabelle Fernandes de Oliveira   
Arthur Gontijo Queiroz da Silveira

## 1. Contexto escolhido e sua relevância
O crescimento do setor fitness e o aumento do uso de tecnologias vestíveis tornam essencial entender os padrões de exercícios dos usuários. A análise desses dados pode subsidiar recomendações personalizadas e aprimorar o engajamento em academias e aplicativos de treino.

O contexto deste projeto consiste na análise de dados de frequentadores de academias, com foco nos seus hábitos de treino. Com o crescimento do setor fitness, as academias e empresas do setor buscam personalizar a experiência do cliente para aumentar a retenção e a satisfação. Dessa forma, entender os padrões de exercícios dos clientes pode subsidiar recomendações personalizadas e aprimorar o engajamento em academias e aplicativos de treino. A classificação do tipo de treino (ex: cardio, musculação, funcional) é fundamental nesse processo, pois possibilita uma segmentação automática e escalável dos usuários, agregando valor tanto para o negócio quanto para o cliente final.

O dataset Gym Members Exercise Dataset, disponível no Kaggle *<https://www.kaggle.com/datasets/valakhorasani/gym-members-exercise-dataset>*, fornece uma visão geral detalhada das rotinas de exercícios, atributos físicos e métricas de condicionamento físico dos frequentadores de academias. Ele contém 973 amostras de dados de academias, incluindo indicadores de desempenho, como frequência cardíaca, calorias queimadas e duração do treino, idade, sexo e níveis de experiência.


## 2. Recursos disponíveis, requisitos, suposições, restrições, riscos e contingências

**Recursos disponíveis:**   
- Dataset público disponível na plataforma Kaggle: Gym Members Exercise Dataset;  
- Software Python 3.12.4, Jupyter Notebook, Visual Studio Code 
- Hardware: Computador pessoal com capacidade para processamento dos dados.   

**Requisitos:**   
- Conhecimento básico em técnicas de pré-processamento de dados e algoritmos de classificação.

**Suposições:**   
- Os dados são representativos e confiáveis.   

**Restrições:**   
- Dados limitados a uma amostra específica de usuários, possível viés de representatividade. 
- O tempo para desenvolvimento do projeto é limitado ao cronograma acadêmico definido.  

**Riscos:**
- O modelo pode apresentar um desempenho baixo (baixa acurácia), não atingindo o critério de sucesso.
 
**Contingências:**   
- Serão testados e comparados diferentes algoritmos de classificação (Random Forest, Naive Bayes e Support Vector Machines (SVM)) e será realizado o ajuste de hiperparâmetros para otimizar a performance.


## 3. Objetivos da mineração de dados, detalhamento da tarefa e critérios de sucesso

**Objetivo:**   
- Classificação supervisionada: Desenvolver um modelo de classificação capaz de identificar corretamente o tipo de exercício (workout_type) realizado por usuários com base em variáveis coletadas.   
- Aplicar e comparar algoritmos de classificação: Random Forest, Naive Bayes e Support Vector Machines (SVM).

**Tarefa de Mineração de Dados:**   
1. Limpeza de dados.   
2. Verificação da distribuição das classes de workout_type
3. Identificação de possíveis desbalanceamentos nas classes.
4. Visualizações para detectar padrões, tendências ou outliers.
5. Separação do conjunto em treino e teste (ex.: 80/20).
6. Uso de validação cruzada (k-fold).
7. Utilização de algoritmos de classificação (Random Forest, Naive Bayes e SVM);
8. Avaliar desempenho de cada algoritmo utilizando as métricas: Acurácia, Precisão, Recall, F1-Score, Matriz de Confusão;
9. Análise de importância das variáveis para entender os fatores que mais influenciam a classificação
     
**Critérios de sucesso:**   
- Acurácia geral satisfatória: O modelo deve apresentar uma acurácia significativamente superior ao modelo baseline (modelo com um classificador ingênuo). O modelo baseline a ser adotado consiste em classificar aleatoriamente os dados seguindo uma multinomial com probabilidade verificada na ocorrência da categoria no banco de teste.
- F1-Score por classe: O sucesso será medido pela obtenção de F1-Scores razoavelmente equilibrados entre as classes, evitando que o modelo tenha bom desempenho apenas nas classes majoritárias.
- Matriz de confusão interpretável e com baixo número de erros críticos: O critério de sucesso envolve minimizar falsos positivos e falsos negativos, especialmente entre classes que são semanticamente diferentes (ex: confundir "alongamento" com "cardio").


## 4. Descrição do projeto
O projeto visa aplicar técnicas de mineração de dados, com foco nos algoritmos de classificação Random Forest, Naive Bayes e SVM, para categorizar tipos de exercício físico praticados por membros de academia, a partir de um dataset com informações sobre os treinos realizados. Esses algoritmos foram escolhidos como representantes de suas categorias, a saber: árores de decisão e derivados, probabilístico e método baseado em distância, respectivamente.



## 5. Descrição e exploração inicial dos dados
O Gym Members Exercise Dataset contém 973 registros de atividades físicas com variáveis como duração, intensidade, frequência cardíaca, calorias queimadas, entre outras, totalizando 15 colunas.

In [7]:
import pandas as pd

df = pd.read_csv("gym_members_exercise_tracking.csv", sep=",")
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 973 entries, 0 to 972
Data columns (total 15 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   Age                            973 non-null    int64  
 1   Gender                         973 non-null    object 
 2   Weight (kg)                    973 non-null    float64
 3   Height (m)                     973 non-null    float64
 4   Max_BPM                        973 non-null    int64  
 5   Avg_BPM                        973 non-null    int64  
 6   Resting_BPM                    973 non-null    int64  
 7   Session_Duration (hours)       973 non-null    float64
 8   Calories_Burned                973 non-null    float64
 9   Workout_Type                   973 non-null    object 
 10  Fat_Percentage                 973 non-null    float64
 11  Water_Intake (liters)          973 non-null    float64
 12  Workout_Frequency (days/week)  973 non-null    int

In [8]:
df.head(10)

Unnamed: 0,Age,Gender,Weight (kg),Height (m),Max_BPM,Avg_BPM,Resting_BPM,Session_Duration (hours),Calories_Burned,Workout_Type,Fat_Percentage,Water_Intake (liters),Workout_Frequency (days/week),Experience_Level,BMI
0,56,Male,88.3,1.71,180,157,60,1.69,1313.0,Yoga,12.6,3.5,4,3,30.2
1,46,Female,74.9,1.53,179,151,66,1.3,883.0,HIIT,33.9,2.1,4,2,32.0
2,32,Female,68.1,1.66,167,122,54,1.11,677.0,Cardio,33.4,2.3,4,2,24.71
3,25,Male,53.2,1.7,190,164,56,0.59,532.0,Strength,28.8,2.1,3,1,18.41
4,38,Male,46.1,1.79,188,158,68,0.64,556.0,Strength,29.2,2.8,3,1,14.39
5,56,Female,58.0,1.68,168,156,74,1.59,1116.0,HIIT,15.5,2.7,5,3,20.55
6,36,Male,70.3,1.72,174,169,73,1.49,1385.0,Cardio,21.3,2.3,3,2,23.76
7,40,Female,69.7,1.51,189,141,64,1.27,895.0,Cardio,30.6,1.9,3,2,30.57
8,28,Male,121.7,1.94,185,127,52,1.03,719.0,Strength,28.9,2.6,4,2,32.34
9,28,Male,101.8,1.84,169,136,64,1.08,808.0,Cardio,29.7,2.7,3,1,30.07


In [None]:
print(df.describe())

Abaixo segue a descrição de cada coluna:
- Age: Idade do membro da academia.
- Gender: Sexo do membro da academia (Masculino ou Feminino).
- Weight (kg): Peso do membro em quilogramas.
- Height (m): Altura do membro em metros.
- Max_BPM: Frequência cardíaca máxima (batimentos por minuto) durante as sessões de treino.
- Avg_BPM: Frequência cardíaca média durante as sessões de treino.
- Resting_BPM: Frequência cardíaca em repouso antes do treino.
- Session_Duration (horas): Duração de cada sessão de treino em horas.
- Calories_Curned: Total de calorias queimadas durante cada sessão.
- Workout_Type: Tipo de treino realizado (ex.: Cardio, Força, Yoga, HIIT).
- Fat_Percentage: Percentual de gordura corporal do membro.
- Water_Intake (litros): Ingestão diária de água durante os treinos.
- Workout_Frequency (dias/semana): Número de sessões de treino por semana.
- Experience_Level: Nível de experiência, de iniciante (1) a avançado (3).
- BMI: Índice de Massa Corporal, calculado a partir da altura e do peso.

Os dados serão mais profundamente explorados na fase 2 de entrega.

Link da conversa LLM - Fase 1: https://chatgpt.com/share/685dbc3c-8188-8005-9cd8-ff2ae652afe0

Análise da conversa: Foi solicitado a LLM um esqueleto a ser preenchido dos pontos principais que consiste para a fase 1 de entrega. A LLM respondeu bem a esses pontos, facilitando o início de desenvolvimento do relatório. Para a definição dos critérios de aceitação, ela sugeriu boas medidas, em consonância com o que foi visto em sala de aula.