In [31]:
#Importações
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report
import joblib

🏋️ Projeto Machine Learning – Academia RedFit


1. Abordar o problema e Analisar\
Objetivo: Classificar clientes da RedFit em sedentário, ativo ou atleta com base em suas informações (idade, sexo, PGC, etc.).

2. Obter os dados

In [None]:
df = pd.read_csv("dados_tratados.csv")

df.head()

Unnamed: 0,idade,sexo,frequencia_semanal_treino,tipo_atividade,tempo_medio_exercicio,minutos_totais_semana,preco_plano,possui_nutricionista,primeiro_PGC,ultimo_PGC,data_matricula,estado,evolucao_PGC
0,48,Outro,7.0,Natação,45.3,317.1,188.47,Não,39.5,24.9,2021-07-28,Ativa,14.6
1,30,Outro,7.0,Yoga,98.1,686.7,198.07,Não,25.2,23.5,2020-12-28,Ativa,1.7
2,35,Masculino,5.0,Cardio,33.9,169.5,154.9,Não,27.2,11.4,2022-02-27,Ativa,15.8
3,43,Outro,3.0,Yoga,75.6,226.8,250.79,Sim,14.4,19.2,2022-12-01,Ativa,-4.8
4,37,Masculino,0.0,CrossFit,114.0,0.0,168.02,Sim,21.5,18.1,2024-01-20,Sedentária,3.4


3. Explorar os dados

In [None]:
print(df.info())
print(df.describe())
print(df['estado'].value_counts())  # coluna-alvo

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 905 entries, 0 to 904
Data columns (total 13 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   idade                      905 non-null    int64  
 1   sexo                       905 non-null    object 
 2   frequencia_semanal_treino  905 non-null    float64
 3   tipo_atividade             905 non-null    object 
 4   tempo_medio_exercicio      905 non-null    float64
 5   minutos_totais_semana      905 non-null    float64
 6   preco_plano                905 non-null    float64
 7   possui_nutricionista       905 non-null    object 
 8   primeiro_PGC               905 non-null    float64
 9   ultimo_PGC                 905 non-null    float64
 10  data_matricula             905 non-null    object 
 11  estado                     905 non-null    object 
 12  evolucao_PGC               905 non-null    float64
dtypes: float64(7), int64(1), object(5)
memory usage: 9

4. Separar Base de Dados em Arrays

In [34]:
# X = features (variáveis independentes), y = target (variável dependente)
X = df.drop(['estado_Sedentária', 'data_matricula', 'tipo_atividade'], axis=1)
y = df['estado_Sedentária']

5. Técnicas de Pré-processamento

In [35]:
X.dtypes

X = pd.get_dummies(X, drop_first=True)

X.head()

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

6. Dividir Base de Dados entre Treino e Teste

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42, stratify=y)

7. Definir vários modelos e aplicar Treinamento

In [36]:
# Definindo os modelos
modelos = {
    "Logistic Regression": LogisticRegression(max_iter=1000),
    "KNN": KNeighborsClassifier(),
    "Decision Tree": DecisionTreeClassifier(),
    "Random Forest": RandomForestClassifier()
}

# Treinamento
for nome, modelo in modelos.items():
    modelo.fit(X_train, y_train)
    score = modelo.score(X_test, y_test)
    print(f"{nome} - Acurácia: {score:.2f}")

Logistic Regression - Acurácia: 1.00
KNN - Acurácia: 0.91
Decision Tree - Acurácia: 1.00
Random Forest - Acurácia: 1.00


8. Validar o Modelo

In [38]:
melhor_modelo = RandomForestClassifier()
melhor_modelo.fit(X_train, y_train)
y_pred = melhor_modelo.predict(X_test)

print("Relatório de Classificação:\n")
print(classification_report(y_test, y_pred))

Relatório de Classificação:

              precision    recall  f1-score   support

       False       1.00      1.00      1.00       159
        True       1.00      1.00      1.00        22

    accuracy                           1.00       181
   macro avg       1.00      1.00      1.00       181
weighted avg       1.00      1.00      1.00       181



9. Salvar a Solução

In [39]:
# Salvar modelo treinado
joblib.dump(melhor_modelo, "modelo_redfit.pkl")

# Carregar modelo (quando for usar futuramente)
modelo_carregado = joblib.load("modelo_redfit.pkl")