# 🧠 Etapa 1 – Escolha do Conjunto de Dados

O dataset escolhido para este projeto foi retirado do Kaggle e trata de aspectos relacionados à saúde e ao estilo de vida das pessoas.

🔗 **Fonte**: [Health and Lifestyle Dataset - Kaggle](https://www.kaggle.com/datasets/sahilislam007/health-and-lifestyle-dataset)

Este dataset contém informações como idade, altura, peso, frequência de exercícios, consumo de álcool, tabagismo, entre outros aspectos importantes para análises preditivas relacionadas à saúde.

Além disso, ele apresenta variáveis **numéricas e categóricas**, como solicitado na proposta da atividade.

👉 Dentre as etapas seguintes, o projeto contará com etapas de limpeza, EDA e modelagem preditiva a partir desse conjunto de dados.

# 🧼 Etapa 2 – Limpeza e Preparação dos Dados

Etapa para carregar o dataset, verificar valores ausentes, tratar inconsistências e aplicar técnicas de preparação para análise e modelagem.

Foram utilizadas bibliotecas como `pandas`, `numpy` e `sklearn.preprocessing` para isso.

In [None]:
# 📥 Importando bibliotecas necessárias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import LabelEncoder, StandardScaler

# Configurações visuais para gráficos
sns.set(style="whitegrid")
plt.rcParams['figure.figsize'] = (10, 6)

In [None]:
# 📂 Carregando o dataset (ajuste o caminho conforme necessário)
df = pd.read_csv("../data/health_and_lifestyle_dataset.csv")
df.head()

In [None]:
# 🔍 Informações iniciais sobre os dados
df.info()

In [None]:
# 🔎 Verificando valores ausentes
df.isnull().sum()

In [None]:
# ✨ Preenchendo valores ausentes (exemplo genérico)
df.fillna(df.median(numeric_only=True), inplace=True)

# Se quiser apagar linhas com valores ausentes:
# df.dropna(inplace=True)

In [None]:
# 🧽 Removendo duplicatas (se existirem)
df.drop_duplicates(inplace=True)

In [None]:
# 🔢 Codificando variáveis categóricas
label_enc = LabelEncoder()
categorical_cols = df.select_dtypes(include=["object"]).columns
for col in categorical_cols:
    df[col] = label_enc.fit_transform(df[col].astype(str))
df.head()

In [None]:
# 📊 Normalizando os dados numéricos
scaler = StandardScaler()
numeric_cols = df.select_dtypes(include=['int64', 'float64']).columns
df[numeric_cols] = scaler.fit_transform(df[numeric_cols])
df.head()

# 🔎 Etapa 3 – Análise Exploratória de Dados (EDA)

Nesta etapa, serão analisadas estatísticas descritivas, criados gráficos e identificados padrões nos dados.

O objetivo é entender melhor o comportamento das variáveis e possíveis relações entre elas.

In [None]:
# 📈 Estatísticas descritivas
df.describe()

In [None]:
# 🔍 Verificando a correlação entre variáveis numéricas
correlation = df.corr()
plt.figure(figsize=(12, 8))
sns.heatmap(correlation, annot=True, cmap="coolwarm")
plt.title("Matriz de Correlação")
plt.show()

In [None]:
# 📊 Distribuição de algumas variáveis
df.hist(bins=20, figsize=(15, 10), color="skyblue")
plt.suptitle("Distribuição das Variáveis Numéricas", fontsize=16)
plt.show()

In [None]:
# 📦 Boxplots para identificar outliers
for col in df.select_dtypes(include=['float64', 'int64']).columns[:6]:
    plt.figure()
    sns.boxplot(data=df[col], color='lightcoral')
    plt.title(f"Boxplot de {col}")
    plt.show()

✨ A partir desses gráficos, é possível observar a distribuição das variáveis, possíveis outliers, e relações entre os dados. Esses insights são fundamentais para preparar a modelagem preditiva na próxima etapa!

# 🤖 Etapa 4 – Modelagem Preditiva Simples

Nesta etapa, um modelo de **classificação** será treinado para prever um comportamento com base nas variáveis do dataset.

Será utilizado o algoritmo **Random Forest Classifier**, pois ele é robusto, fácil de usar e funciona bem mesmo sem muitos ajustes. A métrica escolhida será o **F1-score**, ideal quando há classes desbalanceadas.

⚠️ Nota: como o dataset original utilizado não define uma variável alvo clara, você poderá adaptar para prever, por exemplo, o hábito de fumar (`Smoker`) ou IMC (`BMI`).

In [1]:
# 🔄 Convertendo a variável Exercise_Freq em categorias discretas
def categorizar_exercicio(freq):
    if freq <= 1:
        return 0  # Nunca ou quase nunca
    elif freq <= 3:
        return 1  # Às vezes
    else:
        return 2  # Frequente

df['Exercise_Cat'] = df['Exercise_Freq'].apply(categorizar_exercicio)
df['Exercise_Cat'].value_counts()

NameError: name 'df' is not defined

In [None]:
# 🎯 Definindo nova variável alvo (categoria de exercício) e features
target = 'Exercise_Cat'
X = df.drop(columns=[target])
y = df[target]

In [None]:
# ✂️ Separando treino e teste
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
print("Conjunto de treino:", X_train.shape)
print("Conjunto de teste:", X_test.shape)

In [None]:
# 🌲 Treinando o modelo Random Forest
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

In [None]:
# 📈 Fazendo previsões e avaliando
from sklearn.metrics import classification_report, confusion_matrix, f1_score

y_pred = model.predict(X_test)
print("F1-score:", f1_score(y_test, y_pred, average='weighted'))
print("\nRelatório de Classificação:")
print(classification_report(y_test, y_pred))

In [None]:
# 🔍 Matriz de confusão
conf_matrix = confusion_matrix(y_test, y_pred)
sns.heatmap(conf_matrix, annot=True, cmap="Blues", fmt="d")
plt.title("Matriz de Confusão")
plt.xlabel("Previsto")
plt.ylabel("Real")
plt.show()

✅ Modelo treinado e avaliado! Agora já temos uma base para entender os fatores que influenciam na variável `Exercise_Freq` (ou outra que você queira prever).

# 📊 Etapa 5 – Visualização e Relatório Técnico

Etapa final em que serão exibidas as principais visualizações e destacados os pontos mais relevantes que devem constar no relatório final (`README.md`).

Abaixo, as variáveis mais importantes para a predição são mostradas, com base no modelo Random Forest.

In [None]:
# 🌟 Importância das variáveis no modelo
importances = model.feature_importances_
features = X.columns
importancia_df = pd.DataFrame({"Feature": features, "Importância": importances})
importancia_df = importancia_df.sort_values(by="Importância", ascending=False)

sns.barplot(x="Importância", y="Feature", data=importancia_df.head(10), palette="viridis")
plt.title("Top 10 Variáveis mais Relevantes para a Predição de Exercício")
plt.tight_layout()
plt.show()