In [2]:
import pandas as pd
import numpy as np

# Carregar o dataset
df = pd.read_csv('Obesity.csv')

# Corrigir a inconsistência no nome da coluna: TER no dicionário, TUE no arquivo.
# Vamos renomear TUE para o nome mais descritivo do dicionário: TER
if 'TUE' in df.columns:
    df.rename(columns={'TUE': 'TER'}, inplace=True)

# No dicionário, a coluna alvo é 'Obesity_level', no CSV é 'Obesity'. Vamos padronizar.
if 'Obesity' in df.columns:
    df.rename(columns={'Obesity': 'Obesity_level'}, inplace=True)

# Exibir as primeiras 5 linhas
print("--- Primeiras 5 linhas do dataset ---")
print(df.head())

# Exibir informações gerais sobre o dataset
print("\n--- Informações Gerais do Dataset ---")
df.info()

# Verificar se há valores nulos
print("\n--- Verificação de Valores Nulos ---")
print(df.isnull().sum())

# Gerar estatísticas descritivas para as colunas numéricas
print("\n--- Estatísticas Descritivas (Colunas Numéricas) ---")
print(df.describe())

# Verificar a distribuição da nossa variável alvo (Obesity_level)
print("\n--- Distribuição da Variável Alvo (Nível de Obesidade) ---")
print(df['Obesity_level'].value_counts())

--- Primeiras 5 linhas do dataset ---
   Gender   Age  Height  Weight family_history FAVC  FCVC  NCP       CAEC  \
0  Female  21.0    1.62    64.0            yes   no   2.0  3.0  Sometimes   
1  Female  21.0    1.52    56.0            yes   no   3.0  3.0  Sometimes   
2    Male  23.0    1.80    77.0            yes   no   2.0  3.0  Sometimes   
3    Male  27.0    1.80    87.0             no   no   3.0  3.0  Sometimes   
4    Male  22.0    1.78    89.8             no   no   2.0  1.0  Sometimes   

  SMOKE  CH2O  SCC  FAF  TER        CALC                 MTRANS  \
0    no   2.0   no  0.0  1.0          no  Public_Transportation   
1   yes   3.0  yes  3.0  0.0   Sometimes  Public_Transportation   
2    no   2.0   no  2.0  1.0  Frequently  Public_Transportation   
3    no   2.0   no  2.0  0.0  Frequently                Walking   
4    no   2.0   no  0.0  0.0   Sometimes  Public_Transportation   

         Obesity_level  
0        Normal_Weight  
1        Normal_Weight  
2        Normal_Weigh

In [3]:
import matplotlib.pyplot as plt
import seaborn as sns

# Dicionário para renomear as colunas para português
colunas_traduzidas = {
    'Gender': 'Genero',
    'Age': 'Idade',
    'Height': 'Altura',
    'Weight': 'Peso',
    'family_history_with_overweight': 'Historico_Familiar_Sobrepeso',
    'FAVC': 'Consumo_Alimentos_Caloricos',
    'FCVC': 'Frequencia_Consumo_Vegetais',
    'NCP': 'Numero_Refeicoes_Principais',
    'CAEC': 'Consumo_Alimentos_Entre_Refeicoes',
    'SMOKE': 'Fumante',
    'CH2O': 'Consumo_Agua_Litros',
    'SCC': 'Monitoramento_Calorias',
    'FAF': 'Frequencia_Atividade_Fisica',
    'TER': 'Tempo_Uso_Dispositivos_Tecnologicos',
    'CALC': 'Consumo_Alcool',
    'MTRANS': 'Meio_Transporte',
    'NObeyesdad': 'Obesity_level' # Nome da coluna alvo no dataset original
}

# Dicionário para tradução
translation_map = {
    'Normal_Weight': 'Peso Normal',
    'Overweight_Level_I': 'Sobrepeso Nível I',
    'Overweight_Level_II': 'Sobrepeso Nível II',
    'Obesity_Type_I': 'Obesidade Tipo I',
    'Obesity_Type_II': 'Obesidade Tipo II',
    'Obesity_Type_III': 'Obesidade Tipo III',
    'Insufficient_Weight': 'Peso Insuficiente'
}

# Aplicar a tradução
df['Obesity_level'] = df['Obesity_level'].replace(translation_map)

# Dicionário para tradução dos meios de transporte
transport_translation = {
    'Public_Transportation': 'Transporte Público',
    'Automobile': 'Automóvel',
    'Walking': 'Caminhando',
    'Motorbike': 'Moto',
    'Bike': 'Bicicleta'
}

# Aplicar a tradução na coluna 'MTRANS'
df['MTRANS'] = df['MTRANS'].replace(transport_translation)

# Traduzir a coluna 'family_history'
df['family_history'] = df['family_history'].replace({'yes': 'Sim', 'no': 'Não'})

# Configurações de estilo para os gráficos
sns.set_style("whitegrid")
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['axes.titlesize'] = 16
plt.rcParams['axes.labelsize'] = 12

# ---- Gráfico 1: Distribuição da Variável Alvo (Obesity_level) ----
plt.figure()
sns.countplot(y='Obesity_level', data=df, palette='viridis', order=df['Obesity_level'].value_counts().index)
plt.title('Distribuição dos Níveis de Obesidade na Amostra')
plt.xlabel('Contagem de Pacientes')
plt.ylabel('Nível de Obesidade')
plt.tight_layout()
plt.savefig('1_distribuicao_obesidade.png')
plt.close()

# ---- Gráfico 2: Relação entre Idade e Nível de Obesidade ----
plt.figure()
sns.boxplot(x='Obesity_level', y='Age', data=df, palette='magma')
plt.title('Relação entre Idade e Nível de Obesidade')
plt.xlabel('Nível de Obesidade')
plt.ylabel('Idade (anos)')
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.savefig('2_idade_vs_obesidade.png')
plt.close()

# ---- Gráfico 3: Impacto do Histórico Familiar ----
plt.figure()
sns.countplot(x='family_history', hue='Obesity_level', data=df, palette='coolwarm')
plt.title('Impacto do Histórico Familiar no Nível de Obesidade')
plt.xlabel('Possui Histórico Familiar de Sobrepeso?')
plt.ylabel('Contagem de Pacientes')
plt.legend(title='Nível de Obesidade', bbox_to_anchor=(1.02, 1), loc='upper left')
plt.tight_layout()
plt.savefig('3_historico_familiar_vs_obesidade.png')
plt.close()

# ---- Gráfico 4: Frequência de Atividade Física vs. Nível de Obesidade ----
# O FAF está como numérico, vamos criar uma categoria para visualizar melhor
df['FAF_category'] = pd.cut(df['FAF'], bins=[-1, 0, 1, 2, 3], labels=['Nenhuma', '1 dia/sem', '2 dias/sem', '3 dias/sem'])
plt.figure()
sns.countplot(x='FAF_category', hue='Obesity_level', data=df, palette='plasma')
plt.title('Relação entre Frequência de Atividade Física e Nível de Obesidade')
plt.xlabel('Frequência de Atividade Física (FAF)')
plt.ylabel('Contagem de Pacientes')
plt.legend(title='Nível de Obesidade', bbox_to_anchor=(1.02, 1), loc='upper left')
plt.tight_layout()
plt.savefig('4_atividade_fisica_vs_obesidade.png')
plt.close()


# ---- Gráfico 5: Meio de Transporte vs. Nível de Obesidade ----
plt.figure()
sns.countplot(x='MTRANS', hue='Obesity_level', data=df, palette='cividis')
plt.title('Influência do Meio de Transporte no Nível de Obesidade')
plt.xlabel('Principal Meio de Transporte')
plt.ylabel('Contagem de Pacientes')
plt.xticks(rotation=45, ha='right')
plt.legend(title='Nível de Obesidade', bbox_to_anchor=(1.02, 1), loc='upper left')
plt.tight_layout()
plt.savefig('5_transporte_vs_obesidade.png')
plt.close()

print("Gráficos da análise exploratória foram gerados e salvos com sucesso.")


Passing `palette` without assigning `hue` is deprecated and will be removed in v0.14.0. Assign the `y` variable to `hue` and set `legend=False` for the same effect.

  sns.countplot(y='Obesity_level', data=df, palette='viridis', order=df['Obesity_level'].value_counts().index)

Passing `palette` without assigning `hue` is deprecated and will be removed in v0.14.0. Assign the `x` variable to `hue` and set `legend=False` for the same effect.

  sns.boxplot(x='Obesity_level', y='Age', data=df, palette='magma')


Gráficos da análise exploratória foram gerados e salvos com sucesso.


In [4]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report
import joblib

# Remover a coluna categórica criada para visualização e reverter traduções para o modelo
if 'FAF_category' in df.columns:
    df = df.drop(columns=['FAF_category'])
df['family_history'] = df['family_history'].replace({'Sim': 'yes', 'Não': 'no'})

# 1. Separação de Features (X) e Alvo (y)
X = df.drop('Obesity_level', axis=1)
y = df['Obesity_level']

# Identificar colunas numéricas e categóricas
numeric_features = X.select_dtypes(include=['int64', 'float64']).columns
categorical_features = X.select_dtypes(include=['object']).columns

# 2. Criação do Pipeline de Pré-processamento
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numeric_features),
        ('cat', OneHotEncoder(handle_unknown='ignore'), categorical_features)
    ])

# 3. Divisão em Dados de Treino e Teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# 4. Definição dos Modelos
models = {
    'Regressao Logistica': LogisticRegression(max_iter=1000, random_state=42),
    'Random Forest': RandomForestClassifier(n_estimators=100, random_state=42),
    'SVM': SVC(probability=True, random_state=42)
}

# 5. Loop para Treinar, Avaliar e Salvar cada Modelo
for name, model_instance in models.items():
    # Criação do Pipeline Completo (Pré-processamento + Modelo)
    pipeline = Pipeline(steps=[('preprocessor', preprocessor),
                             ('classifier', model_instance)])
    
    # Treinar o modelo
    print(f"--- Treinando o modelo: {name} ---")
    pipeline.fit(X_train, y_train)
    
    # Avaliação do Modelo
    y_pred = pipeline.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    
    print(f"Acurácia no conjunto de teste: {accuracy * 100:.2f}%")
    
    # Relatório de Classificação Detalhado
    print("\n--- Relatório de Classificação ---")
    print(classification_report(y_test, y_pred))
    
    # Salvar o modelo treinado
    model_filename = f"{name.lower().replace(' ', '_')}_model.pkl"
    joblib.dump(pipeline, model_filename)
    print(f"Modelo salvo como '{model_filename}'")
    print("="*50 + "\n")


--- Treinando o modelo: Regressao Logistica ---
Acurácia no conjunto de teste: 91.02%

--- Relatório de Classificação ---
                    precision    recall  f1-score   support

  Obesidade Tipo I       0.91      0.96      0.93        70
 Obesidade Tipo II       0.95      0.97      0.96        60
Obesidade Tipo III       1.00      1.00      1.00        65
 Peso Insuficiente       0.93      0.98      0.95        54
       Peso Normal       0.83      0.86      0.85        58
 Sobrepeso Nível I       0.85      0.79      0.82        58
Sobrepeso Nível II       0.88      0.79      0.84        58

          accuracy                           0.91       423
         macro avg       0.91      0.91      0.91       423
      weighted avg       0.91      0.91      0.91       423

Modelo salvo como 'regressao_logistica_model.pkl'

--- Treinando o modelo: Random Forest ---
Acurácia no conjunto de teste: 94.09%

--- Relatório de Classificação ---
                    precision    recall  f1-scor