<a href="https://colab.research.google.com/github/eltonnillo/FIAP_TC4/blob/main/TC4_v1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Tech Challenge - Fase 04
**O problema:** Imagina que você foi contratado como cientista de dados de um hospital e tem o desafio de desenvolver um modelo de Machine Learning para auxiliar os médicos e médicas a prever se uma pessoa pode ter obesidade.

A obesidade é uma condição médica caracterizada pelo acúmulo excessivo de gordura corporal, a ponto de prejudicar a saúde. Esse problema tem se tornado cada vez mais prevalente em todo o mundo, atingindo pessoas de todas as idades e classes sociais. As causas da obesidade são multifatoriais e envolvem uma combinação de fatores genéticos, ambientais e comportamentais.

Utilizando a base de dados disponibilizada neste desafio em **“obesity.csv”**, desenvolva um modelo preditivo e crie um sistema preditivo para auxiliar a tomada de decisão da equipe médica a diagnosticar a obesidade.

**Dicionário de dados:**

* Gender: Gênero.
* Age: Idade.
* Height:Altura em metros.
* Weight: Peso em kgs.
* family_history: Algum membro da família sofreu ou sofre de excesso de peso?
* FAVC: Você come alimentos altamente calóricos com frequência?
* FCVC: Você costuma comer vegetais nas suas refeições?
* NCP: Quantas refeições principais você faz diariamente?
* CAEC: Você come alguma coisa entre as refeições?
* SMOKE: Você fuma?
* CH2O: Quanta água você bebe diariamente?
* SCC: Você monitora as calorias que ingere diariamente?
* FAF: Com que frequência você pratica atividade física?
* TER: Quanto tempo você usa dispositivos tecnológicos como celular, videogame, televisão, computador e outros?
* CALC: Com que frequência você bebe álcool?
* MTRANS: Qual meio de transporte você costuma usar?
* Obesity_level (coluna alvo): Nível de obesidade

Como **entregável**, você precisar desenvolver toda a pipeline de Machine Learning, garantindo a entrega de todos os seguintes requisitos listados a seguir que serão avaliados na sua entrega:

* **Pipeline de machine learning** demonstrando toda a etapa de feature engineering e treinamento do modelo.
* Modelo com **assertividade acima de 75%**.
* Realizar o **deploy do seu modelo em uma aplicação preditiva utilizando o Streamlit**.
* Construir uma **visão analítica em um painel com principais insights obtidos com o estudo** sobre obesidade para trazer insights para a equipe médica.
* **Compartilhar o link da sua aplicação deployada no app do Streamlit + link do painel analítico + link do repositório do seu github com todo código desenvolvido em um arquivo .doc ou .txt para realizar o upload na plataforma online**.
* Gravar um vídeo mostrando toda a estratégia utilizada e apresentação do sistema preditivo (algo em torno de 4min - 10min). **Não se esqueça que tanto a visão do sistema preditivo quanto o dashboard analítico deve ser apresentado em uma visão de negócio.**

# 1. Importando Bibliotecas
Importação das bibliotecas necessárias para nossa análise.

In [49]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report


# 2. Carregando o Conjunto de Dados
Usaremos o conjunto de dados "Obesity".

In [50]:
url_github_raw = 'https://raw.githubusercontent.com/eltonnillo/FIAP_TC4/refs/heads/main/Obesity.csv'
df = pd.read_csv(url_github_raw)
print("O DataFrame foi carregado com sucesso!")

O DataFrame foi carregado com sucesso!


# 3. Análise e Tratamento de Dados
Vamos dar uma olhada nas primeiras linhas do conjunto de dados e entender suas características.

In [51]:
df.head(10)

Unnamed: 0,Gender,Age,Height,Weight,family_history,FAVC,FCVC,NCP,CAEC,SMOKE,CH2O,SCC,FAF,TUE,CALC,MTRANS,Obesity
0,Female,21.0,1.62,64.0,yes,no,2.0,3.0,Sometimes,no,2.0,no,0.0,1.0,no,Public_Transportation,Normal_Weight
1,Female,21.0,1.52,56.0,yes,no,3.0,3.0,Sometimes,yes,3.0,yes,3.0,0.0,Sometimes,Public_Transportation,Normal_Weight
2,Male,23.0,1.8,77.0,yes,no,2.0,3.0,Sometimes,no,2.0,no,2.0,1.0,Frequently,Public_Transportation,Normal_Weight
3,Male,27.0,1.8,87.0,no,no,3.0,3.0,Sometimes,no,2.0,no,2.0,0.0,Frequently,Walking,Overweight_Level_I
4,Male,22.0,1.78,89.8,no,no,2.0,1.0,Sometimes,no,2.0,no,0.0,0.0,Sometimes,Public_Transportation,Overweight_Level_II
5,Male,29.0,1.62,53.0,no,yes,2.0,3.0,Sometimes,no,2.0,no,0.0,0.0,Sometimes,Automobile,Normal_Weight
6,Female,23.0,1.5,55.0,yes,yes,3.0,3.0,Sometimes,no,2.0,no,1.0,0.0,Sometimes,Motorbike,Normal_Weight
7,Male,22.0,1.64,53.0,no,no,2.0,3.0,Sometimes,no,2.0,no,3.0,0.0,Sometimes,Public_Transportation,Normal_Weight
8,Male,24.0,1.78,64.0,yes,yes,3.0,3.0,Sometimes,no,2.0,no,1.0,1.0,Frequently,Public_Transportation,Normal_Weight
9,Male,22.0,1.72,68.0,yes,yes,2.0,3.0,Sometimes,no,2.0,no,1.0,1.0,no,Public_Transportation,Normal_Weight


Ao verificar as informações gerais do conjunto de dados, temos 2111 linhas e 17 colunas. Não há valores nulos.

In [52]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2111 entries, 0 to 2110
Data columns (total 17 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Gender          2111 non-null   object 
 1   Age             2111 non-null   float64
 2   Height          2111 non-null   float64
 3   Weight          2111 non-null   float64
 4   family_history  2111 non-null   object 
 5   FAVC            2111 non-null   object 
 6   FCVC            2111 non-null   float64
 7   NCP             2111 non-null   float64
 8   CAEC            2111 non-null   object 
 9   SMOKE           2111 non-null   object 
 10  CH2O            2111 non-null   float64
 11  SCC             2111 non-null   object 
 12  FAF             2111 non-null   float64
 13  TUE             2111 non-null   float64
 14  CALC            2111 non-null   object 
 15  MTRANS          2111 non-null   object 
 16  Obesity         2111 non-null   object 
dtypes: float64(8), object(9)
memory u

Criando cópia de tratamento da base de dados

In [53]:
df_tratado = df

In [54]:
df_tratado.head()

Unnamed: 0,Gender,Age,Height,Weight,family_history,FAVC,FCVC,NCP,CAEC,SMOKE,CH2O,SCC,FAF,TUE,CALC,MTRANS,Obesity
0,Female,21.0,1.62,64.0,yes,no,2.0,3.0,Sometimes,no,2.0,no,0.0,1.0,no,Public_Transportation,Normal_Weight
1,Female,21.0,1.52,56.0,yes,no,3.0,3.0,Sometimes,yes,3.0,yes,3.0,0.0,Sometimes,Public_Transportation,Normal_Weight
2,Male,23.0,1.8,77.0,yes,no,2.0,3.0,Sometimes,no,2.0,no,2.0,1.0,Frequently,Public_Transportation,Normal_Weight
3,Male,27.0,1.8,87.0,no,no,3.0,3.0,Sometimes,no,2.0,no,2.0,0.0,Frequently,Walking,Overweight_Level_I
4,Male,22.0,1.78,89.8,no,no,2.0,1.0,Sometimes,no,2.0,no,0.0,0.0,Sometimes,Public_Transportation,Overweight_Level_II


Tradução das dos nomes das colunas para português.

In [55]:
traducao_campos = {
                   'Gender': 'genero',
                   'Age': 'idade',
                   'Height': 'altura',
                   'Weight': 'peso',
                   'family_history': 'historico_familiar',
                   'FAVC': 'come_alimentos_caloricos',
                   'FCVC': 'costuma_comer_vegetais',
                   'NCP': 'numero_refeicoes_diarias',
                   'CAEC': 'come_entre_refeicoes',
                   'SMOKE': 'fuma',
                   'CH20': 'consumo_diario_agua',
                   'SCC': 'monitora_calorias_consumidas',
                   'FAF': 'frequencia_atividade_fisica',
                   'TUE': 'tempo_dispositivos_tecnologicos',
                   'CALC': 'consome_alcool',
                   'MTRANS': 'meio_de_transporte',
                   'Obesity': 'nivel_obesidade'
}

In [56]:
df_tratado.rename(columns=traducao_campos, inplace=True)
df_tratado.head()


Unnamed: 0,genero,idade,altura,peso,historico_familiar,come_alimentos_caloricos,costuma_comer_vegetais,numero_refeicoes_diarias,come_entre_refeicoes,fuma,CH2O,monitora_calorias_consumidas,frequencia_atividade_fisica,tempo_dispositivos_tecnologicos,consome_alcool,meio_de_transporte,nivel_obesidade
0,Female,21.0,1.62,64.0,yes,no,2.0,3.0,Sometimes,no,2.0,no,0.0,1.0,no,Public_Transportation,Normal_Weight
1,Female,21.0,1.52,56.0,yes,no,3.0,3.0,Sometimes,yes,3.0,yes,3.0,0.0,Sometimes,Public_Transportation,Normal_Weight
2,Male,23.0,1.8,77.0,yes,no,2.0,3.0,Sometimes,no,2.0,no,2.0,1.0,Frequently,Public_Transportation,Normal_Weight
3,Male,27.0,1.8,87.0,no,no,3.0,3.0,Sometimes,no,2.0,no,2.0,0.0,Frequently,Walking,Overweight_Level_I
4,Male,22.0,1.78,89.8,no,no,2.0,1.0,Sometimes,no,2.0,no,0.0,0.0,Sometimes,Public_Transportation,Overweight_Level_II


# Verificação dos campos para conversão


Avaliando os campos categóricos e convertendo em numéricos para uso em modelos.

**Campos Binários (yes or no):**

* historico_familiar
* come_alimentos_caloricos
* fuma
* monitora_calorias_consumidas


In [57]:
df_tratado['historico_familiar'].value_counts()

Unnamed: 0_level_0,count
historico_familiar,Unnamed: 1_level_1
yes,1726
no,385


In [58]:
df_tratado['come_alimentos_caloricos'].value_counts()

Unnamed: 0_level_0,count
come_alimentos_caloricos,Unnamed: 1_level_1
yes,1866
no,245


In [59]:
df_tratado['fuma'].value_counts()

Unnamed: 0_level_0,count
fuma,Unnamed: 1_level_1
no,2067
yes,44


In [60]:
df_tratado['monitora_calorias_consumidas'].value_counts()

Unnamed: 0_level_0,count
monitora_calorias_consumidas,Unnamed: 1_level_1
no,2015
yes,96


In [61]:
binarios = ['historico_familiar','come_alimentos_caloricos','fuma','monitora_calorias_consumidas']

for coluna in binarios:
  df_tratado[coluna] = df_tratado[coluna].apply(lambda x: 1 if x == 'yes' else 0)


In [62]:
df_tratado.head()

Unnamed: 0,genero,idade,altura,peso,historico_familiar,come_alimentos_caloricos,costuma_comer_vegetais,numero_refeicoes_diarias,come_entre_refeicoes,fuma,CH2O,monitora_calorias_consumidas,frequencia_atividade_fisica,tempo_dispositivos_tecnologicos,consome_alcool,meio_de_transporte,nivel_obesidade
0,Female,21.0,1.62,64.0,1,0,2.0,3.0,Sometimes,0,2.0,0,0.0,1.0,no,Public_Transportation,Normal_Weight
1,Female,21.0,1.52,56.0,1,0,3.0,3.0,Sometimes,1,3.0,1,3.0,0.0,Sometimes,Public_Transportation,Normal_Weight
2,Male,23.0,1.8,77.0,1,0,2.0,3.0,Sometimes,0,2.0,0,2.0,1.0,Frequently,Public_Transportation,Normal_Weight
3,Male,27.0,1.8,87.0,0,0,3.0,3.0,Sometimes,0,2.0,0,2.0,0.0,Frequently,Walking,Overweight_Level_I
4,Male,22.0,1.78,89.8,0,0,2.0,1.0,Sometimes,0,2.0,0,0.0,0.0,Sometimes,Public_Transportation,Overweight_Level_II


**Gênero**

* Male -> 0
* Female -> 1

In [63]:
df_tratado['genero'].value_counts()

Unnamed: 0_level_0,count
genero,Unnamed: 1_level_1
Male,1068
Female,1043


In [64]:
df_tratado['genero'] = df_tratado['genero'].apply(lambda x: 1 if x == 'Female' else 0)
df_tratado.head(5)

Unnamed: 0,genero,idade,altura,peso,historico_familiar,come_alimentos_caloricos,costuma_comer_vegetais,numero_refeicoes_diarias,come_entre_refeicoes,fuma,CH2O,monitora_calorias_consumidas,frequencia_atividade_fisica,tempo_dispositivos_tecnologicos,consome_alcool,meio_de_transporte,nivel_obesidade
0,1,21.0,1.62,64.0,1,0,2.0,3.0,Sometimes,0,2.0,0,0.0,1.0,no,Public_Transportation,Normal_Weight
1,1,21.0,1.52,56.0,1,0,3.0,3.0,Sometimes,1,3.0,1,3.0,0.0,Sometimes,Public_Transportation,Normal_Weight
2,0,23.0,1.8,77.0,1,0,2.0,3.0,Sometimes,0,2.0,0,2.0,1.0,Frequently,Public_Transportation,Normal_Weight
3,0,27.0,1.8,87.0,0,0,3.0,3.0,Sometimes,0,2.0,0,2.0,0.0,Frequently,Walking,Overweight_Level_I
4,0,22.0,1.78,89.8,0,0,2.0,1.0,Sometimes,0,2.0,0,0.0,0.0,Sometimes,Public_Transportation,Overweight_Level_II


Come Entre Refeições - Conversão por ordem de grandeza

* no (Não) -> 0
* Sometimes (Algumas vezes) -> 1
* Frequently (Frequentemente) -> 2
* Always (Sempre) -> 3

In [65]:
df_tratado['come_entre_refeicoes'].value_counts()

Unnamed: 0_level_0,count
come_entre_refeicoes,Unnamed: 1_level_1
Sometimes,1765
Frequently,242
Always,53
no,51


In [66]:
come_entre_refeicoes_dict = {  'no' : 0,
                    'Sometimes' : 1,
                    'Frequently' : 2,
                    'Always' : 3
}

In [67]:
df_tratado['come_entre_refeicoes'] = df_tratado['come_entre_refeicoes'].map(come_entre_refeicoes_dict)
df_tratado['come_entre_refeicoes'].value_counts()

Unnamed: 0_level_0,count
come_entre_refeicoes,Unnamed: 1_level_1
1,1765
2,242
3,53
0,51


In [68]:
df_tratado.head(5)

Unnamed: 0,genero,idade,altura,peso,historico_familiar,come_alimentos_caloricos,costuma_comer_vegetais,numero_refeicoes_diarias,come_entre_refeicoes,fuma,CH2O,monitora_calorias_consumidas,frequencia_atividade_fisica,tempo_dispositivos_tecnologicos,consome_alcool,meio_de_transporte,nivel_obesidade
0,1,21.0,1.62,64.0,1,0,2.0,3.0,1,0,2.0,0,0.0,1.0,no,Public_Transportation,Normal_Weight
1,1,21.0,1.52,56.0,1,0,3.0,3.0,1,1,3.0,1,3.0,0.0,Sometimes,Public_Transportation,Normal_Weight
2,0,23.0,1.8,77.0,1,0,2.0,3.0,1,0,2.0,0,2.0,1.0,Frequently,Public_Transportation,Normal_Weight
3,0,27.0,1.8,87.0,0,0,3.0,3.0,1,0,2.0,0,2.0,0.0,Frequently,Walking,Overweight_Level_I
4,0,22.0,1.78,89.8,0,0,2.0,1.0,1,0,2.0,0,0.0,0.0,Sometimes,Public_Transportation,Overweight_Level_II


Consome Álcool - Conversão por ordem de grandeza

* no (Não) -> 0
* Sometimes (Algumas vezes) -> 1
* Frequently (Frequentemente) -> 2
* Always (Sempre) -> 3

In [69]:
df_tratado['consome_alcool'].value_counts()

Unnamed: 0_level_0,count
consome_alcool,Unnamed: 1_level_1
Sometimes,1401
no,639
Frequently,70
Always,1


In [70]:
consome_alcool_dict = {  'no' : 0,
              'Sometimes' : 1,
              'Frequently' : 2,
              'Always' : 3
}

In [71]:
df_tratado['consome_alcool'] = df_tratado['consome_alcool'].map(consome_alcool_dict)
df_tratado['consome_alcool'].value_counts()

Unnamed: 0_level_0,count
consome_alcool,Unnamed: 1_level_1
1,1401
0,639
2,70
3,1


In [72]:
df_tratado.head(5)

Unnamed: 0,genero,idade,altura,peso,historico_familiar,come_alimentos_caloricos,costuma_comer_vegetais,numero_refeicoes_diarias,come_entre_refeicoes,fuma,CH2O,monitora_calorias_consumidas,frequencia_atividade_fisica,tempo_dispositivos_tecnologicos,consome_alcool,meio_de_transporte,nivel_obesidade
0,1,21.0,1.62,64.0,1,0,2.0,3.0,1,0,2.0,0,0.0,1.0,0,Public_Transportation,Normal_Weight
1,1,21.0,1.52,56.0,1,0,3.0,3.0,1,1,3.0,1,3.0,0.0,1,Public_Transportation,Normal_Weight
2,0,23.0,1.8,77.0,1,0,2.0,3.0,1,0,2.0,0,2.0,1.0,2,Public_Transportation,Normal_Weight
3,0,27.0,1.8,87.0,0,0,3.0,3.0,1,0,2.0,0,2.0,0.0,2,Walking,Overweight_Level_I
4,0,22.0,1.78,89.8,0,0,2.0,1.0,1,0,2.0,0,0.0,0.0,1,Public_Transportation,Overweight_Level_II


Obesidade - Conversão por ordem de grandeza


In [73]:
df_tratado['nivel_obesidade'].value_counts()

Unnamed: 0_level_0,count
nivel_obesidade,Unnamed: 1_level_1
Obesity_Type_I,351
Obesity_Type_III,324
Obesity_Type_II,297
Overweight_Level_I,290
Overweight_Level_II,290
Normal_Weight,287
Insufficient_Weight,272


In [74]:
# Dicionário de nivel_obesidade para números
nivel_obesidade_dict = {
    'Insufficient_Weight': 0,
    'Normal_Weight': 1,
    'Overweight_Level_I': 2,
    'Overweight_Level_II': 3,
    'Obesity_Type_I': 4,
    'Obesity_Type_II': 5,
    'Obesity_Type_III': 6
}

In [75]:
df_tratado['nivel_obesidade'] = df_tratado['nivel_obesidade'].map(nivel_obesidade_dict)
df_tratado['nivel_obesidade'].value_counts()

Unnamed: 0_level_0,count
nivel_obesidade,Unnamed: 1_level_1
4,351
6,324
5,297
2,290
3,290
1,287
0,272


In [76]:
df_tratado.head(5)

Unnamed: 0,genero,idade,altura,peso,historico_familiar,come_alimentos_caloricos,costuma_comer_vegetais,numero_refeicoes_diarias,come_entre_refeicoes,fuma,CH2O,monitora_calorias_consumidas,frequencia_atividade_fisica,tempo_dispositivos_tecnologicos,consome_alcool,meio_de_transporte,nivel_obesidade
0,1,21.0,1.62,64.0,1,0,2.0,3.0,1,0,2.0,0,0.0,1.0,0,Public_Transportation,1
1,1,21.0,1.52,56.0,1,0,3.0,3.0,1,1,3.0,1,3.0,0.0,1,Public_Transportation,1
2,0,23.0,1.8,77.0,1,0,2.0,3.0,1,0,2.0,0,2.0,1.0,2,Public_Transportation,1
3,0,27.0,1.8,87.0,0,0,3.0,3.0,1,0,2.0,0,2.0,0.0,2,Walking,2
4,0,22.0,1.78,89.8,0,0,2.0,1.0,1,0,2.0,0,0.0,0.0,1,Public_Transportation,3


Meio de Transporte - Não há relação de grandeza.

* Conversão em dummies

In [77]:
df_tratado['meio_de_transporte'].value_counts()

Unnamed: 0_level_0,count
meio_de_transporte,Unnamed: 1_level_1
Public_Transportation,1580
Automobile,457
Walking,56
Motorbike,11
Bike,7


In [78]:
traducao_meio_de_transporte = {
    'Public_Transportation': 'Transporte_Publico',
    'Automobile': 'Automovel',
    'Walking': 'Caminhando',
    'Motorbike': 'Motocicleta',
    'Bike': 'Bicicleta'
}

df_tratado['meio_de_transporte'] = df_tratado['meio_de_transporte'].replace(traducao_meio_de_transporte)

df_tratado['meio_de_transporte'].value_counts()

Unnamed: 0_level_0,count
meio_de_transporte,Unnamed: 1_level_1
Transporte_Publico,1580
Automovel,457
Caminhando,56
Motocicleta,11
Bicicleta,7


In [79]:
df_tratado = pd.get_dummies(df_tratado, columns=['meio_de_transporte'], prefix='meio_de_transporte', dtype=int)
df_tratado.head()

Unnamed: 0,genero,idade,altura,peso,historico_familiar,come_alimentos_caloricos,costuma_comer_vegetais,numero_refeicoes_diarias,come_entre_refeicoes,fuma,...,monitora_calorias_consumidas,frequencia_atividade_fisica,tempo_dispositivos_tecnologicos,consome_alcool,nivel_obesidade,meio_de_transporte_Automovel,meio_de_transporte_Bicicleta,meio_de_transporte_Caminhando,meio_de_transporte_Motocicleta,meio_de_transporte_Transporte_Publico
0,1,21.0,1.62,64.0,1,0,2.0,3.0,1,0,...,0,0.0,1.0,0,1,0,0,0,0,1
1,1,21.0,1.52,56.0,1,0,3.0,3.0,1,1,...,1,3.0,0.0,1,1,0,0,0,0,1
2,0,23.0,1.8,77.0,1,0,2.0,3.0,1,0,...,0,2.0,1.0,2,1,0,0,0,0,1
3,0,27.0,1.8,87.0,0,0,3.0,3.0,1,0,...,0,2.0,0.0,2,2,0,0,1,0,0
4,0,22.0,1.78,89.8,0,0,2.0,1.0,1,0,...,0,0.0,0.0,1,3,0,0,0,0,1


In [80]:
df_tratado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2111 entries, 0 to 2110
Data columns (total 21 columns):
 #   Column                                 Non-Null Count  Dtype  
---  ------                                 --------------  -----  
 0   genero                                 2111 non-null   int64  
 1   idade                                  2111 non-null   float64
 2   altura                                 2111 non-null   float64
 3   peso                                   2111 non-null   float64
 4   historico_familiar                     2111 non-null   int64  
 5   come_alimentos_caloricos               2111 non-null   int64  
 6   costuma_comer_vegetais                 2111 non-null   float64
 7   numero_refeicoes_diarias               2111 non-null   float64
 8   come_entre_refeicoes                   2111 non-null   int64  
 9   fuma                                   2111 non-null   int64  
 10  CH2O                                   2111 non-null   float64
 11  moni

Categorização das colunas quanto ao tipo

In [81]:
# 1. Variável Alvo (y)
ALVO = 'nivel_obesidade'

# 2. Variáveis Preditoras (X)

# Colunas Numéricas/Quantitativas que precisam de ESCALONAMENTO
# (São as colunas float64, que podem ter escalas muito diferentes)
colunas_a_escalonar = [
    'idade',
    'altura',
    'peso',
    'costuma_comer_vegetais',
    'numero_refeicoes_diarias',
    'come_entre_refeicoes',
    'CH2O',
    'frequencia_atividade_fisica',
    'tempo_dispositivos_tecnologicos'
]

# Colunas Categóricas/Binárias/OHE que já estão em formato int (0/1) e NÃO precisam de mais transformação
# (Estas serão passadas diretamente para o modelo)
colunas_prontas = [
    'genero',
    'historico_familiar',
    'come_alimentos_caloricos',
    'fuma',
    'monitora_calorias_consumidas',
    'consome_alcool',
    'meio_de_transporte_Automovel',
    'meio_de_transporte_Bicicleta',
    'meio_de_transporte_Caminhando',
    'meio_de_transporte_Motocicleta',
    'meio_de_transporte_Transporte_Publico'
]


# 4. Pré-processamento de Dados
Divisão dos dados em conjuntos de treinamento e teste.

In [82]:
TARGET_COLUMN = 'nivel_obesidade'

# 1. Separar a Variável Alvo (y)
y = df_tratado[TARGET_COLUMN]

# 2. Separar as Variáveis Preditoras (X)
X = df_tratado.drop(columns=[TARGET_COLUMN])

In [83]:
from sklearn.model_selection import train_test_split

# Dividir os dados em conjuntos de Treino e Teste (80% / 20%)
X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.2,       # 20% para o teste
    random_state=42,     # Garante reprodutibilidade
    stratify=y           # Mantém a proporção das classes de obesidade em ambos os conjuntos
)

print(f"Dados de Treino (X_train): {X_train.shape}")
print(f"Dados de Teste (X_test): {X_test.shape}")

Dados de Treino (X_train): (1688, 20)
Dados de Teste (X_test): (423, 20)


Normalização dos dados nas colunas necessárias (colunas_a_escalonar)



In [84]:
numeric_transformer = StandardScaler()
preprocessor = ColumnTransformer(
    transformers=[
        ('scaler', numeric_transformer, colunas_a_escalonar)
    ],
    remainder='passthrough'
)

# Aplicar a transformação:
# No TREINO: fit_transform (aprende as regras de escalonamento e aplica)
X_train_processed = preprocessor.fit_transform(X_train)

# No TESTE: transform (apenas aplica as regras APRENDIDAS no treino)
X_test_processed = preprocessor.transform(X_test)

# 5. Modelos de Aprendizado Supervisionado
5.1. K-Nearest Neighbors (KNN)

In [85]:
from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier(n_neighbors=7)
knn.fit(X_train_processed, y_train)
y_pred_knn = knn.predict(X_test_processed)


In [86]:
y_pred_knn

array([0, 0, 6, 4, 3, 2, 3, 4, 3, 5, 0, 3, 4, 5, 3, 5, 1, 2, 6, 0, 1, 3,
       3, 5, 6, 5, 2, 4, 6, 1, 3, 2, 5, 5, 4, 1, 4, 0, 5, 0, 6, 0, 4, 4,
       6, 4, 0, 6, 3, 2, 4, 0, 5, 2, 6, 1, 4, 4, 4, 3, 6, 6, 0, 6, 5, 0,
       3, 0, 3, 3, 4, 5, 0, 0, 2, 0, 0, 0, 2, 2, 4, 6, 4, 3, 1, 5, 4, 5,
       6, 6, 3, 6, 4, 3, 5, 6, 0, 0, 4, 3, 3, 3, 3, 5, 6, 4, 2, 3, 6, 3,
       6, 1, 5, 4, 5, 4, 0, 4, 1, 1, 3, 6, 3, 0, 2, 3, 6, 6, 5, 3, 4, 6,
       0, 0, 0, 5, 3, 2, 4, 0, 5, 2, 5, 2, 2, 3, 6, 3, 0, 5, 5, 4, 4, 0,
       4, 3, 4, 1, 5, 6, 5, 3, 2, 4, 4, 6, 5, 6, 6, 4, 5, 1, 1, 3, 3, 5,
       3, 5, 3, 6, 3, 3, 2, 3, 0, 0, 2, 4, 2, 6, 5, 6, 4, 5, 1, 3, 6, 1,
       4, 2, 4, 4, 6, 6, 4, 0, 3, 5, 5, 4, 0, 4, 2, 6, 6, 6, 5, 2, 1, 6,
       2, 4, 2, 3, 0, 5, 3, 4, 3, 5, 6, 0, 2, 4, 6, 6, 3, 0, 3, 5, 4, 4,
       4, 2, 3, 5, 0, 0, 3, 3, 6, 0, 4, 6, 4, 5, 3, 4, 6, 3, 4, 3, 1, 2,
       5, 2, 6, 4, 5, 2, 2, 0, 4, 5, 6, 4, 3, 0, 2, 5, 2, 4, 6, 1, 1, 5,
       0, 6, 3, 4, 5, 2, 0, 1, 2, 0, 5, 5, 6, 2, 6,

5.2. Regressão Logística


In [87]:
from sklearn.linear_model import LogisticRegression

logreg = LogisticRegression(max_iter=1000, random_state=42)
logreg.fit(X_train_processed, y_train)
y_pred_logreg = logreg.predict(X_test_processed)


5.3. Árvores de Decisão


In [88]:
from sklearn.tree import DecisionTreeClassifier

tree = DecisionTreeClassifier()
tree.fit(X_train_processed, y_train)
y_pred_tree = tree.predict(X_test_processed)


5.4. Random Forest


In [89]:
from sklearn.ensemble import RandomForestClassifier

forest = RandomForestClassifier(n_estimators=100)
forest.fit(X_train_processed, y_train)
y_pred_forest = forest.predict(X_test_processed)


5.5. Support Vector Machine (SVM)


In [90]:
from sklearn.svm import SVC

svm = SVC()
svm.fit(X_train_processed, y_train)
y_pred_svm = svm.predict(X_test_processed)


# 6. Avaliação dos Modelos
Função para avaliação dos modelos.

In [91]:
def avaliar_modelo(y_test, y_pred, nome_modelo):
    print(f"Resultados para {nome_modelo}:")
    print("Acurácia:", accuracy_score(y_test, y_pred))
    print("Matriz de Confusão:\n", confusion_matrix(y_test, y_pred))
    print("Relatório de Classificação:\n", classification_report(y_test, y_pred))
    print("-" * 60)


Avaliação de cada modelo:



In [92]:
avaliar_modelo(y_test, y_pred_knn, "K-Nearest Neighbors")
avaliar_modelo(y_test, y_pred_logreg, "Regressão Logística")
avaliar_modelo(y_test, y_pred_tree, "Árvore de Decisão")
avaliar_modelo(y_test, y_pred_forest, "Random Forest")
avaliar_modelo(y_test, y_pred_svm, "Support Vector Machine")


Resultados para K-Nearest Neighbors:
Acurácia: 0.8416075650118203
Matriz de Confusão:
 [[54  0  0  0  0  0  0]
 [ 8 26  9  7  7  1  0]
 [ 3  5 38  9  3  0  0]
 [ 0  1  2 52  2  1  0]
 [ 0  1  1  2 63  3  0]
 [ 0  0  0  1  1 58  0]
 [ 0  0  0  0  0  0 65]]
Relatório de Classificação:
               precision    recall  f1-score   support

           0       0.83      1.00      0.91        54
           1       0.79      0.45      0.57        58
           2       0.76      0.66      0.70        58
           3       0.73      0.90      0.81        58
           4       0.83      0.90      0.86        70
           5       0.92      0.97      0.94        60
           6       1.00      1.00      1.00        65

    accuracy                           0.84       423
   macro avg       0.84      0.84      0.83       423
weighted avg       0.84      0.84      0.83       423

------------------------------------------------------------
Resultados para Regressão Logística:
Acurácia: 0.87470449

# 7. Otimização do Modelo Random Forest
O modelo Random Forest teve a melhor performance na comparação com os demais. Com isso, seguimos com a otimização utilizando GridSearchCV.

In [93]:
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier

param_grid = {
    'n_estimators': [100, 200, 300],
    'max_depth': [10, 20, None], # None significa sem limite de profundidade
    'min_samples_split': [2, 5],
    'criterion': ['gini', 'entropy']
}

In [94]:
rf = RandomForestClassifier(random_state=42)

# scoring='accuracy' (ou 'f1_weighted' para multiclasse balanceada)
# cv=5 (Validação cruzada de 5 dobras)
grid_search = GridSearchCV(
    estimator=rf,
    param_grid=param_grid,
    scoring='accuracy',  # Otimização pela Acurácia
    cv=5,
    verbose=1,           # Exibir o progresso
    n_jobs=-1            # Usar todos os núcleos da CPU para paralelizar
)

print("Iniciando Grid Search para otimizar o Random Forest. Isso pode levar alguns minutos...")
grid_search.fit(X_train_processed, y_train)
print("Grid Search concluído.")

Iniciando Grid Search para otimizar o Random Forest. Isso pode levar alguns minutos...
Fitting 5 folds for each of 36 candidates, totalling 180 fits
Grid Search concluído.


In [95]:
from sklearn.metrics import classification_report, accuracy_score

# Obter o melhor modelo
best_rf = grid_search.best_estimator_

print("\n--- Resultados da Otimização ---")
print(f"Melhores Parâmetros: {grid_search.best_params_}")
print(f"Melhor Score de CV (Acurácia): {grid_search.best_score_:.4f}")

# Fazer previsões no conjunto de teste com o melhor modelo
y_pred_best_rf = best_rf.predict(X_test_processed)

# Avaliação final
print("\n--- Relatório de Classificação (Random Forest Otimizado) ---")
print(classification_report(y_test, y_pred_best_rf))

accuracy_best_rf = accuracy_score(y_test, y_pred_best_rf)
print(f"Acurácia Final do Random Forest Otimizado: {accuracy_best_rf:.4f}")


--- Resultados da Otimização ---
Melhores Parâmetros: {'criterion': 'entropy', 'max_depth': 20, 'min_samples_split': 2, 'n_estimators': 300}
Melhor Score de CV (Acurácia): 0.9496

--- Relatório de Classificação (Random Forest Otimizado) ---
              precision    recall  f1-score   support

           0       1.00      0.93      0.96        54
           1       0.78      0.98      0.87        58
           2       0.96      0.83      0.89        58
           3       0.98      0.93      0.96        58
           4       0.96      0.99      0.97        70
           5       1.00      0.97      0.98        60
           6       0.98      0.98      0.98        65

    accuracy                           0.95       423
   macro avg       0.95      0.94      0.95       423
weighted avg       0.95      0.95      0.95       423

Acurácia Final do Random Forest Otimizado: 0.9456


# 8. Definição do Modelo




**Conclusão e Resultados da Otimização do Modelo Random Forest**

O modelo **Random Forest** foi selecionado como o de melhor desempenho inicial, apresentando uma acurácia de **$0.9433$**.

Para aprimorar o desempenho, foi executado o **GridSearchCV** para otimização dos hiperparâmetros. Os melhores parâmetros encontrados para o modelo foram:
* `'criterion': 'entropy'`
* `'max_depth': 20`
* `'min_samples_split': 2`
* `'n_estimators': 300`

A otimização resultou em uma melhoria no desempenho, elevando a **Acurácia Final do Random Forest Otimizado para $0.9456$** (Melhor Score de CV: $0.9496$).

Analisando o **Relatório de Classificação** do modelo otimizado, observamos que, além do aumento da acurácia geral, houve melhoria em métricas importantes para classes específicas:

* O *recall* (capacidade do modelo de encontrar todas as amostras positivas) da Classe 1 melhorou significativamente de $0.93$ para $0.98$.
* A *precisão* da Classe 5 atingiu $1.00$, indicando que todas as predições para esta classe foram corretas.
* Os valores de *macro avg* e *weighted avg* de *precision*, *recall* e *f1-score* aumentaram ligeiramente, confirmando a melhoria generalizada na capacidade preditiva do modelo em todas as classes.

Portanto, o modelo **Random Forest Otimizado** será adotado como a versão final, pois demonstra uma performance superior e mais robusta na classificação dos dados.



# 9. Salvamento do Modelo

In [96]:
# Salvando o modelo random forest otimizado para uso em aplicação streamlit com joblib

import joblib

joblib.dump(best_rf, 'modelo_random_forest_otimizado.joblib')

['modelo_random_forest_otimizado.joblib']