<a href="https://colab.research.google.com/github/eltonnillo/FIAP_TC4/blob/main/TC4_v1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Tech Challenge - Fase 04
**O problema:** Imagina que você foi contratado como cientista de dados de um hospital e tem o desafio de desenvolver um modelo de Machine Learning para auxiliar os médicos e médicas a prever se uma pessoa pode ter obesidade.

A obesidade é uma condição médica caracterizada pelo acúmulo excessivo de gordura corporal, a ponto de prejudicar a saúde. Esse problema tem se tornado cada vez mais prevalente em todo o mundo, atingindo pessoas de todas as idades e classes sociais. As causas da obesidade são multifatoriais e envolvem uma combinação de fatores genéticos, ambientais e comportamentais.

Utilizando a base de dados disponibilizada neste desafio em **“obesity.csv”**, desenvolva um modelo preditivo e crie um sistema preditivo para auxiliar a tomada de decisão da equipe médica a diagnosticar a obesidade.

**Dicionário de dados:**

* **Gender**: Gênero. **Valores**: Female , Male.
* **Age**: Idade. **Valores**: numérico contínuo (mín 14, máx 61).
* **Height**:Altura em metros. **Valores**: numérico contínuo (ex.: 1.45–1.98 m).
* **Weight**: Peso em kgs. **Valores**: numérico contínuo (ex.: 39–173 kg).
* **family_history**: Algum membro da família sofreu ou sofre de excesso de peso? **Valores**: yes (há histórico), no (não há).
* **FAVC**: Você come alimentos altamente calóricos com frequência? **Valores**: yes (sim), no (não).
* **FCVC**: Você costuma comer vegetais nas suas refeições? **Valores** (escala 1–3): 1 raramente, 2 às vezes, 3
sempre. Nota: no arquivo os valores aparecem com decimais (ruído); interprete arredondando para o inteiro mais próximo.
* **NCP**: Quantas refeições principais você faz diariamente? **Valores** (escala 1–4): 1 uma refeição, 2 duas, 3 três, 4 quatro ou mais. Nota:
valores com decimais devem ser arredondados.
* **CAEC**: Você come alguma coisa entre as refeições? **Valores**: no (não consome), Sometimes (às vezes),
Frequently (frequentemente), Always (sempre).
* **SMOKE**: Você fuma?  **Valores**: yes (fuma), no (não fuma).
* **CH2O**: Quanta água você bebe diariamente? **Valores** (escala 1–3): 1 < 1 L/dia, 2 1–2 L/dia, 3 > 2 L/dia. Nota: arredonde valores decimais
para interpretar a categoria.
* **SCC**: Você monitora as calorias que ingere diariamente? **Valores**: yes (sim), no (não).
* **FAF**: Com que frequência você pratica atividade física? **Valores** (escala 0–3): 0 nenhuma, 1 ~1–2×/sem, 2 ~3–4×/sem, 3 5×/sem ou
mais. Nota: arredonde valores decimais.
* **TER** (TUE): Quanto tempo você usa dispositivos tecnológicos como celular, videogame, televisão, computador e outros? **Valores** (escala 0–2): 0 ~0–2 h/dia, 1 ~3–5 h/dia, 2 > 5 h/dia. Nota:
arredonde valores decimais.
* **CALC**: Com que frequência você bebe álcool? **Valores**: no (não bebe), Sometimes (às vezes), Frequently (frequentemente), Always
(sempre).
* **MTRANS**: Qual meio de transporte você costuma usar? **Valores**: Automobile (carro), Motorbike (moto), Bike (bicicleta),
Public_Transportation (transporte público), Walking (a pé).
* **Obesity_level** (coluna alvo): (Target label / Nível de obesidade) Classe de peso corporal. **Valores**: Insufficient_Weight (abaixo do peso), Normal_Weight (peso normal),
Overweight_Level_I (sobrepeso I), Overweight_Level_II (sobrepeso II), Obesity_Type_I (obesidade I), Obesity_Type_II (obesidade II),
Obesity_Type_III (obesidade III).

Como **entregável**, você precisar desenvolver toda a pipeline de Machine Learning, garantindo a entrega de todos os seguintes requisitos listados a seguir que serão avaliados na sua entrega:

* **Pipeline de machine learning** demonstrando toda a etapa de feature engineering e treinamento do modelo.
* Modelo com **assertividade acima de 75%**.
* Realizar o **deploy do seu modelo em uma aplicação preditiva utilizando o Streamlit**.
* Construir uma **visão analítica em um painel com principais insights obtidos com o estudo** sobre obesidade para trazer insights para a equipe médica.
* **Compartilhar o link da sua aplicação deployada no app do Streamlit + link do painel analítico + link do repositório do seu github com todo código desenvolvido em um arquivo .doc ou .txt para realizar o upload na plataforma online**.
* Gravar um vídeo mostrando toda a estratégia utilizada e apresentação do sistema preditivo (algo em torno de 4min - 10min). **Não se esqueça que tanto a visão do sistema preditivo quanto o dashboard analítico deve ser apresentado em uma visão de negócio.**

# 1. Importando Bibliotecas
Importação das bibliotecas necessárias para nossa análise.

In [504]:
import pandas as pd

# 2. Carregando o Conjunto de Dados
Usaremos o conjunto de dados "Obesity".

In [505]:
url_github_raw = 'https://raw.githubusercontent.com/eltonnillo/FIAP_TC4/refs/heads/main/Obesity.csv'
df = pd.read_csv(url_github_raw)
print("O DataFrame foi carregado com sucesso!")

O DataFrame foi carregado com sucesso!


# 3. Análise e Tratamento de Dados
Vamos dar uma olhada nas primeiras linhas do conjunto de dados e entender suas características.

In [506]:
df.head(5)

Unnamed: 0,Gender,Age,Height,Weight,family_history,FAVC,FCVC,NCP,CAEC,SMOKE,CH2O,SCC,FAF,TUE,CALC,MTRANS,Obesity
0,Female,21.0,1.62,64.0,yes,no,2.0,3.0,Sometimes,no,2.0,no,0.0,1.0,no,Public_Transportation,Normal_Weight
1,Female,21.0,1.52,56.0,yes,no,3.0,3.0,Sometimes,yes,3.0,yes,3.0,0.0,Sometimes,Public_Transportation,Normal_Weight
2,Male,23.0,1.8,77.0,yes,no,2.0,3.0,Sometimes,no,2.0,no,2.0,1.0,Frequently,Public_Transportation,Normal_Weight
3,Male,27.0,1.8,87.0,no,no,3.0,3.0,Sometimes,no,2.0,no,2.0,0.0,Frequently,Walking,Overweight_Level_I
4,Male,22.0,1.78,89.8,no,no,2.0,1.0,Sometimes,no,2.0,no,0.0,0.0,Sometimes,Public_Transportation,Overweight_Level_II


Ao verificar as informações gerais do conjunto de dados, temos 2111 linhas e 17 colunas. Não há valores nulos.

In [507]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2111 entries, 0 to 2110
Data columns (total 17 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Gender          2111 non-null   object 
 1   Age             2111 non-null   float64
 2   Height          2111 non-null   float64
 3   Weight          2111 non-null   float64
 4   family_history  2111 non-null   object 
 5   FAVC            2111 non-null   object 
 6   FCVC            2111 non-null   float64
 7   NCP             2111 non-null   float64
 8   CAEC            2111 non-null   object 
 9   SMOKE           2111 non-null   object 
 10  CH2O            2111 non-null   float64
 11  SCC             2111 non-null   object 
 12  FAF             2111 non-null   float64
 13  TUE             2111 non-null   float64
 14  CALC            2111 non-null   object 
 15  MTRANS          2111 non-null   object 
 16  Obesity         2111 non-null   object 
dtypes: float64(8), object(9)
memory u

Criando cópia de tratamento da base de dados

In [508]:
df_tratamento = df

In [509]:
df_tratamento.head()

Unnamed: 0,Gender,Age,Height,Weight,family_history,FAVC,FCVC,NCP,CAEC,SMOKE,CH2O,SCC,FAF,TUE,CALC,MTRANS,Obesity
0,Female,21.0,1.62,64.0,yes,no,2.0,3.0,Sometimes,no,2.0,no,0.0,1.0,no,Public_Transportation,Normal_Weight
1,Female,21.0,1.52,56.0,yes,no,3.0,3.0,Sometimes,yes,3.0,yes,3.0,0.0,Sometimes,Public_Transportation,Normal_Weight
2,Male,23.0,1.8,77.0,yes,no,2.0,3.0,Sometimes,no,2.0,no,2.0,1.0,Frequently,Public_Transportation,Normal_Weight
3,Male,27.0,1.8,87.0,no,no,3.0,3.0,Sometimes,no,2.0,no,2.0,0.0,Frequently,Walking,Overweight_Level_I
4,Male,22.0,1.78,89.8,no,no,2.0,1.0,Sometimes,no,2.0,no,0.0,0.0,Sometimes,Public_Transportation,Overweight_Level_II


Tradução das dos nomes das colunas para português.

In [510]:
def traducao_campos(df):

    traducao = {
                   'Gender': 'genero',
                   'Age': 'idade',
                   'Height': 'altura',
                   'Weight': 'peso',
                   'family_history': 'historico_familiar',
                   'FAVC': 'come_alimentos_caloricos',
                   'FCVC': 'costuma_comer_vegetais',
                   'NCP': 'numero_refeicoes_diarias',
                   'CAEC': 'come_entre_refeicoes',
                   'SMOKE': 'fuma',
                   'CH2O': 'consumo_diario_agua',
                   'SCC': 'monitora_calorias_consumidas',
                   'FAF': 'frequencia_atividade_fisica',
                   'TUE': 'tempo_dispositivos_tecnologicos',
                   'CALC': 'consome_alcool',
                   'MTRANS': 'meio_de_transporte',
                   'Obesity': 'nivel_obesidade'
}
    df.rename(columns=traducao, inplace=True)
    print('Cabeçalhos dos campos traduzidos.')
    return df

In [511]:
df_tratamento = traducao_campos(df_tratamento)
df_tratamento.head()


Cabeçalhos dos campos traduzidos.


Unnamed: 0,genero,idade,altura,peso,historico_familiar,come_alimentos_caloricos,costuma_comer_vegetais,numero_refeicoes_diarias,come_entre_refeicoes,fuma,consumo_diario_agua,monitora_calorias_consumidas,frequencia_atividade_fisica,tempo_dispositivos_tecnologicos,consome_alcool,meio_de_transporte,nivel_obesidade
0,Female,21.0,1.62,64.0,yes,no,2.0,3.0,Sometimes,no,2.0,no,0.0,1.0,no,Public_Transportation,Normal_Weight
1,Female,21.0,1.52,56.0,yes,no,3.0,3.0,Sometimes,yes,3.0,yes,3.0,0.0,Sometimes,Public_Transportation,Normal_Weight
2,Male,23.0,1.8,77.0,yes,no,2.0,3.0,Sometimes,no,2.0,no,2.0,1.0,Frequently,Public_Transportation,Normal_Weight
3,Male,27.0,1.8,87.0,no,no,3.0,3.0,Sometimes,no,2.0,no,2.0,0.0,Frequently,Walking,Overweight_Level_I
4,Male,22.0,1.78,89.8,no,no,2.0,1.0,Sometimes,no,2.0,no,0.0,0.0,Sometimes,Public_Transportation,Overweight_Level_II


# Verificação dos campos para conversão


Avaliando os campos categóricos e convertendo em numéricos para uso em modelos.

**Campos Binários (yes or no):**

* historico_familiar
* come_alimentos_caloricos
* fuma
* monitora_calorias_consumidas


In [512]:
df_tratamento['historico_familiar'].value_counts()

Unnamed: 0_level_0,count
historico_familiar,Unnamed: 1_level_1
yes,1726
no,385


In [513]:
df_tratamento['come_alimentos_caloricos'].value_counts()

Unnamed: 0_level_0,count
come_alimentos_caloricos,Unnamed: 1_level_1
yes,1866
no,245


In [514]:
df_tratamento['fuma'].value_counts()

Unnamed: 0_level_0,count
fuma,Unnamed: 1_level_1
no,2067
yes,44


In [515]:
df_tratamento['monitora_calorias_consumidas'].value_counts()

Unnamed: 0_level_0,count
monitora_calorias_consumidas,Unnamed: 1_level_1
no,2015
yes,96


In [516]:
def converte_binarios(df):

    binarios = ['historico_familiar','come_alimentos_caloricos','fuma','monitora_calorias_consumidas']

    for coluna in binarios:
        df[coluna] = df[coluna].apply(lambda x: 1 if x == 'yes' else 0)

    print(f'Campos {binarios} convertidos para binário. yes = 1, no = 0')
    return df


In [517]:
df_tratamento = converte_binarios(df_tratamento)
df_tratamento.head()

Campos ['historico_familiar', 'come_alimentos_caloricos', 'fuma', 'monitora_calorias_consumidas'] convertidos para binário. yes = 1, no = 0


Unnamed: 0,genero,idade,altura,peso,historico_familiar,come_alimentos_caloricos,costuma_comer_vegetais,numero_refeicoes_diarias,come_entre_refeicoes,fuma,consumo_diario_agua,monitora_calorias_consumidas,frequencia_atividade_fisica,tempo_dispositivos_tecnologicos,consome_alcool,meio_de_transporte,nivel_obesidade
0,Female,21.0,1.62,64.0,1,0,2.0,3.0,Sometimes,0,2.0,0,0.0,1.0,no,Public_Transportation,Normal_Weight
1,Female,21.0,1.52,56.0,1,0,3.0,3.0,Sometimes,1,3.0,1,3.0,0.0,Sometimes,Public_Transportation,Normal_Weight
2,Male,23.0,1.8,77.0,1,0,2.0,3.0,Sometimes,0,2.0,0,2.0,1.0,Frequently,Public_Transportation,Normal_Weight
3,Male,27.0,1.8,87.0,0,0,3.0,3.0,Sometimes,0,2.0,0,2.0,0.0,Frequently,Walking,Overweight_Level_I
4,Male,22.0,1.78,89.8,0,0,2.0,1.0,Sometimes,0,2.0,0,0.0,0.0,Sometimes,Public_Transportation,Overweight_Level_II


**Gênero**

* Male -> 0
* Female -> 1

In [518]:
df_tratamento['genero'].value_counts()

Unnamed: 0_level_0,count
genero,Unnamed: 1_level_1
Male,1068
Female,1043


In [519]:
def converte_genero(df):

    df['genero'] = df['genero'].apply(lambda x: 1 if x == 'Female' else 0)
    print('Campo de genero convertido para binário. Female = 1, Male = 0')
    return df

In [520]:
df_tratamento = converte_genero(df_tratamento)
df_tratamento.head()

Campo de genero convertido para binário. Female = 1, Male = 0


Unnamed: 0,genero,idade,altura,peso,historico_familiar,come_alimentos_caloricos,costuma_comer_vegetais,numero_refeicoes_diarias,come_entre_refeicoes,fuma,consumo_diario_agua,monitora_calorias_consumidas,frequencia_atividade_fisica,tempo_dispositivos_tecnologicos,consome_alcool,meio_de_transporte,nivel_obesidade
0,1,21.0,1.62,64.0,1,0,2.0,3.0,Sometimes,0,2.0,0,0.0,1.0,no,Public_Transportation,Normal_Weight
1,1,21.0,1.52,56.0,1,0,3.0,3.0,Sometimes,1,3.0,1,3.0,0.0,Sometimes,Public_Transportation,Normal_Weight
2,0,23.0,1.8,77.0,1,0,2.0,3.0,Sometimes,0,2.0,0,2.0,1.0,Frequently,Public_Transportation,Normal_Weight
3,0,27.0,1.8,87.0,0,0,3.0,3.0,Sometimes,0,2.0,0,2.0,0.0,Frequently,Walking,Overweight_Level_I
4,0,22.0,1.78,89.8,0,0,2.0,1.0,Sometimes,0,2.0,0,0.0,0.0,Sometimes,Public_Transportation,Overweight_Level_II


Come Entre Refeições - Conversão por ordem de grandeza

* no (Não) -> 0
* Sometimes (Algumas vezes) -> 1
* Frequently (Frequentemente) -> 2
* Always (Sempre) -> 3

In [521]:
df_tratamento['come_entre_refeicoes'].value_counts()

Unnamed: 0_level_0,count
come_entre_refeicoes,Unnamed: 1_level_1
Sometimes,1765
Frequently,242
Always,53
no,51


Consome Álcool - Conversão por ordem de grandeza

* no (Não) -> 0
* Sometimes (Algumas vezes) -> 1
* Frequently (Frequentemente) -> 2
* Always (Sempre) -> 3

In [522]:
df_tratamento['consome_alcool'].value_counts()

Unnamed: 0_level_0,count
consome_alcool,Unnamed: 1_level_1
Sometimes,1401
no,639
Frequently,70
Always,1


In [523]:
def converte_categoricos (df):

    categoricos = ['come_entre_refeicoes', 'consome_alcool']

    dict = {    'no' : 0,
                'Sometimes' : 1,
                'Frequently' : 2,
                'Always' : 3
}

    for col in categoricos:
        df[col] = df[col].map(dict)

    print(f'Campos categóricos {categoricos} convertidos.')
    return df

In [524]:
df_tratamento = converte_categoricos(df_tratamento)
df_tratamento.head()

Campos categóricos ['come_entre_refeicoes', 'consome_alcool'] convertidos.


Unnamed: 0,genero,idade,altura,peso,historico_familiar,come_alimentos_caloricos,costuma_comer_vegetais,numero_refeicoes_diarias,come_entre_refeicoes,fuma,consumo_diario_agua,monitora_calorias_consumidas,frequencia_atividade_fisica,tempo_dispositivos_tecnologicos,consome_alcool,meio_de_transporte,nivel_obesidade
0,1,21.0,1.62,64.0,1,0,2.0,3.0,1,0,2.0,0,0.0,1.0,0,Public_Transportation,Normal_Weight
1,1,21.0,1.52,56.0,1,0,3.0,3.0,1,1,3.0,1,3.0,0.0,1,Public_Transportation,Normal_Weight
2,0,23.0,1.8,77.0,1,0,2.0,3.0,1,0,2.0,0,2.0,1.0,2,Public_Transportation,Normal_Weight
3,0,27.0,1.8,87.0,0,0,3.0,3.0,1,0,2.0,0,2.0,0.0,2,Walking,Overweight_Level_I
4,0,22.0,1.78,89.8,0,0,2.0,1.0,1,0,2.0,0,0.0,0.0,1,Public_Transportation,Overweight_Level_II


Obesidade - Conversão por ordem de grandeza


In [525]:
df_tratamento['nivel_obesidade'].value_counts()

Unnamed: 0_level_0,count
nivel_obesidade,Unnamed: 1_level_1
Obesity_Type_I,351
Obesity_Type_III,324
Obesity_Type_II,297
Overweight_Level_I,290
Overweight_Level_II,290
Normal_Weight,287
Insufficient_Weight,272


In [526]:
def converte_alvo(df):

    dict = {
    'Insufficient_Weight': 0,
    'Normal_Weight': 1,
    'Overweight_Level_I': 2,
    'Overweight_Level_II': 3,
    'Obesity_Type_I': 4,
    'Obesity_Type_II': 5,
    'Obesity_Type_III': 6
}

    df['nivel_obesidade'] = df['nivel_obesidade'].map(dict)

    print('Variável alvo nivel_obesidade convertida.')
    return df

In [527]:
df_tratamento = converte_alvo(df_tratamento)
df_tratamento.head()

Variável alvo nivel_obesidade convertida.


Unnamed: 0,genero,idade,altura,peso,historico_familiar,come_alimentos_caloricos,costuma_comer_vegetais,numero_refeicoes_diarias,come_entre_refeicoes,fuma,consumo_diario_agua,monitora_calorias_consumidas,frequencia_atividade_fisica,tempo_dispositivos_tecnologicos,consome_alcool,meio_de_transporte,nivel_obesidade
0,1,21.0,1.62,64.0,1,0,2.0,3.0,1,0,2.0,0,0.0,1.0,0,Public_Transportation,1
1,1,21.0,1.52,56.0,1,0,3.0,3.0,1,1,3.0,1,3.0,0.0,1,Public_Transportation,1
2,0,23.0,1.8,77.0,1,0,2.0,3.0,1,0,2.0,0,2.0,1.0,2,Public_Transportation,1
3,0,27.0,1.8,87.0,0,0,3.0,3.0,1,0,2.0,0,2.0,0.0,2,Walking,2
4,0,22.0,1.78,89.8,0,0,2.0,1.0,1,0,2.0,0,0.0,0.0,1,Public_Transportation,3


In [528]:
df_tratamento['meio_de_transporte'].value_counts()

Unnamed: 0_level_0,count
meio_de_transporte,Unnamed: 1_level_1
Public_Transportation,1580
Automobile,457
Walking,56
Motorbike,11
Bike,7


In [529]:
def traducao_meio_transporte(df):

    dict = {
    'Public_Transportation': 'Transporte_Publico',
    'Automobile': 'Automovel',
    'Walking': 'Caminhando',
    'Motorbike': 'Motocicleta',
    'Bike': 'Bicicleta'
}

    df['meio_de_transporte'] = df['meio_de_transporte'].map(dict)
    print('Meios de transporte traduzidos.')
    return df

In [530]:
df_tratamento = traducao_meio_transporte(df_tratamento)
df_tratamento.head()

Meios de transporte traduzidos.


Unnamed: 0,genero,idade,altura,peso,historico_familiar,come_alimentos_caloricos,costuma_comer_vegetais,numero_refeicoes_diarias,come_entre_refeicoes,fuma,consumo_diario_agua,monitora_calorias_consumidas,frequencia_atividade_fisica,tempo_dispositivos_tecnologicos,consome_alcool,meio_de_transporte,nivel_obesidade
0,1,21.0,1.62,64.0,1,0,2.0,3.0,1,0,2.0,0,0.0,1.0,0,Transporte_Publico,1
1,1,21.0,1.52,56.0,1,0,3.0,3.0,1,1,3.0,1,3.0,0.0,1,Transporte_Publico,1
2,0,23.0,1.8,77.0,1,0,2.0,3.0,1,0,2.0,0,2.0,1.0,2,Transporte_Publico,1
3,0,27.0,1.8,87.0,0,0,3.0,3.0,1,0,2.0,0,2.0,0.0,2,Caminhando,2
4,0,22.0,1.78,89.8,0,0,2.0,1.0,1,0,2.0,0,0.0,0.0,1,Transporte_Publico,3


Variáveis com necessidade de arredontamento

In [531]:
df_tratamento['costuma_comer_vegetais'].value_counts()

Unnamed: 0_level_0,count
costuma_comer_vegetais,Unnamed: 1_level_1
3.000000,652
2.000000,600
1.000000,33
2.971574,2
2.630137,2
...,...
2.886260,1
2.658112,1
2.027574,1
1.123939,1


In [532]:
df_tratamento['numero_refeicoes_diarias'].value_counts()

Unnamed: 0_level_0,count
numero_refeicoes_diarias,Unnamed: 1_level_1
3.000000,1203
1.000000,199
4.000000,69
3.691226,2
2.776840,2
...,...
3.335876,1
3.205009,1
3.648194,1
1.865238,1


In [533]:
df_tratamento['consumo_diario_agua'].value_counts()

Unnamed: 0_level_0,count
consumo_diario_agua,Unnamed: 1_level_1
2.000000,448
1.000000,211
3.000000,162
2.825629,3
1.636326,3
...,...
2.279214,1
2.766674,1
1.651548,1
2.405172,1


In [534]:
df_tratamento['frequencia_atividade_fisica'].value_counts()

Unnamed: 0_level_0,count
frequencia_atividade_fisica,Unnamed: 1_level_1
0.000000,411
1.000000,234
2.000000,183
3.000000,75
1.978631,2
...,...
2.721646,1
0.706287,1
0.674348,1
0.285889,1


In [535]:
df_tratamento['tempo_dispositivos_tecnologicos'].value_counts()

Unnamed: 0_level_0,count
tempo_dispositivos_tecnologicos,Unnamed: 1_level_1
0.000000,557
1.000000,292
2.000000,109
0.630866,4
0.002600,3
...,...
0.027093,1
0.790967,1
1.886855,1
0.003695,1


In [536]:
def arredondamento(df):

  variaveis_arredondar = ['costuma_comer_vegetais', 'numero_refeicoes_diarias', 'consumo_diario_agua', 'frequencia_atividade_fisica', 'tempo_dispositivos_tecnologicos']

  for coluna in variaveis_arredondar:
    df[coluna] = df[coluna].round(0).astype(int)

  print(f'Variáveis {variaveis_arredondar} arredondadas.')
  return df

In [537]:
df_tratamento = arredondamento(df_tratamento)
df_tratamento.head()

Variáveis ['costuma_comer_vegetais', 'numero_refeicoes_diarias', 'consumo_diario_agua', 'frequencia_atividade_fisica', 'tempo_dispositivos_tecnologicos'] arredondadas.


Unnamed: 0,genero,idade,altura,peso,historico_familiar,come_alimentos_caloricos,costuma_comer_vegetais,numero_refeicoes_diarias,come_entre_refeicoes,fuma,consumo_diario_agua,monitora_calorias_consumidas,frequencia_atividade_fisica,tempo_dispositivos_tecnologicos,consome_alcool,meio_de_transporte,nivel_obesidade
0,1,21.0,1.62,64.0,1,0,2,3,1,0,2,0,0,1,0,Transporte_Publico,1
1,1,21.0,1.52,56.0,1,0,3,3,1,1,3,1,3,0,1,Transporte_Publico,1
2,0,23.0,1.8,77.0,1,0,2,3,1,0,2,0,2,1,2,Transporte_Publico,1
3,0,27.0,1.8,87.0,0,0,3,3,1,0,2,0,2,0,2,Caminhando,2
4,0,22.0,1.78,89.8,0,0,2,1,1,0,2,0,0,0,1,Transporte_Publico,3


In [538]:
df_tratamento.head()

Unnamed: 0,genero,idade,altura,peso,historico_familiar,come_alimentos_caloricos,costuma_comer_vegetais,numero_refeicoes_diarias,come_entre_refeicoes,fuma,consumo_diario_agua,monitora_calorias_consumidas,frequencia_atividade_fisica,tempo_dispositivos_tecnologicos,consome_alcool,meio_de_transporte,nivel_obesidade
0,1,21.0,1.62,64.0,1,0,2,3,1,0,2,0,0,1,0,Transporte_Publico,1
1,1,21.0,1.52,56.0,1,0,3,3,1,1,3,1,3,0,1,Transporte_Publico,1
2,0,23.0,1.8,77.0,1,0,2,3,1,0,2,0,2,1,2,Transporte_Publico,1
3,0,27.0,1.8,87.0,0,0,3,3,1,0,2,0,2,0,2,Caminhando,2
4,0,22.0,1.78,89.8,0,0,2,1,1,0,2,0,0,0,1,Transporte_Publico,3


In [539]:
df_tratamento.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2111 entries, 0 to 2110
Data columns (total 17 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   genero                           2111 non-null   int64  
 1   idade                            2111 non-null   float64
 2   altura                           2111 non-null   float64
 3   peso                             2111 non-null   float64
 4   historico_familiar               2111 non-null   int64  
 5   come_alimentos_caloricos         2111 non-null   int64  
 6   costuma_comer_vegetais           2111 non-null   int64  
 7   numero_refeicoes_diarias         2111 non-null   int64  
 8   come_entre_refeicoes             2111 non-null   int64  
 9   fuma                             2111 non-null   int64  
 10  consumo_diario_agua              2111 non-null   int64  
 11  monitora_calorias_consumidas     2111 non-null   int64  
 12  frequencia_atividade

In [540]:
meios_de_transporte = df_tratamento.meio_de_transporte.unique().tolist()

In [541]:
meios_de_transporte

['Transporte_Publico', 'Caminhando', 'Automovel', 'Motocicleta', 'Bicicleta']

In [542]:
df_tratado = df_tratamento.copy()

Categorização das colunas quanto ao tipo de transformação

# 4. Pré-processamento de Dados
Divisão dos dados em conjuntos de treinamento e teste.

In [543]:
TARGET_COLUMN = 'nivel_obesidade'

# 1. Separar a Variável Alvo (y)
y = df_tratado[TARGET_COLUMN]

# 2. Separar as Variáveis Preditoras (X)
X = df_tratado.drop(columns=[TARGET_COLUMN])

In [544]:
from sklearn.model_selection import train_test_split

# Dividir os dados em conjuntos de Treino e Teste (80% / 20%)
X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.2,       # 20% para o teste
    random_state=42,     # Garante reprodutibilidade
    stratify=y           # Mantém a proporção das classes de obesidade em ambos os conjuntos
)

print(f"Dados de Treino (X_train): {X_train.shape}")
print(f"Dados de Teste (X_test): {X_test.shape}")

Dados de Treino (X_train): (1688, 16)
Dados de Teste (X_test): (423, 16)


In [545]:
# Definição das colunas por tipo de transformação

# Colunas Numéricas/Quantitativas que precisam de ESCALONAMENTO
# (São as colunas float64 ou inteiras não binárias, que podem ter escalas muito diferentes)
colunas_a_escalonar = [
    'idade',
    'altura',
    'peso',
    'costuma_comer_vegetais',
    'numero_refeicoes_diarias',
    'come_entre_refeicoes',
    'consumo_diario_agua',
    'frequencia_atividade_fisica',
    'tempo_dispositivos_tecnologicos',
    'consome_alcool'
]

# Colunas Categóricas/Binárias/OHE que já estão em formato int (0/1) e NÃO precisam de mais transformação
# (Estas serão passadas diretamente para o modelo)
colunas_prontas = [
    'genero',
    'historico_familiar',
    'come_alimentos_caloricos',
    'fuma',
    'monitora_calorias_consumidas',

]

# Colunas categóricas em que é necessário codificar

colunas_codificar = ['meio_de_transporte']

In [546]:
# --- 2. Criar o ColumnTransformer ---
# O ColumnTransformer aplica diferentes transformações a diferentes subconjuntos de colunas

from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
import numpy as np

preprocessor = ColumnTransformer(
    transformers=[
        ('num',
         StandardScaler(),
         colunas_a_escalonar),

        ('cat',
         OneHotEncoder(sparse_output=False, handle_unknown='ignore', dtype=np.int32),
         colunas_codificar),

        ('pass',
         'passthrough',
         colunas_prontas) # Mantém as colunas binárias inalteradas
    ],
    remainder='drop' # Garante que nenhuma coluna não especificada seja incluída (segurança)
)

In [547]:
# --- 3. Aplicar as Transformações (Treinamento) ---

colunas_originais_ordem = X_train.columns

# Treinar o pré-processador nos dados de TREINO (fit)
preprocessor.fit(X_train)

# Transformar os dados de TREINO
X_train_processed = preprocessor.transform(X_train)

# Transformar os dados de TESTE (usando as regras aprendidas no treino)
X_test_processed = preprocessor.transform(X_test)

# --- 4. Extrair Nomes de Colunas e Reconstruir DataFrames ---

# Obter os nomes das colunas de saída (necessário após o ColumnTransformer)
feature_names = preprocessor.get_feature_names_out()

# Converter os arrays NumPy de volta para DataFrames (Opcional, mas útil para inspeção)
X_train_final = pd.DataFrame(X_train_processed,
                             columns=feature_names,
                             index=X_train.index)

X_test_final = pd.DataFrame(X_test_processed,
                            columns=feature_names,
                            index=X_test.index)

# Renomear as colunas (Exemplo: de 'cat__meio_de_transporte_Carro' para 'meio_de_transporte_Carro')
# Isso é importante para manter o padrão que o modelo espera.
X_train_final.columns = [col.split('__')[1] if '__' in col else col for col in X_train_final.columns]
X_test_final.columns = [col.split('__')[1] if '__' in col else col for col in X_test_final.columns]


print("Formato de X_train_final:", X_train_final.shape)
print("Formato de X_test_final:", X_test_final.shape)
print("\nPrimeiras linhas do X_train_final após o pré-processamento:")
print(X_train_final.head())

Formato de X_train_final: (1688, 20)
Formato de X_test_final: (423, 20)

Primeiras linhas do X_train_final após o pré-processamento:
         idade    altura      peso  costuma_comer_vegetais  \
442   0.267608  0.215430 -0.819498               -0.717702   
253   0.267608 -1.184723 -1.511668               -0.717702   
554  -1.285160 -0.096836 -1.295197               -0.717702   
1500  0.026979 -0.417041  0.170496               -0.717702   
359   1.376519 -1.507835 -1.473214               -0.717702   

      numero_refeicoes_diarias  come_entre_refeicoes  consumo_diario_agua  \
442                   0.389544             -0.291751            -0.025890   
253                  -2.068587             -0.291751            -0.025890   
554                  -0.839522             -0.291751             1.430827   
1500                  0.389544             -0.291751            -1.482607   
359                   0.389544             -0.291751            -0.025890   

      frequencia_atividade_fisi

In [548]:
X_train_final

Unnamed: 0,idade,altura,peso,costuma_comer_vegetais,numero_refeicoes_diarias,come_entre_refeicoes,consumo_diario_agua,frequencia_atividade_fisica,tempo_dispositivos_tecnologicos,consome_alcool,meio_de_transporte_Automovel,meio_de_transporte_Bicicleta,meio_de_transporte_Caminhando,meio_de_transporte_Motocicleta,meio_de_transporte_Transporte_Publico,genero,historico_familiar,come_alimentos_caloricos,fuma,monitora_calorias_consumidas
442,0.267608,0.215430,-0.819498,-0.717702,0.389544,-0.291751,-0.025890,-1.121855,0.509613,0.521920,0.0,0.0,1.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0
253,0.267608,-1.184723,-1.511668,-0.717702,-2.068587,-0.291751,-0.025890,-1.121855,1.997895,0.521920,0.0,0.0,0.0,0.0,1.0,1.0,1.0,1.0,0.0,0.0
554,-1.285160,-0.096836,-1.295197,-0.717702,-0.839522,-0.291751,1.430827,0.006014,-0.978669,0.521920,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0
1500,0.026979,-0.417041,0.170496,-0.717702,0.389544,-0.291751,-1.482607,-1.121855,0.509613,-1.397473,1.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0
359,1.376519,-1.507835,-1.473214,-0.717702,0.389544,-0.291751,-0.025890,0.006014,-0.978669,0.521920,0.0,0.0,0.0,0.0,1.0,1.0,1.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
434,-0.841303,2.046399,0.026488,-0.717702,1.618609,1.840176,-0.025890,2.261751,0.509613,2.441313,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
840,-0.699382,1.156010,-0.047582,0.995850,0.389544,-0.291751,1.430827,1.133882,-0.978669,0.521920,0.0,0.0,0.0,0.0,1.0,0.0,1.0,1.0,0.0,0.0
1794,1.003042,-0.496752,0.625749,0.995850,-0.839522,-0.291751,-1.482607,0.006014,0.509613,-1.397473,0.0,0.0,0.0,0.0,1.0,0.0,1.0,1.0,0.0,0.0
155,1.059687,-0.215386,-0.896406,0.995850,-2.068587,1.840176,-0.025890,0.006014,0.509613,0.521920,1.0,0.0,0.0,0.0,0.0,1.0,1.0,1.0,0.0,0.0


In [549]:
X_train_processed

array([[ 0.26760762,  0.21543001, -0.81949802, ...,  1.        ,
         0.        ,  0.        ],
       [ 0.26760762, -1.18472286, -1.51166809, ...,  1.        ,
         0.        ,  0.        ],
       [-1.28516027, -0.09683639, -1.29519674, ...,  1.        ,
         0.        ,  0.        ],
       ...,
       [ 1.0030421 , -0.49675236,  0.62574905, ...,  1.        ,
         0.        ,  0.        ],
       [ 1.05968686, -0.21538625, -0.8964058 , ...,  1.        ,
         0.        ,  0.        ],
       [-0.13252467, -1.32349955, -0.31959741, ...,  1.        ,
         0.        ,  0.        ]])

# 5. Modelos de Aprendizado Supervisionado
5.1. K-Nearest Neighbors (KNN)

In [550]:
from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier(n_neighbors=7)
knn.fit(X_train_final, y_train)
y_pred_knn = knn.predict(X_test_final)


In [551]:
y_pred_knn

array([0, 1, 6, 4, 3, 2, 2, 2, 3, 5, 0, 3, 4, 5, 0, 5, 1, 2, 6, 1, 1, 3,
       3, 5, 6, 5, 2, 4, 6, 1, 4, 2, 5, 5, 4, 1, 4, 0, 5, 0, 6, 0, 0, 4,
       6, 4, 0, 6, 3, 2, 4, 0, 5, 2, 6, 1, 4, 4, 4, 3, 6, 6, 0, 6, 5, 0,
       3, 0, 3, 3, 4, 5, 0, 0, 2, 0, 0, 0, 4, 2, 2, 6, 4, 4, 1, 5, 4, 5,
       6, 6, 2, 6, 4, 3, 5, 6, 0, 0, 4, 3, 3, 3, 3, 5, 6, 4, 2, 3, 6, 3,
       6, 1, 5, 4, 5, 2, 0, 4, 1, 1, 5, 6, 4, 0, 2, 3, 6, 6, 5, 3, 4, 6,
       0, 1, 0, 5, 3, 2, 4, 0, 4, 2, 5, 2, 2, 3, 6, 2, 0, 5, 5, 4, 4, 0,
       4, 2, 4, 1, 5, 6, 2, 3, 2, 4, 4, 6, 5, 6, 6, 4, 5, 1, 1, 6, 3, 5,
       3, 5, 0, 6, 3, 3, 3, 3, 0, 0, 2, 4, 2, 6, 5, 6, 4, 5, 1, 3, 6, 0,
       4, 2, 3, 4, 6, 6, 4, 0, 6, 5, 5, 4, 0, 4, 2, 6, 6, 6, 5, 2, 1, 6,
       2, 2, 2, 3, 0, 5, 3, 4, 3, 5, 6, 0, 2, 4, 6, 6, 3, 0, 2, 5, 4, 4,
       4, 2, 3, 5, 0, 0, 1, 3, 6, 0, 4, 6, 5, 5, 2, 2, 6, 3, 4, 3, 1, 2,
       5, 1, 6, 4, 5, 2, 2, 0, 4, 5, 6, 4, 3, 0, 3, 5, 1, 4, 6, 1, 1, 5,
       0, 6, 2, 4, 5, 2, 0, 1, 2, 2, 5, 5, 6, 2, 6,

5.2. Regressão Logística


In [552]:
from sklearn.linear_model import LogisticRegression

logreg = LogisticRegression(max_iter=1000, random_state=42)
logreg.fit(X_train_final, y_train)
y_pred_logreg = logreg.predict(X_test_final)


5.3. Árvores de Decisão


In [553]:
from sklearn.tree import DecisionTreeClassifier

tree = DecisionTreeClassifier()
tree.fit(X_train_final, y_train)
y_pred_tree = tree.predict(X_test_final)


5.4. Random Forest


In [554]:
from sklearn.ensemble import RandomForestClassifier

forest = RandomForestClassifier(n_estimators=100)
forest.fit(X_train_final, y_train)
y_pred_forest = forest.predict(X_test_final)


5.5. Support Vector Machine (SVM)


In [555]:
from sklearn.svm import SVC

svm = SVC()
svm.fit(X_train_final, y_train)
y_pred_svm = svm.predict(X_test_final)


# 6. Avaliação dos Modelos
Função para avaliação dos modelos.

In [556]:
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [557]:
def avaliar_modelo(y_test, y_pred, nome_modelo):
    print(f"Resultados para {nome_modelo}:")
    print("Acurácia:", accuracy_score(y_test, y_pred))
    print("Matriz de Confusão:\n", confusion_matrix(y_test, y_pred))
    print("Relatório de Classificação:\n", classification_report(y_test, y_pred))
    print("-" * 60)


Avaliação de cada modelo:



In [558]:
avaliar_modelo(y_test, y_pred_knn, "K-Nearest Neighbors")
avaliar_modelo(y_test, y_pred_logreg, "Regressão Logística")
avaliar_modelo(y_test, y_pred_tree, "Árvore de Decisão")
avaliar_modelo(y_test, y_pred_forest, "Random Forest")
avaliar_modelo(y_test, y_pred_svm, "Support Vector Machine")


Resultados para K-Nearest Neighbors:
Acurácia: 0.789598108747045
Matriz de Confusão:
 [[51  2  1  0  0  0  0]
 [ 9 27 12  5  5  0  0]
 [ 4  7 34  5  7  0  1]
 [ 1  0  6 45  2  3  1]
 [ 1  1  7  2 55  4  0]
 [ 0  0  0  1  2 57  0]
 [ 0  0  0  0  0  0 65]]
Relatório de Classificação:
               precision    recall  f1-score   support

           0       0.77      0.94      0.85        54
           1       0.73      0.47      0.57        58
           2       0.57      0.59      0.58        58
           3       0.78      0.78      0.78        58
           4       0.77      0.79      0.78        70
           5       0.89      0.95      0.92        60
           6       0.97      1.00      0.98        65

    accuracy                           0.79       423
   macro avg       0.78      0.79      0.78       423
weighted avg       0.79      0.79      0.78       423

------------------------------------------------------------
Resultados para Regressão Logística:
Acurácia: 0.877068557

# 7. Otimização do Modelo Random Forest
O modelo Random Forest teve a melhor performance na comparação com os demais. Com isso, seguimos com a otimização utilizando GridSearchCV.

In [559]:
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier

param_grid = {
    'n_estimators': [100, 200, 300],
    'max_depth': [10, 20, None],
    'min_samples_split': [2, 5],
    'criterion': ['gini', 'entropy']
}

In [560]:
rf = RandomForestClassifier(random_state=42)

# scoring='accuracy' (ou 'f1_weighted' para multiclasse balanceada)
# cv=5 (Validação cruzada de 5 dobras)
grid_search = GridSearchCV(
    estimator=rf,
    param_grid=param_grid,
    scoring='accuracy',  # Otimização pela Acurácia
    cv=5,
    verbose=1,           # Exibir o progresso
    n_jobs=-1            # Usar todos os núcleos da CPU para paralelizar
)

print("Iniciando Grid Search para otimizar o Random Forest. Isso pode levar alguns minutos...")
grid_search.fit(X_train_final, y_train)
print("Grid Search concluído.")

Iniciando Grid Search para otimizar o Random Forest. Isso pode levar alguns minutos...
Fitting 5 folds for each of 36 candidates, totalling 180 fits
Grid Search concluído.


In [561]:
from sklearn.metrics import classification_report, accuracy_score

# Obter o melhor modelo
best_rf = grid_search.best_estimator_

print("\n--- Resultados da Otimização ---")
print(f"Melhores Parâmetros: {grid_search.best_params_}")
print(f"Melhor Score de CV (Acurácia): {grid_search.best_score_:.4f}")

# Fazer previsões no conjunto de teste com o melhor modelo
y_pred_best_rf = best_rf.predict(X_test_final)

# Avaliação final
print("\n--- Relatório de Classificação (Random Forest Otimizado) ---")
print(classification_report(y_test, y_pred_best_rf))

accuracy_best_rf = accuracy_score(y_test, y_pred_best_rf)
print(f"Acurácia Final do Random Forest Otimizado: {accuracy_best_rf:.4f}")


--- Resultados da Otimização ---
Melhores Parâmetros: {'criterion': 'entropy', 'max_depth': 20, 'min_samples_split': 5, 'n_estimators': 200}
Melhor Score de CV (Acurácia): 0.9449

--- Relatório de Classificação (Random Forest Otimizado) ---
              precision    recall  f1-score   support

           0       1.00      0.94      0.97        54
           1       0.82      0.91      0.86        58
           2       0.89      0.84      0.87        58
           3       0.96      0.95      0.96        58
           4       0.97      0.99      0.98        70
           5       0.98      0.97      0.97        60
           6       0.98      0.98      0.98        65

    accuracy                           0.94       423
   macro avg       0.94      0.94      0.94       423
weighted avg       0.95      0.94      0.94       423

Acurácia Final do Random Forest Otimizado: 0.9433


In [562]:
y_pred_best_rf

array([0, 1, 6, 4, 3, 2, 3, 1, 3, 5, 0, 1, 4, 5, 1, 5, 1, 2, 6, 1, 1, 3,
       3, 5, 6, 5, 2, 4, 6, 1, 3, 2, 5, 5, 4, 1, 4, 0, 5, 0, 6, 0, 4, 4,
       6, 4, 0, 6, 3, 1, 4, 0, 5, 2, 6, 1, 4, 4, 4, 3, 6, 6, 0, 6, 5, 1,
       3, 0, 3, 3, 4, 5, 0, 0, 2, 0, 0, 0, 2, 2, 1, 6, 4, 2, 1, 5, 4, 5,
       6, 6, 3, 6, 2, 3, 5, 6, 0, 1, 4, 3, 3, 3, 3, 5, 6, 4, 2, 2, 6, 3,
       6, 1, 5, 4, 5, 4, 0, 4, 1, 1, 4, 6, 4, 0, 2, 3, 6, 6, 5, 3, 4, 6,
       1, 0, 0, 5, 2, 2, 4, 0, 5, 2, 4, 2, 2, 3, 6, 1, 0, 5, 5, 4, 4, 0,
       4, 3, 4, 1, 5, 6, 2, 3, 2, 1, 4, 6, 5, 6, 6, 4, 5, 1, 1, 3, 3, 5,
       3, 5, 1, 6, 3, 3, 2, 3, 0, 0, 1, 4, 2, 6, 5, 6, 4, 5, 1, 3, 6, 1,
       4, 2, 4, 4, 6, 6, 1, 0, 2, 5, 5, 4, 0, 4, 2, 6, 6, 6, 5, 2, 1, 6,
       1, 4, 2, 3, 1, 5, 3, 4, 3, 5, 6, 0, 2, 4, 6, 6, 2, 0, 3, 5, 4, 1,
       4, 2, 2, 5, 1, 0, 3, 3, 6, 1, 4, 6, 3, 4, 2, 4, 6, 3, 4, 2, 1, 2,
       5, 2, 6, 4, 5, 2, 2, 0, 4, 5, 6, 4, 1, 0, 3, 5, 2, 4, 6, 1, 1, 5,
       2, 6, 3, 4, 5, 1, 0, 1, 2, 0, 5, 5, 6, 1, 6,

In [563]:
X_test_final.columns

Index(['idade', 'altura', 'peso', 'costuma_comer_vegetais',
       'numero_refeicoes_diarias', 'come_entre_refeicoes',
       'consumo_diario_agua', 'frequencia_atividade_fisica',
       'tempo_dispositivos_tecnologicos', 'consome_alcool',
       'meio_de_transporte_Automovel', 'meio_de_transporte_Bicicleta',
       'meio_de_transporte_Caminhando', 'meio_de_transporte_Motocicleta',
       'meio_de_transporte_Transporte_Publico', 'genero', 'historico_familiar',
       'come_alimentos_caloricos', 'fuma', 'monitora_calorias_consumidas'],
      dtype='object')

# 9. Salvamento do Modelo

In [564]:
from sklearn.pipeline import Pipeline
import joblib

# 1. Definir o Pipeline Completo
# O pipeline encadeia a transformação (preprocessor) e o modelo (best_rf)
pipeline_final = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', best_rf)
])

print("Pipeline definido: Pré-processamento -> RandomForest Otimizado")

# 2. Treinar o Pipeline Completo
print("Iniciando o treinamento do Pipeline...")
pipeline_final.fit(X_train, y_train)
print("Pipeline treinado com sucesso nos dados de treino (X_train original)!")

# 3. Salvar o Pipeline completo
nome_pipeline = 'modelo_obesidade_pipeline_COMPLETO.pkl'
joblib.dump(pipeline_final, nome_pipeline)

print(f"Pipeline completo (pré-processamento + modelo) salvo como: {nome_pipeline}")

Pipeline definido: Pré-processamento -> RandomForest Otimizado
Iniciando o treinamento do Pipeline...
Pipeline treinado com sucesso nos dados de treino (X_train original)!
Pipeline completo (pré-processamento + modelo) salvo como: modelo_obesidade_pipeline_COMPLETO.pkl


In [565]:
# 1. Carregar o pipeline completo
pipeline_carregado = joblib.load('modelo_obesidade_pipeline_COMPLETO.pkl')

# 2. Prever com DADOS BRUTOS (X_new)
# O pipeline fará o pré-processamento internamente antes de prever.
# Seus dados de teste (X_test) agora podem ser usados na sua forma ORIGINAL.
y_pred_novo = pipeline_carregado.predict(X_test)

In [566]:
# Definição da ordem das colunas do dataframe na aplicação streamlit.
X_test.columns

Index(['genero', 'idade', 'altura', 'peso', 'historico_familiar',
       'come_alimentos_caloricos', 'costuma_comer_vegetais',
       'numero_refeicoes_diarias', 'come_entre_refeicoes', 'fuma',
       'consumo_diario_agua', 'monitora_calorias_consumidas',
       'frequencia_atividade_fisica', 'tempo_dispositivos_tecnologicos',
       'consome_alcool', 'meio_de_transporte'],
      dtype='object')