<a href="https://colab.research.google.com/github/fiapdatanalytics/tech-challenge4/blob/main/Tech_Challenge_4_Data_viz_and_production_models.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Tech Challenge 4 - Data viz and production models**

## **Desafio**

🎯 Objetivo do Projeto

Desenvolver um modelo preditivo de Machine Learning para auxiliar uma equipe médica a diagnosticar níveis de obesidade em pacientes, com assertividade mínima de 75%, deployado em uma aplicação Streamlit, acompanhado de dashboard analítico e vídeo de apresentação.

🧩 Entregáveis Principais

* Pipeline de Machine Learning
* Feature engineering, treinamento e avaliação do modelo.
* Modelo com acurácia ≥ 75%
* Deploy no Streamlit
* Aplicação funcional acessível por link público.
* Dashboard analítico
* Visualização dos principais insights.
* Documentação (.doc ou .txt)
* Links do app, dashboard e repositório GitHub.
* Vídeo de apresentação (4 a 10 minutos)


##**Dicionário de Dados**

* **Gender:** Gênero.
* **Age:** Idade.
* **Height:** Altura em metros.
* **Weight:** Peso em kgs.
* **family_history:** Algum membro da família sofreu ou sofre de excesso de
peso?
* **FAVC:** Você come alimentos altamente calóricos com frequência?
* **FCVC:** Você costuma comer vegetais nas suas refeições?
* **NCP:** Quantas refeições principais você faz diariamente?
* **CAEC:** Você come alguma coisa entre as refeições?
* **SMOKE:** Você fuma?
* **CH2O:** Quanta água você bebe diariamente?
* **SCC:** Você monitora as calorias que ingere diariamente?
* **FAF:** Com que frequência você pratica atividade física?
* **TER:** Quanto tempo você usa dispositivos tecnológicos como celular,
videogame, televisão, computador e outros?
* **CALC:** Com que frequência você bebe álcool?
* **MTRANS:** Qual meio de transporte você costuma usar?
* **Obesity_level (coluna alvo):** Nível de obesidade

## **Bibliotecas**

In [14]:
import pandas as pd

## **Dados**

In [71]:
# importando a base de dados Obesity.csv
df = pd.read_csv('https://raw.githubusercontent.com/fiapdatanalytics/tech-challenge4/refs/heads/main/data/Obesity.csv')

In [50]:
# visualização dos 5 primeiros registros da base
df.head()

Unnamed: 0,Gender,Age,Height,Weight,family_history,FAVC,FCVC,NCP,CAEC,SMOKE,CH2O,SCC,FAF,TUE,CALC,MTRANS,Obesity
0,Female,21.0,1.62,64.0,yes,no,2.0,3.0,Sometimes,no,2.0,no,0.0,1.0,no,Public_Transportation,Normal_Weight
1,Female,21.0,1.52,56.0,yes,no,3.0,3.0,Sometimes,yes,3.0,yes,3.0,0.0,Sometimes,Public_Transportation,Normal_Weight
2,Male,23.0,1.8,77.0,yes,no,2.0,3.0,Sometimes,no,2.0,no,2.0,1.0,Frequently,Public_Transportation,Normal_Weight
3,Male,27.0,1.8,87.0,no,no,3.0,3.0,Sometimes,no,2.0,no,2.0,0.0,Frequently,Walking,Overweight_Level_I
4,Male,22.0,1.78,89.8,no,no,2.0,1.0,Sometimes,no,2.0,no,0.0,0.0,Sometimes,Public_Transportation,Overweight_Level_II


In [51]:
df.shape

(2111, 17)

In [52]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2111 entries, 0 to 2110
Data columns (total 17 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Gender          2111 non-null   object 
 1   Age             2111 non-null   float64
 2   Height          2111 non-null   float64
 3   Weight          2111 non-null   float64
 4   family_history  2111 non-null   object 
 5   FAVC            2111 non-null   object 
 6   FCVC            2111 non-null   float64
 7   NCP             2111 non-null   float64
 8   CAEC            2111 non-null   object 
 9   SMOKE           2111 non-null   object 
 10  CH2O            2111 non-null   float64
 11  SCC             2111 non-null   object 
 12  FAF             2111 non-null   float64
 13  TUE             2111 non-null   float64
 14  CALC            2111 non-null   object 
 15  MTRANS          2111 non-null   object 
 16  Obesity         2111 non-null   object 
dtypes: float64(8), object(9)
memory u

# **Transformações**

## **Dicionários**

In [76]:
mapa_sim_nao = {
    'no': 0,
    'yes': 1
}

In [110]:
mapa_frequencia = {
    'no': 0,
    'Sometimes': 1,
    'Frequently': 2,
    'Always': 3
}

## **Alteração nomes Colunas**

In [54]:
df.columns

Index(['Gender', 'Age', 'Height', 'Weight', 'family_history', 'FAVC', 'FCVC',
       'NCP', 'CAEC', 'SMOKE', 'CH2O', 'SCC', 'FAF', 'TUE', 'CALC', 'MTRANS',
       'Obesity'],
      dtype='object')

In [67]:
mapa_colunas = {
    'Gender': 'genero',
    'Age': 'idade',
    'Height': 'altura',
    'Weight': 'peso',
    'family_history': 'historico_familiar',
    'FAVC': 'favc',
    'FCVC': 'fcvc',
    'NCP': 'ncp',
    'CAEC': 'caec',
    'SMOKE': 'fumante',
    'CH2O': 'ch20',
    'SCC' : 'scc',
    'FAF': 'faf',
    'TUE': 'tue',
    'CALC': 'calc',
    'MTRANS': 'mtrans',
    'Obesity': 'obesidade'
}


In [72]:
df = df.rename(columns=mapa_colunas)

In [73]:
df.columns

Index(['genero', 'idade', 'altura', 'peso', 'historico_familiar', 'favc',
       'fcvc', 'ncp', 'caec', 'fumante', 'ch20', 'scc', 'faf', 'tue', 'calc',
       'mtrans', 'obesidade'],
      dtype='object')

## **Coluna Gender**

Novo nome: genero

Female = 0

Male = 1

In [59]:
df.genero.unique()

array(['Female', 'Male'], dtype=object)

In [106]:
df.groupby('genero').size()

Unnamed: 0_level_0,0
genero,Unnamed: 1_level_1
Female,1043
Male,1068


In [107]:
mapa_genero = {
    'Female': 0,
    'Male': 1
}
df['genero'] = df['genero'].map(mapa_genero)

In [62]:
df.genero.unique()

array([0, 1])

In [108]:
df.groupby('genero').size()

Unnamed: 0_level_0,0
genero,Unnamed: 1_level_1
0,1043
1,1068


## **Coluna family_history**

novo nome: historico familiar

no = 0

yes = 1

In [40]:
df.historico_familiar.unique()

array(['yes', 'no'], dtype=object)

In [102]:
df.groupby('historico_familiar').size()

Unnamed: 0_level_0,0
historico_familiar,Unnamed: 1_level_1
no,385
yes,1726


In [103]:
df.historico_familiar = df.historico_familiar.map(mapa_sim_nao)

In [104]:
df.historico_familiar.unique()

array([1, 0])

In [105]:
df.groupby('historico_familiar').size()

Unnamed: 0_level_0,0
historico_familiar,Unnamed: 1_level_1
0,385
1,1726


## **Coluna CAEC**

novo nome: caec

no = 0

Sometimes = 1

Frequently = 2
    
Always = 3

In [109]:
df.caec.unique()

array(['Sometimes', 'Frequently', 'Always', 'no'], dtype=object)

In [111]:
df.groupby('caec').size()

Unnamed: 0_level_0,0
caec,Unnamed: 1_level_1
Always,53
Frequently,242
Sometimes,1765
no,51


In [112]:
df.caec = df.caec.map(mapa_frequencia)

In [113]:
df.caec.unique()

array([1, 2, 3, 0])

In [114]:
df.groupby('caec').size()

Unnamed: 0_level_0,0
caec,Unnamed: 1_level_1
0,51
1,1765
2,242
3,53


## **Coluna Smoke**

novo nome: fumante

no = 0

yes = 1



In [74]:
df.fumante.unique()

array(['no', 'yes'], dtype=object)

In [100]:
df.groupby('fumante').size()

Unnamed: 0_level_0,0
fumante,Unnamed: 1_level_1
0,2067
1,44


In [77]:
df.fumante = df.fumante.map(mapa_sim_nao)

In [78]:
df.fumante.unique()

array([0, 1])

In [101]:
df.groupby('fumante').size()

Unnamed: 0_level_0,0
fumante,Unnamed: 1_level_1
0,2067
1,44


## **Coluna SCC**

novo nome: scc

no = 0

yes = 1

In [79]:
df.scc.unique()

array(['no', 'yes'], dtype=object)

In [97]:
df.groupby('scc').size()

Unnamed: 0_level_0,0
scc,Unnamed: 1_level_1
0,2015
1,96


In [80]:
df.scc = df.scc.map(mapa_sim_nao)

In [81]:
df.scc.unique()

array([0, 1])

In [96]:
df.groupby('scc').size()

Unnamed: 0_level_0,0
scc,Unnamed: 1_level_1
0,2015
1,96


## **Coluna CALC**

novo nome: calc

no = 0

Sometimes = 1

Frequently = 2
    
Always = 3

In [82]:
df.calc.unique()

array(['no', 'Sometimes', 'Frequently', 'Always'], dtype=object)

In [95]:
df.groupby('calc').size()

Unnamed: 0_level_0,0
calc,Unnamed: 1_level_1
0,639
1,1401
2,70
3,1


In [85]:
df.calc = df.calc.map(mapa_frequencia)

In [86]:
df.calc.unique()

array([0, 1, 2, 3])

In [94]:
df.groupby('calc').size()

Unnamed: 0_level_0,0
calc,Unnamed: 1_level_1
0,639
1,1401
2,70
3,1


## **Coluna MTRANS**

novo nome: mtrans

Public_Transportation = 0

Walking = 1

Automobile = 2

Motorbike = 3

Bike = 4

In [87]:
df.mtrans.unique()

array(['Public_Transportation', 'Walking', 'Automobile', 'Motorbike',
       'Bike'], dtype=object)

In [91]:
df.groupby('mtrans').size()

Unnamed: 0_level_0,0
mtrans,Unnamed: 1_level_1
0,1580
1,56
2,457
3,11
4,7


In [88]:
mapa_transporte = {
    'Public_Transportation': 0,
    'Walking': 1,
    'Automobile': 2,
    'Motorbike': 3,
    'Bike': 4
}

In [89]:
df.mtrans = df.mtrans.map(mapa_transporte)

In [92]:
df.mtrans.unique()

array([0, 1, 2, 3, 4])

In [93]:
df.groupby('mtrans').size()

Unnamed: 0_level_0,0
mtrans,Unnamed: 1_level_1
0,1580
1,56
2,457
3,11
4,7


## **Coluna Obesity**

novo nome: obesidade

In [115]:
df.obesidade.unique()

array(['Normal_Weight', 'Overweight_Level_I', 'Overweight_Level_II',
       'Obesity_Type_I', 'Insufficient_Weight', 'Obesity_Type_II',
       'Obesity_Type_III'], dtype=object)

In [116]:
df.groupby('obesidade').size()

Unnamed: 0_level_0,0
obesidade,Unnamed: 1_level_1
Insufficient_Weight,272
Normal_Weight,287
Obesity_Type_I,351
Obesity_Type_II,297
Obesity_Type_III,324
Overweight_Level_I,290
Overweight_Level_II,290


## **Criação coluna IMC**

In [34]:
df['imc'] = round(df['peso'] / (df['altura'] * df['altura']),2)
display(df.head())

Unnamed: 0,sexo,idade,altura,peso,historico_familiar,favc,fcvc,ncp,caec,smoke,ch20,scc,faf,tue,calc,mtrans,obesidade,imc
0,Female,21.0,1.62,64.0,yes,no,2.0,3.0,Sometimes,no,2.0,no,0.0,1.0,no,Public_Transportation,Normal_Weight,24.39
1,Female,21.0,1.52,56.0,yes,no,3.0,3.0,Sometimes,yes,3.0,yes,3.0,0.0,Sometimes,Public_Transportation,Normal_Weight,24.24
2,Male,23.0,1.8,77.0,yes,no,2.0,3.0,Sometimes,no,2.0,no,2.0,1.0,Frequently,Public_Transportation,Normal_Weight,23.77
3,Male,27.0,1.8,87.0,no,no,3.0,3.0,Sometimes,no,2.0,no,2.0,0.0,Frequently,Walking,Overweight_Level_I,26.85
4,Male,22.0,1.78,89.8,no,no,2.0,1.0,Sometimes,no,2.0,no,0.0,0.0,Sometimes,Public_Transportation,Overweight_Level_II,28.34
