# Análise Comparativa de Modelos

<div><h2>Visão Geral</h2></div>

Neste estudo, o objetivo é prever a eficiência do sono com base em diversas características relacionadas ao estilo de vida e saúde dos indivíduos. O conjunto de dados utilizado, intitulado **Sleep Efficiency** e presente na plataforma **[Kaggle](https://www.kaggle.com/datasets/equilibriumm/sleep-efficiency/data)**, foi obtido para fins de análise exploratória e modelagem preditiva.

A metodologia adotada foi estruturada nas seguintes etapas: 

* **Obtenção de Dados**
* **Padronização de Variáveis**
* **Preparação dos Dados**

---

<div><h2>Metodologia</h2></div>

### Obtenção de Dados:

Nesta etapa, foi configurado o ambiente com a importação das bibliotecas do Python necessárias para preparação e modelagem, como *Pandas*, *Numpy* e *Scikit Learn*. Logo, depois foi carregado o conjunto de dados **Sleep Efficiency**, apresentada uma caracterização geral do conjunto e carregado o dicionário de dados. 

### Padronização de Variáveis:

Nesta etapa, foi realizada a padronização das variáveis do conjunto de dados. As variáveis categóricas foram convertidas para o tipo `category`. As variáveis de data e hora foram convertida para o tipo `datetime`, criando novas variáveis extraindo somente a hora. Os valores de consumo de álcool foram convertidos da unidade de medida onça (oz) para grama (g). Além disso, algumas colunas não relevantes para o modelo foram excluídas, e as demais foram renomeadas para o padrão `snake_case`.

### Preparação de Dados:

A preparação dos dados envolve a limpeza e transformação necessárias para garantir que os dados estejam prontos para a modelagem. Isso inclui:

  - **Tratamento de dados faltantes:** As colunas com valores faltantes foram tratadas utilizando métodos específicos. Para as variáveis numéricas do tipo quantitativa contínua, foram imputados valores faltantes utilizando a média. Já as variáveis do tipo quantitativa discreta foram imputados valores faltantes utilizando a mediana. Para variáveis categóricas, como `Smoking Status`, foi utilizada a imputação de valores faltantes utilizando moda.

  - **Codificação de variáveis:** As variáveis categóricas `Smoking Status` e `Gender` foram codificadas utilizando o OneHotEncoder do Scikit-Learn, facilitando a aplicação em algoritmos de aprendizado de máquina.

  - **Normalização de variáveis:** As variáveis numéricas foram identificadas e selecionadas para normalização utilizando o StandardScaler do Scikit-Learn. O scaler foi aplicado para transformar as colunas selecionadas em uma escala comum, resultando em um conjunto de dados com valores normalizados.
    
--- 

<div><h2>Sumário</h2></div>

1. [Obtenção dos dados](#obtencao_dados)<br>
1.1. [Configuração do ambiente](#configuracao_ambiente)<br>
1.2. [Leitura do Conjunto de dados](#leitura_dados)<br>
1.3. [Informações Gerais do conjunto de dados](#informacoes_gerais)<br>
1.4. [Dicionário de dados](#dicionario_dados)<br>
1.5. [Estatística descritiva do conjunto de dados](#conjunto_dados)<br>
2. [Padronização de variáveis](#padronizacao)<br>
2.1. [Conversão de variáveis categóricas](#dados_categoricos)<br>
2.2. [Conversão e separação de variáveis temporais](#dados_temporais)<br>
2.3. [Conversão de unidades: onça (oz) para grama (g)](#conversa_unidades)<br>
2.4. [Excluindo colunas desnecessárias](#excluir_colunas)<br>
2.5. [Renomeando colunas](#renomear_colunas)<br>
2.6. [Atualização do dicionário de dados](#dicionario_atualizado)<br>
3. [Preparação de dados](#preparacao_dados)<br>
3.1. [Preparação das variáveis para análise](#preparo_variaveis)<br>
3.2. [Tratamento de dados faltantes, codificação e normalização](#tratamento_dados)<br>

---

<div id='descricao'><h2>1. Obtenção de dados</h2></div>

Nessa etapa, serão obtidos novamente os arquivos brutos de dados e o dicionário antes de iniciar o pre-processamento.

<div id='configuracao_ambiente'><h3>1.1. Configuração do ambiente</h3></div> 

In [1]:
# Importação de bibliotecas
from IPython.display import display, Markdown, HTML
import pandas as pd
import numpy as np
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder, RobustScaler
from sklearn.impute import SimpleImputer
from sklearn.base import BaseEstimator, TransformerMixin

<div id='leitura_dados'><h3>1.2. Leitura do conjunto de dados</h3></div> 

In [2]:
#Apresentando o conjunto de dados
df = pd.read_csv('../data/raw/data.csv')
display(df.head())

# Exibição da descrição do conjunto de dados
display(Markdown(
    "O conjunto de dados, proveniente da plataforma Kaggle, contém informações sobre os padrões de sono de indivíduos," 
    "identificados por um **ID** único do indivíduo. " 
    "Inclui ainda dados sobre **idade**, **gênero**, **horário de dormir e acordar**, " 
    "**duração do sono**, **eficiência do sono**, **porcentagens de sono REM**, **profundo** e **leve**, "
    "**número de despertares**, **consumo de cafeína** e **álcool** antes de dormir, **status de fumante** "
    "e **frequência de exercícios**.\n\n"
    "---"
))

Unnamed: 0,ID,Age,Gender,Bedtime,Wakeup time,Sleep duration,Sleep efficiency,REM sleep percentage,Deep sleep percentage,Light sleep percentage,Awakenings,Caffeine consumption,Alcohol consumption,Smoking status,Exercise frequency
0,1,65,Female,2021-03-06 01:00:00,2021-03-06 07:00:00,6.0,0.88,18,70,12,0.0,0.0,0.0,Yes,3.0
1,2,69,Male,2021-12-05 02:00:00,2021-12-05 09:00:00,7.0,0.66,19,28,53,3.0,0.0,3.0,Yes,3.0
2,3,40,Female,2021-05-25 21:30:00,2021-05-25 05:30:00,8.0,0.89,20,70,10,1.0,0.0,0.0,No,3.0
3,4,40,Female,2021-11-03 02:30:00,2021-11-03 08:30:00,6.0,0.51,23,25,52,3.0,50.0,5.0,Yes,1.0
4,5,57,Male,2021-03-13 01:00:00,2021-03-13 09:00:00,8.0,0.76,27,55,18,3.0,0.0,3.0,No,3.0


O conjunto de dados, proveniente da plataforma Kaggle, contém informações sobre os padrões de sono de indivíduos,identificados por um **ID** único do indivíduo. Inclui ainda dados sobre **idade**, **gênero**, **horário de dormir e acordar**, **duração do sono**, **eficiência do sono**, **porcentagens de sono REM**, **profundo** e **leve**, **número de despertares**, **consumo de cafeína** e **álcool** antes de dormir, **status de fumante** e **frequência de exercícios**.

---

<div id='informacoes_gerais'><h3>1.3. Informações gerais do conjunto de dados</h3></div> 

In [3]:
# Resumo das informações do conjunto de dados
display(Markdown("**Informações Gerais:** \n\n"))
df.info()
print("\n")

# Exibindo a soma de valores ausentes por coluna
missing_values = df.isnull().sum()
display(Markdown("**Dados Faltantes:** \n\n"))
display(missing_values)  

display(Markdown(
    "---\n"    
    "O conjunto de dados possui `452 linhas` e `15 colunas`" 
    "As colunas possuem diferentes tipos de dados:" 
    "`float` (6 colunas), `integer` (5 colunas) e `object` ou `string` (4 colunas).\n\n"
    "Algumas colunas apresentam valores ausentes, como:\n"
    "* `Caffeine consumption` (25 ausentes)\n" 
    "* `Awakenings` (20 ausentes)\n"
    "* `Alcohol consumption` (14 ausentes)\n"
    "* `Exercise frequency` (6 ausentes)\n"
    "---"    
))

**Informações Gerais:** 



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 452 entries, 0 to 451
Data columns (total 15 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   ID                      452 non-null    int64  
 1   Age                     452 non-null    int64  
 2   Gender                  452 non-null    object 
 3   Bedtime                 452 non-null    object 
 4   Wakeup time             452 non-null    object 
 5   Sleep duration          452 non-null    float64
 6   Sleep efficiency        452 non-null    float64
 7   REM sleep percentage    452 non-null    int64  
 8   Deep sleep percentage   452 non-null    int64  
 9   Light sleep percentage  452 non-null    int64  
 10  Awakenings              432 non-null    float64
 11  Caffeine consumption    427 non-null    float64
 12  Alcohol consumption     438 non-null    float64
 13  Smoking status          452 non-null    object 
 14  Exercise frequency      446 non-null    fl

**Dados Faltantes:** 



ID                         0
Age                        0
Gender                     0
Bedtime                    0
Wakeup time                0
Sleep duration             0
Sleep efficiency           0
REM sleep percentage       0
Deep sleep percentage      0
Light sleep percentage     0
Awakenings                20
Caffeine consumption      25
Alcohol consumption       14
Smoking status             0
Exercise frequency         6
dtype: int64

---
O conjunto de dados possui `452 linhas` e `15 colunas`As colunas possuem diferentes tipos de dados:`float` (6 colunas), `integer` (5 colunas) e `object` ou `string` (4 colunas).

Algumas colunas apresentam valores ausentes, como:
* `Caffeine consumption` (25 ausentes)
* `Awakenings` (20 ausentes)
* `Alcohol consumption` (14 ausentes)
* `Exercise frequency` (6 ausentes)
---

<div id='dicionario_dados'><h3>1.4. Dicionário de dados</h3></div> 

In [4]:
#Dicionário de dados
df_dict = pd.read_csv('../data/external/dictionary.csv')
display(HTML(df_dict.to_html(index=False)))
display(Markdown(
    "---\n"
    "O dicionário de dados possui **15 variáveis**, sendo elas:\n" 
    "* **9** quatitativas discretas\n"
    "* **4** quantitativas contínuas\n" 
    "* **2** qualitativas nominais"
    "\n\n"
    "---"
))

variavel,descricao,tipo,subtipo
ID,Identificador único do indivíduo testado,quantitativa,discreta
Age,"Idade do indivíduo testado, em anos",quantitativa,discreta
Gender,Gênero do indivíduo testado,qualitativa,nominal
Bedtime,O horário em que o indivíduo testado vai para a cama todas as noites,quantitativa,contínua
Wakeup time,O horário em que o indivíduo testado acorda todas as manhãs,quantitativa,contínua
Sleep duration,Quantidade total de tempo em que o indivíduo testado dormiu (em horas),quantitativa,contínua
Sleep efficiency,Medida da proporção de tempo na cama gasto dormindo,quantitativa,contínua
REM sleep percentage,Percentual do tempo total gasto em sono REM,quantitativa,discreta
Deep sleep percentage,Percentual do tempo total gasto em sono profundo,quantitativa,discreta
Light sleep percentage,Percentual do tempo total gasto em sono leve,quantitativa,discreta


---
O dicionário de dados possui **15 variáveis**, sendo elas:
* **9** quatitativas discretas
* **4** quantitativas contínuas
* **2** qualitativas nominais

---

<div id='conjunto_dados'><h3>1.5. Estatística descritiva do conjunto de dados</h3></div> 

In [5]:
# Visualizar a estatística descritiva do conjunto de dados

df.describe(include='all')

Unnamed: 0,ID,Age,Gender,Bedtime,Wakeup time,Sleep duration,Sleep efficiency,REM sleep percentage,Deep sleep percentage,Light sleep percentage,Awakenings,Caffeine consumption,Alcohol consumption,Smoking status,Exercise frequency
count,452.0,452.0,452,452,452,452.0,452.0,452.0,452.0,452.0,432.0,427.0,438.0,452,446.0
unique,,,2,424,434,,,,,,,,,2,
top,,,Male,2021-03-11 01:00:00,2021-02-07 08:00:00,,,,,,,,,No,
freq,,,228,3,2,,,,,,,,,298,
mean,226.5,40.285398,,,,7.465708,0.788916,22.615044,52.823009,24.561947,1.641204,23.653396,1.173516,,1.79148
std,130.625419,13.17225,,,,0.866625,0.135237,3.525963,15.654235,15.313665,1.356762,30.202785,1.621377,,1.428134
min,1.0,9.0,,,,5.0,0.5,15.0,18.0,7.0,0.0,0.0,0.0,,0.0
25%,113.75,29.0,,,,7.0,0.6975,20.0,48.25,15.0,1.0,0.0,0.0,,0.0
50%,226.5,40.0,,,,7.5,0.82,22.0,58.0,18.0,1.0,25.0,0.0,,2.0
75%,339.25,52.0,,,,8.0,0.9,25.0,63.0,32.5,3.0,50.0,2.0,,3.0


<div id='padronizacao'><h2>2. Padronização de variáveis</h2></div>

<div id='dados_categoricos'><h3>2.1. Conversão de variáveis categóricas</h3></div> 

In [6]:
# Conversão De Variaveis Categóricas

df['Gender'] = df['Gender'].astype('category')
df['Smoking status'] = df['Smoking status'].astype('category')

display(Markdown("**Tipos dos dados após conversão:** \n\n"))
print(df.dtypes)

**Tipos dos dados após conversão:** 



ID                           int64
Age                          int64
Gender                    category
Bedtime                     object
Wakeup time                 object
Sleep duration             float64
Sleep efficiency           float64
REM sleep percentage         int64
Deep sleep percentage        int64
Light sleep percentage       int64
Awakenings                 float64
Caffeine consumption       float64
Alcohol consumption        float64
Smoking status            category
Exercise frequency         float64
dtype: object


* Conversão das colunas `Gender` e `Smoking status` do conjunto de dados do tipo de dado `object` para o tipo `category`, sendo mais eficiente para variáveis categóricas com um número limitado de valores distintos. 

* Após a conversão, são apresentados os tipo de dado das colunas do conjunto de dados a fim de confirmar as mudanças.

---

<div id='dados_temporais'><h3>2.2. Conversão e separação de variáveis temporais</h3></div> 

In [7]:
# Convertendo as colunas para datetime
df['Bedtime'] = pd.to_datetime(df['Bedtime'], format='%Y-%m-%d %H:%M:%S')
df['Wakeup time']= pd.to_datetime(df['Wakeup time'], format='%Y-%m-%d %H:%M:%S')

# Extraindo apenas a hora
df['bedtime_hour'] = df['Bedtime'].dt.hour
df['wakeup_hour']= df['Wakeup time'].dt.hour

# Aplicando a conversão cíclica
df['bedtime_hour_sin'] = np.sin(df['bedtime_hour'] * (2. * np.pi / 24))
df['bedtime_hour_cos'] = np.cos(df['bedtime_hour'] * (2. * np.pi / 24))

df['wakeup_hour_sin'] = np.sin(df['wakeup_hour'] * (2. * np.pi / 24))
df['wakeup_hour_cos'] = np.cos(df['wakeup_hour'] * (2. * np.pi / 24))

# Removendo as colunas originais de Bedtime e Wakeup time, e também as horas
df = df.drop(columns=['Bedtime', 'Wakeup time', 'bedtime_hour', 'wakeup_hour'])

display(df.head())

Unnamed: 0,ID,Age,Gender,Sleep duration,Sleep efficiency,REM sleep percentage,Deep sleep percentage,Light sleep percentage,Awakenings,Caffeine consumption,Alcohol consumption,Smoking status,Exercise frequency,bedtime_hour_sin,bedtime_hour_cos,wakeup_hour_sin,wakeup_hour_cos
0,1,65,Female,6.0,0.88,18,70,12,0.0,0.0,0.0,Yes,3.0,0.258819,0.965926,0.965926,-0.258819
1,2,69,Male,7.0,0.66,19,28,53,3.0,0.0,3.0,Yes,3.0,0.5,0.866025,0.707107,-0.707107
2,3,40,Female,8.0,0.89,20,70,10,1.0,0.0,0.0,No,3.0,-0.707107,0.707107,0.965926,0.258819
3,4,40,Female,6.0,0.51,23,25,52,3.0,50.0,5.0,Yes,1.0,0.5,0.866025,0.866025,-0.5
4,5,57,Male,8.0,0.76,27,55,18,3.0,0.0,3.0,No,3.0,0.258819,0.965926,0.707107,-0.707107


* Conversão das colunas `Bedtime` e `Wakeup time` para o tipo **datetime**, extraindo somente as colunas de hora, tendo em vista que as datas se referem somente ao período do estudo de eficiência do sono, não tendo influência na análise.  

* Extração das horas, com a criação das colunas `bedtime_hour` e `wakeup_hour`.

* Conversão cíclica das variáveis `bedtime_hour` e `wakeup_hour` usando as funções seno e cosseno para mapear a natureza cíclica da hora.

* Por fim, as colunas originais `Bedtime` e `Wakeup time`, assim como, as colunas criadas `bedtime_hour` e `wakeup_hour` foram removidas do dataframe.

---

<div id='conversa_unidades'><h3>2.3. Conversão de unidades: onça (oz) para grama (g)</h3></div> 

In [8]:
# Conversão De Unidades
def oz_to_g(oz):
    return oz * 28.3495

# Aplicando a conversão na coluna 'Alcohol consumption'
df['alcohol_consumption_g'] = df['Alcohol consumption'].apply(oz_to_g).round(2)
df = df.drop(columns=['Alcohol consumption'])

display(df.head())

Unnamed: 0,ID,Age,Gender,Sleep duration,Sleep efficiency,REM sleep percentage,Deep sleep percentage,Light sleep percentage,Awakenings,Caffeine consumption,Smoking status,Exercise frequency,bedtime_hour_sin,bedtime_hour_cos,wakeup_hour_sin,wakeup_hour_cos,alcohol_consumption_g
0,1,65,Female,6.0,0.88,18,70,12,0.0,0.0,Yes,3.0,0.258819,0.965926,0.965926,-0.258819,0.0
1,2,69,Male,7.0,0.66,19,28,53,3.0,0.0,Yes,3.0,0.5,0.866025,0.707107,-0.707107,85.05
2,3,40,Female,8.0,0.89,20,70,10,1.0,0.0,No,3.0,-0.707107,0.707107,0.965926,0.258819,0.0
3,4,40,Female,6.0,0.51,23,25,52,3.0,50.0,Yes,1.0,0.5,0.866025,0.866025,-0.5,141.75
4,5,57,Male,8.0,0.76,27,55,18,3.0,0.0,No,3.0,0.258819,0.965926,0.707107,-0.707107,85.05


* Conversão da unidade onça (oz) para grama (g) para padronização e melhor precisão das unidades de medida. A conversão foi aplicada na coluna `Alcohol consumption` e o resultado armazenado em uma nova coluna: `alcohol_consumption_g`. 

* Em seguida, a coluna original `Alcohol consumption` foi removida.

---

<div id='excluir_colunas'><h3>2.4. Excluindo colunas desnecessárias</h3></div> 

In [9]:
# Exclusão da coluna 'ID' do conjunto de dados
df = df.drop(columns=['ID'])

# Exclusão das colunas 'ID', 'Bedtime' e 'Wakeup time' do dicionário de dados
variables_to_exclude = ['ID', 'Bedtime', 'Wakeup time']
df_dict = df_dict[~df_dict['variavel'].isin(variables_to_exclude)]

* Excluídas a coluna `ID` do conjunto de dados. 

* Excluídas as colunas `ID`, `Bedtime` e `Wakeup time` do dicionário.

* Tais colunas foram excluídas, tendo em vista que não serão fatores determinantes na análise.


---

<div id='renomear_colunas'><h3>2.5. Renomeando colunas</h3></div> 

In [10]:
# Renomeando coluna de Caffeine consumption para incluir a unidade de medida em mg
df.rename(columns={
   'Caffeine consumption': 'caffeine_consumption_mg', 
}, inplace=True)

# Renomeando colunas no padrão snake_case
df.columns = [col.replace(' ', '_').lower() for col in df.columns]

display(df.head())

Unnamed: 0,age,gender,sleep_duration,sleep_efficiency,rem_sleep_percentage,deep_sleep_percentage,light_sleep_percentage,awakenings,caffeine_consumption_mg,smoking_status,exercise_frequency,bedtime_hour_sin,bedtime_hour_cos,wakeup_hour_sin,wakeup_hour_cos,alcohol_consumption_g
0,65,Female,6.0,0.88,18,70,12,0.0,0.0,Yes,3.0,0.258819,0.965926,0.965926,-0.258819,0.0
1,69,Male,7.0,0.66,19,28,53,3.0,0.0,Yes,3.0,0.5,0.866025,0.707107,-0.707107,85.05
2,40,Female,8.0,0.89,20,70,10,1.0,0.0,No,3.0,-0.707107,0.707107,0.965926,0.258819,0.0
3,40,Female,6.0,0.51,23,25,52,3.0,50.0,Yes,1.0,0.5,0.866025,0.866025,-0.5,141.75
4,57,Male,8.0,0.76,27,55,18,3.0,0.0,No,3.0,0.258819,0.965926,0.707107,-0.707107,85.05


* Formatação das variáveis com espaços ou letras maiúsculas para o padrão **snake_case** do Python, caracterizado pelo uso de letras minúsculas e underline, a fim de padronizar o nome das variáveis.

---

<div id='dicionario_atualizado'><h3>2.6. Atualização do dicionário de dados</h3></div> 

* Por fim, foram atualizados os nomes das variáveis presentes no dicionário, assim como, foram inseridas novas colunas referentes aos dados convertidos das colunas `Bedtime` e `Wakeup time` a serem utilizadas na etapa de preparação de dados.

In [11]:
# Criando as novas entradas para o dicionário de dados
new_columns = pd.DataFrame({
    'variavel': ['bedtime_hour_sin', 'bedtime_hour_cos', 'wakeup_hour_sin', 'wakeup_hour_cos'],
    'descricao': [
        'Seno da hora de ir para a cama (representação cíclica)',
        'Cosseno da hora de ir para a cama (representação cíclica)',
        'Seno da hora de acordar (representação cíclica)',
        'Cosseno da hora de acordar (representação cíclica)'
    ],
    'tipo': ['quantitativa', 'quantitativa', 'quantitativa', 'quantitativa'],
    'subtipo': ['contínua', 'contínua', 'contínua', 'contínua']
})

df_dict = pd.concat([df_dict, new_columns], ignore_index=True)

# Substituindo os nomes das variáveis no dicionário de dados
df_dict['variavel'] = df_dict['variavel'].str.replace(' ', '_').str.lower()

df_dict.replace({
      'caffeine_consumption': 'caffeine_consumption_mg', 
      'alcohol_consumption': 'alcohol_consumption_g',
}, inplace=True)

display(HTML(df_dict.to_html(index=False)))

display(Markdown(
    "---\n"
    "O dicionário de dados atualizado possui **16 variáveis**, sendo elas:\n" 
    "* **8** quatitativas discretas\n"
    "* **6** quantitativas contínuas\n" 
    "* **2** qualitativas nominais"
    "\n\n"
    "---"
))

variavel,descricao,tipo,subtipo
age,"Idade do indivíduo testado, em anos",quantitativa,discreta
gender,Gênero do indivíduo testado,qualitativa,nominal
sleep_duration,Quantidade total de tempo em que o indivíduo testado dormiu (em horas),quantitativa,contínua
sleep_efficiency,Medida da proporção de tempo na cama gasto dormindo,quantitativa,contínua
rem_sleep_percentage,Percentual do tempo total gasto em sono REM,quantitativa,discreta
deep_sleep_percentage,Percentual do tempo total gasto em sono profundo,quantitativa,discreta
light_sleep_percentage,Percentual do tempo total gasto em sono leve,quantitativa,discreta
awakenings,O número de vezes em que o indivíduo testado acorda durante a noite,quantitativa,discreta
caffeine_consumption_mg,A quantidade de cafeína consumida nas 24 horas anteriores a hora de dormir (em mg),quantitativa,discreta
alcohol_consumption_g,A quantidade de álcool consumido nas 24 horas anteriores a hora de dormir (em oz),quantitativa,discreta


---
O dicionário de dados atualizado possui **16 variáveis**, sendo elas:
* **8** quatitativas discretas
* **6** quantitativas contínuas
* **2** qualitativas nominais

---

<div id='preparacao_dados'><h2>3. Preparação de Dados</h2></div>

Nessa seção, serão realizadas a preparação de dados, o tratamento de dados faltantes, a normalização e a codificação do conjunto de dados.

<div id='preparo_variaveis'><h3>3.1. Preparação das variáveis para análise</h3></div> 

In [12]:
#Variável alvo
target_column = 'sleep_efficiency'

#Variáveis Nominais
nominal_columns = (
    df_dict
    .query("subtipo == 'nominal' and variavel != @target_column")
    .variavel
    .to_list()
)

#Variáveis Discretas
discrete_columns = (
    df_dict
    .query("subtipo == 'discreta' and variavel != @target_column")
    .variavel
    .to_list()
)

#Variáveis Contínuas
continuous_columns = (
    df_dict
    .query("subtipo == 'contínua' and variavel != @target_column")
    .variavel
    .to_list()
)

display(Markdown(
    f"- **Variável alvo:** {target_column} \n\n"
    f"- **Variáveis qualitativas nominais:** {nominal_columns} \n"    
    f"- **Variáveis quatitativas discretas:** {discrete_columns} \n" 
    f"- **Variáveis quantitativas continuas:** {continuous_columns} \n"
    "---"
))

- **Variável alvo:** sleep_efficiency 

- **Variáveis qualitativas nominais:** ['gender', 'smoking_status'] 
- **Variáveis quatitativas discretas:** ['age', 'rem_sleep_percentage', 'deep_sleep_percentage', 'light_sleep_percentage', 'awakenings', 'caffeine_consumption_mg', 'alcohol_consumption_g', 'exercise_frequency'] 
- **Variáveis quantitativas continuas:** ['sleep_duration', 'bedtime_hour_sin', 'bedtime_hour_cos', 'wakeup_hour_sin', 'wakeup_hour_cos'] 
---

In [13]:
# Isolando a variável alvo das variáveis preditoras
X = df.drop(columns=[target_column], axis=1)
y = df[target_column]

* No processo de definição da variável alvo, identificou-se a coluna `sleep_efficiency` como a variável dependente a ser prevista. As variáveis preditoras, foram separadas conforme os tipos (**nominal**, **discreta** ou **contínua**) definidos no dicionário de dados (df_dict).

* Em seguida, o conjunto de dados foi preparado para a modelagem, com `X` tendo todas as colunas, exceto a variável alvo `y`.

---

<div id='tratamento_dados'><h3>3.2. Tratamento de dados faltantes, codificação e normalização</h3></div> 

In [14]:
# tratamento de dados discrepantes
nominal_preprocessor = Pipeline([
    ('missing', SimpleImputer(strategy='most_frequent')), #Tratamento de dados faltantes
    ('encoding', OneHotEncoder(sparse_output=False, drop='first')), #Codificação de variáveis
])

discrete_preprocessor = Pipeline([
    ('missing', SimpleImputer(strategy='median')), #Tratamento de dados faltantes
    ('normalization', StandardScaler()) #Normalização de dados  
])

continuous_preprocessor = Pipeline([
    ('missing', SimpleImputer(strategy='median')), #Tratamento de dados faltantes
    ('normalization', StandardScaler()) #Normalização de dados          
])

preprocessor = ColumnTransformer([
    ('nominal', nominal_preprocessor, nominal_columns),
    ('discrete', discrete_preprocessor, discrete_columns),       
    ('continuous', continuous_preprocessor, continuous_columns),
])

* O pipeline de variáveis nominais inclui a imputação de valores faltantes com a moda, codificação das variáveis com OneHotEncoder (excluindo a primeira categoria para evitar a multicolinearidade). 

* O pipeline de variáveis contínuas realiza a imputação de valores faltantes pela média, e discretas pela mediana, e também a normalização com StandardScaler. 

* Ambos os pipelines foram combinados em um `ColumnTransformer`, que aplica o pré-processamento adequado a cada grupo de colunas conforme suas características.

---

In [15]:
# Aplicando o pipeline de pré-processamento aos dados X
X_transformed = preprocessor.fit_transform(X)

# Verificando se ainda existem dados faltantes
np.isnan(X_transformed).sum()

0

In [16]:
# Apresentando o pré-processamento dos dados X
display(X_transformed)

array([[ 0.        ,  1.        ,  1.87834171, ...,  0.66026388,
         0.67918887, -0.12458623],
       [ 1.        ,  1.        ,  2.18234688, ..., -0.33917349,
        -0.8391211 , -1.10905923],
       [ 0.        ,  0.        , -0.02169063, ..., -1.92904877,
         0.67918887,  1.01218528],
       ...,
       [ 0.        ,  1.        , -0.02169063, ...,  0.66026388,
         0.67918887, -0.12458623],
       [ 1.        ,  0.        ,  0.35831583, ..., -1.92904877,
         0.09314309,  1.54183648],
       [ 1.        ,  0.        , -1.6937191 , ..., -0.33917349,
        -2.05407146, -1.45805627]])

* O pipeline de pré-processamento foi aplicado ao conjunto de dados `X`, processando as variáveis nominais, discretas e contínuas, conforme as etapas previamente estabelecidas.

* Após a transformação, foi confirmada a ausência de dados faltantes, com a soma de valores `NaN` resultando em `0`.