# Análise de dados sobre saúde do sono e estilo de vida

### Insights sobre padrões de sono e hábitos diários

# Visão geral do conjunto de dados:
O Sleep Health and Lifestyle Dataset fornece insights detalhados sobre os padrões de sono, hábitos diários e fatores de estilo de vida dos indivíduos. Este conjunto de dados sintéticos compreende 400 linhas e 13 colunas , cobrindo métricas essenciais como duração do sono, qualidade do sono, níveis de atividade física, estresse, categoria de IMC, saúde cardiovascular e presença de distúrbios do sono.

# Fontes dos dados

Os dados foram obtidos no kaggle através do [link](https://www.kaggle.com/code/winterbearballu/sleep-health-and-lifestyle-eda)

Obs: este conjunto de dados é gerado sinteticamente e se destina exclusivamente a propósitos ilustrativos e educacionais. Ele visa fornecer uma estrutura realista para explorar e analisar correlações entre sono, hábitos de estilo de vida e métricas de saúde.

# Colunas do conjunto de dados:
- ID da pessoa : um identificador exclusivo para cada indivíduo.
- Gênero : Gênero do indivíduo (masculino/feminino).
- Idade : Idade do indivíduo em anos.
- Ocupação : A profissão ou status de emprego do indivíduo (por exemplo, trabalhador de escritório, trabalhador braçal, estudante).
- Duração do sono (horas) : Total de horas de sono por dia.
- Qualidade do sono (escala: 1-10) : Uma classificação subjetiva da qualidade do sono, variando de 1 (ruim) a 10 (excelente).
- Nível de atividade física (minutos/dia) : Tempo gasto em atividade física diariamente em minutos.
- Nível de estresse (escala: 1-10) : Uma classificação subjetiva do nível de estresse, variando de 1 (baixo) a 10 (alto).
- Categoria de IMC : Classificação do IMC do indivíduo (baixo peso, normal, sobrepeso, obeso).
- Pressão arterial (sistólica/diastólica) : medição da pressão arterial, mostrada como valores sistólicos em vez de diastólicos.
- Frequência cardíaca (bpm) : frequência cardíaca em repouso em batimentos por minuto.
- Passos diários : Número de passos dados pelo indivíduo por dia.
- Distúrbio do sono : Presença de um distúrbio do sono (nenhum, insônia, apneia do sono).

# Detalhes sobre distúrbios do sono:
- Nenhum : O indivíduo não apresenta nenhum distúrbio específico do sono.
- Insônia : Caracterizada pela dificuldade de adormecer ou permanecer dormindo, muitas vezes resultando em sono inadequado.
- Apneia do sono : caracterizada por interrupções na respiração durante o sono, levando a sono interrompido e potenciais riscos à saúde.

# Importação de bibliotecas e extração da base

In [7]:
import pandas as pd

from src.config import DADOS_ORIGINAIS, DADOS_TRATADOS

df_sono = pd.read_csv(DADOS_ORIGINAIS)

In [8]:
# Visualização das 5 primeiras linhas

df_sono.head()

Unnamed: 0,Person ID,Gender,Age,Occupation,Sleep Duration (hours),Quality of Sleep (scale: 1-10),Physical Activity Level (minutes/day),Stress Level (scale: 1-10),BMI Category,Blood Pressure (systolic/diastolic),Heart Rate (bpm),Daily Steps,Sleep Disorder
0,1,Male,29,Manual Labor,7.4,7.0,41,7,Obese,124/70,91,8539,
1,2,Female,43,Retired,4.2,4.9,41,5,Obese,131/86,81,18754,
2,3,Male,44,Retired,6.1,6.0,107,4,Underweight,122/70,81,2857,
3,4,Male,29,Office Worker,8.3,10.0,20,10,Obese,124/72,55,6886,
4,5,Male,67,Retired,9.1,9.5,19,4,Overweight,133/78,97,14945,Insomnia


In [9]:
# Visualização das 5 últimas

df_sono.tail()

Unnamed: 0,Person ID,Gender,Age,Occupation,Sleep Duration (hours),Quality of Sleep (scale: 1-10),Physical Activity Level (minutes/day),Stress Level (scale: 1-10),BMI Category,Blood Pressure (systolic/diastolic),Heart Rate (bpm),Daily Steps,Sleep Disorder
395,396,Female,36,Student,4.5,7.9,73,7,Normal,118/66,64,14497,Sleep Apnea
396,397,Female,45,Manual Labor,6.0,6.1,72,8,Obese,132/80,65,12848,Insomnia
397,398,Female,30,Student,5.3,6.5,58,10,Obese,125/76,66,15255,Insomnia
398,399,Female,41,Retired,11.0,9.1,73,9,Obese,130/75,75,6567,Sleep Apnea
399,400,Male,37,Retired,5.8,7.0,41,6,Normal,118/70,51,18079,


In [10]:
# Informações da base

df_sono.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400 entries, 0 to 399
Data columns (total 13 columns):
 #   Column                                 Non-Null Count  Dtype  
---  ------                                 --------------  -----  
 0   Person ID                              400 non-null    int64  
 1   Gender                                 400 non-null    object 
 2   Age                                    400 non-null    int64  
 3   Occupation                             400 non-null    object 
 4   Sleep Duration (hours)                 400 non-null    float64
 5   Quality of Sleep (scale: 1-10)         400 non-null    float64
 6   Physical Activity Level (minutes/day)  400 non-null    int64  
 7   Stress Level (scale: 1-10)             400 non-null    int64  
 8   BMI Category                           400 non-null    object 
 9   Blood Pressure (systolic/diastolic)    400 non-null    object 
 10  Heart Rate (bpm)                       400 non-null    int64  
 11  Daily 

#### Observação: conforme apresentado, essa base apresenta alguns problemas: 

- Dimensão: 13 colunas e 400 linhas
- Tamanho: 40.8KB
- Presença de valores nulos na coluna "Sleep Disorder"
- Formato dos dados de algumas colunas inadequados

# Limpeza e organização da base

## Exclusão da coluna "Person ID" (número de identificação)

In [14]:
df_sono = df_sono.drop(columns="Person ID")

df_sono.head()

Unnamed: 0,Gender,Age,Occupation,Sleep Duration (hours),Quality of Sleep (scale: 1-10),Physical Activity Level (minutes/day),Stress Level (scale: 1-10),BMI Category,Blood Pressure (systolic/diastolic),Heart Rate (bpm),Daily Steps,Sleep Disorder
0,Male,29,Manual Labor,7.4,7.0,41,7,Obese,124/70,91,8539,
1,Female,43,Retired,4.2,4.9,41,5,Obese,131/86,81,18754,
2,Male,44,Retired,6.1,6.0,107,4,Underweight,122/70,81,2857,
3,Male,29,Office Worker,8.3,10.0,20,10,Obese,124/72,55,6886,
4,Male,67,Retired,9.1,9.5,19,4,Overweight,133/78,97,14945,Insomnia


## Tradução das colunas

In [16]:
df_sono.columns

Index(['Gender', 'Age', 'Occupation', 'Sleep Duration (hours)',
       'Quality of Sleep (scale: 1-10)',
       'Physical Activity Level (minutes/day)', 'Stress Level (scale: 1-10)',
       'BMI Category', 'Blood Pressure (systolic/diastolic)',
       'Heart Rate (bpm)', 'Daily Steps', 'Sleep Disorder'],
      dtype='object')

In [17]:
# Tradução dos nomes das colunas

df_sono.columns = [
    "Gênero",
    "Idade",
    "Ocupacao",
    "DuracaoSono",
    "QualidadeSono",
    "NivelAtividadefísica",
    "NivelEstresse",
    "IMC",
    "PressaoArterial",
    "FrequenciaCardiaca",
    "PassosDiarios",
    "DisturbioSono"
]

## Verificação de valores nulos

In [19]:
df_sono.isnull().sum()

Gênero                    0
Idade                     0
Ocupacao                  0
DuracaoSono               0
QualidadeSono             0
NivelAtividadefísica      0
NivelEstresse             0
IMC                       0
PressaoArterial           0
FrequenciaCardiaca        0
PassosDiarios             0
DisturbioSono           290
dtype: int64

In [20]:
df_sono["DisturbioSono"].unique()

array([nan, 'Insomnia', 'Sleep Apnea'], dtype=object)

Observação: 
- Coluna "DisturbioSono" apresenta 290 valores nulos que, na verdade, indica aqueles indivíduos que não possuem nenhum distúrbio de sono. 
- Alteração de NaN para "Nenhum"

In [22]:
# Substituindo NaN para string mais compatível

df_sono["DisturbioSono"] = df_sono["DisturbioSono"].fillna("Nenhum")

df_sono.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400 entries, 0 to 399
Data columns (total 12 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Gênero                400 non-null    object 
 1   Idade                 400 non-null    int64  
 2   Ocupacao              400 non-null    object 
 3   DuracaoSono           400 non-null    float64
 4   QualidadeSono         400 non-null    float64
 5   NivelAtividadefísica  400 non-null    int64  
 6   NivelEstresse         400 non-null    int64  
 7   IMC                   400 non-null    object 
 8   PressaoArterial       400 non-null    object 
 9   FrequenciaCardiaca    400 non-null    int64  
 10  PassosDiarios         400 non-null    int64  
 11  DisturbioSono         400 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 37.6+ KB


Conforme observado acima os valores nulos deixaram de existir e passaram a ser chamados de "nenhum" e, consequentemente, não há valores nulos

## Categorizando as colunas

Nessa etapa, inicialmente, será criada uma cópia da base afim de fazer modificações sem que sejam perdidas as informações iniciais

In [26]:
df_sono_tratado = df_sono.copy()

df_sono_tratado.head()

Unnamed: 0,Gênero,Idade,Ocupacao,DuracaoSono,QualidadeSono,NivelAtividadefísica,NivelEstresse,IMC,PressaoArterial,FrequenciaCardiaca,PassosDiarios,DisturbioSono
0,Male,29,Manual Labor,7.4,7.0,41,7,Obese,124/70,91,8539,Nenhum
1,Female,43,Retired,4.2,4.9,41,5,Obese,131/86,81,18754,Nenhum
2,Male,44,Retired,6.1,6.0,107,4,Underweight,122/70,81,2857,Nenhum
3,Male,29,Office Worker,8.3,10.0,20,10,Obese,124/72,55,6886,Nenhum
4,Male,67,Retired,9.1,9.5,19,4,Overweight,133/78,97,14945,Insomnia


#### Verificação de valores únicos para iniciar a categorização

In [28]:
df_sono_tratado.nunique().sort_values()

Gênero                    2
DisturbioSono             3
Ocupacao                  4
IMC                       4
NivelEstresse            10
FrequenciaCardiaca       51
Idade                    59
QualidadeSono            79
DuracaoSono              80
NivelAtividadefísica    108
PressaoArterial         250
PassosDiarios           393
dtype: int64

In [29]:
df_sono_tratado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400 entries, 0 to 399
Data columns (total 12 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Gênero                400 non-null    object 
 1   Idade                 400 non-null    int64  
 2   Ocupacao              400 non-null    object 
 3   DuracaoSono           400 non-null    float64
 4   QualidadeSono         400 non-null    float64
 5   NivelAtividadefísica  400 non-null    int64  
 6   NivelEstresse         400 non-null    int64  
 7   IMC                   400 non-null    object 
 8   PressaoArterial       400 non-null    object 
 9   FrequenciaCardiaca    400 non-null    int64  
 10  PassosDiarios         400 non-null    int64  
 11  DisturbioSono         400 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 37.6+ KB


## Alteração do formato (type), Classificação e tradução dos dados

Os dados serão classificados em:
- Colunas categóricas
- Colunas categóricas ordenadas
- Colunas numéricas

### Colunas categóricas : Gênero, Ocupacao e DisturbioSono

In [33]:
df_sono_tratado["Gênero"] = pd.Categorical(df_sono_tratado["Gênero"]).rename_categories(["Feminino","Masculino"])

In [34]:
df_sono_tratado["DisturbioSono"] = pd.Categorical(df_sono_tratado["DisturbioSono"])

print(df_sono_tratado["DisturbioSono"].cat.categories)

Index(['Insomnia', 'Nenhum', 'Sleep Apnea'], dtype='object')


In [35]:
df_sono_tratado["DisturbioSono"] = df_sono_tratado["DisturbioSono"].cat.rename_categories(["Insonia", "Nenhum", "ApneiaSono"])

In [36]:
df_sono_tratado["Ocupacao"] = pd.Categorical(df_sono_tratado["Ocupacao"])

print(df_sono_tratado["Ocupacao"].cat.categories)

Index(['Manual Labor', 'Office Worker', 'Retired', 'Student'], dtype='object')


In [37]:
df_sono_tratado["Ocupacao"] = df_sono_tratado["Ocupacao"].cat.rename_categories(["Operacional", "Escritório", "Aposentado", "Estudante"])

#### Resultado das colunas alteradas:

In [39]:
df_sono_tratado[["Gênero", "Ocupacao","DisturbioSono"]].head()

Unnamed: 0,Gênero,Ocupacao,DisturbioSono
0,Masculino,Operacional,Nenhum
1,Feminino,Aposentado,Nenhum
2,Masculino,Aposentado,Nenhum
3,Masculino,Escritório,Nenhum
4,Masculino,Aposentado,Insonia


### Colunas categóricas ordenadas: IMC, Idade, QualidadeSono e PressaoArterial

#### Classificação do IMC em coluna categórica ordenada

In [42]:
# Valores únicos da variável IMC

df_sono_tratado["IMC"].unique()

array(['Obese', 'Underweight', 'Overweight', 'Normal'], dtype=object)

In [43]:
# Alterando o tipo da coluna IMC para categorico ordenado

df_sono_tratado["IMC"] = pd.Categorical(df_sono_tratado["IMC"], ordered=True).rename_categories(["Normal", "Obeso", "AcimaPeso", "AbaixoPeso"])

ordem_cat_imc = ["AbaixoPeso", "Normal", "AcimaPeso", "Obeso"]

df_sono_tratado["IMC"] = pd.Categorical(df_sono_tratado["IMC"], categories = ordem_cat_imc)

print(df_sono_tratado["IMC"].unique())

['Obeso', 'AbaixoPeso', 'AcimaPeso', 'Normal']
Categories (4, object): ['AbaixoPeso' < 'Normal' < 'AcimaPeso' < 'Obeso']


#### Classificação da Idade em coluna categórica ordenada

In [45]:
# Inicialmente defineremos a função com as devidas classificações

def classificar_idade(idade):
    if idade >= 18 and idade <= 29:
        return "Jovem adulto"
    elif idade >= 30 and idade <= 44:
        return "Adulto"
    elif idade >= 45 and idade <= 59:
        return "Meia-idade"
    else:
        return "Idoso"

df_sono_tratado['Faixa_etaria'] = df_sono_tratado['Idade'].apply(classificar_idade)

df_sono_tratado

Unnamed: 0,Gênero,Idade,Ocupacao,DuracaoSono,QualidadeSono,NivelAtividadefísica,NivelEstresse,IMC,PressaoArterial,FrequenciaCardiaca,PassosDiarios,DisturbioSono,Faixa_etaria
0,Masculino,29,Operacional,7.4,7.0,41,7,Obeso,124/70,91,8539,Nenhum,Jovem adulto
1,Feminino,43,Aposentado,4.2,4.9,41,5,Obeso,131/86,81,18754,Nenhum,Adulto
2,Masculino,44,Aposentado,6.1,6.0,107,4,AbaixoPeso,122/70,81,2857,Nenhum,Adulto
3,Masculino,29,Escritório,8.3,10.0,20,10,Obeso,124/72,55,6886,Nenhum,Jovem adulto
4,Masculino,67,Aposentado,9.1,9.5,19,4,AcimaPeso,133/78,97,14945,Insonia,Idoso
...,...,...,...,...,...,...,...,...,...,...,...,...,...
395,Feminino,36,Estudante,4.5,7.9,73,7,Normal,118/66,64,14497,ApneiaSono,Adulto
396,Feminino,45,Operacional,6.0,6.1,72,8,Obeso,132/80,65,12848,Insonia,Meia-idade
397,Feminino,30,Estudante,5.3,6.5,58,10,Obeso,125/76,66,15255,Insonia,Adulto
398,Feminino,41,Aposentado,11.0,9.1,73,9,Obeso,130/75,75,6567,ApneiaSono,Adulto


In [46]:
# Transformando coluna faixa etária para categorica ordenada

ordem_cat_idade = ["Jovem adulto", "Adulto", "Meia-idade", "Idoso"]

df_sono_tratado['Faixa_etaria'] = pd.Categorical(df_sono_tratado['Faixa_etaria'], categories = ordem_cat_idade, ordered=True)

df_sono_tratado['Faixa_etaria'].unique()

['Jovem adulto', 'Adulto', 'Idoso', 'Meia-idade']
Categories (4, object): ['Jovem adulto' < 'Adulto' < 'Meia-idade' < 'Idoso']

In [47]:
# Excluindo coluna idade

df_sono_tratado = df_sono_tratado.drop("Idade", axis=1)

df_sono_tratado

Unnamed: 0,Gênero,Ocupacao,DuracaoSono,QualidadeSono,NivelAtividadefísica,NivelEstresse,IMC,PressaoArterial,FrequenciaCardiaca,PassosDiarios,DisturbioSono,Faixa_etaria
0,Masculino,Operacional,7.4,7.0,41,7,Obeso,124/70,91,8539,Nenhum,Jovem adulto
1,Feminino,Aposentado,4.2,4.9,41,5,Obeso,131/86,81,18754,Nenhum,Adulto
2,Masculino,Aposentado,6.1,6.0,107,4,AbaixoPeso,122/70,81,2857,Nenhum,Adulto
3,Masculino,Escritório,8.3,10.0,20,10,Obeso,124/72,55,6886,Nenhum,Jovem adulto
4,Masculino,Aposentado,9.1,9.5,19,4,AcimaPeso,133/78,97,14945,Insonia,Idoso
...,...,...,...,...,...,...,...,...,...,...,...,...
395,Feminino,Estudante,4.5,7.9,73,7,Normal,118/66,64,14497,ApneiaSono,Adulto
396,Feminino,Operacional,6.0,6.1,72,8,Obeso,132/80,65,12848,Insonia,Meia-idade
397,Feminino,Estudante,5.3,6.5,58,10,Obeso,125/76,66,15255,Insonia,Adulto
398,Feminino,Aposentado,11.0,9.1,73,9,Obeso,130/75,75,6567,ApneiaSono,Adulto


#### Classificação da coluna Qualidade do sono

In [49]:
def classificar_qualidade_sono(nota):
    if nota > 0 and nota < 4:
        return "Muito ruim"
    elif nota > 3 and nota < 7:
        return "Ruim"
    elif nota > 6 and nota < 8:
        return "Bom"
    else:
        return "Excelente"

df_sono_tratado['QualidadeSono'] = df_sono_tratado['QualidadeSono'].apply(classificar_qualidade_sono)

df_sono_tratado

Unnamed: 0,Gênero,Ocupacao,DuracaoSono,QualidadeSono,NivelAtividadefísica,NivelEstresse,IMC,PressaoArterial,FrequenciaCardiaca,PassosDiarios,DisturbioSono,Faixa_etaria
0,Masculino,Operacional,7.4,Bom,41,7,Obeso,124/70,91,8539,Nenhum,Jovem adulto
1,Feminino,Aposentado,4.2,Ruim,41,5,Obeso,131/86,81,18754,Nenhum,Adulto
2,Masculino,Aposentado,6.1,Ruim,107,4,AbaixoPeso,122/70,81,2857,Nenhum,Adulto
3,Masculino,Escritório,8.3,Excelente,20,10,Obeso,124/72,55,6886,Nenhum,Jovem adulto
4,Masculino,Aposentado,9.1,Excelente,19,4,AcimaPeso,133/78,97,14945,Insonia,Idoso
...,...,...,...,...,...,...,...,...,...,...,...,...
395,Feminino,Estudante,4.5,Bom,73,7,Normal,118/66,64,14497,ApneiaSono,Adulto
396,Feminino,Operacional,6.0,Ruim,72,8,Obeso,132/80,65,12848,Insonia,Meia-idade
397,Feminino,Estudante,5.3,Ruim,58,10,Obeso,125/76,66,15255,Insonia,Adulto
398,Feminino,Aposentado,11.0,Excelente,73,9,Obeso,130/75,75,6567,ApneiaSono,Adulto


In [50]:
# Transformando coluna Qualidade do sono para categorica ordenada

ordem_cat_sono = ["Muito ruim", "Ruim", "Bom", "Excelente"]

df_sono_tratado['QualidadeSono'] = pd.Categorical(df_sono_tratado['QualidadeSono'], categories = ordem_cat_sono, ordered=True)

df_sono_tratado['QualidadeSono'].unique()

['Bom', 'Ruim', 'Excelente', 'Muito ruim']
Categories (4, object): ['Muito ruim' < 'Ruim' < 'Bom' < 'Excelente']

#### Classificação da coluna Nível Estresse

In [52]:
def classificar_estresse(nota):
    if nota > 0 and nota < 4:
        return "Baixo estresse"
    elif nota > 3 and nota < 7:
        return "Estresse moderado"
    elif nota > 6 and nota < 8:
        return "Estresse elevado"
    else:
        return "Estresse muito alto"

df_sono_tratado['NivelEstresse'] = df_sono_tratado['NivelEstresse'].apply(classificar_estresse)

df_sono_tratado

Unnamed: 0,Gênero,Ocupacao,DuracaoSono,QualidadeSono,NivelAtividadefísica,NivelEstresse,IMC,PressaoArterial,FrequenciaCardiaca,PassosDiarios,DisturbioSono,Faixa_etaria
0,Masculino,Operacional,7.4,Bom,41,Estresse elevado,Obeso,124/70,91,8539,Nenhum,Jovem adulto
1,Feminino,Aposentado,4.2,Ruim,41,Estresse moderado,Obeso,131/86,81,18754,Nenhum,Adulto
2,Masculino,Aposentado,6.1,Ruim,107,Estresse moderado,AbaixoPeso,122/70,81,2857,Nenhum,Adulto
3,Masculino,Escritório,8.3,Excelente,20,Estresse muito alto,Obeso,124/72,55,6886,Nenhum,Jovem adulto
4,Masculino,Aposentado,9.1,Excelente,19,Estresse moderado,AcimaPeso,133/78,97,14945,Insonia,Idoso
...,...,...,...,...,...,...,...,...,...,...,...,...
395,Feminino,Estudante,4.5,Bom,73,Estresse elevado,Normal,118/66,64,14497,ApneiaSono,Adulto
396,Feminino,Operacional,6.0,Ruim,72,Estresse muito alto,Obeso,132/80,65,12848,Insonia,Meia-idade
397,Feminino,Estudante,5.3,Ruim,58,Estresse muito alto,Obeso,125/76,66,15255,Insonia,Adulto
398,Feminino,Aposentado,11.0,Excelente,73,Estresse muito alto,Obeso,130/75,75,6567,ApneiaSono,Adulto


In [53]:
ordem_cat_estresse = ["Baixo estresse", "Estresse moderado", "Estresse elevado", "Estresse muito alto"]

df_sono_tratado['NivelEstresse'] = pd.Categorical(df_sono_tratado['NivelEstresse'], categories = ordem_cat_estresse, ordered=True)

df_sono_tratado['NivelEstresse'].unique()

['Estresse elevado', 'Estresse moderado', 'Estresse muito alto', 'Baixo estresse']
Categories (4, object): ['Baixo estresse' < 'Estresse moderado' < 'Estresse elevado' < 'Estresse muito alto']

#### Ainda na etapa de colunas categoricas ordenadas, a coluna Pressão Arterial terá atenção especial afim de que se facilite a separação desses dados em categorias para facilitar o entendimento e análises subsequentes, inicialmente a coluna será dividida em PressaoSistolica e PressaoDiastolica.

In [55]:
# Separando em colunas diferentes a pressão sistolica de diastolica

df_sono_tratado[["PressaoSistolica", "PressaoDiastolica"]] = df_sono_tratado["PressaoArterial"].str.split('/', expand=True).astype(int)

df_sono_tratado

Unnamed: 0,Gênero,Ocupacao,DuracaoSono,QualidadeSono,NivelAtividadefísica,NivelEstresse,IMC,PressaoArterial,FrequenciaCardiaca,PassosDiarios,DisturbioSono,Faixa_etaria,PressaoSistolica,PressaoDiastolica
0,Masculino,Operacional,7.4,Bom,41,Estresse elevado,Obeso,124/70,91,8539,Nenhum,Jovem adulto,124,70
1,Feminino,Aposentado,4.2,Ruim,41,Estresse moderado,Obeso,131/86,81,18754,Nenhum,Adulto,131,86
2,Masculino,Aposentado,6.1,Ruim,107,Estresse moderado,AbaixoPeso,122/70,81,2857,Nenhum,Adulto,122,70
3,Masculino,Escritório,8.3,Excelente,20,Estresse muito alto,Obeso,124/72,55,6886,Nenhum,Jovem adulto,124,72
4,Masculino,Aposentado,9.1,Excelente,19,Estresse moderado,AcimaPeso,133/78,97,14945,Insonia,Idoso,133,78
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
395,Feminino,Estudante,4.5,Bom,73,Estresse elevado,Normal,118/66,64,14497,ApneiaSono,Adulto,118,66
396,Feminino,Operacional,6.0,Ruim,72,Estresse muito alto,Obeso,132/80,65,12848,Insonia,Meia-idade,132,80
397,Feminino,Estudante,5.3,Ruim,58,Estresse muito alto,Obeso,125/76,66,15255,Insonia,Adulto,125,76
398,Feminino,Aposentado,11.0,Excelente,73,Estresse muito alto,Obeso,130/75,75,6567,ApneiaSono,Adulto,130,75


#### Essa ação permitirá a criação de uma nova coluna com a classificação de acordo com a pressão sistólica e diastólica

Dados adaptados conforme a Sociedade Brasileira de Cardiologia ([Departamento de Hipertensão Arterial](http://departamentos.cardiol.br/dha/consenso3/capitulo1.asp))

In [58]:
# Será criada uma função para classificação conforme a fonte adaptada

def classificar_pressao(row):
    if row["PressaoSistolica"] >= 140 or row["PressaoDiastolica"] >= 90:
        return "Hipertensao"
    elif row["PressaoSistolica"] >= 130 or row["PressaoDiastolica"] >= 85:
        return "Pre-hipertensao"
    elif row["PressaoSistolica"] >= 120 or row["PressaoDiastolica"] >= 80:
        return "Normal"
    else:
        return "Otima"

df_sono_tratado["ClassificacaoPressao"] = df_sono_tratado.apply(classificar_pressao, axis=1)

df_sono_tratado

Unnamed: 0,Gênero,Ocupacao,DuracaoSono,QualidadeSono,NivelAtividadefísica,NivelEstresse,IMC,PressaoArterial,FrequenciaCardiaca,PassosDiarios,DisturbioSono,Faixa_etaria,PressaoSistolica,PressaoDiastolica,ClassificacaoPressao
0,Masculino,Operacional,7.4,Bom,41,Estresse elevado,Obeso,124/70,91,8539,Nenhum,Jovem adulto,124,70,Normal
1,Feminino,Aposentado,4.2,Ruim,41,Estresse moderado,Obeso,131/86,81,18754,Nenhum,Adulto,131,86,Pre-hipertensao
2,Masculino,Aposentado,6.1,Ruim,107,Estresse moderado,AbaixoPeso,122/70,81,2857,Nenhum,Adulto,122,70,Normal
3,Masculino,Escritório,8.3,Excelente,20,Estresse muito alto,Obeso,124/72,55,6886,Nenhum,Jovem adulto,124,72,Normal
4,Masculino,Aposentado,9.1,Excelente,19,Estresse moderado,AcimaPeso,133/78,97,14945,Insonia,Idoso,133,78,Pre-hipertensao
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
395,Feminino,Estudante,4.5,Bom,73,Estresse elevado,Normal,118/66,64,14497,ApneiaSono,Adulto,118,66,Otima
396,Feminino,Operacional,6.0,Ruim,72,Estresse muito alto,Obeso,132/80,65,12848,Insonia,Meia-idade,132,80,Pre-hipertensao
397,Feminino,Estudante,5.3,Ruim,58,Estresse muito alto,Obeso,125/76,66,15255,Insonia,Adulto,125,76,Normal
398,Feminino,Aposentado,11.0,Excelente,73,Estresse muito alto,Obeso,130/75,75,6567,ApneiaSono,Adulto,130,75,Pre-hipertensao


In [59]:
# Eliminando a coluna "PressaoArterial" após o tratamento

df_sono_tratado = df_sono_tratado.drop(["PressaoArterial", "PressaoSistolica", "PressaoDiastolica"], axis=1)

df_sono_tratado

Unnamed: 0,Gênero,Ocupacao,DuracaoSono,QualidadeSono,NivelAtividadefísica,NivelEstresse,IMC,FrequenciaCardiaca,PassosDiarios,DisturbioSono,Faixa_etaria,ClassificacaoPressao
0,Masculino,Operacional,7.4,Bom,41,Estresse elevado,Obeso,91,8539,Nenhum,Jovem adulto,Normal
1,Feminino,Aposentado,4.2,Ruim,41,Estresse moderado,Obeso,81,18754,Nenhum,Adulto,Pre-hipertensao
2,Masculino,Aposentado,6.1,Ruim,107,Estresse moderado,AbaixoPeso,81,2857,Nenhum,Adulto,Normal
3,Masculino,Escritório,8.3,Excelente,20,Estresse muito alto,Obeso,55,6886,Nenhum,Jovem adulto,Normal
4,Masculino,Aposentado,9.1,Excelente,19,Estresse moderado,AcimaPeso,97,14945,Insonia,Idoso,Pre-hipertensao
...,...,...,...,...,...,...,...,...,...,...,...,...
395,Feminino,Estudante,4.5,Bom,73,Estresse elevado,Normal,64,14497,ApneiaSono,Adulto,Otima
396,Feminino,Operacional,6.0,Ruim,72,Estresse muito alto,Obeso,65,12848,Insonia,Meia-idade,Pre-hipertensao
397,Feminino,Estudante,5.3,Ruim,58,Estresse muito alto,Obeso,66,15255,Insonia,Adulto,Normal
398,Feminino,Aposentado,11.0,Excelente,73,Estresse muito alto,Obeso,75,6567,ApneiaSono,Adulto,Pre-hipertensao


In [60]:
# Transformação da coluna Classificacao_pressao para categorica ordenada

ordem_categories = ["Otima", "Normal", "Pre-hipertensao", "Hipertensao"]

df_sono_tratado["ClassificacaoPressao"] = pd.Categorical(df_sono_tratado["ClassificacaoPressao"], ordered=True, categories=ordem_categories)

print(df_sono_tratado["ClassificacaoPressao"].unique())

['Normal', 'Pre-hipertensao', 'Otima', 'Hipertensao']
Categories (4, object): ['Otima' < 'Normal' < 'Pre-hipertensao' < 'Hipertensao']


### Finalizando os tratamentos das colunas

In [62]:
df_sono_tratado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400 entries, 0 to 399
Data columns (total 12 columns):
 #   Column                Non-Null Count  Dtype   
---  ------                --------------  -----   
 0   Gênero                400 non-null    category
 1   Ocupacao              400 non-null    category
 2   DuracaoSono           400 non-null    float64 
 3   QualidadeSono         400 non-null    category
 4   NivelAtividadefísica  400 non-null    int64   
 5   NivelEstresse         400 non-null    category
 6   IMC                   400 non-null    category
 7   FrequenciaCardiaca    400 non-null    int64   
 8   PassosDiarios         400 non-null    int64   
 9   DisturbioSono         400 non-null    category
 10  Faixa_etaria          400 non-null    category
 11  ClassificacaoPressao  400 non-null    category
dtypes: category(8), float64(1), int64(3)
memory usage: 17.2 KB


Conforme observado, as modificações permitiram uma melhor organização e redução do tamanho dos dados, o que facilitará análises e melhor aproveitamento dos dados

In [64]:
df_sono_tratado.to_parquet(DADOS_TRATADOS, index=False)

In [65]:
df_sono_parquet = pd.read_parquet(DADOS_TRATADOS)

df_sono_parquet.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400 entries, 0 to 399
Data columns (total 12 columns):
 #   Column                Non-Null Count  Dtype   
---  ------                --------------  -----   
 0   Gênero                400 non-null    category
 1   Ocupacao              400 non-null    category
 2   DuracaoSono           400 non-null    float64 
 3   QualidadeSono         400 non-null    category
 4   NivelAtividadefísica  400 non-null    int64   
 5   NivelEstresse         400 non-null    category
 6   IMC                   400 non-null    category
 7   FrequenciaCardiaca    400 non-null    int64   
 8   PassosDiarios         400 non-null    int64   
 9   DisturbioSono         400 non-null    category
 10  Faixa_etaria          400 non-null    category
 11  ClassificacaoPressao  400 non-null    category
dtypes: category(8), float64(1), int64(3)
memory usage: 16.0 KB
