In [47]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

In [48]:
# Carregar o arquivo de dados
df_colesterol = pd.read_csv('./datasets/data_colesterol.csv')

In [49]:
# Checar estrutura dos dados
df_colesterol.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 8 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Id                  1000 non-null   int64  
 1   Grupo Sanguíneo     996 non-null    object 
 2   Fumante             997 non-null    object 
 3   Nível de Atividade  996 non-null    object 
 4   Idade               997 non-null    float64
 5   Peso                997 non-null    float64
 6   Altura              997 non-null    float64
 7   Colesterol          1000 non-null   float64
dtypes: float64(4), int64(1), object(3)
memory usage: 62.6+ KB


In [50]:
# Remover coluna Id
df_colesterol.drop(columns=['Id'], axis=1, inplace=True)

In [51]:
# Renomear colunas
df_colesterol.columns = [
    'grupo_sanguineo', 
    'fumante', 
    'nivel_atividade_fisica',
    'idade',
    'peso',
    'altura',
    'nivel_colesterol'
]

In [52]:
# Copiar DF para DF EDA
df_colesterol_eda = df_colesterol.copy()

In [53]:
# Copiar DF para DF Bucketing
df_colesterol_bucketing = df_colesterol.copy()

### EDA

In [54]:
# Visualizar os dados
df_colesterol_eda.head(10)

Unnamed: 0,grupo_sanguineo,fumante,nivel_atividade_fisica,idade,peso,altura,nivel_colesterol
0,B,Sim,Baixo,33.0,85.1,186.0,199.63
1,A,Não,Moderado,68.0,105.0,184.0,236.98
2,O,Não,Alto,25.0,64.8,180.0,161.79
3,A,Não,Alto,43.0,120.2,167.0,336.24
4,AB,Não,Baixo,79.0,88.5,175.0,226.23
5,B,Não,Baixo,68.0,66.8,170.0,185.31
6,A,Sim,Baixo,60.0,117.3,181.0,289.33
7,O,Sim,Moderado,35.0,86.9,174.0,216.48
8,O,Não,Baixo,62.0,81.3,166.0,235.3
9,B,Sim,Alto,44.0,32.7,165.0,97.79


In [55]:
df_colesterol_eda.nivel_atividade_fisica.unique()

array(['Baixo', 'Moderado', 'Alto', nan], dtype=object)

In [56]:
# Detectar valores ausentes
df_colesterol_eda.isnull().sum()

grupo_sanguineo           4
fumante                   3
nivel_atividade_fisica    4
idade                     3
peso                      3
altura                    3
nivel_colesterol          0
dtype: int64

In [57]:
# Medidas estatisticas do DF
df_colesterol_eda.describe()

Unnamed: 0,idade,peso,altura,nivel_colesterol
count,997.0,997.0,997.0,1000.0
mean,49.20662,76.49669,174.889669,199.45326
std,17.476704,21.439132,8.844703,50.625152
min,20.0,15.4,160.0,36.26
25%,34.0,61.7,167.0,166.345
50%,49.0,75.5,175.0,199.455
75%,65.0,90.2,183.0,233.785
max,79.0,158.1,190.0,372.67


In [58]:
# Coletar medidas das variaveis categoricas
moda_grupo_sang = df_colesterol_eda.grupo_sanguineo.mode()
moda_fumante = df_colesterol_eda.fumante.mode()
moda_nivel_atividade = df_colesterol_eda.nivel_atividade_fisica.mode()

In [59]:
# Coletar medidas das variaveis numericas
mediana_idade = df_colesterol_eda.idade.median()
mediana_peso = df_colesterol_eda.peso.median()
mediana_altura = df_colesterol_eda.altura.median()

In [60]:
# Imputar valores ausentes
df_colesterol_eda.fillna(value={
    'grupo_sanguineo': moda_grupo_sang[0],
    'fumante': moda_fumante[0],
    'nivel_atividade_fisica': moda_nivel_atividade[0],
    'idade': mediana_idade,
    'peso': mediana_peso,
    'altura': mediana_altura
}, inplace=True)

In [61]:
# Converter idade e altura para inteiro
df_colesterol_eda.idade = df_colesterol_eda.idade.astype(int)

In [62]:
df_colesterol_eda.altura = df_colesterol_eda.altura.astype(int)

In [63]:
# Estrutura do DataFrame apos EDA
df_colesterol_eda.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 7 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   grupo_sanguineo         1000 non-null   object 
 1   fumante                 1000 non-null   object 
 2   nivel_atividade_fisica  1000 non-null   object 
 3   idade                   1000 non-null   int64  
 4   peso                    1000 non-null   float64
 5   altura                  1000 non-null   int64  
 6   nivel_colesterol        1000 non-null   float64
dtypes: float64(2), int64(2), object(3)
memory usage: 54.8+ KB


In [64]:
# Visualizar os dados
df_colesterol_eda.head(10)

Unnamed: 0,grupo_sanguineo,fumante,nivel_atividade_fisica,idade,peso,altura,nivel_colesterol
0,B,Sim,Baixo,33,85.1,186,199.63
1,A,Não,Moderado,68,105.0,184,236.98
2,O,Não,Alto,25,64.8,180,161.79
3,A,Não,Alto,43,120.2,167,336.24
4,AB,Não,Baixo,79,88.5,175,226.23
5,B,Não,Baixo,68,66.8,170,185.31
6,A,Sim,Baixo,60,117.3,181,289.33
7,O,Sim,Moderado,35,86.9,174,216.48
8,O,Não,Baixo,62,81.3,166,235.3
9,B,Sim,Alto,44,32.7,165,97.79
