In [1]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

In [2]:
df_colesterol = pd.read_csv('./dataset/dataset_colesterol.csv')
df_colesterol.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 8 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Id                  1000 non-null   int64  
 1   Grupo Sanguíneo     996 non-null    object 
 2   Fumante             997 non-null    object 
 3   Nível de Atividade  996 non-null    object 
 4   Idade               997 non-null    float64
 5   Peso                997 non-null    float64
 6   Altura              997 non-null    float64
 7   Colesterol          1000 non-null   float64
dtypes: float64(4), int64(1), object(3)
memory usage: 62.6+ KB


In [3]:
# Remover coluna ID
df_colesterol.drop(columns=['Id'], axis=1, inplace=True)

In [4]:
# Renomear colunas para facilitar a análise
df_colesterol.columns = [
    'grupo_sanguineo',
    'fumante',
    'nivel_atividade_fisica',
    'idade',
    'peso',
    'altura',
    'nivel_colesterol'
]

In [5]:
# Copiar DF para DF específico para EDA
df_colesteral_eda = df_colesterol.copy()

In [6]:
# Copiar DF para DF específico para Bucketing
df_colesteral_bucketing = df_colesterol.copy()

### Análise Exploratória dos Dados

In [7]:
df_colesteral_eda.head()

Unnamed: 0,grupo_sanguineo,fumante,nivel_atividade_fisica,idade,peso,altura,nivel_colesterol
0,B,Sim,Baixo,33.0,85.1,186.0,199.63
1,A,Não,Moderado,68.0,105.0,184.0,236.98
2,O,Não,Alto,25.0,64.8,180.0,161.79
3,A,Não,Alto,43.0,120.2,167.0,336.24
4,AB,Não,Baixo,79.0,88.5,175.0,226.23


In [12]:
print(df_colesteral_eda.grupo_sanguineo.unique())
print(df_colesteral_eda.fumante.unique())
print(df_colesteral_eda.nivel_atividade_fisica.unique())

['B' 'A' 'O' 'AB' nan]
['Sim' 'Não' nan]
['Baixo' 'Moderado' 'Alto' nan]


In [25]:
# Detectar valores ausentes
df_colesteral_eda.isna().sum()

grupo_sanguineo           0
fumante                   0
nivel_atividade_fisica    0
idade                     0
peso                      0
altura                    0
nivel_colesterol          0
dtype: int64

In [14]:
# Analisar as medidas estatísticas do DF (variáveis numéricas)
df_colesteral_eda.describe()

Unnamed: 0,idade,peso,altura,nivel_colesterol
count,997.0,997.0,997.0,1000.0
mean,49.20662,76.49669,174.889669,199.45326
std,17.476704,21.439132,8.844703,50.625152
min,20.0,15.4,160.0,36.26
25%,34.0,61.7,167.0,166.345
50%,49.0,75.5,175.0,199.455
75%,65.0,90.2,183.0,233.785
max,79.0,158.1,190.0,372.67


In [23]:
# Coletar medidas das variáveis categóricas --> Nesse caso a moda para variáveis categóricas
moda_grupo_sanguineo = df_colesteral_eda.grupo_sanguineo.mode()
moda_fumante = df_colesteral_eda.fumante.mode()
moda_nivel_atividade_fisica = df_colesteral_eda.nivel_atividade_fisica.mode()

In [17]:
# Coletar as medianas para as variáveis numéricas
mediana_idade = df_colesteral_eda.idade.median()
mediana_peso = df_colesteral_eda.peso.median()
mediana_altura = df_colesteral_eda.altura.median()

In [24]:
# Inputar valores ausentes
df_colesteral_eda.fillna(value={'grupo_sanguineo': moda_grupo_sanguineo[0], 
                                'fumante': moda_fumante[0],
                                'nivel_atividade_fisica': moda_nivel_atividade_fisica[0],
                                'idade': mediana_idade,
                                'peso': mediana_peso,
                                'altura': mediana_altura
                                }, inplace=True)