In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:

df_colesterol = pd.read_csv('./datasets/dataset_colesterol.csv')

In [None]:

df_colesterol.info()

In [None]:
# Remover Coluna ID

df_colesterol.drop(columns=['Id'], axis=1, inplace=True)

In [None]:
# Renomear as colunas
df_colesterol.columns = [
    'grupo_sanguineo',
    'fumante',
    'nivel_atividade_fisica',
    'idade',
    'peso',
    'altura',
    'nivel_colesterol'
]

In [None]:
df_colesterol.info()

In [None]:
# Copiar DF para DF EDA
df_colesterol_eda = df_colesterol.copy()

In [None]:
# Copiar DF para DF Bucketing
df_colesterol_bucketing = df_colesterol.copy()

## INICIO DE EDA 

Discutimos sobre a escolha adequada de medidas estatísticas para tratar valores ausentes em um DataFrame. Primeiramente, analisamos as medidas estatísticas das variáveis numéricas, como idade, peso e altura, e identificamos possíveis outliers. Em seguida, concluímos que a mediana seria uma escolha mais adequada para tratar valores ausentes, pois ela é menos sensível a outliers. Para as variáveis categóricas, utilizamos a moda, ou seja, o valor mais frequente da base. Demonstramos como realizar a imputação desses valores ausentes no DataFrame, coletando as medidas estatísticas e preenchendo os valores de uma vez só. Por fim, ressaltamos a importância de verificar o domínio dos tipos possíveis das variáveis categóricas e a necessidade de converter as variáveis numéricas para o tipo adequado.

In [None]:
df_colesterol_eda.head(10)

In [None]:
df_colesterol_eda.nivel_atividade_fisica.unique()

In [None]:
# Detectar valores ausentes
df_colesterol_eda.isna().sum()

In [None]:
# Medidas estatisticas do DF
# Lembresse que usar a mediana para casos de outliers, em casos normais é possivel usar a media

df_colesterol_eda.describe()

In [None]:
# Coletar medidas das variaveis categoricaS

moda_grupo_sang = df_colesterol_eda.grupo_sanguineo.mode()
moda_fumante = df_colesterol_eda.fumante.mode()
moda_nivel_atividade = df_colesterol_eda.nivel_atividade_fisica.mode()

In [None]:
# Coletar medidas das variaveis numerifcas

mediana_idade = df_colesterol_eda.idade.median()
mediana_altura = df_colesterol_eda.altura.median()
mediana_peso = df_colesterol_eda.peso.median()
mediana_nivel_colesterol = df_colesterol_eda.nivel_colesterol.median()

In [None]:
# Imputar valores ausentes

df_colesterol_eda.fillna(value={
    'grupo_sanguineo': moda_grupo_sang[0],
    'fumante': moda_fumante[0],
    'nivel_atividade_fisica': moda_nivel_atividade[0],
    'idade': mediana_idade,
    'altura': mediana_altura,
    'peso': mediana_peso,
    # 'nivel_colesterol': mediana_nivel_colesterol,
     
      }, inplace=True)

In [None]:
df_colesterol_eda.isna().sum()

Aprenderemos a converter os tipos de dados em um DataFrame. Primeiro, tratamos os valores ausentes para evitar erros durante a conversão. Em seguida, utilizamos o método type para alterar o tipo das variáveis. No exemplo, convertemos a idade e a altura para inteiros. É importante realizar o tratamento dos valores ausentes antes da conversão, pois isso evita erros. Ao final da aula, verificamos que o DataFrame agora possui as colunas de idade e altura como inteiros, além de ter resolvido os valores ausentes.

In [None]:
# Converter idade e altura para inteiro

df_colesterol_eda.idade = df_colesterol_eda.idade.astype(int)


df_colesterol_eda.altura = df_colesterol_eda.altura.astype(int)

In [None]:
df_colesterol_eda.head(3)

In [None]:
df_colesterol_eda.info()

In [None]:
# Verificar / detectar outliers

sns.boxplot(data=df_colesterol_eda, x='idade')

In [None]:
sns.boxplot(data=df_colesterol_eda, x='peso')

In [None]:
# Filtrar o publico a ser removido
df_colesterol_eda[df_colesterol_eda.peso < 40].peso.count()

In [None]:
# Remover publico do dateframe
df_colesterol_eda.drop(df_colesterol_eda[df_colesterol_eda.peso < 40].index,axis=0, inplace=True)

In [None]:
sns.boxplot(data=df_colesterol_eda, x='altura')