### Limpeza de dados
O objetivo desse notebook é realizar uma limpeza de dados na tabela de informações dos pacientes que realizaram algum exame CK (`pacients_with_ck.csv`) e na tabela dos exames CK realizados (`ck_events.csv`)

#### Limpeza da tabela pacients_with_ck.csv
Os passos para limpeza dessa tabela são:
1. Filtragem dos dados para incluir somente os resultados relativos ao BMI (IMC) em kg/m^2 (dados de BMI sem unidade indicada foram desconsiderados)
2. Verificação dos valores de BMI extremamente elevados e calculando quanto da população total eles representam
3. Exportação tabela filtrada considerando apenas resultados de BMI < 100

Ao final do processamento uma nova tabela `bmi_norm.csv` é criada

In [1]:
import pandas as pd

df = pd.read_csv('../data/interim/pacients_with_ck.csv')

bmi = df[df['result_name'] == 'BMI (kg/m2)']
bmi['result_value'] = bmi['result_value'].astype(float)

bmi_norm = bmi[bmi['result_value'] < 100]    
bmi_abs = bmi[bmi['result_value'] >= 100]
abs_percent = 100*(len(bmi_abs)/len(bmi))
print(f"Porcentagem de medições com BMI acima de 100 kg/m2: {abs_percent:.2f}%")

bmi_norm.to_csv('../data/processed/bmi_norm.csv', index=False)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


Porcentagem de medições com BMI acima de 100 kg/m2: 0.03%


#### Limpeza da tabela ck_events.csv
Os passos para limpeza dessa tabela são:
1. Remoção de outliers, considerados CK > 10000 IU/L
2. Cálculo de quanto da população total os outliers representam
3. Exportação da tabela filtrada considerando apenas resultados de CK > 10000 IU/L

Ao final do processamento uma nova tabela `ck_norm.csv` é criada

In [2]:
ck = pd.read_csv('../data/interim/ck_events.csv')

ck_norm = ck[ck['valuenum'] <= 10000]
ck_abs = ck[ck['valuenum'] > 10000]
abs_percent = 100*(len(ck_abs)/len(ck))
print(f"Porcentagem de medições com CK acima de 10000 IU/L: {abs_percent:.2f}%")

# Exportando somente os resultados de CK <= 10 000
ck_norm.to_csv('../data/processed/ck_norm.csv', index=False)

Porcentagem de medições com CK acima de 10000 IU/L: 4.22%
