### <font color='#005b96'>Data Science Aplicada à Área de Saúde</font><br>
><font color='#438496'>***DS 1b*** **| Doenças Cardíacas :** Preparação dos Dados (*DataPrep*) - 1</font>
<br>
><font color='#438496'>professor *Rodrigo Signorini*</font>

### <font color='#005b96'>Table of Contents</font>

- [Motivação](#Motivação)
- [Problema](#Problema)
- [Base de Dados](#Base_de_Dados)
- [Configurando o Ambiente](#Configurando_o_Ambiente)
- [Importando os Dados](#Importando_os_Dados)
- [Obtendo Informações Iniciais](#Obtendo_Informações_Iniciais)
- [Preparação de Dados (*DataPrep*)](#Preparação_de_Dados_(*DataPrep*))
    - [Manipulando os dados nulos](#Manipulando_os_dados_nulos)
    - [Transformando e Balanceando a Variável Dependente (*Target*)](#Transformando_e_Balanceando_a_Variável_Dependente_(*Target*))
    - [Transformando as Variáveis Independentes (*Features*)](#Transformando_as_Variáveis_Independentes_(*Features*))
        - [Variáveis Qualitativas](#Variáveis_Qualitativas)
            - [Ordinal](#Ordinal)
            - [Nominal](#Nominal)
            - [Binária](#Binária)

---
### <a id = "Motivação"><font color='#005b96'>Motivação</font></a>

- **Cenário Global**

Segundo a *World Health Organization*, as doenças cardiovasculares (DCVs) são a principal causa de morte no mundo todo, com cerca de 17,9 milhões por ano. Mais de quatro em cada cinco mortes por DCVs têm como causas principais ataques cardíacos e derrames, e um terço dessas mortes ocorre prematuramente em pessoas com menos de 70 anos de idade.

> - cerca de 17,9 milhões de pessoas morrem de doenças cardiovasculares por ano
>
> - Mortes por DVCs representam cerca de 32% de todas as causas de mortes

- **Cenário Estados Unidos**

Em 2018, o *Center for Disease Control and Prevention (CDC)* classificou as doenças cardíacas como a principal causa de mortalidade nos Estados Unidos e continua a classificá-la como tanto até os dias de hoje. Devido à complexidade e às variações do número crescente de fatores de risco, o uso de técnicas avançadas como *Machine Learning* vem sendo empregadas para auxiliar no combate contra doenças cardíacas e derrames. Segundo o site da *American Heart Association*, de fevereiro de 2018 até o momento, já houve uma redução de 15,1% nas mortes por doenças cardíacas nos Estados Unidos.

> - cerca de 1 ataque cardíaco a cada 40 segundos
>
> - cerca de 805.000 americanos têm 1 ataque cardíaco por ano
>
> - cerca de 47% de todos os americanos têm pelo menos 1 dos 3 principais fatores de risco para doenças cardíacas: pressão alta, colesterol alto e diabetes

Identificar aqueles com maior risco de DCVs e garantir que eles recebam tratamento adequado pode prevenir mortes prematuras. O acesso a medicamentos para doenças não transmissíveis e tecnologias básicas de saúde em todas as unidades básicas de saúde é essencial para garantir que os necessitados recebam tratamento e aconselhamento.

---
### <a id = "Problema"><font color='#005b96'>Problema</font></a>

Desenvolver um modelo preditivo que seja capaz de predizer a presença de doenças cardíacas.

---
### <a id = "Base_de_Dados"><font color='#005b96'>Base de Dados</font></a>

O conjunto de dados é composto por 303 amostras - onde cada amostra representa um paciente distinto -, com 14 características - onde 13 delas são consideradas relevantes como preditores de doenças cardíacas -, e 1 é a própria indicação da presença ou não da doença.

Origem:

1. University of California Irvine (UCI) Machine Learning Repository

Creators:

1. Hungarian Institute of Cardiology. Budapest: Andras Janosi, M.D.
2. University Hospital, Zurich, Switzerland: William Steinbrunn, M.D.
3. University Hospital, Basel, Switzerland: Matthias Pfisterer, M.D.
4. V.A. Medical Center, Long Beach and Cleveland Clinic Foundation: Robert Detrano, M.D., Ph.D.

<sub><font color='black'>*Para fins meramente didáticos, esse conjunto de dados recebeu algumas edições, as quais não inferem prejuízo algum quanto à íntegra das informações contidas no mesmo.*</font></sub>

|Feature|Description|
|-------|-----------|
|Age|Age of patient (in years)|
|Sex|Sex of patient|
|CP type|Chest Pain type|
|SBP (at rest)|Resting Blood Pressure (in mm Hg)|
|Cholesterol (total)|Cholestoral (in mg/dl)|
|FBS Test|Fasting Blood Sugar (if > 120 mg/dl)|
|ECG (at rest)|Resting Electrocardiographic results|
|HRmax|Maximum Heart Rate achieved during the patient's Stress Testing|
|Angina (exercise-induced)|Exercise Induced Angina|
|ST Depression (exercise-induced)|ST depression induced by exercise relative to rest|
|ST Slope (at peak exercise)|Slope of the Peak Exercise ST segment|
|N of Major Vessels (flourosopy)|Number of major vessels (0-3) colored by flourosopy|
|Thallium ST|Thallium Stress Test|
|Diagnosis (multiclass)|Absence or presence of heart desease|

---
#### <a id = "Configurando_o_Ambiente"><font color='#005b96'>Configurando o Ambiente</font></a>

In [None]:
# importing numpy
import numpy as np

# importing pandas
import pandas as pd

# Sets the maximum number of rows and columns displayed ('None' value means unlimited)
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

# importing matplotlib
import matplotlib.pyplot as plt

# %matplotlib inline

# Matplotlib's runtime configuration (rc) to customize default settings
plt.rcParams["figure.figsize"] = [6, 3]

---
#### <a id = "Importando_os_Dados"><font color='#005b96'>Importando os Dados</font></a>

In [None]:
# importing data (from a csv file into DataFrame)
df_raw = pd.read_csv('Classification_Diagnosis_of_Heart_Disease_multiclass_v01.csv')

---
#### <a id = "Obtendo_Informações_Iniciais"><font color='#005b96'>Obtendo Informações Iniciais</font></a>

In [None]:
# Usando head() para visualizar as 5 primeiras linhas do DataFrame (default)
df_raw.head()

In [None]:
# Usando shape para obter as dimensões do DataFrame
df_raw.shape

---
### <a id = "Preparação_de_Dados_(*DataPrep*)"><font color='#005b96'>Preparação de Dados (*DataPrep*)</font></a>

**Preparação de Dados (*DataPrep*)** é uma etapa fundamental no campo da Ciência de Dados, onde se aplicam técnicas e procedimentos cujo objetivo é organizar e transformar os dados brutos - pré-processamento - para que os mesmos fiquem adequadamente formatados para serem utilizados em análises subsequentes, como por exemplo, por algoritmos de *Machine Learning*. É nessa fase tão crítica e importante que se corrigem erros evidentes nos dados, manipulam-se os dados nulos através de sua eliminação ou mesmo por alguma técnica de imputação de valores aos mesmos, decide-se como tratar e utilizar ou não os *outliers* que podem distorcer as análises, balanceiam-se as classes a serem preditas no caso de problemas de classificação para evitar a possibilidade de viés, convertem-se valores qualitativos em forma de texto para valores numéricos, aplicam-se transformações aos dados numéricos para atender a determinados critérios (como por exemplo *scaling*), elaboram-se novas *features* (*feature engineering*) e tantas outras possibilidades que venham a ser criativamente concebidas.

Como já observado anteriormente, a fase de análise exploratória e preparação de dados é uma parte extensa, demorada e crítica da análise de dados e do processo de tomada de decisão baseada em dados. Uma vez que os dados estejam preparados adequadamente, a probabilidade de que modelos estatísticos e de aprendizado de máquina produzam resultados mais fidedignos e úteis se torna cada vez mais próxima do sucesso.

#### <a id = "Manipulando_os_dados_nulos"><font color='#005b96'>Manipulando os dados nulos</font></a>

De acordo com a AED já realizada, foi constatado a presença de dados nulos no *dataset*.

Em muitas situações será necessário eliminar linhas (*samples*) - quando essas apresentarem uma quantidade insignificante de valores nulos - ou mesmo colunas (*features*) - quando essas apresentarem uma quantidade significativa de valores nulos. No caso de substutuição de muitos valores, algumas técnicas de imputação podem ser utilizadas, mas podem resultar em informações fracas, equivocadas ou mesmo fora de contexto, prejudicando seriamente a capacidade de se produzir um modelo adequado. Tais decisões sobre quais abordagens adotar para uma manipulação mais eficiente desses valores nulos irão depender do problema a ser resolvido e de uma forte análise sobre o contexto dos mesmos.

In [None]:
# criando a series com 667 valores contínuos e 333 valores nulos (média 0 e desvio padrão 1)
np.random.seed(0)  # Define a semente para reproducibilidade
# loc: mean (“centre”) of the distribution | scale: Standard deviation of the distribution | size: size of the distribuition
dados_continuos = np.random.normal(loc=0, scale=1, size=667)
dados_nulos = [np.nan] * 333
dados = np.concatenate([dados_continuos, dados_nulos])
series = pd.Series(dados)

# histograma
plt.hist(series, bins=32)
plt.show()

# substituindo os dados nulos pela média dos valores
media = series.mean()
series_nan_mean = series.fillna(media)

# histograma
plt.hist(series_nan_mean, bins=32)
plt.show()

No caso específico de nossa análise, a opção é por remover esses registros onde foram detectados os respectivos valores nulos por estarem representando uma fração irrisóra do todo.

In [None]:
# obtendo a quantidade de valores nulos
df_raw.isnull().sum()

Para remover os valores nulos do *DataFrame*, utilizamos a função **dropna()** do *pandas*. Dois parâmetros dessa função são importantes de se entender, os quais ***axis*** e ***how***.

***axis*** determina se serão removidas linhas ou colunas no caso de conterem valores nulos.

> - **0** ou *'index'* : remove linhas (*default*)
>
> - **1** ou *'columns'* : remove colunas

***how*** determina se linhas ou colunas a serem removidas devem conter pelo menos um valor como nulo ou todos os valores como nulos.

> - *'any'* : se algum valor nulo estiver presente (*defalult*)
>
> - *'all'* : se todos os valores forem nulos

In [None]:
# criando uma nova versão do DataFrame
df_dataPrep_01 = df_raw.copy()
df_dataPrep_01.shape

In [None]:
# removendo valores nulos
df_dataPrep_01.dropna(inplace=True)
df_dataPrep_01.shape

#### <a id = "Transformando_e_Balanceando_a_Variável_Dependente_(*Target*)"><font color='#005b96'>Transformando e Balanceando a Variável Dependente (*Target*)</font></a>

A variável dependente *(target)* apresenta 5 níveis de informação (5 classes):

- 1 nível indicando que **não há** presença de doença cardíaca (*healthy*) e
- 4 níveis indicando que **há** presença de doença cardíaca (*sick-low, sick-medium, sick-high e sick-serious*).

In [None]:
# obtendo valores distintos (únicos)
df_dataPrep_01['Diagnosis (multiclass)'].unique()

Efetuando abaixo a contagem de frequência das classes, observe que são 160 pacientes saudáveis e 137 pacientes doentes, onde cada nível referente aos pacientes doentes representa a magnitude da gravidade da doença com a seguinte frequência de ocorrências: 54 *low*, 35 *medium*, 35 *high* e 13 *serious*.

In [None]:
# obtendo a contagem de frequência de valores distintos
df_dataPrep_01['Diagnosis (multiclass)'].value_counts()

Um ponto de atenção considerável em *Machine Learning* é o **desbalanceamento entre as classes a serem preditas**. Essa desproporcionalidade entre essas classes resulta em um cenário onde o algoritmo tenderá a aprender muito sobre como classificar pacientes saudáveis (160) e pouco sobre como classificar pacientes doentes, principalmente os do nível mais grave da doença (apenas 13).

Uma alternativa efetiva é classificar os diferentes níveis da doença em apenas um único nível, representando então 137 observações indicando a presença de doença cardíaca. Dessa maneira, se balanceia o *dataset* de forma viável, oferecendo então melhores condições para que o algoritmo aprenda melhor sobre como classificar a presença de doenças com uma proporção mais equalizada em comparação à ausência dela.

Para tanto, vamos codificar as 5 classes como sendo 2 classes, transformando a variável dependente (*target*) de natureza multiclasse para binária, onde **0** (*healthy*) representará a *'ausência de doença'* e **1** (*sick-low*, *sick-medium*, *sick-high* e *sick-serious*) a *'presença de doença'*.

In [None]:
# criando uma nova versão do DataFrame
df_dataPrep_02 = df_dataPrep_01.copy()
df_dataPrep_02.shape

In [None]:
# definindo o mapeamento das categorias para valores numéricos
cat2num_binary = {'healthy': 0, 'sick-low': 1, 'sick-medium': 1, 'sick-high' : 1, 'sick-serious' : 1}

# aplicando o mapeamento
df_dataPrep_02['Diagnosis (binary)'] = df_dataPrep_01['Diagnosis (multiclass)'].map(cat2num_binary)

df_dataPrep_02.head()

In [None]:
# obtendo a contagem de frequência de valores distintos
df_dataPrep_02['Diagnosis (binary)'].value_counts()

In [None]:
# removendo linhas (axis=0) ou colunas (axis=1)
df_dataPrep_02.drop(labels='Diagnosis (multiclass)', axis=1, inplace=True)
df_dataPrep_02.head()

#### <a id = "Transformando_as_Variáveis_Independentes_(*Features*)"><font color='#005b96'>Transformando as Variáveis Independentes (*Features*)</font></a>

Conforme o resultado da AED previamente realizada e respectivas definições, vamos aplicar algumas técnicas de pré-processamento de dados no intuito de preparar os dados para uma correta entrega aos algoritmos de *Machine Learning*.

| quantitativa DISCRETA | quantitativa CONTÍNUA | qualitativa NOMINAL | qualitativa ORDINAL |
|:----------------------|:----------------------|:--------------------|:--------------------|
| | Age | | |
| | | Sex ** | |
| | | CP type | |
| | SBP (at rest) | | |
| | Cholesterol (total) | | |
| | | FBS Test ** | |
| | | | ECG (at rest) |
| | HRmax | | |
| | | Angina (exercise-induced) ** | |
| | ST Depression (exercise-induced) | | |
| | | ST Slope (at peak exercise) | |
| N of Major Vessels (flourosopy) | | | |
| | | | Thallium ST |

** *binária*

| feature | type | values |
|:--------|:-----|:-------|
| Age     | int : quant Contínua | 0 nulos (0.0%), 41 distintos, entre 29 a 77 |
| Sex     | object : quali Binária| 0 nulos (0.0%), 02 distintos: male 206, female 97 |
| CP type | object : quali Nominal | 0 nulos (0.0%), 4 distintos: typical angina 144, asymptomatic 86, non-anginal pain 50, atypical angina 23 |
| SBP (at rest) | int : quant Contínua | 0 nulos (0.0%), 50 distintos, entre 94 e 200 |
| Cholesterol (total) | int : quant Contínua | 0 nulos (0.0%), 152 distintos, entre 126 e 564 |
| FBS Test | bool : quali Binária | 0 nulos (0.0%), 2 distintos : True 258, False 45 |
| ECG (at rest) | object : quali Ordinal| 0 nulos (0.0%), 3 distintos : showing left ventricular hypertrophy 151, normal 148, having ST-T wave abnormality 4 |
| HRmax | int : quant Contínua | 0 nulos (0.0%), 91 distintos : entre 71 e 202 |
| Angina (exercise-induced) | object : quali Binária | 0 nulos (0.0%), 2 distintos : no 204, yes 99 |
| ST Depression (exercise-induced) | float : quant Contínua | 0 nulos (0.0%), 40 distintos : entre 0.0 e 6.2 |
| ST Slope (at peak exercise) | object : quali Nominal | 0 nulos (0.0%), 3 distintos : downsloping 142, flat 140, upsloping 21 |
| N of Major Vessels (flourosopy) | float : quant Discreta | 4 nulos (0.01%), 4 distintos : entre 0.0 e 3.0
| Thallium ST | object : quali Ordinal | 2 nulos (0.01%), 3 distintos : fixed defect 18, normal 166, reversible defect 117 |

#### <a id = "Variáveis_Qualitativas"><font color='#005b96'>Variáveis Qualitativas</font></a>

A codificação de variáveis qualitativas (também chamadas de variáveis categóricas) de formato texto para formato numérico é uma etapa essencial na preparação de dados em projetos de Ciência de Dados, pois muitos modelos estatísticos e algoritmos de aprendizado de máquina dependem de cálculos matemáticos que requerem, obviamente, dados numéricos. Ainda, muitas bibliotecas e ferramentas de análise e modelagem de dados são projetadas para trabalhar apenas com dados exclusivamente numéricos, o que faz essa necessidade ser também um facilitador para a integração dessas ferramentas em qualquer fluxo de trabalho.

A escolha da técnica correta depende da natureza da variável qualitativa e até mesmo do algoritmo que será utilizado. Para uma variável qualitativa de natureza **ordinal**, podemos realizar a **Codificação Ordinal**. Já para uma variável qualitativa de natureza **nominal**, podemos realizar a **Codificação *One-Hot***.

In [None]:
# criando uma nova versão do DataFrame
df_dataPrep_03 = df_dataPrep_02.copy()

#### <a id = "Ordinal"><font color='#005b96'>Ordinal</font></a>

Se a variável qualitativa tem uma natureza ordinal, isso é, apresenta ordem intrínseca (hierarquia), atribui-se valores numéricos às categorias respeitando a própria ordem observada.

In [None]:
# analisando o grau de hierarquia das classes
df_dataPrep_03.groupby('ECG (at rest)')['Diagnosis (binary)'].value_counts(normalize=True).plot.bar()

In [None]:
df_dataPrep_03['ECG (at rest)'] = df_dataPrep_02['ECG (at rest)'].map({'normal': 0, 
                                                                       'showing left ventricular hypertrophy': 1, 
                                                                       'having ST-T wave abnormality': 2})
df_dataPrep_03.head()

In [None]:
# code...

#### <a id = "Nominal"><font color='#005b96'>Nominal</font></a>

**Codificação *One-Hot*** (*One-Hot Encoder* / *Dummy Variable Encoder*)

Se a variável qualitativa tem uma natureza nominal, isso é, não apresenta ordem intrínseca (hierarquia), criam-se variáveis binárias para cada categoria existente em cada uma das variáveis qualitativas nominais. Cada uma dessas novas variáveis é chamada de *dummy variable* (também conhecida como *indicator variable*), que, tecnicamente, são variáveis dicotômicas, pois assumem apenas dois valores possíveis - geralmente **0** e **1** -, onde **0** representa a ausência da categoria qualitativa **1** representa a presença da categoria qualitativa.

Para enternder o conceito envolvido na codificação *One-Hot*, vamos supor um cenário hipotético:

>Uma variável qualitativa nominal **X1** apresenta três categorias distintas: **a**, **b** e **c**. Ao codificarmos essas categorias de forma ordinal, respectivamente, como **1**, **2** e **3**, um algoritmo matemático poderia facilmente aprender que a categoria **c** exerce um grau de maior importância sobre **b** e **a**. Sendo a referida variável uma qualitativa **nominal**, onde suas categorias não apresentam nenhum sentido hierárquico, tais valores atribuídos são um equívoco extremamente perigoso, podendo, como consequência, gerar modelos com sérios problemas de viés (*bias*).

Mesmo sendo a codificação *One-Hot* uma técnica amplamente usada e eficiente no seu propósito, essa técnica pode ter algumas implicações quando se trata do uso de alguns algoritmos de aprendizado de máquina, onde a compreensão das mesmas são de suma importância para evitar a sua aplicação de forma arbitrária e prejudicial. Algumas dessas implicações que devemos nos atentar são o **aumento da dimensionalidade** (aumento de variáveis no conjunto de dados), a **esparsidade dos dados** (grande maioria das observações em um conjunto de dados codificadas com valores zero) e a **eficiência computacional** (lentidão no tempo de treinamento e predição do modelo e consequente alto custo financeiro). Ainda, alguns conceitos que ainda iremos nos deparar e que também podem ter implicações são a **multicolinearidade** e o **overfitting**.

Obviamente que temos algumas maneiras para lidar com essas implicações ao usar a codificação *One-Hot*, as quais a **feature selection** (utilização de técnicas para selecionar as variáveis mais relevantes, reduzindo a dimensionalidade), **algoritmos específicos** (menos afetados pela alta dimensionalidade e menos sensíveis aos problemas de multicolinearidade), assim como conceitos que também iremos nos deparar como **regularização** (mitigação de multicolinearidade e de *overfitting*) e **redução de dimensionalidade** (também uma alternativa para reduir a dimensionalidade).

Em resumo, enquanto a codificação *One-Hot* é uma técnica valiosa para codificar variáveis qualitativas nominais, é importante considerar tanto as implicações associadas à sua aplicação quanto saber escolher as abordagens adequadas para mitigar esses respectivos problemas.

A função ***get_dummies()*** do *pandas* nos oferece de forma muito simples e eficiente as condições necessárias para que possamos criar a codificação *One-Hot* e então as respectivas variáveis *dummies*.

In [None]:
# Cria nova versão do DataFrame
df_dataPrep_04 = df_dataPrep_03.copy()

In [None]:
# Codificação One-Hot
df_dummies = pd.get_dummies(df_dataPrep_03['CP type'], prefix='CP type', prefix_sep='_', drop_first=False)
df_dummies.head()

In [None]:
# concatenando DataFrames
df_dataPrep_04 = pd.concat([df_dataPrep_04, df_dummies], axis=1)
df_dataPrep_04.head()

In [None]:
# # removendo linhas (axis=0) ou colunas (axis=1)
df_dataPrep_04.drop(labels='CP type', axis=1, inplace=True)
df_dataPrep_04.head()

#### <a id = "Binária"><font color='#005b96'>Binária</font></a>

Por definição, uma variável **binária** - ou **dicotômica** -, possui apenas duas categorias únicas possíveis, como por exemplo , *"Sim"* ou *"Não"*, *"Verdadeiro"* ou *"Falso"*. Para essas variáveis, a codificação *One-Hot* não faz sentido e introduz redundância desnecessária nas representações dos dados, pois a criação de duas variáveis (uma para cada categoria) faz com que, para cada observação, uma sempre contenha 1 enquanto a outra sempre contenha 0.

In [None]:
# Cria nova versão do DataFrame
df_dataPrep_05 = df_dataPrep_04.copy()

In [None]:
# code...

In [None]:
'''
Write object to a comma-separated values (csv) file
'''
df_dataPrep_05.to_csv('Classification_Diagnosis_of_Heart_Disease_DataPrep_v02.csv', index=False)