# Modelo de Machine Learning para Prevenir Doenças Cardíacas

**Autor: Gabriel Schmöel**

**Data: 22/08//2022 - Projeto em Construção**

Este projeto busca pelo melhor algoritmo de Machine Learning para prever a tendência de uma pessoa desenvolver uma futura doença cardíaca. Para a produção desse modelo, foi utilizado o *data base*, já explorado e tratado, conrrespondente ao projeto [Fatores Clínicos e Laboratoriais de Doenças Cardíacas](https://github.com/gabriel-schmokel/data_science/blob/master/exploracao_tratamento/prever_doen%C3%A7as_cardiacas.ipynb) que se encontra no GitHub.


Este projeto *Machine Learning* constitue um modelo supervisionado de classificação, pois o arquivo de dados apresenta uma variável de resposta categórica, a qual informa se o paciente teve ou não a doença cardíaca. Essa variável é única e corresponde aos dados alvos que se deseja prever. 

Na etapa do pré-processamento dos dados os respectivos trabalhos foram solicitados:

* fazer a tranformação das variáveis categóricas nomianais em variáveis categóricas ordinais tanto manualmente quanto pelo uso do módulo *Label Encoder*, presente na biblioteca *sklearn*. Ambas as transformações devem ser armazenados em novos *data frames*.

* deve-se criar variáveis *dummy* (fictícias) com o objetivo de remover qualquer peso associado ao números que as variáveis categóricas ordinais carregam.

* fazer a separação do conjunto de dados das variáveis **previsoras** e de **alvo** para o *data frame* tendo feito a transformação cateórica ordinal manual e por *Label Encoder*, também deve-se fazer a separação do *data frame* feito a tranformação *OneHotEncoder* das variáveis. Posteriormente, todos esses *data frames* também devem ser escalonados de forma padronizada.

* avaliação das quatro pricipais variáveis que explicam o conjunto dos dados utilizando os respectivos métodos: **PCA**, **kernel PCA** e **LDA**. Obs: embora tenha sido solicitado essa tarefa, na elaboração dos modelos de *Machine Learning*, não deve-se trabalhar com a redução da dimensionalidade feita nessa etapa.

* salvar todas as variáveis **alvo** e **previsoras** para os eventuais trabalhos que os desenvolvedores de software venham a realizar. 

* separar 70% do conjunto de dados, de todas as variáveis previsoras e de alvo, como sendo de treino, posteriormente separ o restante como o conjunto de dados de teste.


Os dados foram extraídos do site do Kaggle, clique [aqui](https://www.kaggle.com/fedesoriano/heart-failure-prediction/version/1) para visualizá-los.



## Dicionário das Variáveis

Variável                | Significado                                 | Valores Permitidos
---------               | ------                                      | -----
Age                     |  Idade do paciente                          | 20-100
Sex                     |  Sexo do paciente                           | F, M
Chest Pain Type         |  Tipo de Dor no Peito                       | ASY, ATA, NAP, TA
Resting BP              |  Pressão Sanguínea em Repouso em mmGh       | 75-250
Cholesterol             |  Colesterol séricodo paciente               | 60-700
Fasting BS              |  Açucar no sangue em jejum                  | 0, 1 
Resting ECG             |  Eletrocardiograma em repouso               | LVH, Normal, ST 
Max HR                  |  Frequência cardíaca máxima                 | 40-300
Exercise Angina         |  Angina induzida por exercício              | N, Y
Old Peak                |  Depressão de ST por exercício ao repouso   | (-5) - (7)
ST_Slope                |  Inclinação do segmento ST no ECG           | Down, Flat, Up
Heart Disease           |  Doença cardíaca (NÃO/SIM)                  | 0, 1


## Carregando as Bibliotecas

In [1]:
import numpy as np  # importando a biblioteca numpy para a manipulação e operação de arrays.
import pandas as pd  # importando a biblioteca pandas para a manipulação de data frames.
import pickle  # importando a biblioteca para salvar e abrir arquivos de dados.
from sklearn.preprocessing import LabelEncoder # importando o módulo LabelEnconder para fazer o encoding das variáveis.
from sklearn.preprocessing import OneHotEncoder # importando o módulo OneHotEncoder para criação de variáveis dummy
from sklearn.compose import ColumnTransformer  # importando o módulo ColumnTransformer para a transformação das colunas (variáveis).
from sklearn.preprocessing import StandardScaler # importando o módulo StandardScaler para fazer o escalonamento das variáveis.
from sklearn.decomposition import PCA # importando o módulo PCA para fazer a redução da dimensionalidade das variáveis do arquivo.
from sklearn.decomposition import KernelPCA # importando o módulo KernelPCA para fazer a redução da dimensionalidade das variáveis do arquivo.
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis # importando o módulo LinearDiscriminantAnalysis para fazer a redução da dimensionalidade das variáveis do arquivo.
from sklearn.model_selection import train_test_split # importando o módulo train_test_split para separar o dados de treino e de teste.
from sklearn.naive_bayes import GaussianNB # importando o módulo para a aplicação do Naive Bayes Gaussiano
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report # importando módulo para realizar a acurácia do modelo, exibir a matriz de confusão e fazer o reporte de classificação.

## Carregando o Data Set

In [2]:
df = pd.read_csv('/content/drive/MyDrive/arquivos_de_leitura/heart_tratado.csv',
                 sep=';', encoding='utf-8')

In [3]:
# COMENTÁRIOS SOBRE O CÓDIGO

# pd.read_csv(...) é um método de leitura de aruivos csv da biblioteca pandas.
# o primeiro argumento direciona o caminho do diretório que contém o arquivo de leitura, o segundo argumento sep = '...' 
# deve informar como os dados estão separados no arquivo e o último argumento especifica os métodos de leitura possíveis.
# métodos de leituras possíves: utf-8, ISO 8859-1, ...

## Visualizando O Arquivo de Dados 

Através da saída dos códigos abaixo, foi observado que o data frame está de acordo com o número de variáveis que foi apresentado no dicionário, um total de 12, também foi mostrado que o número de linhas que esse data frame possue corresponde a 917.

In [4]:
df.head()  # Verificando o cabeçalho do arquivo.

Unnamed: 0,idade,sexo,tipo_dor_peito,pressao,colesterol,acucar_no_sangue,ecg,max_freq_cardiaca,angina_pós_exercicio,depressao_st,inclinacao_st,doenca_cardiaca
0,40,M,ATA,140,289,N,Normal,172,N,0.0,Up,N
1,49,F,NAP,160,180,N,Normal,156,N,1.0,Flat,S
2,37,M,ATA,130,283,N,ST,98,N,0.0,Up,N
3,48,F,ASY,138,214,N,Normal,108,Y,1.5,Flat,S
4,54,M,NAP,150,195,N,Normal,122,N,0.0,Up,N


In [5]:
df.tail()  # Verificando as 5 linhas finais do arquivo.

Unnamed: 0,idade,sexo,tipo_dor_peito,pressao,colesterol,acucar_no_sangue,ecg,max_freq_cardiaca,angina_pós_exercicio,depressao_st,inclinacao_st,doenca_cardiaca
912,45,M,TA,110,264,N,Normal,132,N,1.2,Flat,S
913,68,M,ASY,144,193,S,Normal,141,N,3.4,Flat,S
914,57,M,ASY,130,131,N,Normal,115,Y,1.2,Flat,S
915,57,F,ATA,130,236,N,LVH,174,N,0.0,Flat,S
916,38,M,NAP,138,175,N,Normal,173,N,0.0,Up,N


In [6]:
df.shape  # Verificando a forma do data frame.

(917, 12)

In [7]:
# COMENTÁRIOS SOBRE O CÓDIGO 

# O método head(...) permite a visualização das 5 primeiras linhas do data frame passado no primeiro argumento. Se for
# passado um segundo argumento, pode-se especificar o número de linhas a ser exibido nesse método.
# O método tail(...) permite a visualização das 5 linhas finais do data frame passado no primeiro argumento. Se for
# passado um segundo argumento, pode-se especificar o número de linhas a ser exibido nesse método.
# O atributo .shape retornar o número de linhas e colunas que o data frame contém.

## Salvando O Data Frame Original

Devido as modificações que serão feitas no *data frame* foi copiado o conteúdo da variável *df* em *df1*.   

In [8]:
df1 = pd.DataFrame.copy(df) # copiando o conteúdo de df ao df1.

In [9]:
# COMENTÁRIOS SOBRE O CÓDIGO 

# O método .pyco(...) permite copiar o conteúdo do dataframe passado como argumento e atribuir a uma nova variável.
# modificações do dataframe não irão surtir efeito no novo data frame criado. 

## Pré-processamento dos Dados



### 1) "Enconding das Variáveis"

Foi solicidato duas maneiras de se fazer a transformação das variáveis categóricas nominais em variáveis categóricas ordinais. 

O primeiro código fez a tranformação manualmente, já o segundo, fez a alteração automaticamente, utilizando o pacote *Label Enconder*, presente na biblioteca *sklearn*. 

In [10]:
df1['sexo'].replace({'M':0, 'F': 1}, inplace=True)  # Modificando o valor das variáveis
df1['tipo_dor_peito'].replace({'TA':0, 'ATA': 1, 'NAP':2, 'ASY': 3}, inplace=True) # Modificando o valor das variáveis
df1['ecg'].replace({'Normal':0, 'ST': 1, 'LVH':2}, inplace=True) # Modificando o valor das variáveis
df1.angina_pós_exercicio.replace({'N':0, 'Y': 1}, inplace=True) # Modificando o valor das variáveis
df1['inclinacao_st'].replace({'Up':0, 'Flat': 1, 'Down':2}, inplace=True) # Modificando o valor das variáveis
df1.acucar_no_sangue.replace({'N':0, 'S': 1}, inplace=True) # Modificando o valor das variáveis
df1.doenca_cardiaca.replace({'N':0, 'S': 1}, inplace=True) # Modificando o valor das variáveis

df1.head() # Exibindo o a modificação. 

Unnamed: 0,idade,sexo,tipo_dor_peito,pressao,colesterol,acucar_no_sangue,ecg,max_freq_cardiaca,angina_pós_exercicio,depressao_st,inclinacao_st,doenca_cardiaca
0,40,0,1,140,289,0,0,172,0,0.0,0,0
1,49,1,2,160,180,0,0,156,0,1.0,1,1
2,37,0,1,130,283,0,1,98,0,0.0,0,0
3,48,1,3,138,214,0,0,108,1,1.5,1,1
4,54,0,2,150,195,0,0,122,0,0.0,0,0


A tabela acima mostra a transformação das variáveis nominais em ordinais feita manualmente, o data frame *df1* armazena o conteúdo de *df* após o "encoding". 

In [11]:
df2 = df.iloc[:, 0:13].values  # pegando todos os valores do df e transformando em um array. 
df2[:,1] = LabelEncoder().fit_transform(df2[:,1]) # fazendo o encoding da var 1 do array.
df2[:,2] = LabelEncoder().fit_transform(df2[:,2]) # fazendo o encoding da var 2 do array.
df2[:,5] = LabelEncoder().fit_transform(df2[:,5]) # fazendo o encoding da var 5 do array.
df2[:,6] = LabelEncoder().fit_transform(df2[:,6]) # fazendo o encoding da var 6 do array.
df2[:,8] = LabelEncoder().fit_transform(df2[:,8]) # fazendo o encoding do var 8 do array.
df2[:,10] = LabelEncoder().fit_transform(df2[:,10]) # fazendo o encoding do var 10 do array.
df2[:,11] = LabelEncoder().fit_transform(df2[:,11]) # fazendo o encoding do var 11 do array.


df2 = pd.DataFrame(df2) # transformando o array em data frame.
df2.columns = ['idade', 'sexo', 'tipo_dor_peito', 'pressao', 'colesterol', 'acucar_no_sangue', 
  'ecg', 'max_freq_cardiaca', 'angina_pós_exercicio', 'depressao_st', 'inclinacao_st', 'doenca_cardiaca']  # modificando
# o nome das variáveis com o atributo .columns 
df2.head()

Unnamed: 0,idade,sexo,tipo_dor_peito,pressao,colesterol,acucar_no_sangue,ecg,max_freq_cardiaca,angina_pós_exercicio,depressao_st,inclinacao_st,doenca_cardiaca
0,40,1,1,140,289,0,1,172,0,0.0,2,0
1,49,0,2,160,180,0,1,156,0,1.0,1,1
2,37,1,1,130,283,0,2,98,0,0.0,2,0
3,48,0,0,138,214,0,1,108,1,1.5,1,1
4,54,1,2,150,195,0,1,122,0,0.0,2,0


A tabela acima mostra a transformação das variáveis nominais em ordinais feita automaticamente com o uso do método **fit_transform(...)**, o data frame *df2* armazena o conteúdo de *df* após o "encoding". 

In [12]:
# COMENTÁRIOS SOBRE O CÓDIGO 

# O método .replace(...) permite substituir um determinado valor de uma variável passada como argumento
# por outro valor específicado. 
# O método pd.DataFrame(...) permite transformar uma variável em um data frame.
# O atributo .columns permite modificar o nome das variáveis do data frame, bastando passar um vetor, 
# com a mesma dimensão do número de colunas do data frame, onde os elementos desse vetor sejam os nomes 
# desejados a fazer a modificação. 

### 2) OneHotEncoder: Criação de Variáveis Dummy

Foram criadas as variáveis *dummy* (fictícias) com o objetivo de remover qualquer peso associado ao números que as variáveis categóricas ordinais carregam. Essa etapa só é permitida após a transformação *encoding* das variáveis.  



In [13]:
df3 = ColumnTransformer(transformers=[('OneHot', OneHotEncoder(), [1,2,6,8,10])],
                                remainder='passthrough').fit_transform(df2)  # Criando variáveis fictícias retornando um array a variável df4.
df3.shape # avaliando o formado do array

(917, 21)

Com o processo *OneHotEncoder*. foi identificado, pelo formato do array acima, que nove variáveis a mais foram criadas. 

A tabela do *data frame* abaixo mostram as variáveis, não sendo mais possível identificar aos olhos o significado delas.

In [14]:
df3 = pd.DataFrame(df3)  # Tranformando o array em um data frame.
df3.head()  # Eibindo as 5 primeiras linhas 

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,11,12,13,14,15,16,17,18,19,20
0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,1.0,...,0.0,0.0,1.0,40,140,289,0,172,0.0,0
1,1.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,1.0,...,0.0,1.0,0.0,49,160,180,0,156,1.0,1
2,0.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,1.0,...,0.0,0.0,1.0,37,130,283,0,98,0.0,0
3,1.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,...,0.0,1.0,0.0,48,138,214,0,108,1.5,1
4,0.0,1.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,1.0,...,0.0,0.0,1.0,54,150,195,0,122,0.0,0


Brevemente, abrindo um parenteses no projeto, pode-se entender a remoção do peso das variáveis pela explicação das tabelas que seguem:

Tipo Dor Peito          | Significado                                 
---------               | ------                                
 0                      | ASY 
 1                      | ATA
 2                      | NAP
 3                      | TA                       

Para que não exista peso na tabela acima, pode-se criar outras quatro variáveis para representar o significado do valor da variável *tipo_dor_peito*, o qual os valores 0, 1, 2 e 3 irão corresponder a valores binários. 

Tipo Dor Peito |   A | B | C | D
---------      | --  |-- | --| --
  ASY          |   1 | 0 | 0 | 0  
  ATA          |   0 | 1 | 0 | 0 
  NAP          |   0 | 0 | 1 | 0
   TA          |   0 | 0 | 0 | 1     

In [15]:
# COMENTÁRIOS SOBRE O CÓDIGO 

# O método ColumnTransformer(...) permite transformar as variáveis presente no data frame em diferentes tipos, 
# exemplo, no formato OneHotEncoder. Essa variável carrega uma série de argumento, onde específicamos cada um deles.

# - name: nome dado a transformação.
# - transformer: tipo de estimador (OneHotEncoder).
# - columns: colunas que serão transformadas.
# - remainder: o que acontecerá com o restante das colunas não relacionadas: 
# 1) drop = exclui as outras colunas.
# 2) passthrough = mantém as outras colunas. drop é default.  
# - sparse_threshold: parâmetro de classificação de matrizes esparsas. default é 0.3
# - n_jobs: número de trabalhos a serem executados em paralelo. default é nenhum
# - transformer_weights: definição de pesos aos transformadores.
# - verbose: default é False. se for True a execução é apresentada na tela.

### 3) Previsor e Alvo

Foi informado, na introdução *notebook*, que a única **variável alvo** presente nesse projeto é a *doenca_cardiaca*, logo as outras são **previsoras**. O código abaixo mostra a separação dos dados previsores e alvo para os *data frames* *df1*, *df2* e *df3*. 



In [16]:
previsores_manual = df1.iloc[:, 0:11].values # criando um array contendo todos os valores das variáveis previsoras e atribuindo a variável criada.
previsores_manual = pd.DataFrame(previsores_manual) # transformando o array num df.
previsores_manual.head() # exibindo as cinco primeiras linhas do df.

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10
0,40.0,0.0,1.0,140.0,289.0,0.0,0.0,172.0,0.0,0.0,0.0
1,49.0,1.0,2.0,160.0,180.0,0.0,0.0,156.0,0.0,1.0,1.0
2,37.0,0.0,1.0,130.0,283.0,0.0,1.0,98.0,0.0,0.0,0.0
3,48.0,1.0,3.0,138.0,214.0,0.0,0.0,108.0,1.0,1.5,1.0
4,54.0,0.0,2.0,150.0,195.0,0.0,0.0,122.0,0.0,0.0,0.0


Acima vemos as cinco primeiras linhas contendo os valores das linhas correspondentes as variáveis **previsoras** obtidas pelo *data frame* em que o "*encoding*" foi feito manualmente.

In [17]:
previsores_label_encoder = df2.iloc[:, 0:11].values # criando um array contendo todos os valores das variáveis previsoras e atribuindo a variável criada.
previsores_label_encoder = pd.DataFrame(previsores_label_encoder) # transformando o array num df.
previsores_label_encoder.head() # exibindo as cinco primeiras linhas do df.

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10
0,40,1,1,140,289,0,1,172,0,0.0,2
1,49,0,2,160,180,0,1,156,0,1.0,1
2,37,1,1,130,283,0,2,98,0,0.0,2
3,48,0,0,138,214,0,1,108,1,1.5,1
4,54,1,2,150,195,0,1,122,0,0.0,2


Acima vemos o *data frame* contendo os valores das linhas correspondentes as variáveis **previsoras** obtidas pelo *data frame* em que o "*encoding*" foi feito por um método direto do pacote *Label Encoder*.

In [18]:
previsores_hot_encoder = df3.iloc[:, 0:11].values # criando um array contendo todos os valores das variáveis previsoras e atribuindo a variável criada.
previsores_hot_encoder = pd.DataFrame(previsores_hot_encoder) # transformando o array num df.
previsores_hot_encoder.head() # exibindo as cinco primeiras linhas do df.

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10
0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0
1,1.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,1.0,0.0
2,0.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0
3,1.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0
4,0.0,1.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,1.0,0.0


Acima vemos o array contendo os valores das linhas correspondentes as variáveis **previsoras** obtidas pelo *data frame* em que foi feita a transformação das variáveis "*OneHotEncoder*".

In [19]:
alvo = df1.iloc[:, 11].values # criando um array contendo todos os valores alvo e atribuindo a variável criada.
unique, counts = np.unique(alvo, return_counts=True) # contabilizando a frequencia de valores únicos do array.
print(np.array((unique, counts)).T) # exibindo a frequência de valores únicos do array.

[[  0 410]
 [  1 507]]


Acima vemos o array contabilizado os valores únicos do array alvo, o qual contém os valores das linhas correspondentes a variável **alvo**. 

A variável **alvo** corresponde a última coluna de qualquer um dos três *data frames*: *df1*, *df2* e *df3*.

In [20]:
# COMENTÁRIOS SOBRE O CÓDIGO 

# .iloc[] permite localizar os valores do dataframe, logo atribuindo o método .values pode-se tranformar esses valores em um array.
#  o método np.unique() retorna a frequência de valores únicos presentes em um array.
# no.array() tranforma o argumento passado em um array e o atributo .T faz a operação transposta do array. 

### 4) Escalonamento das Variáveis

Muitas vezes, quando as variáveis possuem ordens de grandeza muito diferente entre os seus valores, elas podem consequentemente gerar modelos menos eficientes de *Machine Learnig*. Por essa razão, a fim de evitar esse problema, foi escalonado as variáveis dos *data frames* *df1*, *df2* e *df3* gerando respectivamente os novos *data frames* *previsores_manual*, *previsores_label_encoder* e *previsores_hot_encoder*. 

Exitem duas formas de se fazer o escalonamento das variáveis:  **padronização** (utiliza a média e o desvio padrão como referência para o escalonamento), **normalização** (utiliza os valores máximo e mínimos como referência para o escalonamento). Nesse projeto apenas foi feito o escalonaento por **padronização**, pois foi o único solicitado na introdução.  

In [21]:
previsores_manual_esc = StandardScaler().fit_transform(previsores_manual) # escalonando o data frame feito o "encoding" manualmente.
previsores_label_encoder_esc = StandardScaler().fit_transform(previsores_label_encoder) # escalonando o data frame feito o "encoding" pelo "Label Encoder".
previsores_hot_encoder_esc = StandardScaler().fit_transform(previsores_hot_encoder) # escalonando o data frame feito o "OneHotEncoder".

# transformando os arrays em data frames.
previsores_manual_esc = pd.DataFrame(previsores_manual_esc)
previsores_label_encoder_esc = pd.DataFrame(previsores_label_encoder_esc)
previsores_hot_encoder = pd.DataFrame(previsores_hot_encoder)

Foi evidenciado, pelo método **describe(...)**, que a diferença das ordens de grandendeza das variáveis previsoras não é maior que um devio padrão. Na tabela abaixo, foi evidenciado isso para *previsores_manual_esc* 

In [22]:
previsores_manual_esc.describe()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10
count,917.0,917.0,917.0,917.0,917.0,917.0,917.0,917.0,917.0,917.0,917.0
mean,1.859654e-16,7.748558e-18,1.046055e-16,7.767929e-16,1.510969e-16,4.649135e-17,0.0,-5.114048e-16,-1.046055e-16,7.748558000000001e-17,-3.8742790000000005e-17
std,1.000546,1.000546,1.000546,1.000546,1.000546,1.000546,1.000546,1.000546,1.000546,1.000546,1.000546
min,-2.704405,-0.5163086,-2.418822,-2.920572,-2.882574,-0.5517333,-0.749818,-3.016886,-0.8243101,-3.269662,-1.051095
25%,-0.6900904,-0.5163086,-0.2705801,-0.6971063,-0.4927927,-0.5517333,-0.749818,-0.6596226,-0.8243101,-0.8315022,-1.051095
50%,0.05202558,-0.5163086,0.803541,-0.1412398,-0.3260638,-0.5517333,-0.749818,0.04755658,-0.8243101,-0.26885,0.5965186
75%,0.688125,-0.5163086,0.803541,0.4146267,0.4890553,-0.5517333,0.491306,0.7547357,1.213136,0.5751284,0.5965186
max,2.490407,1.936826,0.803541,3.749826,6.713601,1.81247,1.73243,2.561971,1.213136,4.982571,2.244132


Observe que a diferença para a mesma variável não escalonada é muito maior entre os seus valores.

In [23]:
previsores_manual.describe()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10
count,917.0,917.0,917.0,917.0,917.0,917.0,917.0,917.0,917.0,917.0,917.0
mean,53.509269,0.210469,2.251908,132.540894,240.600872,0.23337,0.604144,136.789531,0.40458,0.886696,0.63795
std,9.437636,0.407864,0.931502,17.999749,54.009298,0.423206,0.806161,25.467129,0.491078,1.06696,0.60727
min,28.0,0.0,0.0,80.0,85.0,0.0,0.0,60.0,0.0,-2.6,0.0
25%,47.0,0.0,2.0,120.0,214.0,0.0,0.0,120.0,0.0,0.0,0.0
50%,54.0,0.0,3.0,130.0,223.0,0.0,0.0,138.0,0.0,0.6,1.0
75%,60.0,0.0,3.0,140.0,267.0,0.0,1.0,156.0,1.0,1.5,1.0
max,77.0,1.0,3.0,200.0,603.0,1.0,2.0,202.0,1.0,6.2,2.0


### 5) Redução de dimensionalidade

Arquivos de dados, que contém um grande número de variáveis, exigem cada vez mais processamento computacional, muitas vezes, trabalhar com toda a quantidade é inviável. Além disso, esse grande volume pode prejudicar a elaboração dos modelos de *Machine Learning*. A maior correlação entre as variáveis permite selecionar as melhores componentes para se fazer os modelos, reduzindo então a dimensionalidade do *data frame*.

Foi solicidado a avaliação das quatro variáveis que melhor explicam os modelos utilizando **PCA**, **kernel PCA** e **LDA**. 



#### a) Análise dos Componentes Principais (PCA)

O **PCA** é um algoritimo de *machine learning* de aprendizagem não supervisionada aplicado a dados linearmente separáveis que tem a função de reduzir a dimensionalidade do *data frame* pela determinação dos componentes principais. Esse algorítimo faz a seleção das variáveis de duas formas: *seleção de características* ou *extração de características*. A *seleção de características* seleciona os melhores atributos e não faz transformações, já a *extração de características* encontra o relacionamento dos melhores variáveis e cria novos atributos.

O código que segue gerou um array que contém a seleção das quatro componente principais pela *extração de características* utilizando o **PCA**.


In [24]:
pca = PCA(n_components=4, svd_solver = "auto")  # configurando o método PCA para fazer a redução das variáveis.
previsores_manual_pca = pca.fit_transform(previsores_manual) # aplicando a seleção das variáveis pelo PCA ao data frame e obtendo um array de saída.
previsores_manual_pca.shape  # evidenciando o formato do array de saída.

(917, 4)

O array abaixo mostrou a taxa percentual que cada uma das quatro variáveis selecionadas conseguem explicar a quantidade total dos dados previsores. 

In [25]:
pca.explained_variance_ratio_ # Razão das variáveis explicativas

array([0.73341947, 0.16890795, 0.07948616, 0.01736938])

A saída do array abaixo mostrou a taxa percentual que quantidade total das variáveis selecionadas conseguem explicar o conjuto total dos dados previsores.

In [26]:
pca.explained_variance_ratio_.sum() # Soma das variáveis explicativas

0.9991829622130772

In [27]:
# COMENTÁRIOS SOBRE O CÓDIGO 

# O método PCA permite fazer as configurações desejáveis para fazer a redução das variáveis quando for aplicado a trans-
# formação. O primeiro argumento, 'n_components', específica o número de variáveis que se deseja selecionar. O segundo
# argumento 'svd_solver' informa qual será a forma que será feita a separação das variáveis. 
# O atributo explained_variance_ratio_ retorna um array o qual informa o percentual que cada uma das variáveis seleciona-
# das consegue explicar o conjunto das variáveis previsoras. 

#### b) Kernel PCA

O **Kernel PCA** também é um algoritimo de *machine learning* de aprendizagem não supervisionada aplicado a dados linearmente separáveis que tem a função de reduzir a dimensionalidade do *data frame* pela determinação dos componentes principais. 

O array abaixo mostrou a seleção das quatro melhores variáveis que explicam as variáveis previsoras.

In [28]:
kpca = KernelPCA(n_components=4, kernel='rbf') # configurando o método KermelPCA para fazer a redução das variáveis.
previsores_kernel = kpca.fit_transform(previsores_manual) # aplicando a seleção das variáveis pelo KernelPCA ao data frame e obtendo um array de saída.
previsores_kernel.shape  # evidenciando o formato do array de saída.

(917, 4)

In [29]:
previsores_kernel # exibindo as componentes principais do array.

array([[-0.0038041 , -0.00334581, -0.00206391, -0.00193661],
       [-0.00380545, -0.00334707, -0.00206478, -0.00193751],
       [-0.00380422, -0.00334592, -0.00206399, -0.00193669],
       ...,
       [-0.00380412, -0.00334583, -0.00206393, -0.00193662],
       [-0.00380422, -0.00334592, -0.00206399, -0.00193669],
       [-0.0038041 , -0.00334581, -0.00206391, -0.00193661]])

In [30]:
# COMENTÁRIOS SOBRE O CÓDIGO 

# O método KernelPCA permite fazer as configurações desejáveis para fazer a redução das variáveis quando for aplicado a trans-
# formação. O primeiro argumento, 'n_components', específica o número de variáveis que se deseja selecionar. O segundo
# argumento 'kernel' informa qual será a forma que será feita a separação das variáveis. 

#### c) Análise do Discriminante Linear (LDA: Linear Discriminant Analysis)

O **LDA** é um algoritmo de redução de dimensionalidade de variáveis, que ao contrário dos vistos acima, utiliza aprendizagem supervisionada, esse algoritmo é aplicado em situações onde há muitos atributos previsores e alvos.

Como a variável alvo só possue dois valores, foi observado uma incompatibilidade em fazer a redução de dimensionalidade com esse método, já que '*n_components*' só aceita valores em que é igual ao número de classes menos 1. Logo, foi obtido uma única variável selecionada, cujo array abaixo demonstra os valores.

In [31]:
lda = LinearDiscriminantAnalysis(n_components = 1)
previsores_lda = lda.fit_transform(previsores_manual, alvo)

In [32]:
lda.explained_variance_ratio_

array([1.])

In [33]:
# COMENTÁRIOS SOBRE O CÓDIGO 

# O método LinearDiscriminantAnalysis permite fazer as configurações desejáveis para fazer a redução das variáveis quando for aplicado a trans-
# formação. O argumento 'n_components' específica o número de variáveis que se deseja selecionar.
# Quando passamos o método fit_transform ao lda, deve-se passar como argumento tanto variáveis previsoras como as alvas.

### 6) Salvando as variáveis (atributos)

Foi salvo todas as variáveis, alvo e previsoras, em arquivos de dados, para eventuais trabalhos que desenvolvedores de software venham a realizar.   

In [34]:
arq1 = open('heart.pkl', 'wb') # Criando o arquivo.
pickle.dump(alvo, arq1)  # Salvando a variável alvo no arquivo.
arq2 = open('heart2.pkl', 'wb') # Criando o arquivo.
pickle.dump(previsores_manual, arq2) # Salvando a variável previsores manual no arquivo de dados.
arq3 = open('heart3.pkl', 'wb') # Criando o arquivo.
pickle.dump(previsores_manual_esc, arq3) # Salvando a variável previsores manual escalonado no arquivo de dados.
arq4 = open('heart4.pkl', 'wb') # Criando o arquivo.
pickle.dump(previsores_label_encoder, arq4) # Salvando a variável previsores label encoder no arquivo de dados.
arq5 = open('heart5.pkl', 'wb') # Criando o arquivo.
pickle.dump(previsores_hot_encoder, arq5) # Salvando a variável previsores hot encoder no arquivo de dados.
arq6 = open('heart6.pkl', 'wb') # Criando o arquivo.
pickle.dump(previsores_hot_encoder_esc, arq6) # Salvando a variável previsores hot encoder esc no arquivo de dados.

Foi testado se a variável alvo foi salva 

In [35]:
arq1 = open('heart.pkl', 'rb')
alvo = pickle.load(arq1)
alvo

array([0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 1, 0, 0,
       0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0,
       1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 1, 0, 0,
       0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 0,
       1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0, 0, 0,
       0, 1, 0, 0, 0, 1, 1, 1, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1,
       1, 1, 0, 1, 0, 0, 1, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0,
       0, 1, 1, 0, 1, 0, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1,
       1, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0,
       1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 1, 0, 1, 0, 0, 0,
       1, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 1,
       1, 0, 1, 0, 1, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1,
       1, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1,

Foi testado se a variável previsores manual foi salva corretamente. 

In [36]:
arq2 = open('heart2.pkl', 'rb')
previsores = pickle.load(arq2)
previsores

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10
0,40.0,0.0,1.0,140.0,289.0,0.0,0.0,172.0,0.0,0.0,0.0
1,49.0,1.0,2.0,160.0,180.0,0.0,0.0,156.0,0.0,1.0,1.0
2,37.0,0.0,1.0,130.0,283.0,0.0,1.0,98.0,0.0,0.0,0.0
3,48.0,1.0,3.0,138.0,214.0,0.0,0.0,108.0,1.0,1.5,1.0
4,54.0,0.0,2.0,150.0,195.0,0.0,0.0,122.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...
912,45.0,0.0,0.0,110.0,264.0,0.0,0.0,132.0,0.0,1.2,1.0
913,68.0,0.0,3.0,144.0,193.0,1.0,0.0,141.0,0.0,3.4,1.0
914,57.0,0.0,3.0,130.0,131.0,0.0,0.0,115.0,1.0,1.2,1.0
915,57.0,1.0,1.0,130.0,236.0,0.0,2.0,174.0,0.0,0.0,1.0


### 7) Base de Treino e Teste

Foi separado 70% do conjunto de dados, de todas variáveis previsoras e de alvo, como sendo de treino, os quais serão utilizados nos algoritmos de *machine learning* para criação dos modelos. O restante foi separado como de teste, esses serão utilizados para fazer as previsões reais dos modelos criados, permitindo medir o desempenho real. Também foi selecionando os dados de maneira aleatória, a fim de evitar padrões no momento da divisão dos dados.

In [37]:
# CRIANDO AS VARIÁVEIS DE TREINO E TESTE
x_treino_manual, x_teste_manual, y_treino_manual, y_teste_manual = train_test_split(previsores_manual, alvo, test_size = 0.3, random_state = 0)
x_treino_manual_esc, x_teste_manual_esc, y_treino_manual_esc, y_teste_manual_esc = train_test_split(previsores_manual_esc, alvo, test_size = 0.3, random_state = 0)
x_treino_label_encoder, x_teste_label_encoder, y_treino_label_encoder, y_teste_label_encoder = train_test_split(previsores_label_encoder, alvo, test_size = 0.3, random_state = 0)
x_treino_label_encoder_esc, x_teste_label_encoder_esc, y_treino_label_encoder_esc, y_teste_label_encoder_esc = train_test_split(previsores_label_encoder_esc, alvo, test_size = 0.3, random_state = 0)
x_treino_hot_encoder, x_teste_hot_encoder, y_treino_hot_encoder, y_teste_hot_encoder = train_test_split(previsores_hot_encoder, alvo, test_size = 0.3, random_state = 0)
x_treino_hot_encoder_esc, x_teste_hot_encoder_esc, y_treino_hot_encoder_esc, y_teste_hot_encoder_esc = train_test_split(previsores_hot_encoder_esc, alvo, test_size = 0.3, random_state = 0)

In [38]:
# COMENTÁRIOS SOBRE O CÓDIGO 

# O método train_test_split retorna o conjunto de dados de treinamento e teste para as variáveis previsoras e alva.
# Os argumentos mais importantes que essa função recebe são:    
# os arrays previsores e alvo.   
# o argumento test_size, o qual específica o tamanho em porcentagem dos dados de teste.    
# o argumento train_size, o qual específica o tamanho em porcentagem dos dados de treinamento.  
# random_state: nomeação de um estado aleatório, especificar o valor significa dizer que se está sempre utilizando
# a mesma separação de dados aleatórios quando se executa o programa.
# shuffle: embaralhamento dos dados aleatórios. Associado com o random_state ocorre o mesmo embaralhamento sempre. Default é True.  
# stratify: Possibilidade de dividir os dados de forma estratificada. Default é None (nesse caso é mantido a proporção, isto é, se tem 30% de zeros e 70% de 1 no dataframe, na separação em treinamento e teste se manterá essa proporção).

## Aplicação dos Algoritmos de *Machine Learning*

Nessa seção foi explorado o melhor algoritmos de *Machine Learning*, para o *data set* apresentado na introdução do projeto, com o objetivo de contruir o melhor modelo. Os respectivos algoritmos, **Naive Bayes**, **SVM**, **Regressão Logística**, **KNN**, **Árvore de Decisão**, **Random Foerest**, **XGBOOST**, **LIGHTGBM** e **CATBOOST**, foram aplicados para todas as variáveis de treino e de teste, feitas na etapa do pré-processamento.  

### 1) Naive Bayes

**Resumo:** o algoritmo de Naive Bayes é utilizado apenas para a classificação e é baseado na aplicação do teorema de *Bayes*. Esse algoritmo possue uma premissa: as variáveis do conjunto de dados devem ser independentes. O algoritmo torna-se eficiente quando se têm conjuntos de dados categóricas, já que trabalha muito bem com as variáveis categóricas. Esse algoritmo tem a vantagem de ser rápido, pois exige pouco esforço computacional, logo apresenta bons resultados para os trabalhos com *Big Data*. A desvantagem desse método é que não é possível atribuir um valor nulo de probabilidade, logo quando uma classe contida no conjunto de teste não se apresenta no conjunto de treino ocorrerá um erro. 

Obs: para mais detalhes desse algoritmo clique [aqui](https://scikit-learn.org/stable/modules/naive_bayes.html).




#### a) previsor_manual

Para o treinamento do modelo foi utilizado o algoritmo de naive bayes considerando a probabilidade condicional Guassiana, cujos dados provisores foram o *encoding* manual e os dados do alvo.

In [39]:
naive_manual = GaussianNB().fit(x_treino_manual, y_treino_manual)  # treinando o algoritmo pelo Naive Bayes.

Foi possível obter as previsões do algoritmo com os dados de teste dos previsores feito o *encoding* manual, o código abaixo exibe isso.

In [40]:
previsoes_naive_manual = naive_manual.predict(x_teste_manual)  # previsões feita pelo modelo do Naive Bayes.

Foi medida a acurácia do modelo pelos valores de *previsoes_naive_manual* e pelos dados de teste de alvo, o resultado percentual foi de aproximadamente 84,78%.

In [41]:
accuracy_score(y_teste_manual, previsoes_naive_manual)

0.8478260869565217

A matriz de confusão abaixo mostrou que existem 23 valores falsos negativos e 19 falsos positivos, ou seja, 42 valores errados de um total de 276 valores. 

In [42]:
confusion_matrix(y_teste_manual, previsoes_naive_manual)

array([[102,  19],
       [ 23, 132]])

Com o método *classification_report(...)* foi observado que não houve *overfitting*, já que que a acurácia e a precisão deram valores próximos, sendo respectivamente 82% e 84%.

In [43]:
print(classification_report(y_teste_manual, previsoes_naive_manual))

              precision    recall  f1-score   support

           0       0.82      0.84      0.83       121
           1       0.87      0.85      0.86       155

    accuracy                           0.85       276
   macro avg       0.85      0.85      0.85       276
weighted avg       0.85      0.85      0.85       276



In [44]:
# COMENTÁRIOS SOBRE O CÓDIGO 

# O método GaussianNB() treinamento faz o treinamento do modelo utilizado o algoritmo de naive bayes 
# considerando a probabilidade condicional Guassiana.
# O método que faznecessariamente o treinamento é o fit(...)
# O método .predict(...) permite fazer as previsões do modelo, ou seja, retorna um array contendo as respostas. 
# O método accuracy_score(...) avalia a acurácia entre as respostas dadas pelo modelo com as respostas de teste.
# O método confusion_matrix(...) gera a matriz de confusão com os valores de teste e os valores da resposta do modelo.
# O método classification_report(...) passa as informações da precisão, acurácia e do f1-score. Portanto, permite
# avaliar se existe ou não overfitting.

#### b) Validação Cruzada previsor_manual

