### <font color='#005b96'>Data Science Aplicada à Área de Saúde</font><br>
><font color='#438496'>***DS 1c*** **| Doenças Cardíacas :** Machine Learning (*ML*) & Métricas de Avaliação - 2</font>
<br>
><font color='#438496'>professor *Rodrigo Signorini*</font>

### <font color='#005b96'>Table of Contents</font>

- [Motivação](#Motivação)
- [Problema](#Problema)
- [Base de Dados](#Base_de_Dados)
- [Configurando o Ambiente](#Configurando_o_Ambiente)
- [Importando os Dados](#Importando_os_Dados)
- [Obtendo Informações Iniciais](#Obtendo_Informações_Iniciais)
- [Machine Learning (*ML*)](#Machine_Learning_(*ML*))
    - [*k-NN (k-nearest neighbors)*](#*k-NN_(k-nearest_neighbors)*)
    - [Implementando o *k-NN* manualmente](#Implementando_o_*k-NN*_manualmente)
        - [Distância Euclidiana](#Distância_Euclidiana)
        - [Distância Manhattan](#Distância_Manhattan)
    - [Implementando o *k-NN* via *scikit-learn*](#Implementando_o_*k-NN*_via_*scikit-learn*)
    - [Métricas de Avaliação](#Métricas_de_Avaliação)
        - [Matriz de Confusão](#Matriz_de_Confusão)
        - [Accuracy](#Accuracy)
        - [Recall](#Recall)
        - [Precision](#Precision)
- [Job](#Job)

---
### <a id = "Motivação"><font color='#005b96'>Motivação</font></a>

- **Cenário Global**

Segundo a *World Health Organization*, as doenças cardiovasculares (DCVs) são a principal causa de morte no mundo todo, com cerca de 17,9 milhões por ano. Mais de quatro em cada cinco mortes por DCVs têm como causas principais ataques cardíacos e derrames, e um terço dessas mortes ocorre prematuramente em pessoas com menos de 70 anos de idade.

> - cerca de 17,9 milhões de pessoas morrem de doenças cardiovasculares por ano
>
> - Mortes por DVCs representam cerca de 32% de todas as causas de mortes

- **Cenário Estados Unidos**

Em 2018, o *Center for Disease Control and Prevention (CDC)* classificou as doenças cardíacas como a principal causa de mortalidade nos Estados Unidos e continua a classificá-la como tanto até os dias de hoje. Devido à complexidade e às variações do número crescente de fatores de risco, o uso de técnicas avançadas como *Machine Learning* vem sendo empregadas para auxiliar no combate contra doenças cardíacas e derrames. Segundo o site da *American Heart Association*, de fevereiro de 2018 até o momento, já houve uma redução de 15,1% nas mortes por doenças cardíacas nos Estados Unidos.

> - cerca de 1 ataque cardíaco a cada 40 segundos
>
> - cerca de 805.000 americanos têm 1 ataque cardíaco por ano
>
> - cerca de 47% de todos os americanos têm pelo menos 1 dos 3 principais fatores de risco para doenças cardíacas: pressão alta, colesterol alto e diabetes

Identificar aqueles com maior risco de DCVs e garantir que eles recebam tratamento adequado pode prevenir mortes prematuras. O acesso a medicamentos para doenças não transmissíveis e tecnologias básicas de saúde em todas as unidades básicas de saúde é essencial para garantir que os necessitados recebam tratamento e aconselhamento.

---
### <a id = "Problema"><font color='#005b96'>Problema</font></a>

Desenvolver um modelo preditivo que seja capaz de predizer a presença de doenças cardíacas.

---
### <a id = "Base_de_Dados"><font color='#005b96'>Base de Dados</font></a>

O conjunto de dados é composto por 303 amostras - onde cada amostra representa um paciente distinto -, com 14 características - onde 13 delas são consideradas relevantes como preditores de doenças cardíacas -, e 1 é a própria indicação da presença ou não da doença.

Origem:

1. University of California Irvine (UCI) Machine Learning Repository

Creators:

1. Hungarian Institute of Cardiology. Budapest: Andras Janosi, M.D.
2. University Hospital, Zurich, Switzerland: William Steinbrunn, M.D.
3. University Hospital, Basel, Switzerland: Matthias Pfisterer, M.D.
4. V.A. Medical Center, Long Beach and Cleveland Clinic Foundation: Robert Detrano, M.D., Ph.D.

<sub><font color='black'>*Para fins meramente didáticos, esse conjunto de dados recebeu algumas edições, as quais não inferem prejuízo algum quanto à íntegra das informações contidas no mesmo.*</font></sub>

|Feature|Description|
|-------|-----------|
|Age|Age of patient (in years)|
|Sex|Sex of patient|
|CP type|Chest Pain type|
|SBP (at rest)|Resting Blood Pressure (in mm Hg)|
|Cholesterol (total)|Cholestoral (in mg/dl)|
|FBS Test|Fasting Blood Sugar (if > 120 mg/dl)|
|ECG (at rest)|Resting Electrocardiographic results|
|HRmax|Maximum Heart Rate achieved during the patient's Stress Testing|
|Angina (exercise-induced)|Exercise Induced Angina|
|ST Depression (exercise-induced)|ST depression induced by exercise relative to rest|
|ST Slope (at peak exercise)|Slope of the Peak Exercise ST segment|
|N of Major Vessels (flourosopy)|Number of major vessels (0-3) colored by flourosopy|
|Thallium ST|Thallium Stress Test|
|Diagnosis (multiclass)|Absence or presence of heart desease|

---
### <a id = "Configurando_o_Ambiente"><font color='#005b96'>Configurando o Ambiente</font></a>

In [None]:
# importing numpy
import numpy as np

# importing pandas
import pandas as pd

# Sets the maximum number of rows and columns displayed ('None' value means unlimited)
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

# importing matplotlib
import matplotlib.pyplot as plt

# %matplotlib inline

# Matplotlib's runtime configuration (rc) to customize default settings
plt.rcParams["figure.figsize"] = [6, 3]

---
### <a id = "Importando_os_Dados"><font color='#005b96'>Importando os Dados</font></a>

In [None]:
# importing data (from a csv file into DataFrame)
X_train = pd.read_csv('Classification_Diagnosis_of_Heart_Disease_ML_X_trainset02.csv')
X_test = pd.read_csv('Classification_Diagnosis_of_Heart_Disease_ML_X_testset02.csv')
y_train = pd.read_csv('Classification_Diagnosis_of_Heart_Disease_ML_y_trainset.csv')
y_test = pd.read_csv('Classification_Diagnosis_of_Heart_Disease_ML_y_testset.csv')

---
### <a id = "Obtendo_Informações_Iniciais"><font color='#005b96'>Obtendo Informações Iniciais</font></a>

In [None]:
# viewing first 'n' rows
X_train.head(n=5)

In [None]:
# viewing first 'n' rows
y_train.head(n=5)

In [None]:
# viewing first 'n' rows
X_test.head(n=5)

In [None]:
# viewing first 'n' rows
y_test.head(n=5)

In [None]:
# viewing dimensions
X_train.shape

In [None]:
# viewing dimensions
y_train.shape

In [None]:
# viewing dimensions
X_test.shape

In [None]:
# viewing dimensions
y_test.shape

In [None]:
'''
Make a box plot from DataFrame columns.
'''
X_train.plot.box(rot=90, grid=False, figsize=(15, 5))

In [None]:
'''
Make a box plot from DataFrame columns.
'''
X_test.plot.box(rot=90, grid=False, figsize=(15, 5))

---
### <a id = "Machine_Learning_(*ML*)"><font color='#005b96'>Machine Learning (*ML*)</font></a>

<b>O que é um Modelo?</b>

Um modelo estatístico é uma representação matemática ou probabilística de um evento. É tipicamente uma simplificação dos fatos reais, que expressa por meio de termos matemáticos ou probabilísticos as principais relações entre as variáveis relevantes ao objeto de estudo, tornado então possível um maior grau de compreensão sobre essas relações e, consequentemente, a possibilidade de inferências preditivas.

É uma ferramenta extremamente valiosa para qualquer área, pois habilita a tomada de decisões baseada em dados.

***Machine Learning (ML)*** - Aprendizado de Máquina - é um subcampo da Inteligência Artificial onde são utlizados algoritmos cujo propósito é possibilitar que máquinas possam aprender a atingir um objetivo da forma mais acurada possível a partir da identificação de relacionamentos entre os dados, ao invés de serem programadas de forma explícita para tanto.

É importante ressaltar que ***ML*** é baseado na premissa de que há relacionamentos entre os dados e que esses relacionamentos possam se repitir de maneira recorrente e, de preferência, consistente. Sendo assim, devemos entender e nos referir a esses relacionamentos como **padrões**.

>***Machine Learning (ML)*** - Aprendizado de Máquina - é um sistema computacional que busca realizar uma tarefa **T**, aprendendo a partir de uma experiência **E**, procurando melhorar uma performance **P**.

<div class="alert alert-block alert-warning">
<b>IMPORTANTE:</b>
    
Um <b>modelo de <i>Machine Learning</i></b> é o resultado do processamento dos dados que são disponibilizados para um algoritmo de <i>Machine Learning os processar</i>.
</div>

É uma das tecnologias atuais mais fascinantes e seu poder é realmente significativo, pois é capaz de se adaptar conforme vai sendo exposta a novos dados - o que a torna um sistema dinâmico e menos dependente da intervenção humana - e sua demanda aumenta exponencialmente à medida que novos dados vão sendo gerados e armazenados e a capacidade de processamento computacional siga aumentando.

Enfim, devemos assimilar definitivamente o conceito de que com um determinado volume de **dados com qualidade**, isso é, que sejam realmente representativos tanto horizontalmente (linhas/amostras) quanto verticalmente (colunas/variáveis), a máquina possa ser capaz de aprender quais padrões possam melhor explicar um determinado objetivo – **tarefa T** , assim como também devemos assimilar definitivamente o conceito de que a máquina possa performar cada vez melhor em seu aprendizado conforme vamos lhe apresentando cada vez mais **dados com qualidade**, pois com a agregação de mais cenários e mais amostras de padrões ela tenderá a **generalizar** com mais eficiência para situações ainda não experenciadas. De fato, quanto mais dados – **experiência E** –, melhores serão os resultados – **performance P**.

No universo do ***ML***, as variáveis contidas em um conjunto de dados podem ser divididas em dois subtipos: ***Target*** e ***Features***.

>- ***Target*** é a variável que representa o nosso objetivo, o nosso problema de negócio. Em um problema que envolva uma abordagem preditiva, é a variável a ser predita.
>>*Sinônimos: variável dependente (dependent variable), variável a ser predita (variable to be predicted), variável explicada (explained variable), variável de saída (output variable).*
>
>- ***Features*** são variáveis potencialmente relacionadas à variável *target*, as quais teriam certa capacidade para explicar o fato. Essa referida relação pode ser forte, fraca ou mesmo inexistente, dependendo das circunstâncias.
>>*Sinônimos: variáveis independentes (independent variables), variáveis preditoras (predictor variables), variáveis explicativas (explanatory variables), variáveis de entrada (input variables).*

Essa divisão dos subtipos de variáveis descrita acima é o caso de nosso problema de negócio aqui proposto, isso é, predizer em um paciente a ocorrência ou não de doença cardíaca (*target*) através de algumas características mapeadas (*features*). Sendo assim, estamos diante de uma abordagem de **Aprendizagem Supervisionada** *(Supervised Learning)*.

>**Aprendizagem Supervisionada** *(Supervised Learning)*: Predizer uma variável dependente (*target*) a partir de variáveis independentes (*features*).

No âmbito da Aprendizagem Supervisionada, estamos diante de problemas de **regressão** e **classificação**.

>- Em um problema de **regressão**, nosso objetivo é predizer os resultados tendo como saída (*target*) valores contínuos, ou seja, estamos tentando mapear variáveis de entrada (*features*) para alguma função que melhor <b>aproxime</b> os valores a serem preditos.
>
>- Em um problema de **classificação**, nosso objetivo é predizer os resultados tendo como saída (*target*) valores categóricos, ou seja, estamos tentando mapear variáveis de entrada (*features*) para alguma função que melhor <b>separe</b> as categorias a serem preditas.

Por meio da **AED** realizada, observamos que as variáveis preditoras apresentam características variadas em termos de relacionamento com a *target*. características essas como **linearidade**, **monotocidade** e **não linearidade**. Ainda, observamos diferentes tipos de distribuição de valores entre essas variáveis. Diante desse fato, iniciaremos nosso processo de geração de um modelo abordando o algoritmo ***kNN*** *(k-nearest neighbors)* - k-vizinhos mais próximos - o qual pode capturar relacionamentos complexos sem assumir formas funcionais específicas.

#### <a id = "*k-NN_(k-nearest_neighbors)*"><font color='#005b96'>*k-NN (k-nearest neighbors)*</font></a>

***k-NN*** é um dos algoritmos mais simples de se entender e de se implementar quando estamos tratando de aprendizagem supervisionada, tanto para problemas de regressão quanto para problemas de classificação.

O *k-NN* é um algoritmo do tipo *lazy learning*, o que significa que na fase de treinamento ele simplesmente armazena os dados na memória (treinamento rápido) e, ao receber uma nova amostra de daodos, analisa a similaridade entre essa nova amostra e os dados armazenados na memória para então realizar uma predição, isso é, não há um modelo a ser criado até o instante em que uma predição é necessária (predição lenta). O *k-NN* também não faz quaisquer suposições teóricas típicas sobre os dados quanto à distribuição dde seus valores ou se são linearmente relacionados ou não, o que faz dele um algoritmo não paramétrico.

Isso não significa que utilizar o *k-NN* seja um procedimento isento de pontos crítcos quanto ao pré-processamento dos dados, pois a qualidade das predições depende principalmente da forma como a magnitude das *features* são tratadas - se escalonadas ou não (*scaling*) -, de qual medida de distância será adotada - se distância *Euclidiana*, *Manhattan*, etc - e de qual o valor a ser utilizado como *k*.

**Medidas de Distância**

As medidas de distância, de uma maneira geral, podem ser definidas como medidas de dissimilaridade (ou similaridade) entre as instâncias de dados e realizam o agrupamento de acordo com a sua coesão. As duas medidas de distância mais comuns são a ***Distância Euclidiana*** e a ***Distância Manhattan***.

> A *Distância Euclidiana* é calculada como a raiz quadrada da soma das diferenças quadráticas entre os pontos de dados.
>
> A *Distância Manhattan* é calculada como a soma das diferenças absolutas entre os pontos de dados.

![image.png](attachment:image.png)

**Considerações sobre o valor de** ***k***

É por esse valor que se define a quantidade de vizinhos (com base um uma métrica de distância) que determinará o resultado da predição. Não há uma regra específica para que se possa determinar o melhor valor de ***k***, mas em um problema de classificação binária, o valor de ***k*** é geralmente um número ímpar para garantir que a nova amostra seja classificada de acordo uma classe que seja majortária dentro do grupo de vizinhos, evitando assim empate no processo de votação.

A ideia básica por trás do *k-NN* compreende, para cada nova amostra:

> Encontrar ***k*** amostras que tenham características similares, e
>>**se *classificação***, identificar a classe majoritária no grupo de vizinhos e atribuir tal classe à nova amostra.
>>
>>**se *regressão***, computar a média dos valores no grupo de vizinhos e atribuir tal média à nova amostra.

#### <a id = "Implementando_o_*k-NN*_manualmente"><font color='#005b96'>Implementando o *k-NN* manualmente</font></a>

In [None]:
# importing data (from a csv file into DataFrame)
X_train_demo = pd.read_csv('Classification_Diagnosis_of_Heart_Disease_ML_X_trainset01.csv', usecols=['Age', 'Cholesterol'])
X_test_demo = pd.read_csv('Classification_Diagnosis_of_Heart_Disease_ML_X_testset01.csv', usecols=['Age', 'Cholesterol'])

In [None]:
X_train_demo.head(10)

In [None]:
# criando um novo DataFrame com as 'n' primeiras linhas do subset de treino utilizando as features 'Age' e 'Cholesterol'
X_knn_demo = X_train_demo[0:10]
y_knn_demo = y_train[0:10]
knn_demo = pd.concat([X_knn_demo, y_knn_demo], axis=1)
knn_demo

In [None]:
'''
Make a box plot from DataFrame columns.
'''
knn_demo[['Age', 'Cholesterol']].plot.box(rot=90, grid=False, figsize=(15, 5))

In [None]:
graph = knn_demo.plot.scatter(x='Age', y='Cholesterol', s=50, c='Desease',
                              figsize=(15, 5), rot=90, colormap='Set1_r', colorbar=False)

In [None]:
# criando uma amostra a ser predita
data2pred = pd.DataFrame(data={'Age': [56], 'Cholesterol': [250], 'Desease' : '?'})
data2pred.head()

In [None]:
graph = knn_demo.plot.scatter(x='Age', y='Cholesterol', s=50, c='Desease',
                              figsize=(15, 5),
                              rot=90,
                              colormap='Set1_r',
                              colorbar=False)

data2pred.plot.scatter(x='Age', y='Cholesterol', s=150, c='black', ax=graph)

In [None]:
data2pred_Age = data2pred['Age'][0]
data2pred_Cho = data2pred['Cholesterol'][0]

print(data2pred_Age)
print(data2pred_Cho)

#### <a id = "Distância_Euclidiana"><font color='#005b96'>Distância Euclidiana</font></a>

In [None]:
# utilizando a medida de distância Euclidiana
knn_demo['Eucledian'] = np.sqrt(((knn_demo['Age']-data2pred_Age)**2) +
                                ((knn_demo['Cholesterol']-data2pred_Cho)**2))
knn_demo

In [None]:
k = 1
knn_results = knn_demo.sort_values(by=['Eucledian']).head(k)
print(knn_results['Desease'].value_counts())
knn_results

In [None]:
k = 2
knn_results = knn_demo.sort_values(by=['Eucledian']).head(k)
print(knn_results['Desease'].value_counts())
knn_results

#### Utilizando as *features* reescalonadas

In [None]:
knn_demo = pd.concat([knn_demo, X_train[['Age_sca', 'Cholesterol_sca']][0:10]], axis=1)
knn_demo

In [None]:
'''
Standardize features by removing the mean and scaling to unit variance.
'''
from sklearn.preprocessing import MinMaxScaler

In [None]:
train2transform = X_train_demo.values
pred2transform = data2pred[['Age', 'Cholesterol']].values

transformer = MinMaxScaler(clip=True)

train_sca = transformer.fit(train2transform)
pred_sca = transformer.transform(pred2transform)
data2pred[['Age_sca', 'Cholesterol_sca']] = pred_sca

data2pred

In [None]:
'''
Make a box plot from DataFrame columns.
'''
knn_demo[['Age_sca', 'Cholesterol_sca']].plot.box(rot=90, grid=False, figsize=(15, 5))

In [None]:
graph = knn_demo.plot.scatter(x='Age_sca', y='Cholesterol_sca', s=50, c='Desease',
                              figsize=(15, 5),
                              rot=90,
                              colormap='Set1_r',
                              colorbar=False)

In [None]:
graph = knn_demo.plot.scatter(x='Age_sca', y='Cholesterol_sca', s=50, c='Desease',
                              figsize=(15, 5),
                              rot=90,
                              colormap='Set1_r',
                              colorbar=False)

data2pred.plot.scatter(x='Age_sca', y='Cholesterol_sca', s=150, c='black',
                       ax=graph)

In [None]:
data2pred_Age_sca = data2pred['Age_sca'][0]
data2pred_Cho_sca = data2pred['Cholesterol_sca'][0]

print(data2pred_Age_sca)
print(data2pred_Cho_sca)

In [None]:
knn_demo['Eucledian_sca'] = np.sqrt(((knn_demo['Age_sca']-data2pred_Age_sca)**2) +
                                    ((knn_demo['Cholesterol_sca']-data2pred_Cho_sca)**2))
knn_demo

In [None]:
k = 1
knn_results = knn_demo.sort_values(by=['Eucledian_sca']).head(k)
print(knn_results['Desease'].value_counts())
knn_results

In [None]:
k = 2
knn_results = knn_demo.sort_values(by=['Eucledian_sca']).head(k)
print(knn_results['Desease'].value_counts())
knn_results

In [None]:
k = 3
knn_results = knn_demo.sort_values(by=['Eucledian_sca']).head(k)
print(knn_results['Desease'].value_counts())
knn_results

In [None]:
k = 4
knn_results = knn_demo.sort_values(by=['Eucledian_sca']).head(k)
print(knn_results['Desease'].value_counts())
knn_results

In [None]:
k = 5
knn_results = knn_demo.sort_values(by=['Eucledian_sca']).head(k)
print(knn_results['Desease'].value_counts())
knn_results

#### <a id = "Distância_Manhattan"><font color='#005b96'>Distância Manhattan</font></a>

In [None]:
# utilizando a medida de distância Manhattan
knn_demo['Manhattan'] = np.absolute(knn_demo['Age']-data2pred_Age) + np.absolute(knn_demo['Cholesterol']-data2pred_Cho)
knn_demo

In [None]:
k = 1
knn_results = knn_demo.sort_values(by=['Manhattan']).head(k)
print(knn_results['Desease'].value_counts())
knn_results

In [None]:
k = 2
knn_results = knn_demo.sort_values(by=['Manhattan']).head(k)
print(knn_results['Desease'].value_counts())
knn_results

#### Utilizando as *features* reescalonadas

In [None]:
knn_demo['Manhattan_sca'] = np.absolute(knn_demo['Age_sca']-data2pred_Age_sca) + np.absolute(knn_demo['Cholesterol_sca']-data2pred_Cho_sca)
knn_demo

In [None]:
k = 1
knn_results = knn_demo.sort_values(by=['Manhattan_sca']).head(k)
print(knn_results['Desease'].value_counts())
knn_results

In [None]:
k = 2
knn_results = knn_demo.sort_values(by=['Manhattan_sca']).head(k)
print(knn_results['Desease'].value_counts())
knn_results

In [None]:
k = 3
knn_results = knn_demo.sort_values(by=['Manhattan_sca']).head(k)
print(knn_results['Desease'].value_counts())
knn_results

In [None]:
k = 4
knn_results = knn_demo.sort_values(by=['Manhattan_sca']).head(k)
print(knn_results['Desease'].value_counts())
knn_results

In [None]:
k = 5
knn_results = knn_demo.sort_values(by=['Manhattan_sca']).head(k)
print(knn_results['Desease'].value_counts())
knn_results

In [None]:
knn_demo.sort_values(by=['Eucledian'])

In [None]:
knn_demo.sort_values(by=['Manhattan'])

In [None]:
knn_demo.sort_values(by=['Eucledian_sca'])

In [None]:
knn_demo.sort_values(by=['Manhattan_sca'])

#### <a id = "Implementando_o_*k-NN*_via_*scikit-learn*"><font color='#005b96'>Implementando o *k-NN* via *scikit-learn*</font></a>

In [None]:
'''
Classifier implementing the k-nearest neighbors vote.
'''
from sklearn.neighbors import KNeighborsClassifier
model = KNeighborsClassifier(n_neighbors=3, metric='euclidean')

https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html

<b>Utilização do Método fit</b>

O método <i>fit</i> da biblioteca <i>scikit-learn</i> é utilizado para treinar um modelo de <i>machine learning</i>, onde o formato básico de sua estrutura é:

```
model.fit(X, y)

<div class="alert alert-block alert-warning">
<b>IMPORTANTE:</b>
    
<b><i>model</i></b> é um objeto que representa o algoritmo que você está utilizando (por exemplo, o <i>k-NN</i>), <b><i>X</i></b> são as variáveis preditoras e <b><i>y</i></b> é a variável resposta.
</div>

No contexto do <i>scikit-learn</i>, a variável y deve ser um <i>array</i> unidimensional (ou um <i>series</i>). Se <i>y</i> for um <i>DataFrame</i> com uma única coluna, ele ainda será considerado um objeto bidimensional, o que pode causar problemas ao tentar usá-lo no <i>fit</i>.

In [None]:
type(y_train)

Para resolver o problema do formato incompatível ao utilizar o método <i>fit</i>, podemos utilizar os métodos <b>.values</b> em conjunto com <b>.ravel()</b> ou <b>.squeeze()</b> para transformar <i>y</i> de uma estrutura bidimensional (um <i>DataFrame</i>) para uma estrutura unidimensional apropriada (um <i>array</i> ou um <i>Series</i>).

<b>y.values.ravel()?</b>

> <b><i>y.values</i></b>: Esse método extrai os dados do <i>DataFrame y</i> como um <i>array</i> NumPy. Se <i>y</i> é um <i>DataFrame</i> com uma única coluna, <i>y.values</i> ainda será um <i>array 2D</i>, ou seja, com a forma (n, 1), onde n é o número de linhas.

> <b><i>.ravel()</i></b>: Esse é um método NumPy e "achata" o <i>array 2D</i>, convertendo-o em um <i>array</i> unidimensional (forma (n,)). Assim, a saída de <i>y.values.ravel()</i> será um <i>array</i> unidimensional que contém os mesmos elementos que a coluna original de <i>y</i>.

In [None]:
type(y_train.values)#.ravel()

In [None]:
y_train.values.shape#.ravel()

In [None]:
type(y_train.values.ravel())

In [None]:
y_train.values.ravel().shape

In [None]:
'''
Fit the k-nearest neighbors classifier from the training dataset.
'''
model.fit(X=X_train.values, y=y_train.values.ravel())

<b>y.squeeze()?</b>

> <b><i>.squeeze()</i></b>: Esse método remove dimensões unitárias de um <i>array</i> ou <i>DataFrame</i>. Se <i>y</i> for um <i>DataFrame</i> com uma única coluna, <i>y.squeeze()</i> retornará um <i>Series</i>, que é uma estrutura unidimensional no Pandas.

In [None]:
type(y_train.squeeze())

In [None]:
y_train.squeeze().shape

In [None]:
'''
Fit the k-nearest neighbors classifier from the training dataset.
'''
model.fit(X=X_train.values, y=y_train.squeeze())

In [None]:
'''
Predict the class labels for the provided data.
'''
y_pred = model.predict(X=X_test.values)
y_pred

In [None]:
'''
Return probability estimates for the test data X.
'''
model.predict_proba(X=X_test.values)

---
### <a id = "Métricas_de_Avaliação"><font color='#005b96'>Métricas de Avaliação</font></a>

#### <a id = "Matriz_de_Confusão"><font color='#005b96'>Matriz de Confusão</font></a>

A **Matriz de Confusão** é muito utilizada para avaliações de modelos de classificação em *Machine Learning* e, sem dúvida, é o primeiro conjunto de métricas que temos que observar. É composta por quatro delas: ***True Positive (TP)***, ***False Negative (FN)***, ***False Positive (FP)*** e ***True Negative (TN)***.

***True Positive (TP)***: indica a quantidade de eventos que foram classificados como positivos corretamente, ou seja, a resposta do classificador foi que o evento era positivo e o evento realmente era positivo.

***True negative (TN)***: indica a quantidade de eventos que foram classificados como negativos de maneira correta, ou seja, a resposta do classificador foi que o evento era negativo e o evento realmente era negativo.

***False positive (FP)***: indica a quantidade de eventos que foram classificados como positivos de maneira incorreta, ou seja, a resposta do classificador foi que o evento era positivo, mas o evento era negativo.

***False negative (FN)***: indica a quantidade de eventos que foram classificados como negativos de maneira incorreta, ou seja, a resposta do classificador foi que o evento era negativo, mas o evento era positivo.

In [None]:
'''
Compute confusion matrix to evaluate the accuracy of a classification.
'''
from sklearn.metrics import confusion_matrix

https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html

**IMPORTANTE**

De acordo com as definições do *scikit-learn*, devemos nos atentar ao fato de que:

>- o 1º quadrante da matriz (1ª coluna da 1ª linha - *C0,0*) contabiliza os ***True Negatives (TN)***
>- o 2º quadrante da matriz (2ª coluna da 1ª linha - *C0,1*) contabiliza os ***False Positives (FP)***
>- o 3º quadrante da matriz (1ª coluna da 2ª linha - *C1,0*) contabiliza os ***False Negatives (FN)***
>- o 4º quadrante da matriz (2ª coluna da 2ª linha - *C1,1*) contabiliza os ***True Positives (TP)***

Sendo assim, utilizando a função *confusion_matrix()* teremos a seguinte disposição:

In [None]:
confusion_matrix(y_true=y_test, y_pred=y_pred)

Para imprimirmos a matriz de confusão de forma inversa - a qual a maneira mais comumente utilizada -, utilizamos o parâmetro ***labels*** e passamos a configuração via a lista ***[1, 0]*** para informar que queremos imprimir primeiramente os casos verdadeiros (1) ao invés dos caso falsos (0).

In [None]:
confusion_matrix(y_true=y_test, y_pred=y_pred, labels=[1, 0])

|                  | _predicted true_ | _predicted false_ |        |
|:----------------:|:----------------:|:-----------------:|--------|
|                  |      **TP**      |       **FN**      |        |
| **_real true_**  |        27        |          8        | **35** |
|                  |      **FP**      |       **TN**      |        |
| **_real false_** |         7        |         33        | **40** |
|                  |      **34**      |       **41**      |        |

Através da **Matriz de Confusão** e das quatro métricas ***TP***, ***FN***, ***FP*** e ***TN*** pode-se calcular diversos indicadores de avaliação como, por exemplo, ***Accuracy***, ***Recall*** e ***Precision***.

#### <a id = "Accuracy"><font color='#005b96'>Accuracy</font></a>

*Accuracy* é a relação entre as predições positivas e negativas realizadas corretamente (*True Positives* e *True Negatives*) e todas as predições (*True* e *False Positives* e *True* e *False Negatives*).

**(TP + TN) / (TP + FN + FP + TN)**

*Accuracy* nos informa o quanto o modelo acerta das predições possíveis, isto é, o quão frequente o classificador está correto. Quanto mais próximo a 1, melhor.

In [None]:
confusion_matrix(y_true=y_test, y_pred=y_pred, labels=[1, 0])

In [None]:
from sklearn.metrics import accuracy_score

In [None]:
'''
Accuracy classification score.
'''
accuracy_score(y_true=y_test, y_pred=y_pred)

In [None]:
'''
Accuracy = (TP + TN) / (TP + FN + FP + TN)
'''
(27+33)/(27+8+7+33)

***Considerações sobre Accuracy***

*Accuracy* pode facilmente comprometer uma correta avaliação de um modelo. Para que o resultado apresentado por *Accuracy* realmente possa ser corretamente interpretado, é necessário que a base de dados utilizada esteja com as classes razoavelmente balanceadas. Vejamos o porque.

Suponha que estamos querendo predizer se um paciente possui uma doença ou não e que nossa base de dados está composta por 95% de amostras em que a doença a ser classificada não ocorre e 5% de amostras em que a doença ocorre. Obviamente que o modelo tenderá a aprender muito bem sobre quando a doença não ocorre e, sendo assim, acertar quase todas as predições para a classe negativa e, por outro lado, aprender muito pouco sobre quando a doença ocorre e, sendo assim, errar quase todas predições para a classe positiva.

Simulando um resultado para 100 predições:

|                  | _predicted true_ | _predicted false_ |        |
|:----------------:|:----------------:|:-----------------:|--------|
|                  |      **TP**      |       **FN**      |        |
| **_real true_**  |        1         |         4         | **5**  |
|                  |      **FP**      |       **TN**      |        |
| **_real false_** |        2         |         93        | **95** |
|                  |      **3**       |       **97**      |        |

*Accuracy* = (1 + 93) / (1 + 2 + 4 + 93) = 94%

Pelo resultado, a avaliação está informando que o modelo pode predizer corretamente em 94% das vezes, mas, no entanto, esse resultado não é adequado pois não representa a performance do nosso propósito de prever pacientes doentes. O modelo está predizendo corretamente pacientes que não estão doentes em 97.89% das vezes (93 em 95) e predizendo corretamente pacientes que estão doentes em apenas 20% das vezes (1 em 5).

#### <a id = "Recall"><font color='#005b96'>Recall</font></a>

*Recall* é a relação entre as predições positivas realizadas corretamente (*True Positives*) e todos os eventos que realmente são positivos (*True Positives* e *False Negatives*).

**TP / (TP + FN)**

*Recall* é a capacidade do modelo de não classificar como negativo um evento positivo, assim como informar o quanto se está identificando corretamente os eventos positivos.

A principal utilização desse indicador é para modelos onde seja necessário minimizar os Falsos Negativos, especialmente em casos onde o ônus de se classificar incorretamente um paciente doente como sadio para uma dada doença grave é muito maior do que classificar um paciente sadio como doente. Quanto mais próximo a 1, melhor.

In [None]:
confusion_matrix(y_true=y_test, y_pred=y_pred, labels=[1, 0])

In [None]:
from sklearn.metrics import recall_score

In [None]:
'''
Compute the recall.
'''
recall_score(y_true=y_test, y_pred=y_pred)

In [None]:
'''
Recall = TP / (TP + FN)
'''
(27)/(27+8)

#### <a id = "Precision"><font color='#005b96'>Precision</font></a>

*Precision* é a relação entre as predições positivas realizadas corretamente (*True Positives*) e todas as predições positivas (*True Positives* e *False Positives*).

**TP / (TP + FP)**

*Precision* é a capacidade do modelo de não classificar como positivo um evento negativo.

A principal utilização desse indicador é para modelos onde seja necessário minimizar os Falsos Positivos. Quanto mais perto de 1, melhor.

In [None]:
confusion_matrix(y_true=y_test, y_pred=y_pred, labels=[1, 0])

In [None]:
from sklearn.metrics import precision_score

In [None]:
'''
Compute the precision.
'''
precision_score(y_true=y_test, y_pred=y_pred)

In [None]:
'''
Precision = TP / (TP + FP)
'''
(27)/(27+7)

---
### <a id = "Job"><font color='#005b96'>Job</font></a>

De acordo com o apresentado até o momento, evoluir na modelagem preditiva do problema proposto.

*Oportunidades*:

>- referente ao *dataset*,
>> - experimentar várias configurações de *features*, incluindo opções de discretizações.
>>> <i>( o modelo criado sem nenhum tratamento nos dados no que se ferere a presença ou não de ouliers )</i>
>
>- referente ao algoritmo ***k-NN***,
>> - experimentar diferentes valores para ***k***;
>> - experimentar diferentes métricas de distância (***Eucledian*** e ***Manhattan***).
>
>- referente à avaliação do modelo,
>> - analisar os resultados através das métricas de avaliação apresentadas e eleger a métrica que represente a melhor opção para o problema em questão.

<b><i>*** O prazo de entrega dessa atividade é de 14 dias a contar da data de hoje.</b></i>