***
# `Project:` Prevendo a <font color='blue'>morte</font> ou <font color='blue'>vida</font> de pacientes com hepatite

## `Date:` fevereiro, 2022

## `Data Scientist:` Walter Trevisan
***

<a name='notebook-header'></a>
## `Modelagem Preditiva` (*`Machine Learning`*)

Nesta fase, vamos iniciar a etapa de **modelagem preditiva**, treinando e analisando alguns algoritmos de classificação. Para fazermos o treinamento dos modelos utilizaremos os *datasets* de treino e para avaliarmos a performance dos modelos utilizaremos os *datasets* de teste que foram criados e preparados na etapa anterior (`Data Munging`).

### Conteúdo
1. [Setup Inicial](#initial-setup)

2. [Definir os **algoritmos de classificação**](#estimators-define)

3. [Definir e explicar as **métricas de classificação** que serão utilizadas](#metrics-define)

4. [Criar e salvar *objeto* onde serão armazenadas as métricas dos **melhores** modelos preditivos](#metrics-save)

___
<a name='initial-setup'></a>
## <font color='blue'>1- Setup Inicial:</font>

Primeiro, vamos carregar os **pacotes e funções** que serão utilizadas neste **notebook**.

In [1]:
# As novas versões do Pandas e Matplotlib trazem diversas mensagens de aviso ao desenvolvedor.
# Então, vamos desativar essas mensagens.
import sys # O pacote "sys" permite manipulações com o sistema operacional:
import os  # Operation System (Packages and Functions)
import warnings

# Importa função para verificarmos a versão da linguagem python:
from platform import python_version

# Importando os pacote Pandas:
import pandas as pd

# Definindo o diretório raiz (Root) onde serão armazenados todas as informações
# (Imagens, Gráficos, Objetos, Dados, Modelos de ML, etc...) do projeto.
# Diretório Raiz (Root) do Projeto:
ROOT_DIR = "."

# Path: onde ficarão armazenados os "Objetos" (Estrututras de Dados) relacionados ao Projeto:
OBJ_PATH = os.path.join(ROOT_DIR, "objects")
# Criando o diretório, se ele não existir:
os.makedirs(OBJ_PATH, exist_ok=True)

# Path: onde ficarão armazenados os "datasets" (arquivos "csv") e os "objetos" (Data Frames) do Projeto:
DATA_PATH = os.path.join(ROOT_DIR, "data")
# Criando o diretório, se ele não existir:
os.makedirs(DATA_PATH, exist_ok=True)

# Path: onde serão armazenadas as "Imagens" (Figuras e Gráficos) do Projeto:
GRAPHICS_PATH = os.path.join(ROOT_DIR, "images", "graphics")
# Criando o diretório, se ele não existir:
os.makedirs(GRAPHICS_PATH, exist_ok=True)

# Path: onde ficarão armazenados os "Modelos Preditivos" (Machine Learning) relacionados ao Projeto:
ML_PATH = os.path.join(ROOT_DIR, "models")
# Criando o diretório, se ele não existir:
os.makedirs(ML_PATH, exist_ok=True)

# Path: onde estão armazenadas as classes e funções que serão utilizadas neste notebook:
LIB_PATH = os.path.join(ROOT_DIR, "library")

# Adicionando o diretório "./library" ao 'path' do Sistema, para podermos importar classes e funções que serão
# utilizadas neste notebook:
sys.path.append(LIB_PATH)

# Importando para este notebook, as classes e funções definidas no módulo "data_science_library.py":
import data_science_library as dslib

print("Setup Complete!")

Setup Complete!


In [2]:
# Versões dos pacotes usados neste jupyter notebook:
print("Versões dos pacotes usados neste jupyter notebook:")
print("Python      : {}".format(python_version()))
print("Pandas      : {}".format(pd.__version__))

Versões dos pacotes usados neste jupyter notebook:
Python      : 3.8.12
Pandas      : 1.3.5


Para retornar ao ínicio deste **notebook** clique **[aqui](#notebook-header)**.

___
<a name='estimators-define'></a>
## <font color='blue'>2- Definir os algoritmos de classificação</font>

Nesta fase serão utilizados os seguintes algoritmos de classificação:
- **Logistic Regression**: modelos construídos no *notebook*: `5-Machine-Learning-LR.ipynb`;


- **Decision Tree Classifier**: modelos construídos no *notebook*: `5-Machine-Learning-DTC.ipynb`;


- **Support Vector Classification**: modelos construídos no *notebook*: `5-Machine-Learning-SVC.ipynb`;


- **K Neighbors Classifier**: modelos construídos no *notebook*: `5-Machine-Learning-KNN.ipynb`;


- **Naive Bayes**: modelos construídos no *notebook*: `5-Machine-Learning-NB.ipynb`;


- **XGBoost Classifier**: modelos construídos no *notebook*: `5-Machine-Learning-XGBC.ipynb`

Para retornar ao ínicio deste **notebook** clique **[aqui](#notebook-header)**.

___
<a name='metrics-define'></a>
## <font color='blue'>3- Definir e explicar as `métricas de classificação` que serão utilizadas</font>

### Métricas: `Accuracy`, `Precision`, `Recall`, `f1-score` e `ROC Curve (AUC)`

### `Accuracy`:

A **acurácia** do modelo mede a taxa de acertos das classes ***True Positive*** e ***True Negative***, sendo calculada pela fórmula abaixo:

**`Accuracy = (TP + TN)/(TP + TN + FP + FN)`**, onde:

1. **`TP`** é o número de ***verdadeiros positivos***;

2. **`TN`** é o número de ***verdadeiros negativos***;

3. **`FP`** é o número de ***falsos positivos***.

4. **`FN`** é o número de ***falsos negativos***.

Um classificador perfeito teria apenas *verdadeiros positivos* (**TP**) e *verdadeiros negativos* (**TN**), ou seja, sua **matriz de confusão** teria valores diferentes de zero somente na sua diagonal principal (superior esquerda para a inferior direita), ou seja, a sua acurácia (**`accuracy`**) seria de **100%**.

### `Precision`:

Uma outra métrica interessante a ser observada na ***matriz de confusão*** é a `acurácia das previsões positivas`; que é chamada de ***precisão (precision)*** do classificador e é calculada pela fórmula abaixo:

**`Precision = TP/(TP + FP)`**, onde:

1. **`TP`** é o número de ***verdadeiros positivos***;

2. **`FP`** é o número de ***falsos positivos***.

### `Recall`:

Entretanto, a precisão é utilizada em conjunto com outra métrica chamada ***revocação (recall)***, também conhecida como ***sensibilidade*** ou ***taxa de verdadeiros positivos (TPR)***: esta é a taxa de `instâncias positivas que são corretamente detectadas` pelo classificador, sendo calculada pela fórmula abaixo:

**`Recall = TP/(TP + FN)`**, onde:

1. **`TP`** é o número de ***verdadeiros positivos***;

2. **`FN`** é o número de ***falsos negativos***.

### `f1-score`:

Muitas vezes, é conveniente combinarmos **precisão** e **revocação** em uma única métrica chamada ***pontuação F1 (f1 score)***, principalmente se precisarmos comparar dois ou mais classificadores.

A ***pontuação F1*** é a ***média harmônica*** da **precisão** e **revocação**, sendo calculada pela fórmula abaixo:

**`F1 = TP/(TP + (FN + FP)/2)`**, onde:

1. **`TP`** é o número de ***verdadeiros positivos***;

2. **`FN`** é o número de ***falsos negativos***;

3. **`FP`** é o número de ***falsos positivos***.

Enquanto a média regular trata igualmente todos os valores, a média harmônica dá muito mais peso aos valores mais baixos, ou seja, o classificador só obterá uma ***pontuação F1*** alta, se a **revocação** e a **precisão** forem altas.

### `ROC Curve (AUC)`

A curva **ROC** (*características operacionais do receptor*) é outra ferramenta comum utilizada com classificadores binários. É muito semelhante à curva de **`precision/recall`**, mas, em vez de plotar a **precision versus recall**, a curva **ROC** plota a *taxa de verdadeiros positivos* (***TPR = True Positive Rate***), que é um outro nome dado para ***recall***, versus a *taxa de falsos positivos* (***FPR = False Positive Rate***). O ***FPR*** é a razão de instâncias negativas incorretamente classificadas como positivas. É igual a 1 menos *taxa de verdadeiros negativos* (***TNR = True Negative Rate***), que é a razão de instâncias negativas que são corretamente classificadas como negativas. A ***TNR*** também é chamada de ***especificidade***.

Portanto, a ***Curva ROC*** plota a ***`sensibilidade (recall)` versus `1 - especificidade`***.

Equações:

1. **`TPR = TP/(TP + FN)`** --> ***True Positive Rate***, ou também ***`recall`*** ou também ***`sensibilidade`***

2. **`FPR = FP/(FP + TN)`** --> ***False Positive Rate***

3. **`TNR = TN/(TN + FP)`** --> ***True Negative Rate***, ou também ***especificidade***

4. **`FPR = 1 - TNR`** ou também **`FPR = 1 - especificidade`**

Uma forma de compararmos dois ou mais classificadores é medirmos a **área abaixo da curva** (***`AUC = Area Under Curve`***). Um classificador perfeito terá um ***`ROC AUC = 1`***, enquanto que um classificador puramente aleatório terá um ***`ROC AUC = 0.5`***.

Para retornar ao ínicio deste **notebook** clique **[aqui](#notebook-header)**.

___
<a name='metrics-save'></a>
## <font color='blue'>4- Criar e salvar *objeto* onde serão armazenadas as métricas dos `melhores` modelos preditivos</font>

In [3]:
# Criando o dataframe para armazenar as métricas da melhor versão de cada algoritmo:
models_best_metrics = pd.DataFrame(columns=['Model', 'Data set', 'AUC', 'Accuracy', 'Precision', 'Recall', 'F1_score'])
models_best_metrics

Unnamed: 0,Model,Data set,AUC,Accuracy,Precision,Recall,F1_score


In [4]:
# Salvando as métricas dos melhores modelos preditivos:
dslib.pickle_object_save (
    path=ML_PATH, file="models_best_metrics.pkl", object_name=models_best_metrics, msg=None)

Para retornar ao ínicio deste **notebook** clique **[aqui](#notebook-header)**.

## <font color='black'>FIM</font>