<center>
    <img src="../imagens/logo_APL.png" width="300" alt="APL logo"  />
</center>

# Uma Introdução à Biblioteca `Scikit-Learn` 

**Bem vindo!** Neste notebook será abordada a biblioteca `Scikit-Learn`, desenvolvida especificamente para aplicação prática de algoritmos de *machine learning*. Ao final, espera-se que você seja capaz de usar as ferramentas simples e eficientes para análise preditiva de dados.

<h2>Conteúdo:</h2>
<div class="alert alert-block alert-info" style="margin-top: 20px">
<ul>
    <li> Introdução </li>
    <li> Exemplo Completo de Machine Learning:  
        <ul>
            <li> Carregamento do Dataset </li> 
            <li> Separar as Colunas do Dataframe: Regressores vs Variável Alvo </li>     
            <li> Problema de *Overfitting* </li>
            <li> Dividir o Dataset: Treinamento e Validação </li>   
            <li> Algoritmo de Machine Learning </li>  
            <li> Avaliação de Desempenho </li>  
        </ul>
    </li> 
    <li> Discussão e Próximos Passos </li>
</ul>
</div>

<hr>

## Introdução

Esta introdução tem por objetivo fornecer de forma simples e objetiva uma apresentação às principais ferramentas fornecidas pela biblioteca `Scikit_learn`.  Ao final desse módulo espera-se que você seja capaz de aplicar as principais ferramentas dessa biblioteca em um problema de *Machine Learning*.

Vamos começar importando as principais bibliotecas a serem utilizadas:

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import pandas as pd
import numpy as np

## Exemplo Completo de Machine Learning

Será apresentado um exemplo completo de *machine learning* desde o carregamento do dataset, treinamento do modelo, predição e avaliação.

### Carregamento do Dataset

Vamos carregar nosso dataset.
O exemplo é baseado em um conjunto de dados que está publicamente disponível no [UCI Machine Learning Repository](http://mlearn.ics.uci.edu/MLRepository.html). Esse conjunto de dados consiste em centenas de registros de amostras de células humanas, contendo diversas características. Os campos em cada registro são:

| Nome        | Descrição                             |
| ----------- | ---------------------------           |
| ID          | Identificação                         |
| Clump       | espessura do aglomerado               |
| UnifSize    | Uniformidade do tamanho da célula     |
| UnifShape   | Uniformidade do formato da célula     |
| MargAdh     | Adesão marginal                       |
| SingEpiSize | Tamanho de célula epitelial única     |
| BareNuc     | Núcleos puros                         |
| BlandChrom  | Cromatina branda                      |
| NormNucl    | Nucléolos normais                     |
| Mit         | Mitoses                               |
| Class       | Benigno ou Maligno                    |


Para fins de simplificação, estamos usando um conjunto de dados que possui um número relativamente pequeno de preditores ou regressores ou *features* (no presente contexto, esses termos são equivalentes) em cada registro.


In [None]:
cell_df = pd.read_csv("https://raw.githubusercontent.com/APL-Data-Intelligence/AcelerAI/main/Curso_NEED/datasets/cellsample_dataset/cell_samples.csv")
cell_df.shape

Nosso dataset possui, portanto, 699 amostras e 11 características.

In [None]:
cell_df.head()

### Separar as Colunas do Dataframe: Regressores vs Variável Alvo

Os regressores ou features (atributos) são as variáveis explicativas do nosso dataset. Enquanto a variável alvo reflete a característica que desejamos classificar: em nosso dataset, se o câncer é benigno ou malígno.

Para essa finalidade, vamos criar um novo dataframe a partir do dataframe orignal, utilizando-se as features desejadas.

In [None]:
feature_df = cell_df[['Clump', 'UnifSize', 'UnifShape', 'MargAdh', 'SingEpiSize', 'BlandChrom', 'NormNucl', 'Mit']]
X = np.asarray(feature_df)
X[0:5]

Agora vamos criar o nosso dataframe que corresponde a variável alvo, ou seja, a variável que queremos fazer a predição.

In [None]:
cell_df['Class'] = cell_df['Class'].astype('int')
y = np.asarray(cell_df['Class'])
y [0:5]

## Problema de *Overfitting*

Suponha que você possui uma base de dados a ser utilizada para o treinamento de um classificador e, na sequência, avaliar o seu desempenho. 

Ao realizar o treinamento, você pode pensar em usar o mesmo conjunto de dados para avaliá-lo. Entretanto, o resultado obtido poderá não refletir a capacidade de generalização do seu modelo. De fato, o seu modelo será enviesado, correndo o risco de se ter um sobreajuste de aderência aos dados. 

Esse problema, conhecido como *overfitting*, é bastante comum em *Machine Learning*. 

A figura abaixo apresenta uma comparação entre dois classificadores. 

<center>
    <img src="../imagens/Overfitting.png" width="300"" alt="Overfitting" />
</center>

Observe que o classificador representado na cor preta é capaz de propor uma separação adequada, mas comete alguns errros. Po outro lado, o classificador indicado pela cor verde não comete nenhum erro de classificação. Mas, pode-se observar o sobreajuste aos dados. 

Provavelmente, o classificador representado cor preta possui um poder de generalização maior.

## Dividir o Dataset: Treinamento e Validação/Teste

Uma solução bastante conhecida para minimizar esse problema é separar a base de dados em dois subconjuntos, que são mutuamente exclusivos:  um para treinamento e outro para validação/teste. 

<center>
    <img src="../imagens/treino_teste.png" width=500"" alt="Divisão da Base de Dados" />
</center>

Isso fornecerá uma avaliação mais satisfatória porque o conjunto de dados de teste não faz parte do conjunto de dados que foi usado para treinamento. Essa abordagem é adequada para problemas do mundo real, uma vez que o objetivo de qualquer modelo é fazer previsões corretas sobre dados desconhecidos.

Para se verficar a eficácia e o poder de generalização do modelo deve-se, portanto, usar a métrica obtida a partir dos dados de validação/teste. Uma dessas métricas é o percentual de previsões corretas que o modelo faz sobre os dados de validação, conhecida como *acurácia de validação*, do inglês *Out-of-Sample Accuracy*.

Vamos, portanto, dividir nosso dataset em duas partes: 1) dados de treinamento; e 2) dados de validação. Para tanto, vamos utilizar o método `train_test_split`.

In [None]:
from sklearn.model_selection import train_test_split

O método `train_test_split` possui os seguintes parâmetros de entrada: `X`, `y`, `test_size` e `random_state`. 
- `X` e `y` reprentam os regressores e a variável alvo, respectivamente;
- `test_size` indica a proporlçao de dados presentes no conjunto de validaçãoç  e 
- `random_state`  garante que obtenhamos as mesmas divisões entre os dados mesmo em diferentes execuções desse algoritmo.

Como saída, `train_test_split` retornará 4 variáveis, que chamamos de: `X_train`, `X_test`, `y_train` e `y_test`.

In [None]:
X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.2, random_state=4)

Vamos mostrar a dimensão desses conjuntos:

In [None]:
print ('Conjunto de treino:', X_train.shape,  y_train.shape)
print ('Conjunto de teste:', X_test.shape,  y_test.shape)

Podemos observar que nosso **conjunto de treinamento** possui 559 amostras (ou 80%), enquanto o **conjunto de avaliação** 140 amostras (ou 20%), totalizando as 699 amostras originais. 

## Algoritmo de Machine Learning

Nessa etapa escolhemos o algoritmo de machine learning que desejamos utilizar. Nesse nosso exemplo vamos escolher o algoritmo **Árvore de Decisão** (em inglês, *Decision Tree*). Iremos discutir esse algorimo em detalhes no próximo Módulo.

#### **Passo 1:** Importando a componente do classificador. 
- No nosso exemplo vamos usar **Árvore de Decisão**, na biblioteca `sklearn.DecisionTreeClassifier()`:

In [None]:
from sklearn.tree import DecisionTreeClassifier

#### **Passo 2**: Instanciando o Estimador. 
- "Estimador (em inglês, *Estimator*)" é o termo do `scikit-learn` para modelo;
- "Instanciar" significa "criar uma instância de";
- Nesse exemplo utilizamos uma Árvores de Decisão.

In [None]:
DTC = DecisionTreeClassifier()

- O nome do objeto fica a escolha do programador (nesse exemplo, usamos **DTC**);
- Podemos especificar parâmetros de ajuste (também conhecidos como "hiperparâmetros") durante esta etapa;
- Todos os parâmetros não especificados são definidos para seus *dafault* (valores padrâo). Como esse nosso exemplo.

#### **Passo 3**: Ajustar os parâmetros do modelo a partir dos dados

- Etapa de treinamento do modelo;
- Modelo está tentando aprender a relação de mapeamento entre a entrada X e a saída y.

In [None]:
model = DTC.fit(X_train, y_train)

#### **Passo 4:** Fazer a predição a partir de um novo comjunto de amostras:

- Novas amostras (dados que não foram usados no treinamento) são chamados *"out-of-sample" data*;
- O algoritmo vai usar as relações que foram aprendidas durante o processo de treinamento do modelo;
- Vamos usar o conjunto de **teste** na predição

In [None]:
# Fazer previsões
y_pred = DTC.predict(X_test)

## Avaliação de Desempenho

Vamos mostrar os valores de nosso dataset de validação e comparar com algumas predições feitas pelo nosso modelo:

In [None]:
print("Valores reais:     ", y_test, "\n ")
print("Valores previstos: ", y_pred)

Comparando esses valores  podemos observar que nosso modelo acertou muitas de suas previsões. Para quantificar esa análise, vamos utilizar a métrica: **acurácia**, ou seja, qual o percentual de classes foram corretamente classificadas.

In [None]:
acuracia=100*accuracy_score(y_test, y_pred)
print("Acurácia: ",  ('%.2f' % acuracia), "%.")

Podemos observar, portanto, que o nosso modelo obteve uma acurácia superior a 90%.

# Discussão e Próximos Passos

Neste material percorremos um exemplo completo de *Machine Learning* desde o carregamento do dataset, passamos pelo treinamento do modelo, pela etapa de predição e finalizamos com a avaliação do mesmo. 

Entretanto, destacamos que os objetivos desse material são: i)  apresentar a biblioteca `Scikit-Learn`; e ii) discutir os principais passos para execução de um processo de *Machine Learning*, sem entrar em detalhes do algoritmo em si. 

Entretanto, destacamos que no próximo Módulo de nosso curso iremos fazer uma imersão teórico-prática em alguns dos principais algortimos de *Machine Learning* usados para classificação.

<hr>

## Direitos Autorais

[APL Data Intelligence](https://linktr.ee/APLdataintelligence)&#8482;  2021. Este notebook Python e seu código fonte estão liberados sob os termos da [Licença do MIT](https://bigdatauniversity.com/mit-license/).