<center>
    <img src="../imagens/logo_APL.png" width="300" alt="APL logo"  />
</center>

# Uma Introdução à Biblioteca `Scikit-Learn` 

**Bem vindo!** Neste notebook será abordada a biblioteca `Scikit-Learn`, desenvolvida especificamente para aplicação prática de algoritmos de *machine learning*. Ao final, espera-se que você seja capaz de você usar as ferramentas simples e eficientes para análise preditiva de dados.

<h2>Conteúdo:</h2>
<div class="alert alert-block alert-info" style="margin-top: 20px">
<ul>
    <li> Introdução </li>
    <li> Exemplo completo de Machine Learning:  
        <ul>
            <li> Carregamento do Dataset </li> 
            <li> Separar as Colunas do Dataframe: features vs target </li>     
            <li> Dividir o Dataset: Treinamento e Validação </li>   
            <li> Algoritmo de Machine Learning </li>  
            <li> Predições </li>  
            <li> Avaliação </li>  
        </ul>
    </li> 
    <li> Discussão e Próximos Passos </li>
</ul>
</div>

<hr>

## Introdução

Esta introdução tem por objetivo fornecer de forma simples e objetiva uma apresentação às principais ferramentas fornecidas pela biblioteca `Scikit_learn`.  Ao final desse módulo espera-se que você seja capaz de aplicar as principais ferramentas dessa biblioteca em um problema de *Machine Learning*.

Vamos começar importando as principais bibliotecas a serem utilizadas:

In [None]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
import pandas as pd
import numpy as np

## Exemplo completo de Machine Learning

Será apresentado um exemplo completo de *machine learning* desde o carregamento do dataset, treinamento do modelo, predição e avaliação.

In [None]:
### Carregamento do Dataset

Vamos carregar nosso dataset.
O exemplo é baseado em um conjunto de dados que está publicamente disponível no [UCI Machine Learning Repository](http://mlearn.ics.uci.edu/MLRepository.html).

Esse conjunto de dados consiste em centenas de registros de amostras de células humanas, contendo um conjunto de características. 

Os campos em cada registro são:

| Nome        | Descrição                             |
| ----------- | ---------------------------           |
| ID          | Identificação                         |
| Clump       | espessura do aglomerado               |
| UnifSize    | Uniformidade do tamanho da célula     |
| UnifShape   | Uniformidade do formato da célula     |
| MargAdh     | Adesão marginal                       |
| SingEpiSize | Tamanho de célula epitelial única     |
| BareNuc     | Núcleos puros                         |
| BlandChrom  | Cromatina branda                      |
| NormNucl    | Nucléolos normais                     |
| Mit         | Mitoses                               |
| Class       | Benigno ou Maligno                    |


Para fins de simplificar, estamos usando um conjunto de dados que possui um número relativamente pequeno de preditores em cada registro.


In [None]:
cell_df = pd.read_csv("../datasets/cellsample_dataset/cell_samples.csv")
cell_df.shape

Nosso dataset possui, portanto, 699 amostras e 11 características.

In [None]:
cell_df.head()

### Separar as Colunas do Dataframe: features vs target

Os regressores ou features (atributos) são as variáveis explicativas do nosso dataset. Enquanto a variável alvo reflete a característica que desejamos classificar: em nosso dataset, se o câncer é benigno ou malígno.

Em nosso exemplo, as features são formadas pelas 30 primeiras colunas. 

Para essa finalidade, cria-se um novo dataframe a partir do dataframe orignal, utilizando-se as features desejadas.

In [None]:
feature_df = cell_df[['Clump', 'UnifSize', 'UnifShape', 'MargAdh', 'SingEpiSize', 'BlandChrom', 'NormNucl', 'Mit']]
X = np.asarray(feature_df)
X[0:5]

Agora vamos criar o nosso dataframe que corresponde a variável alvo, ou seja, a variável que queremos fazer a predição.

In [None]:
cell_df['Class'] = cell_df['Class'].astype('int')
y = np.asarray(cell_df['Class'])
y [0:5]

### Dividir o Dataset: Treinamento e Validação/Teste

Vamos dividir nosso dataset em duas partes: 1) dados de treinamento; e 2) dados de validação.  Para tanto, vamos utilizar o método `train_test_split`.

In [None]:
# Dividir nossos dados
X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.2, random_state=4)
print ('Conjunto de treino:', X_train.shape,  y_train.shape)
print ('Conjunto de teste:', X_test.shape,  y_test.shape)

Podemos observar que nosso **conjunto de treinamento** possui 559 amostras (ou 80%), enquanto o **conjunto de avaliação** 140 amostras (ou 20%), totalizando as 699 amostras originais. 

### Algoritmo de Machine Learning

Nessa etapa escolhemos o algoritmo de machine learning que desejamos utilizar. Nesse nosso exemplo vamos escolher o algoritmo **Árvore de Decisão** (em inglês, *Decision Tree*). Iremos discutir esse algorimo em detalhes no Módulo 5.

Vamos inicializar nosso classificador:

In [None]:
DTC = DecisionTreeClassifier()

Na sequência, Treinar nosso classificador:

In [None]:
model = DTC.fit(X_train, y_train)

### Previsão

Nosso modelo foi treinado. Agora é o momento de se fazer previsões. Para isso usamos os dados de validação.

In [None]:
# Fazer previsões
preds = DTC.predict(X_test)
print(preds)

### Avaliação

Finalmente, vamos avaliar nosso modelo. Para tanto, vamos utilizar a métrica: **acurácia**, ou seja, qual o percentual de classes foram corretamente classificadas.

In [None]:
print(accuracy_score(y_test, preds))

Podemos observar, portanto, que o nosso modelo obteve uma acurácia superior a 90%.

# Discussão e Próximos Passos

Nesse notebook Python, percorremos um exemplo completo de *machine learning* desde o carregamento do dataset, treinamento do modelo, predição e avaliação. Entretanto, destacamos que o objetivo desse notebook é apenas apresentar a biblioteca `Scikit-Learn`. 

No Módulo 5 de nosso curso iremos fazer uma imersão teórico-prática em alguns dos principais algortimos de *Machine Learning*.

<hr>

## Direitos Autorais

[APL Data Intelligence](https://linktr.ee/APLdataintelligence)&#8482;  2021. Este notebook Python e seu código fonte estão liberados sob os termos da [Licença do MIT](https://bigdatauniversity.com/mit-license/).