# Fluxo de Trabalho de Machine Learning

Neste notebook veremos com mais detalhes o fluxo de trabalho de Machine Learning com a biblioteca **Scikit-Learn**.

Abordaremos os seguintes tópicos:

1. Preparando os Dados
2. Escolhendo o melhor Modelo/Estimador/Algoritmo para os nossos problemas
3. Ajustar o Modelo e usá-lo para fazer previsões em nossos dados
4. Avaliar o desempenho do Modelo
5. Aperfeiçoar o Modelo
6. Salvar e carregar o Modelo treinado

Antes de tudo, vamos importar as bibliotecas necessárias para trabalharmos adequadamente.

In [3]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

## 2. Escolhendo o melhor Estimador/Modelo/Algoritmo para o nosso Problema

[Scikit-Learn](https://scikit-learn.org/stable/) usa **estimador** como outro termo para **modelo** ou **algoritmo** de Machine Learning.

Inicialmente vamos trabalhar com dois tipos de Machine Learning:

1. **Classificação**: Prever se uma amostra é de uma determinada classe ou outra (Por exemplo: Email é spam ou não)
2. **Regressão**: Prever um número (Por exemplo: o preço de uma casa)

Para escolher o estimador correto para o nosso problema, Scikit-Learn disponibiliza um mapa que pode nos auxiliar em encontrar o melhor estimador.

![img](https://i.ibb.co/KxdpLkd/ml-map.png)

Para ver a versão interativa do mapa, visite a página oficial: [Mapa](https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html)

### Regressão

Começaremos importando o conjunto de dados de [casas da cidade de Boston](https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html), que se trata de um problema de **regressão**.

In [1]:
from sklearn.datasets import load_boston

boston = load_boston()

A partir desses dados importados da biblioteca Scikit-Learn, podemos construir um **DataFrame** pandas para facilitar o nosso trabalho.

In [4]:
boston_df = pd.DataFrame(boston['data'],columns=boston['feature_names'])
boston_df['target'] = pd.Series(boston['target'])
boston_df.head(7)

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,target
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33,36.2
5,0.02985,0.0,2.18,0.0,0.458,6.43,58.7,6.0622,3.0,222.0,18.7,394.12,5.21,28.7
6,0.08829,12.5,7.87,0.0,0.524,6.012,66.6,5.5605,5.0,311.0,15.2,395.6,12.43,22.9


Quantas amostras temos nesse conjunto de dados?

In [5]:
len(boston_df)

506

Agora vamos experimentar o modelo **Ridge Regression**.

Começamos importando ele da biblioteca Scikit-Learn.

In [6]:
from sklearn.linear_model import Ridge

Separamos os dados em **X** (features) e **y** (labels).

In [7]:
X = boston_df.drop('target',axis=1)
y = boston_df['target']

Dividimos os dados em conjuntos de **treinamento** e **teste**.

In [9]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2)

Instanciamos o Modelo Ridge para podermos trabalhar com ele.

In [11]:
ridge = Ridge()
ridge.fit(X_train,y_train);

Checamos o desempenho do modelo no conjunto de testes através do método **score()**.

In [12]:
ridge.score(X_test,y_test)

0.6923011071393075

Devemos estar cientes de que essa pontuação que nos foi retornada pode ser no máximo **1**, ou seja, o algoritmo estaria acertando todas as previsões.

Uma questão importante é: Como podemos melhorar essa pontuação?

E se o algoritmo **Ridge Regression** não estiver adequado para este problema?

Podemos olhar o mapa de Machine Learning do Scikit-Learn e ver se podemos optar por outro modelo.

Vamos então tentar o algoritmo **Random Forest Regressor**.

In [13]:
from sklearn.ensemble import RandomForestRegressor

Novamente separamos os dados em **X** e **y**.

In [14]:
X = boston_df.drop('target',axis=1)
y = boston_df['target']

Fazemos a divisão em **treinamento** e **teste**.

In [15]:
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2)

E instanciamos o algoritmo Random Forest Regressor.

In [17]:
rf = RandomForestRegressor()
rf.fit(X_train,y_train)

RandomForestRegressor(bootstrap=True, ccp_alpha=0.0, criterion='mse',
                      max_depth=None, max_features='auto', max_leaf_nodes=None,
                      max_samples=None, min_impurity_decrease=0.0,
                      min_impurity_split=None, min_samples_leaf=1,
                      min_samples_split=2, min_weight_fraction_leaf=0.0,
                      n_estimators=100, n_jobs=None, oob_score=False,
                      random_state=None, verbose=0, warm_start=False)

E avaliamos o desempenho do Random Forest Regressor.

In [19]:
rf.score(X_test,y_test)

0.906389784710528

Perceba que o algoritmo Random Forest Regressor é capaz de obter uma pontuação superior.

### Classificação

Uma vez que usamos dois modelos para trabalhar com o problema de regressão e conseguimos obter um resultado satisfatório com o algoritmo Random Forest Regressor, chegou a hora de selecionarmos um algoritmo para tratar de um problema de **classificação**.

Novamente voltaremos a trabalhar com os dados de doença de coração.

In [20]:
heart_disease = pd.read_csv('dados/heart-disease.csv')
heart_disease.head(8)

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2,1
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2,1
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2,1
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2,1
5,57,1,0,140,192,0,1,148,0,0.4,1,0,1,1
6,56,0,1,140,294,0,0,153,0,1.3,1,0,2,1
7,44,1,1,120,263,0,1,173,0,0.0,2,0,3,1


Quantos dados temos em nosso conjunto de dados?

In [21]:
len(heart_disease)

303

Para a quantidade de dados que temos, de acordo com o mapa, um modelo interessante que podemos utilizar é o **Linear SVC**.

Começaremos importando este estimador.

In [22]:
from sklearn.svm import LinearSVC

Preparamos os dados para o algoritmo, dividindo eles em **X** e **y**.

In [23]:
X = heart_disease.drop('target',axis=1)
y = heart_disease['target']

E agora separamos os dados em conjuntos de **treinamento** e **teste**.

In [24]:
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2)

Instanciamos o modelo LinearSVC.

In [34]:
clf = LinearSVC(dual=False)
clf.fit(X_train,y_train)

LinearSVC(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, loss='squared_hinge', max_iter=1000,
          multi_class='ovr', penalty='l2', random_state=None, tol=0.0001,
          verbose=0)

Finalmente avaliamos o desempenho do algoritmo **LinearSVC**.

In [35]:
clf.score(X_test,y_test)

0.7868852459016393

Novamente, temos a opção de usar outro estimador, dessa vamos optar pelo **Random Forest Classifier**.

In [53]:
from sklearn.ensemble import RandomForestClassifier

X = heart_disease.drop('target',axis=1)
y = heart_disease['target']

X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2)

rfc = RandomForestClassifier()
rfc.fit(X_train,y_train)

rfc.score(X_test,y_test)

0.8852459016393442

Como podemos observar, conseguimos obter um desempenho superior com o algoritmo **RFC**.