# Fluxo de Trabalho de Machine Learning

Neste notebook veremos com mais detalhes o fluxo de trabalho de Machine Learning com a biblioteca **Scikit-Learn**.

Abordaremos os seguintes tópicos:

1. Preparando os Dados
2. Escolhendo o melhor Modelo/Estimador/Algoritmo para os nossos problemas
3. Ajustar o Modelo e usá-lo para fazer previsões em nossos dados
4. Avaliar o desempenho do Modelo
5. Aperfeiçoar o Modelo
6. Salvar e carregar o Modelo treinado

Antes de tudo, vamos importar as bibliotecas necessárias para trabalharmos adequadamente.

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

## 3. Ajustando o Modelo/Algoritmo aos nossos Dados e Usar ele para fazer Previsões

Lembrando que:

- **X** = features, features variables, dados
- **y** = labels, targets, target variables

Um questionamento importante: o que o método **fit()** está fazendo exatamente?

In [3]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split

heart_disease = pd.read_csv('dados/heart-disease.csv')

X = heart_disease.drop('target',axis=1)
y = heart_disease['target']

X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2)

rfc = RandomForestClassifier()

In [4]:
X.head()

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2


In [5]:
y.head()

0    1
1    1
2    1
3    1
4    1
Name: target, dtype: int64

Inicialmente estamos alimentando o nosso algoritmo com os dados de treinamento **X** e **y**. 

O método **fit()** ajusta os dados ao modelo, que fará com o que o modelo passe por todos os exemplos em **X** e veja qual o label correspondente **y** é, e assim tentará descobrir os padrões, as diferentes combinações de números, em outras palavras, quais combinações **X** levam a determinado valor de **y** e assim nos retorna uma função que podemos usar para fazer previsões.

Lembrando que cada modelo opera de uma maneira diferente, realizando procedimentos matemáticos específicos.

Então, uma vez que nossos dados estão preparados, podemos usar o método **fit()** para treinar o nosso algoritmo de Machine Learning.

In [54]:
rfc.fit(X_train,y_train)

RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='gini', max_depth=None, max_features='auto',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=100,
                       n_jobs=None, oob_score=False, random_state=None,
                       verbose=0, warm_start=False)

E então avaliamos o desempenho do modelo.

In [55]:
rfc.score(X_test,y_test)

0.819672131147541

Agora que o nosso algoritmo aprendeu os padrões dos dados através do treinamento, finalmente podemos usá-lo para fazer previsões em nossos dados de teste ou até mesmo em novos dados.

Existem duas principais maneiras de fazer previsões:

1. Método **predict()**
2. Método **predict_proba()**

Vamos então usar o modelo que treinamos para fazer previsões e compreender melhor estes dois métodos.

In [56]:
rfc.predict(X_test)

array([0, 1, 0, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 1, 1,
       1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1,
       1, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1, 1, 1, 1, 0, 1, 1])

O **output** acima são as previsões do nosso modelo. 

Na variável **y_test** nós temos a verdade, ou seja, os resultados corretos que nosso algoritmo deveria prever.

In [57]:
np.array(y_test)

array([0, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 1,
       1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1,
       1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 1, 1, 0, 1, 1])

Vamos então comparar as previsões com as labels verdadeiras para avaliar o desempenho do nosso modelo.

In [58]:
y_preds = rfc.predict(X_test)
np.mean(y_preds == y_test)

0.819672131147541

O que fizemos na célula anterior é o mesmo que estávamos fazendo anteriormente com o método **score()**, ou seja, comparando os valores para ver o quão correto o nosso algoritmo desempenhou.

Existe também outra maneira de fazer essa avaliação, com **accuracy_score**.

In [59]:
from sklearn.metrics import accuracy_score

accuracy_score(y_test,y_preds)

0.819672131147541

Vimos como podemos fazer previsões usando o método **predict()**, agora vejamos como podemos fazer previsões usando o método **predict_proba()**.

**predict_proba()** retorna probabilidades de uma label de classificação.

Em outras palavras, ele estima a probabilidade de nossa previsão ser uma determinada classe.

In [60]:
rfc.predict_proba(X_test[:5])

array([[0.97, 0.03],
       [0.03, 0.97],
       [0.68, 0.32],
       [0.35, 0.65],
       [0.54, 0.46]])

Veja que nos é retornado uma matriz de 2 dimensões, com pares de números representando probabilidades que somam **1**.

Vamos usar novamente o método **predict()** para termos uma intuição do que está ocorrendo.

In [61]:
rfc.predict(X_test[:5])

array([0, 1, 0, 1, 0])

Perceba que o valor na direita representa a probabilidade de ser **1** e na esquerda a probabilidade de ser **0**.

Para nossa primeira previsão, o algoritmo está com 97% de confiança que essa amostra pertence à classe **0**.

É importante frizarmos que o método **predict()** também pode ser usada para modelos de regressão.

Vejamos como isso é possível usando o conjunto de dados das casas de Boston.

In [67]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.datasets import load_boston

boston = load_boston()

boston_df = pd.DataFrame(boston['data'],columns=boston['feature_names'])
boston_df['target'] = pd.Series(boston['target'])

X = boston_df.drop('target',axis=1)
y = boston_df['target']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

Também podemos instanciar e ajustar o modelo em uma única linha.

In [68]:
rfr = RandomForestRegressor().fit(X_train,y_train)

E finalmente fazer previsões e comparar as previsões com a verdade.

In [69]:
y_preds = rfr.predict(X_test)
y_preds[:10]

array([11.186,  7.655, 22.782, 12.902, 26.624, 21.907, 20.077, 18.115,
       17.846,  9.028])

In [70]:
np.array(y_test[:10])

array([11.3,  8.8, 22.2, 17.8, 25. , 23.1, 16.2, 16.8, 21.7,  7.2])

A métrica **mean_absolute_error** nos ajuda a medir o desempenho de algoritmos de regressão.

In [71]:
from sklearn.metrics import mean_absolute_error

mean_absolute_error(y_test, y_preds)

2.5872156862745093

Isso significa que, em média, para cada previsão temos uma margem de erro de **2.59**.

Vamos agora para a seção **4**, onde iremos nos aprofundar na questão de avaliação de modelos.