## Avaliação Continuada (AC2) - Perceptron

Nesse notebook, iremos ver como aplicar o método Perceptron na nossa base de dados que foi processada no notebook `train_data.ipynb`.

Para começar então, vamos importar o notebook `train_data.ipynb` que irá conter tudo que precisamos.

In [50]:
import import_ipynb
import train_data

## Treinamento

Agora, com os dados separados, vamos começar o treinamento usando o método Perceptron.

Primeiro, importamos o método que iremos usar.

In [51]:
import sklearn
from sklearn.linear_model import Perceptron

Depois, podemos definir algumas variáveis para customizar o comportamento do nosso modelo.

In [52]:
n_interations = 100 # vai controlar a quantidade de interações que será realizada no modelo, também chamado de epochs
learning_rate = 0.1 # a constante que representa a taxa de aprendizado

Depois, criamos o nosso modelo da seguinte forma:

In [53]:
perceptron = Perceptron(max_iter=n_interations, eta0=learning_rate, random_state=0)

E ai, já podemos começar o treinamento do modelo.

In [54]:
perceptron.fit(train_data.x_train, train_data.y_train) 

Perceptron(eta0=0.1, max_iter=100)

E com o modelo treinado, podemos começar a ver as métricas de acurácia do nosso modelo tentando predizer os valores de teste que separamos na etapa anterior.

In [55]:
y_pred = perceptron.predict(train_data.x_test) 

Com os valores que foram classificados acima, podemos ver qual foi a sua performance usando o `sklearn` da seguinte forma:

In [56]:
results = sklearn.metrics.classification_report(train_data.y_test, y_pred, target_names=['ham', 'spam'])

print(results)

              precision    recall  f1-score   support

         ham       0.99      0.86      0.92      1352
        spam       0.49      0.92      0.64       196

    accuracy                           0.87      1548
   macro avg       0.74      0.89      0.78      1548
weighted avg       0.92      0.87      0.89      1548



Com a tabela acima, podemos tirar algumas conclusões como: 

A precisão para identificar mensagens verdadeiras é maior do que a precisão do que identificar mensagens de spam. E isso não necessariamente é ruim porque é melhor errar mais mensagens de spam do que mensagens verdadeiras.

Dessa forma, no pior dos casos ainda vemos o spam e ignoramos mas com a mensagem real indo parar no spam, é mais dificil de ir lá olhar.

E além disso, podemos checar a nossa acurácia com mais precisão tanto dos valores de teste quanto dos valores de treino da seguinte forma:

In [57]:
accuracyTest = train_data.accuracy_score(train_data.y_test, perceptron.predict(train_data.x_test))
accuracyTrain = train_data.accuracy_score(train_data.y_train, perceptron.predict(train_data.x_train))

print("Acurácia sobre os valores de teste: ", accuracyTest)
print("Acurácia sobre os valores de treino: ", accuracyTrain)

Acurácia sobre os valores de teste:  0.8701550387596899
Acurácia sobre os valores de treino:  0.8775284012191743


E aqui vemos, temos, assim como mostrado no relatório anterior, certa de 88% e 87% de acurácia sobre os valores de teste e de treino, respectivamente.

## Cross-Validation

Apesar de eu não entender tão bem como funciona a validação cruzada, eu quis trazer nesses métodos para ter um pequena noção de como a ordem dos dados de treinamento influenciam o nosso modelo.

Dessa forma, o cross-validation permite que a gente separe em partições os nossos dados, e eles por consequencia, serão usados para treinar várias vezes o modelo e assim podemos obter as métrica de acurácia de cada vez que foi treinado o modelo.

Com essas métricas, podemos verificar se a mudança na ordem dos dados tem uma mudança significativa na acurácia do nosso modelo.

Vamos começar então com a importação das bibliotecas que iremos usar.

In [58]:
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import ShuffleSplit

Depois, vamos criar algumas variáveis para configurarmos como será a cross-validation.

In [59]:
n_splits = 5 # o número de partições
test_size = 0.3 # a porcentagem que será usada para teste, o restante é usada no treino
cv = ShuffleSplit(n_splits=n_splits, test_size=test_size, random_state=0) # define a função que irá realizar o rearranjo dos dados de treino e como será divido os dados.

E assim, podemos agora chamar a função `cross_val_score` que irá nos retornar a acurácia, assim como, o desvio da acurácia que nos diz quanto a ordem os dados está influenciando o modelo.

In [60]:
scores = cross_val_score(perceptron, train_data.x, train_data.y, cv=cv)

print("%0.2f acurácia com o desvio de %0.2f" % (scores.mean(), scores.std()))

0.92 acurácia com o desvio de 0.02


É interessante ver que agora a acurácia do modelo saiu de 87% para 92%, com um erro de 0.02. 

Isso foi uma melhoria muito boa que foi dado simplesmente pela forma na qual separamos os nossos dados.

E professor, se você chegou até aqui, seria interessante ver mais sobre cross-validation nas aulas.