# Implementação Perceptron SK-Learn

## Configurações Iniciais

Pacotes que serão usados para importação do *dataset*, separação dos dados em treinamento e teste, método de classificação *Perceptron* e as métricas para análise de desempenho.

In [1]:
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.linear_model import Perceptron
from sklearn.metrics import classification_report, accuracy_score, confusion_matrix, f1_score, precision_score, recall_score

## Pré-Processamento dos dados

Importação do dataset *Breast Cancer Wisconsin*.

In [2]:
dataset = datasets.load_breast_cancer()

Atribuição dos dados de entrada a variável X e dos elementos *target* a variável y.

Obs.: O elemento *target* do dataset é distribuído em valores 0 e 1, onde 0 representa o diagnóstico de câncer benigno e 1 o câncer maligno.

In [3]:
X = dataset.data
y = dataset.target

Imprimindo o formato de ambas variáveis geradas.

In [4]:
X.shape

(569, 30)

In [5]:
y.shape

(569,)

Imprimindo um indivíduo do dataset como exemplo.

In [6]:
X[30]

array([1.863e+01, 2.511e+01, 1.248e+02, 1.088e+03, 1.064e-01, 1.887e-01,
       2.319e-01, 1.244e-01, 2.183e-01, 6.197e-02, 8.307e-01, 1.466e+00,
       5.574e+00, 1.050e+02, 6.248e-03, 3.374e-02, 5.196e-02, 1.158e-02,
       2.007e-02, 4.560e-03, 2.315e+01, 3.401e+01, 1.605e+02, 1.670e+03,
       1.491e-01, 4.257e-01, 6.133e-01, 1.848e-01, 3.444e-01, 9.782e-02])

In [7]:
y[30]

0

Em seguida vamos separar os dados entre dados de treinamento e dados de teste utilizando a função **train_test_split**, utilizaremos 25% dos dados para teste.

In [8]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25)

E o formato de todas variáveis de treinamento e teste.

In [9]:
X_train.shape

(426, 30)

In [10]:
X_test.shape

(143, 30)

In [11]:
y_train.shape

(426,)

In [12]:
y_test.shape

(143,)

## Perceptron SK-Learn

Inicialmente vamos definir o classificador com nome *perceptron* que recebe a função "*Perceptron*" e tem como argumento o parâmetro *"tol"* que representa o critério de parada do algoritmo, ou seja, a mudança mínima que é necessária ocorrer dos resultados da iteração anterior para a iteração atual.

In [13]:
perceptron = Perceptron(tol=0.001)

Dessa forma nosso classificador está programado com os seguintes parâmetros.

In [14]:
perceptron

Perceptron(alpha=0.0001, class_weight=None, eta0=1.0, fit_intercept=True,
      max_iter=None, n_iter=None, n_jobs=1, penalty=None, random_state=0,
      shuffle=True, tol=0.001, verbose=0, warm_start=False)

Após instanciar o algoritmo faremos o treinamento dele com as instâncias de treinamento separadas na seção anterior.

In [15]:
perceptron.fit(X_train, y_train)

Perceptron(alpha=0.0001, class_weight=None, eta0=1.0, fit_intercept=True,
      max_iter=None, n_iter=None, n_jobs=1, penalty=None, random_state=0,
      shuffle=True, tol=0.001, verbose=0, warm_start=False)

Mesmo sem realizar a predição dos dados conseguimos calcular o "*score*" do nosso algoritmo, que representa exatamente a acurácia que nosso classificador obteve. 

In [22]:
perceptron.score(X_test, y_test) 

0.8251748251748252

Mas para efeito de outras métricas iremos predizer os dados de teste utilizando a função "*predict*", também da biblioteca do classificador.

In [23]:
y_pred = perceptron.predict(X_test)

Conforme dito anteriormente também geraremos outras métricas como o *F1 Score*, a precisão e o *recall*. 

In [26]:
print("Acurácia:   ", accuracy_score(y_test, y_pred))
print("F1 Score:   " , f1_score(y_test, y_pred, average='binary'))
print("Precisão:   ", precision_score(y_test, y_pred, average='binary'))
print("Recall:     ", recall_score(y_test, y_pred,  average='binary'))

Acurácia:    0.8251748251748252
F1 Score:    0.8484848484848485
Precisão:    0.958904109589041
Recall:      0.7608695652173914


Ou também o "*classification_report*".

In [27]:
print(classification_report(y_test, y_pred))

             precision    recall  f1-score   support

          0       0.69      0.94      0.79        51
          1       0.96      0.76      0.85        92

avg / total       0.86      0.83      0.83       143



Podemos gerar também a matriz de confusão desse nosso problema, que é um ótimo método de visualizar como nossos resultados foram distribuidos, em que a diagonal principal representa os resultados corretos e as duas outras posições da matriz representam falsos positivos e falsos negativos.

In [28]:
confusion_matrix(y_test, y_pred)

array([[48,  3],
       [22, 70]])

# OBS: A ACURACIA EM POUCAS EXECUCOES (UMA A CADA 10 MAIS OU MENOS) DEU PEQUENA, CERCA DE 40%, NAO ENTENDI O MOTIVO MAS PERCEBI QUE ISSO ACONTECE, DE QUALQUER FORMA SE ENCONTRAREM ALGUM ERRO FIQUEM A VONTADE DE ALTERAR.

# Implementação realizada pelo grupo