# Classificação

A classificação baseada em vizinhos é um tipo de aprendizagem baseada em instância ou aprendizagem não generalizante: ela não tenta construir um modelo interno geral, mas simplesmente armazena instâncias dos dados de treinamento. A classificação é calculada a partir de uma votação de maioria simples dos vizinhos mais próximos de cada ponto: um ponto de consulta é atribuído à classe de dados que tem mais representantes nos vizinhos mais próximos do ponto.

*Neste exercício usaremos a biblioteca scikit-learn*

## Vertebrate Dataset
Cada vertebrado é classificado em uma das 5 categorias: mamíferos, répteis, aves, peixes e anfíbios, com base em um conjunto de atributos explicativos (variáveis preditoras). Exceto por "nome", o restante dos atributos foram convertidos em uma representação binária * one hot encoding *. 

#### Carregue os dados em um objeto Pandas DataFrame e exiba seu conteúdo.

In [1]:
import pandas as pd
df = pd.read_csv('vertebrate.csv')

#### Dado o número limitado de exemplos de treinamento, suponha que convertamos o problema em uma tarefa de classificação binária (mamíferos versus não mamíferos). Podemos fazer isso substituindo os rótulos de classe das instâncias por *não mamíferos*, exceto aqueles que pertencem à classe de *mamíferos*. Faça isso na célula abaixo.

In [2]:
for i in range(df.shape[0]):
    if df['Class'][i] != 'mammals':
        df['Class'][i] = 'nao_mammals'

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['Class'][i] = 'nao_mammals'


#### Utilize o método sklearn.model_selection.train_test_split para dividir o dataset em 70% dos dados para treino e 30% para teste.
https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

In [3]:
import numpy as np
from sklearn.model_selection import train_test_split
X = df.loc[:, 'Warm-blooded':'Hibernates']
y = df.loc[:, 'Class':]
X_train, X_test, y_train, y_test = train_test_split (X, y, test_size=0.3, random_state=0)

A biblioteca *scikit-learn* implementa dois classificadores de vizinhos mais próximos diferentes: **KNeighborsClassifier** implementa o aprendizado com base nos vizinhos mais próximos de cada ponto de consulta, onde é um valor inteiro especificado pelo usuário. **RadiusNeighborsClassifier** implementa o aprendizado com base no número de vizinhos dentro de um raio fixo de cada ponto de treinamento, onde é um valor de ponto flutuante especificado pelo usuário.

#### Crie três classificadores  KNeighborsClassifier com os valores de  k = [5,10,15]

https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html

In [4]:
from sklearn.neighbors import KNeighborsClassifier
k_5 = KNeighborsClassifier(n_neighbors=5, metric='minkowski', p=2)
k_10 = KNeighborsClassifier(n_neighbors=10, metric='minkowski', p=2)

#### Para treinar os classificadores utilize o método fit passando o dataset de treino

In [5]:
k_5.fit(X_train, y_train)
k_10.fit(X_train, y_train)

  return self._fit(X, y)
  return self._fit(X, y)


KNeighborsClassifier(n_neighbors=10)

#### Utilize o método predict para calcular os valores preditos para o dataset de teste de cada classificador

In [6]:
k_5_pred = k_5.predict(X_test)
k_10_pred = k_10.predict(X_test)

#### O módulo cálcula diversas métricas de avaliação. Utilize os valores preditos para o dataset de teste e calcule a matriz de confusão e as métricas dadas pelo classification_report. Observe o resultado do classification_report. Qual foi o melhor valor de k?
https://scikit-learn.org/stable/modules/model_evaluation.html#classification-metrics

In [7]:
from sklearn.metrics import confusion_matrix
confusion_matrix(y_test, k_5_pred)

array([[2, 0],
       [0, 3]], dtype=int64)

In [8]:
from sklearn.metrics import classification_report
print(classification_report(y_test, k_5_pred))

              precision    recall  f1-score   support

     mammals       1.00      1.00      1.00         2
 nao_mammals       1.00      1.00      1.00         3

    accuracy                           1.00         5
   macro avg       1.00      1.00      1.00         5
weighted avg       1.00      1.00      1.00         5



In [9]:
confusion_matrix(y_test, k_10_pred)

array([[0, 2],
       [0, 3]], dtype=int64)

In [10]:
print(classification_report(y_test, k_10_pred))

              precision    recall  f1-score   support

     mammals       0.00      0.00      0.00         2
 nao_mammals       0.60      1.00      0.75         3

    accuracy                           0.60         5
   macro avg       0.30      0.50      0.37         5
weighted avg       0.36      0.60      0.45         5



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


Obs. Não é possivel k =15, por conta do tamanho do dataset. Ao fazer o teste buscando pelos 15 k mais proximos gera uma invalidez. Deixei comentado para não aparecer o erro.

In [11]:
#k_15 = KNeighborsClassifier(n_neighbors=15, metric='minkowski', p=2)
#k_15.fit(X_train, y_train)
#k_15_pred = k_15.predict(X_test)
#confusion_matrix(y_test, k_15_pred)

In [12]:
#print(classification_report(y_test, k_15_pred))

O melhor valor é onde k = 5.

#### Escolha uma outra distância e repita o mesmo procedimento para a nova distância. 
https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.DistanceMetric.html#sklearn.neighbors.DistanceMetric

In [13]:
k5 = KNeighborsClassifier(n_neighbors=5, metric='manhattan')
k10 = KNeighborsClassifier(n_neighbors=10, metric='manhattan')

In [14]:
k5.fit(X_train, y_train)
k10.fit(X_train, y_train)

  return self._fit(X, y)
  return self._fit(X, y)


KNeighborsClassifier(metric='manhattan', n_neighbors=10)

In [15]:
k5_pred = k5.predict(X_test)
k10_pred = k10.predict(X_test)

In [16]:
confusion_matrix(y_test, k_5_pred)

array([[2, 0],
       [0, 3]], dtype=int64)

In [17]:
print(classification_report(y_test, k_5_pred))

              precision    recall  f1-score   support

     mammals       1.00      1.00      1.00         2
 nao_mammals       1.00      1.00      1.00         3

    accuracy                           1.00         5
   macro avg       1.00      1.00      1.00         5
weighted avg       1.00      1.00      1.00         5



In [18]:
confusion_matrix(y_test, k_10_pred)

array([[0, 2],
       [0, 3]], dtype=int64)

In [19]:
print(classification_report(y_test, k_10_pred))

              precision    recall  f1-score   support

     mammals       0.00      0.00      0.00         2
 nao_mammals       0.60      1.00      0.75         3

    accuracy                           0.60         5
   macro avg       0.30      0.50      0.37         5
weighted avg       0.36      0.60      0.45         5



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


O valor melhor ainda é onde k = 5.