# Classificação

A classificação baseada em vizinhos é um tipo de aprendizagem baseada em instância ou aprendizagem não generalizante: ela não tenta construir um modelo interno geral, mas simplesmente armazena instâncias dos dados de treinamento. A classificação é calculada a partir de uma votação de maioria simples dos vizinhos mais próximos de cada ponto: um ponto de consulta é atribuído à classe de dados que tem mais representantes nos vizinhos mais próximos do ponto.

*Neste exercício usaremos a biblioteca scikit-learn*

## Vertebrate Dataset
Cada vertebrado é classificado em uma das 5 categorias: mamíferos, répteis, aves, peixes e anfíbios, com base em um conjunto de atributos explicativos (variáveis preditoras). Exceto por "nome", o restante dos atributos foram convertidos em uma representação binária * one hot encoding *. 

#### Carregue os dados em um objeto Pandas DataFrame e exiba seu conteúdo.

In [219]:
import pandas as pd    

df = pd.read_csv('vertebrate.csv')
df.head()

Unnamed: 0,Name,Warm-blooded,Gives Birth,Aquatic Creature,Aerial Creature,Has Legs,Hibernates,Class
0,human,1,1,0,0,1,0,mammals
1,python,0,0,0,0,0,1,reptiles
2,salmon,0,0,1,0,0,0,fishes
3,whale,1,1,1,0,0,0,mammals
4,frog,0,0,1,0,1,1,amphibians


#### Dado o número limitado de exemplos de treinamento, suponha que convertamos o problema em uma tarefa de classificação binária (mamíferos versus não mamíferos). Podemos fazer isso substituindo os rótulos de classe das instâncias por *não mamíferos*, exceto aqueles que pertencem à classe de *mamíferos*. Faça isso na célula abaixo.

In [220]:
classes = df['Class']
classes[classes != 'mammals'] = 'no mammals'
df.head()

Unnamed: 0,Name,Warm-blooded,Gives Birth,Aquatic Creature,Aerial Creature,Has Legs,Hibernates,Class
0,human,1,1,0,0,1,0,mammals
1,python,0,0,0,0,0,1,no mammals
2,salmon,0,0,1,0,0,0,no mammals
3,whale,1,1,1,0,0,0,mammals
4,frog,0,0,1,0,1,1,no mammals


#### Utilize o método sklearn.model_selection.train_test_split para dividir o dataset em 70% dos dados para treino e 30% para teste.
https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

In [221]:
from sklearn.model_selection import train_test_split

In [222]:
X = df[['Name',	'Warm-blooded',	'Gives Birth',	'Aquatic Creature',	'Aerial Creature',	'Has Legs',	'Hibernates']]
y = df['Class']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=123) 

A biblioteca *scikit-learn* implementa dois classificadores de vizinhos mais próximos diferentes: **KNeighborsClassifier** implementa o aprendizado com base nos vizinhos mais próximos de cada ponto de consulta, onde é um valor inteiro especificado pelo usuário. **RadiusNeighborsClassifier** implementa o aprendizado com base no número de vizinhos dentro de um raio fixo de cada ponto de treinamento, onde é um valor de ponto flutuante especificado pelo usuário.

#### Crie três classificadores  KNeighborsClassifier com os valores de  k = [5,10,15]

https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html

In [223]:
from sklearn.neighbors import KNeighborsClassifier

## K = 5

#### O códgo a seguir cria um classicador KNN com k = 5 e métrica minkowski de p igual a 2 (Observe os parâmetros). Faça o mesmo para os outros valores de k

In [224]:
class5 = KNeighborsClassifier(n_neighbors=5, metric='minkowski', p=2)

#### Para treinar os classificadores utilize o método fit passando o dataset de treino

In [225]:
X_train.set_index('Name', inplace=True)
X_test.set_index('Name', inplace=True)

In [226]:
class5.fit(X_train, y_train)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=5, p=2,
                     weights='uniform')

#### Utilize o método predict para calcular os valores preditos para o dataset de teste de cada classificador

In [227]:
y_pred = class5.predict(X_test)
y_pred

array(['mammals', 'no mammals', 'no mammals', 'mammals', 'no mammals'],
      dtype=object)

## K = 10 

In [228]:
class10 = KNeighborsClassifier(n_neighbors=10, metric='minkowski', p=2)
class10.fit(X_train, y_train)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=10, p=2,
                     weights='uniform')

In [229]:
y_pred_10 = class10.predict(X_test)
y_pred_10

array(['no mammals', 'no mammals', 'no mammals', 'no mammals',
       'no mammals'], dtype=object)

## K=15

In [230]:
class15 = KNeighborsClassifier(n_neighbors=15, metric='minkowski', p=2)
class15.fit(X_train, y_train)
y_pred_15 = class15.predict(X_test)
y_pred_15

ValueError: Expected n_neighbors <= n_samples,  but n_samples = 10, n_neighbors = 15

Número de exemplos insuficientes para utilizar k = 15

#### O módulo cálcula diversas métricas de avaliação. Utilize os valores preditos para o dataset de teste e calcule a matriz de confusão e as métricas dadas pelo classification_report. Observe o resultado do classification_report. Qual foi o melhor valor de k?
https://scikit-learn.org/stable/modules/model_evaluation.html#classification-metrics

In [165]:
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report

k = 5

In [166]:
confusion_matrix(y_test, y_pred)

array([[1, 0],
       [0, 4]], dtype=int64)

In [167]:
classification_report(y_test, y_pred)

'              precision    recall  f1-score   support\n\n     mammals       1.00      1.00      1.00         1\n  no mammals       1.00      1.00      1.00         4\n\n    accuracy                           1.00         5\n   macro avg       1.00      1.00      1.00         5\nweighted avg       1.00      1.00      1.00         5\n'

k = 10

In [168]:
confusion_matrix(y_test, y_pred_10)

array([[0, 1],
       [0, 4]], dtype=int64)

In [169]:
classification_report(y_test, y_pred_10)

'              precision    recall  f1-score   support\n\n     mammals       0.00      0.00      0.00         1\n  no mammals       0.80      1.00      0.89         4\n\n    accuracy                           0.80         5\n   macro avg       0.40      0.50      0.44         5\nweighted avg       0.64      0.80      0.71         5\n'

Conclusão: Utilizando K = 5 obtemos resultados melhores

#### Escolha uma outra distância e repita o mesmo procedimento para a nova distância. 
https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.DistanceMetric.html#sklearn.neighbors.DistanceMetric

k = 5

In [231]:
myclass = KNeighborsClassifier(n_neighbors=5, metric='euclidean')
myclass.fit(X_train, y_train)
my_5 = myclass.predict(X_test)
my_5

array(['mammals', 'no mammals', 'no mammals', 'mammals', 'no mammals'],
      dtype=object)

In [234]:
confusion_matrix(y_test, my_5)

array([[1, 0],
       [1, 3]], dtype=int64)

In [235]:
classification_report(y_test, my_5)

'              precision    recall  f1-score   support\n\n     mammals       0.50      1.00      0.67         1\n  no mammals       1.00      0.75      0.86         4\n\n    accuracy                           0.80         5\n   macro avg       0.75      0.88      0.76         5\nweighted avg       0.90      0.80      0.82         5\n'

In [236]:
myclass10 = KNeighborsClassifier(n_neighbors=10, metric='euclidean')
myclass10.fit(X_train, y_train)
my_10 = myclass.predict(X_test)
my_10

array(['mammals', 'no mammals', 'no mammals', 'mammals', 'no mammals'],
      dtype=object)

In [238]:
confusion_matrix(y_test, my_10)

array([[1, 0],
       [1, 3]], dtype=int64)

In [239]:
classification_report(y_test, my_10)

'              precision    recall  f1-score   support\n\n     mammals       0.50      1.00      0.67         1\n  no mammals       1.00      0.75      0.86         4\n\n    accuracy                           0.80         5\n   macro avg       0.75      0.88      0.76         5\nweighted avg       0.90      0.80      0.82         5\n'

Utilizando a distância euclidiana, tivemos resultados semelhantes.