## Classificando raças de cachorros com KNN

### Importando bibliotecas

In [4]:
import pandas as pd
import numpy as np
from sklearn.neighbors import KNeighborsClassifier
from sklearn.cross_validation import train_test_split
from sklearn.metrics import accuracy_score

### Importando o dataset de exemplo

In [5]:
dataset = pd.read_csv("DataSet/racas_cachorros.csv")

### O método head() lista as 5 primeiras informações do conjunto de dados

In [6]:
dataset.head()

Unnamed: 0,peso,tamanho,raça
0,5.0,20,0
1,32.5,63,1
2,5.7,23,0
3,38.0,65,1
4,6.0,25,0


### O método describe() apresenta algumas informações sobre o nosso conjunto de dados. Nele, é possível observar que o desvio padrão das colunas está alto. Possivelmente as informações são distintas, permitindo que o modelo possa classificá-los

In [7]:
dataset.describe()

Unnamed: 0,peso,tamanho,raça
count,16.0,16.0,16.0
mean,20.95625,42.3125,0.5
std,16.83908,20.882908,0.516398
min,4.0,20.0,0.0
25%,5.0,21.75,0.0
50%,18.5,41.5,0.5
75%,35.75,62.25,1.0
max,45.0,68.0,1.0


### Aplicando o método describe() para uma determinada raça, é possível observar que o desvio padrão é baixo. Ou seja, não existe uma dispersão grande entre as informações, facilitando a classificação pelo modelo KNN.

In [8]:
dataset[dataset["raça"] == 0].describe()

Unnamed: 0,peso,tamanho,raça
count,8.0,8.0,8.0
mean,5.0875,22.375,0.0
std,1.097318,2.875388,0.0
min,4.0,20.0,0.0
25%,4.0,20.0,0.0
50%,5.0,21.5,0.0
75%,5.775,23.5,0.0
max,7.0,28.0,0.0


### Agora, vamos separar as características e os rótulos que estão no DataSet e referenciá-los em duas variáveis. A variável X armazena as características do cachorro e a varável Y o seu rótulo.

In [9]:
X = dataset.iloc[:,:2]
y = dataset.iloc[:,2]

### Para testar e validar o modelo, vamos precisar separar os nossos dados. O método train_test_split() separa as informações em dados de treino e teste para as variáveis X e y

In [10]:
X_train, X_test, Y_train, Y_test = train_test_split(X, y, test_size=0.5)

### Iniciar o modelo KNN da biblioteca sklearn

In [11]:
modelo = KNeighborsClassifier(n_neighbors=5)
modelo.fit(X_train, Y_train)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=5, p=2,
           weights='uniform')

### Testando a acurácia do modelo

In [12]:
resultado = modelo.predict(X_test)
print(str(accuracy_score(resultado, Y_test) * 100) + "%")

100.0%


### Classificando novos resultados que não estão no dataset

In [13]:
print("Shitzu" if modelo.predict([[5.2,21]]) == 0 else "Pastor Alemão")
print("Shitzu" if modelo.predict([[33.2,60]]) == 0 else "Pastor Alemão")

Shitzu
Pastor Alemão
