### Importação das Bibliotecas

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sb
sb.set_palette('husl')

from sklearn import metrics
from sklearn.neighbors import KNeighborsClassifier
from sklearn.externals import joblib
from sklearn.model_selection import train_test_split

### Leitura e pré-visualização dos dados (Preview of Data)

In [None]:
df = pd.read_csv ("iris.csv")
df

In [None]:
df.info()

In [None]:
df.describe()

In [None]:
df['target'].value_counts()

### Visualização dos Dados  (Data Visualization)

In [None]:
sb.pairplot(df,hue="target") # Gráfico DISPERSÃO

In [None]:
g = sb.violinplot(y='target', x='sepal length (cm)', data=df, inner='quartile')
plt.show()

g = sb.violinplot(y='target', x='sepal width (cm)', data=df, inner='quartile')
plt.show()

g = sb.violinplot(y='target', x='petal length (cm)', data=df, inner='quartile')
plt.show()

g = sb.violinplot(y='target', x='petal width (cm)', data=df, inner='quartile')
plt.show()

### Caracteríscas/features e Rótulos que serão utilizadas para classificação. (Modelling)

In [None]:
x = np.array(df.drop("target",1))   # todas as colunas do arquivo .CSV exceto a coluna "target"
y = np.array(df.target)             # somente a coluna "target"

### Verificando a PRECISÃO da predição para diferentes valores de K (KNN)
### 1. Utilizando TODO o Dataset para treino

In [None]:
# Verificando a precisão da predição com diferentes valores de K
k_range = list(range(1,26))
scores = []
for k in k_range:
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit(x,y)
    y_pred = knn.predict(x)
    precisao = metrics.accuracy_score(y, y_pred)
    scores.append(precisao)

plt.plot(k_range, scores)
plt.xlabel('Valor de K (KNN)')
plt.ylabel('Precisão')
plt.suptitle('Ranking de precisão para diferentes valores de K')
plt.title('Utilizando TODO o Dataset para treino')
plt.show()

### 2. Dividindo o Dataset. Uma parte para TREINO e outra para TESTE

In [None]:
# 60% do Dataset será usado para Treino e 40% para Testes
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.4, random_state=5)

### Percebe-se que a precisão aumenta quando utilizamos esta técnica

In [None]:
# Verificando a precisão da predição com diferentes valores de K
k_range = list(range(1,26))
scores = []
for k in k_range:
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit(x_train, y_train)
    y_pred = knn.predict(x_test)
    precisao = metrics.accuracy_score(y_test, y_pred)
    scores.append(precisao)
    
plt.plot(k_range, scores)
plt.xlabel('Valor de K (KNN)')
plt.ylabel('Precisão')
plt.suptitle('Ranking de precisão para diferentes valores de K (KNN)')
plt.title("Utilizando 60% do Dataset para treino e 40% para Teste")
plt.show()

### Criando e treinando um modelo (k = 9 vizinhos próximos )

In [None]:
knn = KNeighborsClassifier(n_neighbors=9)
knn.fit(x, y)

### Salvando o modelo Treinado

In [None]:
joblib.dump(knn, 'iris_modelo_treinado.pkl')

# Conclusão - Predição com base em modelo treinado

### Input com informações da flor iris que se deseja predizer a espécie 
#### (Altura e Largura das sépalas e pétalas)

In [None]:
nova_flor = [4.2,3.1,2.1,0.9]

### Predição com base em novo Input

In [None]:
 knn.predict([nova_flor])