# KNN 1

O conjunto de dados de flores de íris é um conjunto de dados multivariado introduzido pelo estatístico,
Ronald Fisher em seu artigo de 1936. O conjunto de dados contém 3 classes de 50 instâncias cada, onde cada
classe se refere a um tipo de planta de íris.

In [1]:
#Libraries
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
import random
import warnings
warnings.filterwarnings("ignore")

#Split Data Train and Test
from sklearn.model_selection import train_test_split, StratifiedKFold, cross_val_score, GridSearchCV

#Modelling
from sklearn.pipeline import Pipeline
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import accuracy_score, classification_report

In [2]:
pd.options.display.float_format = "{:.4f}".format

## 1) Coletando e explorando os dados

### a) Carregando os dados “iris”

In [3]:
iris=pd.read_csv('C:/Users/nicol/FGV/iris.csv')

FileNotFoundError: [Errno 2] No such file or directory: 'C:/Users/nicol/FGV/iris.csv'

In [None]:
iris.head()

In [None]:
iris.info()

### b) Determinar o tamanho da amostra de cada tipo de classe.

In [None]:
sns.countplot(data=iris,x="Class",color="blue")
plt.show()

### c) A amostra é uniforme, ou temos diferentes alguma classe com mais elementos?


A amostra parece ser uniforme, com 50 observações em cada classe.

### d) Calcular as correlações dentre as variáveis. Existem correlações muito extremas?

In [None]:
plt.figure(figsize=(10,5))
sns.heatmap(iris.iloc[:,:-1].corr(),cmap=sns.cubehelix_palette(as_cmap=True),annot=True)
plt.show()

In [None]:
iris.iloc[:,:-1].corr()

A análise de correlações nos mostra que há altas correlações entre o comprimento e a largura de pétalas ("petal length" e "petal width", cerca de 0.96),
assim como entre o comprimento das petalas e e o comprimento das sépalas ("petal length" e "sepal length", cerca de 0.87)

## 2) Preparando os dados

### a) Boxplot das variáveis. Você diria que as variáveis têm valores similares?

In [None]:
plt.figure(figsize=(15,10))
sns.boxplot(data=iris.iloc[:,:-1],color="green")
plt.show()

In [None]:
iris.describe()

O boxplot apresenta os valores das variáveis que parecem estar em uma mesma escala variando de 0 a 8. Entretanto, enquanto algumas variáveis possuem valores mais elevados (como o comprimento de sépalas - entre 4 e 8), outras possuem valores mais baixos (como é o caso da largura das pétalas - entre 0 e 3).

### b) Normalização das variáveis (média zero e desvio padrão igual a um).

In [None]:
from sklearn.preprocessing import MinMaxScaler
colunas=iris.iloc[:,:-1].columns
irisscaled=iris.iloc[:,:-1].copy()
norm=MinMaxScaler()
irisscaled=pd.DataFrame(norm.fit_transform(irisscaled),columns=colunas)
irisscaled.head()

### c) Boxplot das variáveis normalizadas. Você diria que as variáveis têm valores similares?

In [None]:
plt.figure(figsize=(15,10))
sns.boxplot(data=irisscaled,color='green')


## 3) Amostras de Treinamento e Teste

### a) Separar a amostra em duas partes uma para de treino e uma para teste (divisão de 50/50 entre amostra de teste e treinamento).

In [None]:
random.seed(12345)
X=irisscaled.values
Y=iris.iloc[:,-1].values

In [None]:
from sklearn.model_selection import train_test_split
X_train,X_test,Y_train,Y_test = train_test_split(X,Y,test_size = 0.5, random_state = 42)

## 4) Modelo de Treinamento

### a) Carregue o pacote FNN

### b) Utilizar a função knn com a amostra de treinamento, e estime um KNN utilizando 2 vizinhos (k=2)

In [None]:
knn = KNeighborsClassifier(n_neighbors = 2)
knn.fit(X_train,Y_train)
pred_knn2 = knn.predict(X_test)

## 5) Avaliando a performance do modelo

### a) “confusion matrix” e avaliação do resultado do modelo. Qual é a precisão geral da classificação usando os dados do conjunto de teste? (dica para isso utilize o comando table)

In [None]:
from sklearn.metrics import confusion_matrix
mc = confusion_matrix(Y_test, pred_knn2)
mc

In [None]:
ratio = accuracy_score(Y_test, pred_knn2)
ratio

print('A precisão geral do modelo de classificação KNN2 é de:','{:.3f}'.format(ratio))

## 6) Melhorando a performance do modelo

### a) Itens 4 e 5 utilizando a um total de 3, 5 e 7 vizinhos.

In [None]:
knn3 = KNeighborsClassifier(n_neighbors = 3)
knn3.fit(X_train,Y_train)
pred_knn3 = knn3.predict(X_test)



In [None]:
from sklearn.metrics import confusion_matrix
mc = confusion_matrix(Y_test, pred_knn3)
mc


In [None]:
ratio3 = accuracy_score(Y_test, pred_knn3)
ratio3

print('A precisão geral do modelo de classificação KNN3 é de:','{:.3f}'.format(ratio3))

In [None]:
knn5 = KNeighborsClassifier(n_neighbors = 5)
knn5.fit(X_train,Y_train)
pred_knn5 = knn5.predict(X_test)

In [None]:
from sklearn.metrics import confusion_matrix
mc = confusion_matrix(Y_test, pred_knn5)
mc

In [None]:
ratio5 = accuracy_score(Y_test, pred_knn5)
ratio5

print('A precisão geral do modelo de classificação KNN5 é de:','{:.3f}'.format(ratio5))

In [None]:
knn7 = KNeighborsClassifier(n_neighbors = 7)
knn7.fit(X_train,Y_train)
pred_knn7 = knn7.predict(X_test)

from sklearn.metrics import confusion_matrix
mc = confusion_matrix(Y_test, pred_knn7)
mc

ratio7 = accuracy_score(Y_test, pred_knn7)
ratio7

print('A precisão geral do modelo de classificação KNN7 é de:','{:.3f}'.format(ratio7))

In [None]:
acuracia = []
intervalo = range(1,75)
for i in intervalo:
    knn = KNeighborsClassifier(n_neighbors = i)
    knn.fit(X_train,Y_train)
    pred_knn = knn.predict(X_test)
    ratio = accuracy_score(Y_test, pred_knn)
    acuracia.append(ratio)
sns.lineplot(x=intervalo,y=acuracia)
plt.show()

### b) Há melhorias no modelo?

Sim, houve melhora do modelo com o aumento do número de vizinhos. A acurácia aumenta para 0.987