# K-nearest neighbors

Para este projeto, o K-nearest neighbors sera usado para prever a classe alvo do conjunto de dados.

---

# Dados
- Todos os dados usados são artificiais.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report,confusion_matrix
from pandas_profiling import ProfileReport

In [None]:
df = pd.read_csv('../input/datasetknn/DataSetKNN.csv')
df.head()

In [None]:
report = ProfileReport(df)
report

In [None]:
df.info()

In [None]:
sns.pairplot(df,hue='TARGET CLASS',palette='coolwarm')

# Padronizar as Variáveis

- Ajustar o escalonador aos recursos

In [None]:
scaler = StandardScaler()

scaler.fit(df.drop('TARGET CLASS',axis=1))

scaled_features = scaler.transform(df.drop('TARGET CLASS',axis=1))

- Converter os recursos dimensionados em um dataframe.
- verificar o cabeçalho do dataframe para ter certeza de que o dimensionamento funcionou.

In [None]:
df_feat = pd.DataFrame(scaled_features,columns=df.columns[:-1])
df_feat.head()

# KNN

In [None]:
X = df_feat
y = df['TARGET CLASS']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=101)

In [None]:
knn = KNeighborsClassifier(n_neighbors=1)

knn.fit(X_train,y_train)

# Previsões e Avaliações do modelo

In [None]:
pred = knn.predict(X_test)

In [None]:
print(confusion_matrix(y_test,pred))

In [None]:
print(classification_report(y_test,pred))

# n_neighbors

- Para melhor resultado das previsões é necessario mudar o valor de n_neighbors. A melhor forma de encontrar o valor é por meio de um loop que teste os varios valores.

In [None]:
error_rate = []

for i in range(1,40):
    
    knn = KNeighborsClassifier(n_neighbors=i)
    knn.fit(X_train,y_train)
    pred_i = knn.predict(X_test)
    error_rate.append(np.mean(pred_i != y_test))

- Analisando os dados obitidos pelo loop.

In [None]:
plt.figure(figsize=(10,6))
plt.plot(range(1,40),error_rate,color='blue', linestyle='dashed', marker='o',
         markerfacecolor='red', markersize=10)
plt.title('Error Rate vs. K Value')
plt.xlabel('K')
plt.ylabel('Error Rate')

# Testando o novo valor

In [None]:
knn = KNeighborsClassifier(n_neighbors=31)

In [None]:
knn.fit(X_train,y_train)
pred = knn.predict(X_test)

In [None]:
print(confusion_matrix(y_test,pred))

In [None]:
print(classification_report(y_test,pred))