## Contents

>### [1. K-Nearest Neighbors (KNN)](#1)
>### [2. Load and Read Data](#2)
>### [3. Data Visualization](#3)
>### [4. Datayı Kullanabilir Hale Getirme](#4)
>### [5. Normalization](#5)
>### [6. Train Test Split](#6)
>### [7. KNN Modeli Oluşturma](#7)
>### [8. En Uygun K Değerini Bulma](#8)

<a id="1"></a>
## 1. K-Nearest Neighbor (KNN) Intro

* Supervised learning algoritmalarından biri olan KNN algoritması, hem classification hem de regression problemlerin çözümlerinde kullanılır.

* Sınıfları belli olan veri kümesindeki verilerden faydanarak, kümeye katılacak yeni değerin classını bulmaktır.

* Mevcut verilere göre uzaklığı *euclidean distance* ile hesaplanır. 
> Manhattan Distance ve Minkowski Distance fonksiyonları da uzaklığı hesaplamada kullanılır.

* Euclidean Distance Formul:

![euclidean.png](https://upload.wikimedia.org/wikipedia/commons/thumb/5/55/Euclidean_distance_2d.svg/440px-Euclidean_distance_2d.svg.png)

* Avantajı : Basit ve gürültülü eğitim verilerine karşı dirençli olması

* Dezavantajı : Uzaklık hesabı yaparken bütün durumları sakladığından, büyük veriler için kullanıldığında çok sayıda bellek alanına gereksinim duymaktadır.

### KNN Algoritmasının Adımları

#### 1. K değerini belirle
#### 2. K'a en yakın data noktalarını bul
#### 3. K'a en yakın dataların hangi classtan olduğunu hesapla
#### 4. Test edilen nokta hangi classtan tespit et

<a id="2"></a>
## 2. Load and Read Data

In [None]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import matplotlib.pyplot as plt
# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# You can write up to 5GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

In [None]:
data = pd.read_csv("/kaggle/input/biomechanical-features-of-orthopedic-patients/column_2C_weka.csv")
data.head()

<a id="3"></a>
## 3.Data Visualization

In [None]:
Abnormal = data[data["class"]=="Abnormal"]
Normal = data[data["class"]=="Normal"]

In [None]:
Abnormal.shape

In [None]:
Normal.shape

In [None]:
#Veri görselleştirme

plt.scatter(Abnormal.pelvic_incidence, Abnormal.pelvic_radius,color="red", label="AN")
plt.scatter(Normal.pelvic_incidence, Normal.pelvic_radius, color="green", label="N")
plt.legend()
plt.xlabel("Anormal")
plt.ylabel("Normal")
plt.show()

<a id="4"></a>
## 4. Datayı Kullanabilir Hale Getirme

In [None]:
data["class"] = [1 if each=="Abnormal" else 0 for each in data["class"]]
data.head()

In [None]:
y = data["class"].values
y[205:220]

In [None]:
x_data = data.drop(["class"], axis=1)
x_data.head(3)

<a id="5"></a>
## 5. Normalization

In [None]:
x = (x_data - np.min(x_data)) / (np.max(x_data) - np.min(x_data))
x.head()

<a id="6"></a>
## 6. Train Test Split

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
x_train, x_test, y_train, y_test = train_test_split(x,y, test_size=0.2, random_state=42)

<a id="7"></a>
## 7. KNN Modeli Oluşturma

In [None]:
from sklearn.neighbors import KNeighborsClassifier

In [None]:
knn = KNeighborsClassifier(n_neighbors=3)

In [None]:
knn.fit(x_train,y_train)

In [None]:
prediction = knn.predict(x_test)

In [None]:
print("{} nn score: {}".format(3, knn.score(x_test,y_test)))

<a id="8"></a>
## 8. En Uygun K Değerini Bulma

In [None]:
score_list=[]

for each in range(1,15):
    knn2 = KNeighborsClassifier(n_neighbors=each)
    knn2.fit(x_train,y_train)
    score_list.append(knn2.score(x_test,y_test))

plt.plot(range(1,15), score_list, color="green")
plt.xlabel("k values")
plt.ylabel("accurarcy")
plt.show()