<a href="https://colab.research.google.com/github/thdnjs0730/2024_Deep/blob/main/005_KNN_%EC%88%98%EC%A0%95.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## KNN: K - Nearest Neighbors

### 강의 시간 결과
- **최고**: 0.7
- **최저**: 0.2

### 목표
- **0.9 이상**의 정확도 결과 내기

### 해결 방안

#### 1. 적절한 k 값 찾기

- KNN은 가장 가까운 **k개**의 이웃을 참고
- k의 값이 너무 작거나 클 경우:
  - **과소적합** 또는 **과대적합**의 위험 존재

- **폴드 교차 검증**:
  - 훈련 데이터를 **n개의 폴드**로 나누어 교차 검증 수행 후, 최적의 k값 결정

#### 2. 정규화 및 차원 축소

- 주로 사용하는 정규화 방법:
  - **StandardScaler**: 데이터의 표준화
  - **MinMaxScaler**: 데이터를 정규화
  
- 이번 작업에서는 **MinMaxScaler**를 사용해 정규화 진행

- 차원 축소의 이유
  - **노이즈 제거**: 데이터에서 의미 없는 정보 제거
  - **모델 효율성 향상**: 계산 속도 및 성능 개선

- **PCA**(주성분 분석)를 활용해 차원 축소 진행

#### 3. 다양한 거리 측정 방법 적용

- KNN의 기본 거리 측정 방법은 **유클리드 거리**
- 상황에 따라 **metric** 파라미터를 설정해 다양한 거리 측정 방법 사용 가능:
  - **맨해튼 거리**
  - **민코우스키 거리**
  - **치비셰프 거리**

- 데이터의 특성에 따라 적합한 측정 방법을 선택해 모델 성능 개선

#### 결과

- 여러 방법을 사용해 최종 작성한 코드
  - 두 가지 방법으로 정규화 후, 최적의 방법 선택
  - PCA로 차원 축소
  - 최적의 k 값 찾기
  - 여러 가지 거리 측정 방법 비교

- 여러 방법을 사용해 진행 시, 단점
  - 계산 비용의 증가


#### 강의 시간 결과

In [1]:
# library & data
import numpy as np # 연산 처리
from sklearn import metrics # 평가
import matplotlib.pyplot as plt # 시각화
import pandas as pd # 데이터 조작

In [2]:
# column(feature, attribute...) of dataset
# names = ['sepal-lenght', 'sepal-width', 'petal-length', 'petal-width', 'Class']
dataset = pd.read_csv('/content/dmu_data/iris.csv') # 데이터셋의 열 이름 설정 (, names=names)

X = dataset.iloc[:, :-1].values # 열을 뒤에서 하나를 뺀 값을 가져와 X에 저장, 종속 변수 저장
y = dataset.iloc[:, 4].values  # 열을 앞에서 다섯 번째 값만 가져와서 y에 저장

# 데이터셋 분리
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20)

In [3]:
# 데이터 정규화
from sklearn.preprocessing import StandardScaler
s = StandardScaler()

X_train = s.fit_transform(X_train)

X_train = s.transform(X_train)
X_test = s.transform(X_test)

# KNN 모델 생성 및 훈련
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=50)
knn.fit(X_train, y_train)


In [4]:
# model accuracy
from sklearn.metrics import accuracy_score
y_pred = knn.predict(X_test)
print("정확도: {}".format(accuracy_score(y_test, y_pred)))

정확도: 0.26666666666666666


#### 방법 1. 적절한 k 값 찾기






In [5]:
# library & data
import numpy as np # 연산 처리
from sklearn import metrics # 평가
import matplotlib.pyplot as plt # 시각화
import pandas as pd # 데이터 조작

In [6]:
# column(feature, attribute...) of dataset
# names = ['sepal-lenght', 'sepal-width', 'petal-length', 'petal-width', 'Class']
dataset = pd.read_csv('/content/dmu_data/iris.csv') # 데이터셋의 열 이름 설정 (, names=names)

X = dataset.iloc[:, :-1].values # 열을 뒤에서 하나를 뺀 값을 가져와 X에 저장, 종속 변수 저장
y = dataset.iloc[:, 4].values  # 열을 앞에서 다섯 번째 값만 가져와서 y에 저장

# 데이터셋 분리
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20)

In [7]:
# 데이터 정규화
s = StandardScaler()
x_train = s.fit_transform(X_train)
x_test = s.transform(X_test)

# 교차 검증
from sklearn.model_selection import cross_val_score

k_values = [1, 5, 10, 20, 30, 50, 70]
best_k = 0
best_score = 0

for k in k_values:
    knn = KNeighborsClassifier(n_neighbors=k)
    scores = cross_val_score(knn, x_train, y_train, cv=5) # 다섯 개의 폴드로 나눔
    mean_score = scores.mean()
    print(f"k={k}일 때의 교차 검증 평균 정확도: {mean_score:.4f}")

    # 가장 높은 정확도를 기록한 k 값
    if mean_score > best_score:
        best_score = mean_score
        best_k = k

print(f"최적의 k 값: {best_k}, 교차 검증 정확도: {best_score:.4f}")

k=1일 때의 교차 검증 평균 정확도: 0.9583
k=5일 때의 교차 검증 평균 정확도: 0.9583
k=10일 때의 교차 검증 평균 정확도: 0.9583
k=20일 때의 교차 검증 평균 정확도: 0.9333
k=30일 때의 교차 검증 평균 정확도: 0.9083
k=50일 때의 교차 검증 평균 정확도: 0.8500
k=70일 때의 교차 검증 평균 정확도: 0.4833
최적의 k 값: 1, 교차 검증 정확도: 0.9583


In [8]:
# KNN 모델 생성 및 훈련
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=best_k)
knn.fit(X_train, y_train)

In [9]:
# model accuracy
from sklearn.metrics import accuracy_score
y_pred = knn.predict(X_test)
print("정확도: {}".format(accuracy_score(y_test, y_pred)))


정확도: 1.0


#### 방법 2. 정규화 및 차원 축소

In [10]:
# library & data
import numpy as np # 연산 처리
from sklearn import metrics # 평가
import matplotlib.pyplot as plt # 시각화
import pandas as pd # 데이터 조작

In [11]:
# column(feature, attribute...) of dataset
# names = ['sepal-lenght', 'sepal-width', 'petal-length', 'petal-width', 'Class']
dataset = pd.read_csv('/content/dmu_data/iris.csv') # 데이터셋의 열 이름 설정 (, names=names)

X = dataset.iloc[:, :-1].values # 열을 뒤에서 하나를 뺀 값을 가져와 X에 저장, 종속 변수 저장
y = dataset.iloc[:, 4].values  # 열을 앞에서 다섯 번째 값만 가져와서 y에 저장

# 데이터셋 분리
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20)

In [12]:
# MinMaxScaler를 사용한 정규화
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# PCA를 사용한 차원 축소
from sklearn.decomposition import PCA
pca = PCA(n_components=2)  # 차원을 2로 축소
X_train = pca.fit_transform(X_train)
X_test = pca.transform(X_test)

In [13]:
# KNN 모델 생성 및 훈련
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=10)
knn.fit(X_train, y_train)

In [14]:
# 테스트 세트에서 예측 및 정확도 계산
from sklearn.metrics import accuracy_score
y_pred = knn.predict(X_test)
print("정확도: {}".format(accuracy_score(y_test, y_pred)))

정확도: 1.0


#### 방법 3. 다양한 거리 측정 방법 적용

In [15]:
# library & data
import numpy as np # 연산 처리
from sklearn import metrics # 평가
import matplotlib.pyplot as plt # 시각화
import pandas as pd # 데이터 조작

In [16]:
# column(feature, attribute...) of dataset
# names = ['sepal-lenght', 'sepal-width', 'petal-length', 'petal-width', 'Class']
dataset = pd.read_csv('/content/dmu_data/iris.csv') # 데이터셋의 열 이름 설정 (, names=names)

X = dataset.iloc[:, :-1].values # 열을 뒤에서 하나를 뺀 값을 가져와 X에 저장, 종속 변수 저장
y = dataset.iloc[:, 4].values  # 열을 앞에서 다섯 번째 값만 가져와서 y에 저장

# 데이터셋 분리
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20)

In [17]:
# 데이터 정규화
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [18]:
# KNN 모델 생성 및 훈련
from sklearn.neighbors import KNeighborsClassifier

# 유클리드 거리 (기본)
knn_euclidean = KNeighborsClassifier(n_neighbors=10, metric='euclidean')
knn_euclidean.fit(X_train, y_train)

# 맨해튼 거리
knn_manhattan = KNeighborsClassifier(n_neighbors=10, metric='manhattan')
knn_manhattan.fit(X_train, y_train)

# 민코우스키 거리 (p=3)
knn_minkowski = KNeighborsClassifier(n_neighbors=10, metric='minkowski', p=3)
knn_minkowski.fit(X_train, y_train)

# 치비셰프 거리
knn_chebyshev = KNeighborsClassifier(n_neighbors=10, metric='chebyshev')
knn_chebyshev.fit(X_train, y_train)


In [19]:
# 각 거리 측정 방법에 대해 예측 및 정확도 계산
from sklearn.metrics import accuracy_score

# 유클리드 거리 결과
y_pred_euclidean = knn_euclidean.predict(X_test)
euclidean_accuracy = accuracy_score(y_test, y_pred_euclidean)
print("유클리드 거리 정확도: {}".format(euclidean_accuracy))

# 맨해튼 거리 결과
y_pred_manhattan = knn_manhattan.predict(X_test)
manhattan_accuracy = accuracy_score(y_test, y_pred_manhattan)
print("맨해튼 거리 정확도: {}".format(manhattan_accuracy))

# 민코우스키 거리 결과 (p=3)
y_pred_minkowski = knn_minkowski.predict(X_test)
minkowski_accuracy = accuracy_score(y_test, y_pred_minkowski)
print("민코우스키 거리 (p=3) 정확도: {}".format(minkowski_accuracy))

# 치비셰프 거리 결과
y_pred_chebyshev = knn_chebyshev.predict(X_test)
chebyshev_accuracy = accuracy_score(y_test, y_pred_chebyshev)
print("치비셰프 거리 정확도: {}".format(chebyshev_accuracy))

유클리드 거리 정확도: 1.0
맨해튼 거리 정확도: 1.0
민코우스키 거리 (p=3) 정확도: 1.0
치비셰프 거리 정확도: 1.0


#### 결과


In [20]:
# library & data
import numpy as np # 연산 처리
from sklearn import metrics # 평가
import matplotlib.pyplot as plt # 시각화
import pandas as pd # 데이터 조작

In [21]:
# column(feature, attribute...) of dataset
# names = ['sepal-lenght', 'sepal-width', 'petal-length', 'petal-width', 'Class']
dataset = pd.read_csv('/content/dmu_data/iris.csv') # 데이터셋의 열 이름 설정 (, names=names)

X = dataset.iloc[:, :-1].values # 열을 뒤에서 하나를 뺀 값을 가져와 X에 저장, 종속 변수 저장
y = dataset.iloc[:, 4].values  # 열을 앞에서 다섯 번째 값만 가져와서 y에 저장

# 데이터셋 분리
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20)

In [22]:
# 데이터 정규화

# StandardScaler 적용
from sklearn.preprocessing import StandardScaler
scaler_standard = StandardScaler()
X_train_standard = scaler_standard.fit_transform(X_train)
X_test_standard = scaler_standard.transform(X_test)

# MinMaxScaler 적용
from sklearn.preprocessing import MinMaxScaler
scaler_minmax = MinMaxScaler()
X_train_minmax = scaler_minmax.fit_transform(X_train)
X_test_minmax = scaler_minmax.transform(X_test)

In [23]:
# 차원 축소
from sklearn.decomposition import PCA
pca = PCA(n_components=2)
X_train_standard_pca = pca.fit_transform(X_train_standard)
X_test_standard_pca = pca.transform(X_test_standard)

X_train_minmax_pca = pca.fit_transform(X_train_minmax)
X_test_minmax_pca = pca.transform(X_test_minmax)

In [24]:
# KNN 모델 생성 및 훈련
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import cross_val_score

# 교차 검증으로 최적의 k 값 찾기
k_values = [1, 5, 10, 20, 30]

# StandardScaler에 대해 교차 검증
best_k_standard = 0
best_score_standard = 0
for k in k_values:
    knn = KNeighborsClassifier(n_neighbors=k)
    scores = cross_val_score(knn, X_train_standard_pca, y_train, cv=5)
    mean_score = scores.mean()

    if mean_score > best_score_standard:
        best_score_standard = mean_score
        best_k_standard = k

print(f"StandardScaler 최적의 k 값: {best_k_standard}, 교차 검증 정확도: {best_score_standard:.4f}")

# MinMaxScaler에 대해 교차 검증
best_k_minmax = 0
best_score_minmax = 0
for k in k_values:
    knn = KNeighborsClassifier(n_neighbors=k)
    scores = cross_val_score(knn, X_train_minmax_pca, y_train, cv=5)
    mean_score = scores.mean()

    if mean_score > best_score_minmax:
        best_score_minmax = mean_score
        best_k_minmax = k

print(f"MinMaxScaler 최적의 k 값: {best_k_minmax}, 교차 검증 정확도: {best_score_minmax:.4f}")


StandardScaler 최적의 k 값: 5, 교차 검증 정확도: 0.9250
MinMaxScaler 최적의 k 값: 20, 교차 검증 정확도: 0.9500


In [25]:
# 최적의 정규화 방법 선택 및 최종 모델 훈련
from sklearn.metrics import accuracy_score

if best_score_standard > best_score_minmax:
    print("StandardScaler가 더 좋은 성능")
    knn_final = KNeighborsClassifier(n_neighbors=best_k_standard)
    knn_final.fit(X_train_standard_pca, y_train)
    X_test_final = X_test_standard_pca
else:
    print("MinMaxScaler가 더 좋은 성능")
    knn_final = KNeighborsClassifier(n_neighbors=best_k_minmax)
    knn_final.fit(X_train_minmax_pca, y_train)
    X_test_final = X_test_minmax_pca


MinMaxScaler가 더 좋은 성능


In [26]:
# 최종 테스트 데이터에서 성능 평가
y_pred = knn_final.predict(X_test_final)
final_accuracy = accuracy_score(y_test, y_pred)
print(f"최종 테스트 데이터에서의 정확도: {final_accuracy:.4f}")

최종 테스트 데이터에서의 정확도: 0.9333
