In [27]:
# KNN 분류 코드 (Iris 데이터셋 사용)

In [28]:
# install
!pip install scikit-learn



In [29]:
# import
from sklearn.datasets import load_iris
from collections import Counter
import math

In [30]:
# 데이터 불러와서 분포 확인: 비율 차이가 클 경우 데이터 추가 수집 필요
iris = load_iris()

print("Iris dataset keys:", iris.keys())

X = iris.data
y = iris.target
names = iris.target_names

label_names = Counter(y)
print("<<라벨 분포>>")
for label, count in label_names.items():
    print(f"{names[label]}: {count}개")

total = sum(label_names.values())
print("<<라벨 비율>>")
for label, count in label_names.items():
    print(f"{names[label]}: {count/total:.2f}")

# 테스트 데이터로 학습 데이터 앞쪽의 10개 사용
X_train = X[10:]
y_train = y[10:]
test = X[:10]

Iris dataset keys: dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])
<<라벨 분포>>
setosa: 50개
versicolor: 50개
virginica: 50개
<<라벨 비율>>
setosa: 0.33
versicolor: 0.33
virginica: 0.33


In [31]:
# k값 지정
k = 5

In [32]:
# 유클리드 거리 계산 함수
def euclidean_distance(point1, point2):
  distance = 0
  for i in range(len(point1)):
    distance += (point1[i] - point2[i])**2
  return math.sqrt(distance)

In [33]:
# 각 학습 데이터와의 거리 계산
predictions = []

for sample in test:
  distances = []
  for i in range(len(X_train)):
    d = euclidean_distance(sample, X_train[i])
    distances.append((d, y_train[i]))

  # 거리 기준 정렬 (가까운 것부터 먼 순으로)
  distances.sort(key=lambda x: x[0])

  # 거리 기반으로 k개의 가까운 이웃 선택
  neighbors = distances[:k]

  # 가장 많이 나온 라벨 확인
  label_count = {}
  for d, label in neighbors:
      if label not in label_count:
          label_count[label] = 0
      label_count[label] += 1

  # 가장 많이 나온 라벨 선택
  predicted_label = max(label_count, key=label_count.get)
  predictions.append(predicted_label)

In [34]:
print("예측 결과:", [str(names[label]) for label in predictions])
print("실제 라벨:", [str(names[label]) for label in y_train[:len(test)]])

예측 결과: ['setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa']
실제 라벨: ['setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa']
