In [11]:
import tensorflow as tf
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
import numpy as np
import pandas as pd
import time

# 1. CIFAR-10 데이터셋 로드
print("CIFAR-10 데이터셋을 로드하는 중입니다...")
(X_train_orig, y_train_orig), (X_test_orig, y_test_orig) = tf.keras.datasets.cifar10.load_data()
print("데이터셋 로드 완료.")

# 클래스 이름 정의
class_names = ['airplane', 'automobile', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck']

# 2. 데이터 전처리 및 축소
# k-NN은 계산량이 많으므로, 전체 데이터셋 대신 일부 샘플을 사용하여 시연합니다.
# (실제 과제에서는 아래 주석을 풀고 전체 데이터로 학습할 수 있습니다)
num_train_samples = 5000  # 학습용 데이터 개수 (최대 50000)
num_test_samples = 1000   # 테스트용 데이터 개수 (최대 10000)

X_train = X_train_orig[:num_train_samples]
y_train = y_train_orig[:num_train_samples]
X_test = X_test_orig[:num_test_samples]

# 이미지를 1차원 벡터로 변환 (32x32x3 -> 3072)
X_train_flattened = X_train.reshape(X_train.shape[0], -1)
X_test_flattened = X_test.reshape(X_test.shape[0], -1)

# 픽셀 값을 0과 1 사이로 정규화
X_train_normalized = X_train_flattened / 255.0
X_test_normalized = X_test_flattened / 255.0

# 레이블을 1차원 배열로 변환
y_train_flattened = y_train.ravel()

print(f"학습 데이터 형태: {X_train_normalized.shape}")
print(f"테스트 데이터 형태: {X_test_normalized.shape}")

# 3. k-NN 모델 생성 및 학습
# 이웃의 수(k)를 7로 설정합니다. k는 성능에 영향을 미치는 중요한 파라미터입니다.
k = 7
knn_classifier = KNeighborsClassifier(n_neighbors=k, n_jobs=-1) # n_jobs=-1은 모든 CPU 코어를 사용합니다.

print(f"k={k}인 k-NN 모델 학습을 시작합니다. (시간이 다소 소요될 수 있습니다)")
start_time = time.time()
knn_classifier.fit(X_train_normalized, y_train_flattened)
end_time = time.time()
print(f"학습 완료! 소요 시간: {end_time - start_time:.2f}초")


# 4. 테스트 데이터에 대한 예측 수행
print("테스트 데이터에 대한 예측을 시작합니다...")
start_time = time.time()
y_pred = knn_classifier.predict(X_test_normalized)
end_time = time.time()
print(f"예측 완료! 소요 시간: {end_time - start_time:.2f}초")


# (선택) 모델 정확도 평가
# 실제 레이블(y_test_orig)이 있다면 정확도를 계산할 수 있습니다.
accuracy = accuracy_score(y_test_orig[:num_test_samples], y_pred)
print(f"모델 정확도: {accuracy * 100:.2f}%")


# 5. 예측 결과를 CSV 파일로 저장
print("예측 결과를 CSV 파일로 저장하는 중입니다...")
# 예측된 숫자 레이블을 실제 클래스 이름으로 변환
predicted_labels = [class_names[i] for i in y_pred]

# id는 1부터 시작하도록 생성
ids = np.arange(1, len(predicted_labels) + 1)

# Pandas DataFrame 생성
results_df = pd.DataFrame({
    'id': ids,
    'label': predicted_labels
})

# CSV 파일로 저장
output_filename = 'cifar10_predictions.csv'
results_df.to_csv(output_filename, index=False)

print(f"'{output_filename}' 파일로 결과가 성공적으로 저장되었습니다.")
print("\n=== 미리보기 ===")
print(results_df.head())

CIFAR-10 데이터셋을 로드하는 중입니다...
Downloading data from https://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz
[1m170498071/170498071[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m17s[0m 0us/step
데이터셋 로드 완료.
학습 데이터 형태: (5000, 3072)
테스트 데이터 형태: (1000, 3072)
k=7인 k-NN 모델 학습을 시작합니다. (시간이 다소 소요될 수 있습니다)
학습 완료! 소요 시간: 0.02초
테스트 데이터에 대한 예측을 시작합니다...
예측 완료! 소요 시간: 0.25초
모델 정확도: 27.40%
예측 결과를 CSV 파일로 저장하는 중입니다...
'cifar10_predictions.csv' 파일로 결과가 성공적으로 저장되었습니다.

=== 미리보기 ===
   id label
0   1  deer
1   2  ship
2   3  ship
3   4  ship
4   5  deer


In [13]:
import tensorflow as tf
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import numpy as np
import pandas as pd
import time

# 1. CIFAR-10 전체 데이터셋 로드
print("CIFAR-10 전체 데이터셋을 로드하는 중입니다...")
(X_train_orig, y_train_orig), (X_test_orig, y_test_orig) = tf.keras.datasets.cifar10.load_data()
print("데이터셋 로드 완료.")
print("-" * 30)

# 클래스 이름 정의
class_names = ['airplane', 'automobile', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck']

# 2. 데이터 전처리
print("데이터 전처리를 시작합니다...")
# 학습 및 테스트 이미지를 1차원 벡터로 변환
X_train_flattened = X_train_orig.reshape(X_train_orig.shape[0], -1)
X_test_flattened = X_test_orig.reshape(X_test_orig.shape[0], -1)

# 픽셀 값을 0과 1 사이로 정규화
X_train_normalized = X_train_flattened / 255.0
X_test_normalized = X_test_flattened / 255.0

# 레이블을 1차원 배열로 변환
y_train_flattened = y_train_orig.ravel()

print(f"전체 학습 데이터 형태: {X_train_normalized.shape}")
print(f"전체 테스트 데이터 형태: {X_test_normalized.shape}")
print("데이터 전처리 완료.")
print("-" * 30)


# 3. 최적의 k를 찾기 위한 검증 과정
print("최적의 k를 찾기 위해 검증을 시작합니다...")
# 학습 데이터를 다시 학습용과 검증용으로 분할 (예: 90% 학습, 10% 검증)
X_train_split, X_val_split, y_train_split, y_val_split = train_test_split(
    X_train_normalized, y_train_flattened, test_size=0.1, random_state=42
)

best_k = 0
best_accuracy = 0
k_values = range(1, 14) # k를 1부터 13까지 테스트

for k in k_values:
    print(f"k = {k} 모델 테스트 중...")
    knn_temp = KNeighborsClassifier(n_neighbors=k, n_jobs=-1)
    
    # 학습
    knn_temp.fit(X_train_split, y_train_split)
    
    # 검증 데이터로 예측 및 평가
    y_val_pred = knn_temp.predict(X_val_split)
    accuracy = accuracy_score(y_val_split, y_val_pred)
    print(f"k = {k}일 때의 검증 정확도: {accuracy * 100:.2f}%")
    
    if accuracy > best_accuracy:
        best_accuracy = accuracy
        best_k = k

print("-" * 30)
print(f"최적의 k를 찾았습니다: k = {best_k} (검증 정확도: {best_accuracy * 100:.2f}%)")
print("-" * 30)


# 4. 전체 학습 데이터로 최종 모델 학습
print(f"최적의 k={best_k}를 사용하여 전체 학습 데이터(50,000개)로 최종 모델을 학습합니다.")
print("(시간이 매우 오래 걸릴 수 있습니다. 컴퓨터 성능에 따라 수십 분 이상 소요될 수 있습니다.)")

final_knn_classifier = KNeighborsClassifier(n_neighbors=best_k, n_jobs=-1)

start_time = time.time()
final_knn_classifier.fit(X_train_normalized, y_train_flattened)
end_time = time.time()

print(f"최종 모델 학습 완료! 소요 시간: {end_time - start_time:.2f}초")
print("-" * 30)


# 5. 테스트 데이터에 대한 최종 예측 수행
print("테스트 데이터(10,000개)에 대한 예측을 시작합니다...")
print("(이 과정 역시 시간이 매우 오래 걸립니다.)")

start_time = time.time()
final_predictions_numeric = final_knn_classifier.predict(X_test_normalized)
end_time = time.time()

print(f"최종 예측 완료! 소요 시간: {end_time - start_time:.2f}초")
print("-" * 30)


# 6. 예측 결과를 CSV 파일로 저장
print("예측 결과를 CSV 파일로 저장합니다...")
predicted_labels = [class_names[i] for i in final_predictions_numeric]
ids = np.arange(1, len(predicted_labels) + 1)

results_df = pd.DataFrame({
    'id': ids,
    'label': predicted_labels
})

output_filename = 'cifar10_predictions_final.csv'
results_df.to_csv(output_filename, index=False)

print(f"'{output_filename}' 파일로 결과가 성공적으로 저장되었습니다.")
print("\n=== 최종 결과 미리보기 ===")
print(results_df.head())

CIFAR-10 전체 데이터셋을 로드하는 중입니다...
데이터셋 로드 완료.
------------------------------
데이터 전처리를 시작합니다...
전체 학습 데이터 형태: (50000, 3072)
전체 테스트 데이터 형태: (10000, 3072)
데이터 전처리 완료.
------------------------------
최적의 k를 찾기 위해 검증을 시작합니다...
k = 1 모델 테스트 중...
k = 1일 때의 검증 정확도: 33.66%
k = 2 모델 테스트 중...
k = 2일 때의 검증 정확도: 30.52%
k = 3 모델 테스트 중...
k = 3일 때의 검증 정확도: 32.16%
k = 4 모델 테스트 중...
k = 4일 때의 검증 정확도: 33.78%
k = 5 모델 테스트 중...
k = 5일 때의 검증 정확도: 34.16%
k = 6 모델 테스트 중...
k = 6일 때의 검증 정확도: 33.48%
k = 7 모델 테스트 중...
k = 7일 때의 검증 정확도: 33.56%
k = 8 모델 테스트 중...
k = 8일 때의 검증 정확도: 33.32%
k = 9 모델 테스트 중...
k = 9일 때의 검증 정확도: 33.16%
k = 10 모델 테스트 중...
k = 10일 때의 검증 정확도: 32.98%
k = 11 모델 테스트 중...
k = 11일 때의 검증 정확도: 32.62%
k = 12 모델 테스트 중...
k = 12일 때의 검증 정확도: 32.52%
k = 13 모델 테스트 중...
k = 13일 때의 검증 정확도: 32.44%
------------------------------
최적의 k를 찾았습니다: k = 5 (검증 정확도: 34.16%)
------------------------------
최적의 k=5를 사용하여 전체 학습 데이터(50,000개)로 최종 모델을 학습합니다.
(시간이 매우 오래 걸릴 수 있습니다. 컴퓨터 성능에 따라 수십 분 이상 소요될 수 있습니다.)
최종 모델 학습 완료! 소

In [15]:
import tensorflow as tf
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.decomposition import PCA
import numpy as np
import pandas as pd
import time

# 1. CIFAR-10 전체 데이터셋 로드
print("CIFAR-10 전체 데이터셋을 로드하는 중입니다...")
(X_train_orig, y_train_orig), (X_test_orig, y_test_orig) = tf.keras.datasets.cifar10.load_data()
print("데이터셋 로드 완료.")
print("-" * 30)

# 클래스 이름 정의
class_names = ['airplane', 'automobile', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck']

# 2. 데이터 전처리
print("데이터 전처리를 시작합니다...")
# 학습 및 테스트 이미지를 1차원 벡터로 변환
X_train_flattened = X_train_orig.reshape(X_train_orig.shape[0], -1)
X_test_flattened = X_test_orig.reshape(X_test_orig.shape[0], -1)

# 픽셀 값을 0과 1 사이로 정규화
X_train_normalized = X_train_flattened / 255.0
X_test_normalized = X_test_flattened / 255.0

# 레이블을 1차원 배열로 변환
y_train_flattened = y_train_orig.ravel()
print("데이터 전처리 완료.")
print("-" * 30)

# 3. PCA를 이용한 특징 추출 및 차원 축소
print("PCA를 이용한 특징 추출을 시작합니다...")
# n_components는 줄이고자 하는 차원의 수입니다. 150은 경험적으로 좋은 성능을 내는 값 중 하나입니다.
pca = PCA(n_components=150)

# ★ 중요: PCA는 반드시 학습 데이터에만 fit 해야 합니다.
start_time = time.time()
pca.fit(X_train_normalized)

# 학습 데이터와 테스트 데이터를 변환
X_train_pca = pca.transform(X_train_normalized)
X_test_pca = pca.transform(X_test_normalized)
end_time = time.time()

print(f"PCA 변환 완료! (소요 시간: {end_time - start_time:.2f}초)")
print(f"원본 차원: {X_train_normalized.shape[1]}, 축소된 차원: {X_train_pca.shape[1]}")
print("-" * 30)


# 4. 최적의 k를 찾기 위한 검증 과정 (홀수 k만 사용)
print("최적의 k를 찾기 위해 검증을 시작합니다 (홀수 k만 테스트)...")
X_train_split, X_val_split, y_train_split, y_val_split = train_test_split(
    X_train_pca, y_train_flattened, test_size=0.1, random_state=42
)

best_k = 0
best_accuracy = 0
k_values = range(1, 14, 2)  # 1, 3, 5, 7, 9, 11, 13

for k in k_values:
    print(f"k = {k} 모델 테스트 중...")
    knn_temp = KNeighborsClassifier(n_neighbors=k, n_jobs=-1)
    
    start_time = time.time()
    knn_temp.fit(X_train_split, y_train_split)
    y_val_pred = knn_temp.predict(X_val_split)
    accuracy = accuracy_score(y_val_split, y_val_pred)
    end_time = time.time()
    
    print(f"k = {k}일 때의 검증 정확도: {accuracy * 100:.2f}% (소요 시간: {end_time - start_time:.2f}초)")
    
    if accuracy > best_accuracy:
        best_accuracy = accuracy
        best_k = k

print("-" * 30)
print(f"최적의 k를 찾았습니다: k = {best_k} (검증 정확도: {best_accuracy * 100:.2f}%)")
print("-" * 30)


# 5. 전체 학습 데이터로 최종 모델 학습
print(f"최적의 k={best_k}를 사용하여 전체 PCA 변환 데이터로 최종 모델을 학습합니다.")
final_knn_classifier = KNeighborsClassifier(n_neighbors=best_k, n_jobs=-1)

start_time = time.time()
final_knn_classifier.fit(X_train_pca, y_train_flattened)
end_time = time.time()

print(f"최종 모델 학습 완료! (소요 시간: {end_time - start_time:.2f}초)")
print("-" * 30)


# 6. 테스트 데이터에 대한 최종 예측 수행
print("PCA 변환된 테스트 데이터에 대한 최종 예측을 시작합니다...")
start_time = time.time()
final_predictions_numeric = final_knn_classifier.predict(X_test_pca)
end_time = time.time()
print(f"최종 예측 완료! (소요 시간: {end_time - start_time:.2f}초)")
print("-" * 30)

# (선택) 실제 테스트 데이터셋에 대한 정확도 평가
final_accuracy = accuracy_score(y_test_orig.ravel(), final_predictions_numeric)
print(f"최종 모델의 테스트 정확도: {final_accuracy * 100:.2f}%")
print("-" * 30)

# 7. 예측 결과를 CSV 파일로 저장
print("예측 결과를 CSV 파일로 저장합니다...")
predicted_labels = [class_names[i] for i in final_predictions_numeric]
ids = np.arange(1, len(predicted_labels) + 1)

results_df = pd.DataFrame({
    'id': ids,
    'label': predicted_labels
})

output_filename = 'cifar10_predictions_pca_knn.csv'
results_df.to_csv(output_filename, index=False)

print(f"'{output_filename}' 파일로 결과가 성공적으로 저장되었습니다.")
print("\n=== 최종 결과 미리보기 ===")
print(results_df.head())

CIFAR-10 전체 데이터셋을 로드하는 중입니다...
데이터셋 로드 완료.
------------------------------
데이터 전처리를 시작합니다...
데이터 전처리 완료.
------------------------------
PCA를 이용한 특징 추출을 시작합니다...
PCA 변환 완료! (소요 시간: 11.38초)
원본 차원: 3072, 축소된 차원: 150
------------------------------
최적의 k를 찾기 위해 검증을 시작합니다 (홀수 k만 테스트)...
k = 1 모델 테스트 중...
k = 1일 때의 검증 정확도: 36.74% (소요 시간: 0.58초)
k = 3 모델 테스트 중...
k = 3일 때의 검증 정확도: 35.82% (소요 시간: 0.55초)
k = 5 모델 테스트 중...
k = 5일 때의 검증 정확도: 36.66% (소요 시간: 0.46초)
k = 7 모델 테스트 중...
k = 7일 때의 검증 정확도: 36.52% (소요 시간: 0.45초)
k = 9 모델 테스트 중...
k = 9일 때의 검증 정확도: 36.48% (소요 시간: 0.47초)
k = 11 모델 테스트 중...
k = 11일 때의 검증 정확도: 36.28% (소요 시간: 0.47초)
k = 13 모델 테스트 중...
k = 13일 때의 검증 정확도: 35.98% (소요 시간: 0.48초)
------------------------------
최적의 k를 찾았습니다: k = 1 (검증 정확도: 36.74%)
------------------------------
최적의 k=1를 사용하여 전체 PCA 변환 데이터로 최종 모델을 학습합니다.
최종 모델 학습 완료! (소요 시간: 0.00초)
------------------------------
PCA 변환된 테스트 데이터에 대한 최종 예측을 시작합니다...
최종 예측 완료! (소요 시간: 0.93초)
------------------------------
최종 모델의 테스트 정확도: 

In [17]:
import os
import time
import numpy as np
import pandas as pd
from PIL import Image
from sklearn.model_selection import train_test_split
from sklearn.decomposition import PCA
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# --- 1. 경로 설정 ---
# 사용자께서 제공해주신 경로를 설정합니다.
TRAIN_DATA_PATH = '/Users/younghohuh/Downloads/cifar-10/train'
TEST_DATA_PATH = '/Users/younghohuh/Downloads/cifar-10/test'
LABEL_CSV_PATH = '/Users/younghohuh/Downloads/cifar-10/trainLabels.csv'  # Notebook과 같은 폴더에 있다고 가정
OUTPUT_CSV_PATH = 'cifar10_predictions_final.csv'

# 클래스 이름 정의 (CIFAR-10 표준 순서)
class_names = ['airplane', 'automobile', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck']
label_to_id = {label: i for i, label in enumerate(class_names)}
id_to_label = {i: label for i, label in enumerate(class_names)}

# --- 2. 이미지 데이터 로드 함수 ---
def load_images_from_folder(folder_path, file_list):
    """지정된 폴더에서 이미지 파일들을 순서대로 로드하여 NumPy 배열로 반환"""
    images = []
    print(f"'{folder_path}'에서 이미지 로딩 시작...")
    
    for i, filename in enumerate(file_list):
        if (i + 1) % 5000 == 0:
            print(f"{i + 1} / {len(file_list)} 개 이미지 로드 완료...")
            
        img_path = os.path.join(folder_path, filename)
        with Image.open(img_path) as img:
            # 이미지를 NumPy 배열로 변환하고 1차원으로 펼침 (32x32x3 -> 3072)
            images.append(np.array(img).flatten())
            
    print("이미지 로딩 완료.")
    return np.array(images)

# --- 3. 데이터 로드 및 전처리 ---
print("학습 데이터 로드를 시작합니다.")
# 레이블 파일 로드
try:
    labels_df = pd.read_csv(LABEL_CSV_PATH)
except FileNotFoundError:
    print(f"'{LABEL_CSV_PATH}' 파일을 찾을 수 없습니다. 경로를 확인해주세요.")
    # 이 경우 실행을 중단합니다.
    exit()

# 파일 이름 순서가 id 순서와 일치하도록 정렬
train_filenames = sorted(os.listdir(TRAIN_DATA_PATH), key=lambda x: int(x.split('.')[0]))
test_filenames = sorted(os.listdir(TEST_DATA_PATH), key=lambda x: int(x.split('.')[0]))

# 학습 이미지와 레이블 로드
X_train_raw = load_images_from_folder(TRAIN_DATA_PATH, train_filenames)
# CSV 파일의 레이블을 숫자 ID로 변환
y_train_labels = labels_df['label'].map(label_to_id).values

# 테스트 이미지 로드
X_test_raw = load_images_from_folder(TEST_DATA_PATH, test_filenames)

print("-" * 30)
print("데이터 정규화를 진행합니다...")
# 픽셀 값을 0과 1 사이로 정규화
X_train_normalized = X_train_raw / 255.0
X_test_normalized = X_test_raw / 255.0
print(f"학습 데이터 형태: {X_train_normalized.shape}")
print(f"테스트 데이터 형태: {X_test_normalized.shape}")
print("-" * 30)

# --- 4. PCA를 이용한 특징 추출 ---
print("PCA 특징 추출을 시작합니다... (시간이 소요될 수 있습니다)")
pca = PCA(n_components=150)

start_time = time.time()
# 중요: PCA는 반드시 학습 데이터에만 fit 해야 합니다.
pca.fit(X_train_normalized)
X_train_pca = pca.transform(X_train_normalized)
X_test_pca = pca.transform(X_test_normalized)
end_time = time.time()

print(f"PCA 변환 완료! (소요 시간: {end_time - start_time:.2f}초)")
print(f"축소된 학습 데이터 형태: {X_train_pca.shape}")
print(f"축소된 테스트 데이터 형태: {X_test_pca.shape}")
print("-" * 30)

# --- 5. 최적의 k 찾기 (홀수 k만 사용) ---
print("최적의 k를 찾기 위해 검증을 시작합니다...")
X_train_split, X_val_split, y_train_split, y_val_split = train_test_split(
    X_train_pca, y_train_labels, test_size=0.1, random_state=42, stratify=y_train_labels
)

best_k = 0
best_accuracy = 0
k_values = range(1, 14, 2)  # 1, 3, 5, ..., 13

for k in k_values:
    print(f"k = {k} 모델 테스트 중...")
    knn_temp = KNeighborsClassifier(n_neighbors=k, n_jobs=-1)
    
    knn_temp.fit(X_train_split, y_train_split)
    y_val_pred = knn_temp.predict(X_val_split)
    accuracy = accuracy_score(y_val_split, y_val_pred)
    
    print(f"-> k = {k}일 때의 검증 정확도: {accuracy * 100:.2f}%")
    
    if accuracy > best_accuracy:
        best_accuracy = accuracy
        best_k = k

print("-" * 30)
print(f"최적의 k를 찾았습니다: k = {best_k} (검증 정확도: {best_accuracy * 100:.2f}%)")
print("-" * 30)

# --- 6. 전체 데이터로 최종 모델 학습 및 예측 ---
print(f"최적의 k={best_k}를 사용하여 전체 데이터로 최종 모델을 학습 및 예측합니다.")
print("이 과정은 매우 오래 걸릴 수 있으니 잠시 기다려주세요...")

final_knn_classifier = KNeighborsClassifier(n_neighbors=best_k, n_jobs=-1)

# 전체 학습 데이터로 다시 학습
final_knn_classifier.fit(X_train_pca, y_train_labels)

# 테스트 데이터로 예측
final_predictions_numeric = final_knn_classifier.predict(X_test_pca)

print("최종 예측 완료!")
print("-" * 30)

# --- 7. 결과 CSV 파일로 저장 ---
print("예측 결과를 CSV 파일로 저장합니다...")
# 테스트 파일의 id(이름에서 확장자 제외)를 추출
test_ids = [int(fn.split('.')[0]) for fn in test_filenames]
# 숫자 레이블을 다시 클래스 이름으로 변환
predicted_class_names = [id_to_label[i] for i in final_predictions_numeric]

# 최종 결과 DataFrame 생성
final_df = pd.DataFrame({
    'id': test_ids,
    'label': predicted_class_names
})

# id 순서로 정렬 후 저장
final_df.sort_values(by='id', inplace=True)
final_df.to_csv(OUTPUT_CSV_PATH, index=False)

print(f"'{OUTPUT_CSV_PATH}' 파일로 결과가 성공적으로 저장되었습니다.")
print("\n=== 최종 결과 미리보기 ===")
print(final_df.head())

학습 데이터 로드를 시작합니다.
'/Users/younghohuh/Downloads/cifar-10/train'에서 이미지 로딩 시작...
5000 / 50000 개 이미지 로드 완료...
10000 / 50000 개 이미지 로드 완료...
15000 / 50000 개 이미지 로드 완료...
20000 / 50000 개 이미지 로드 완료...
25000 / 50000 개 이미지 로드 완료...
30000 / 50000 개 이미지 로드 완료...
35000 / 50000 개 이미지 로드 완료...
40000 / 50000 개 이미지 로드 완료...
45000 / 50000 개 이미지 로드 완료...
50000 / 50000 개 이미지 로드 완료...
이미지 로딩 완료.
'/Users/younghohuh/Downloads/cifar-10/test'에서 이미지 로딩 시작...
5000 / 300000 개 이미지 로드 완료...
10000 / 300000 개 이미지 로드 완료...
15000 / 300000 개 이미지 로드 완료...
20000 / 300000 개 이미지 로드 완료...
25000 / 300000 개 이미지 로드 완료...
30000 / 300000 개 이미지 로드 완료...
35000 / 300000 개 이미지 로드 완료...
40000 / 300000 개 이미지 로드 완료...
45000 / 300000 개 이미지 로드 완료...
50000 / 300000 개 이미지 로드 완료...
55000 / 300000 개 이미지 로드 완료...
60000 / 300000 개 이미지 로드 완료...
65000 / 300000 개 이미지 로드 완료...
70000 / 300000 개 이미지 로드 완료...
75000 / 300000 개 이미지 로드 완료...
80000 / 300000 개 이미지 로드 완료...
85000 / 300000 개 이미지 로드 완료...
90000 / 300000 개 이미지 로드 완료...
95000 / 300000 개 이미지 로드 

In [1]:
import os
import time
import numpy as np
import pandas as pd
from PIL import Image
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# --- 1. 경로 및 설정 ---
TRAIN_DATA_PATH = '/Users/younghohuh/Downloads/cifar-10/train'
TEST_DATA_PATH = '/Users/younghohuh/Downloads/cifar-10/test'
LABEL_CSV_PATH = '/Users/younghohuh/Downloads/cifar-10/trainLabels.csv'
OUTPUT_CSV_PATH = 'cifar10_predictions_1000_test.csv'

NUM_TEST_SAMPLES = 1000  # 테스트할 이미지 개수

# 클래스 이름 및 레이블 매핑 정의
class_names = ['airplane', 'automobile', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck']
label_to_id = {label: i for i, label in enumerate(class_names)}
id_to_label = {i: label for i, label in enumerate(class_names)}

# --- 2. 이미지 데이터 로드 함수 ---
def load_images_from_folder(folder_path, file_list):
    """지정된 폴더에서 이미지 파일들을 순서대로 로드하여 NumPy 배열로 반환"""
    images = []
    total_files = len(file_list)
    folder_name = os.path.basename(folder_path)
    print(f"'{folder_name}' 폴더에서 총 {total_files}개의 이미지 로드를 시작합니다...")
    
    for i, filename in enumerate(file_list):
        if (i + 1) % 1000 == 0:
            print(f"... {i + 1} / {total_files} 개 로드 완료")
            
        img_path = os.path.join(folder_path, filename)
        with Image.open(img_path) as img:
            images.append(np.array(img).flatten())
            
    print(f"'{folder_name}' 폴더 이미지 로딩 완료.")
    return np.array(images)

# --- 3. 데이터 로드 및 분할 ---
print("### 1. 데이터 로드 및 분할 ###")
try:
    labels_df = pd.read_csv(LABEL_CSV_PATH)
except FileNotFoundError:
    print(f"오류: '{LABEL_CSV_PATH}' 파일을 찾을 수 없습니다.")
    print("Jupyter Notebook과 같은 폴더에 해당 파일이 있는지 확인해주세요.")
    exit()

# 전체 학습 파일 목록 (50,000개)
train_filenames = sorted(os.listdir(TRAIN_DATA_PATH), key=lambda x: int(x.split('.')[0]))
X_train_full_raw = load_images_from_folder(TRAIN_DATA_PATH, train_filenames)
y_train_full_labels = labels_df.sort_values('id')['label'].map(label_to_id).values

# 전체 테스트 파일 목록에서 1000개만 선택
test_filenames_all = sorted(os.listdir(TEST_DATA_PATH), key=lambda x: int(x.split('.')[0]))
test_filenames_subset = test_filenames_all[:NUM_TEST_SAMPLES]
X_test_raw = load_images_from_folder(TEST_DATA_PATH, test_filenames_subset)

print("\n데이터를 Train, Validation 세트로 분할합니다...")
# 학습 데이터를 학습용(45,000)과 검증용(5,000)으로 분할
# stratify: 분할 후에도 각 클래스의 비율을 원래대로 유지해주는 중요한 옵션
X_train, X_val, y_train, y_val = train_test_split(
    X_train_full_raw, y_train_full_labels, 
    test_size=5000, 
    random_state=42, 
    stratify=y_train_full_labels
)

print("\n데이터 정규화를 진행합니다...")
# 픽셀 값을 0과 1 사이로 정규화
X_train = X_train / 255.0
X_val = X_val / 255.0
X_test = X_test_raw / 255.0

print(f"  - 학습(Train) 데이터: {X_train.shape}")
print(f"  - 검증(Validation) 데이터: {X_val.shape}")
print(f"  - 테스트(Test) 데이터: {X_test.shape}")
print("-" * 30)


# --- 4. 최적의 k 찾기 (검증 데이터 사용) ---
print("\n### 2. 최적의 k 찾기 (1, 3, 5...13) ###")
best_k = 0
best_accuracy = 0
k_values = range(1, 14, 2)

for k in k_values:
    print(f"\n_k = {k}_ 모델 테스트 중...")
    start_time = time.time()
    
    # n_jobs=-1 : CPU 모든 코어를 사용하여 계산 속도 향상
    knn_temp = KNeighborsClassifier(n_neighbors=k, n_jobs=-1)
    
    # 학습 데이터로 모델 학습
    knn_temp.fit(X_train, y_train)
    
    # 검증 데이터로 성능 측정
    y_val_pred = knn_temp.predict(X_val)
    accuracy = accuracy_score(y_val, y_val_pred)
    
    end_time = time.time()
    print(f"-> k = {k} 검증 정확도: {accuracy * 100:.2f}% (소요 시간: {end_time - start_time:.2f}초)")
    
    if accuracy > best_accuracy:
        best_accuracy = accuracy
        best_k = k
        # 최적 모델을 저장해둠
        final_knn_classifier = knn_temp

print("-" * 30)
print(f"최적의 k를 찾았습니다: k = {best_k} (최고 검증 정확도: {best_accuracy * 100:.2f}%)")
print("-" * 30)


# --- 5. 최종 예측 (테스트 데이터 사용) ---
print(f"\n### 3. 최종 예측 (k={best_k}) ###")
print(f"{NUM_TEST_SAMPLES}개의 테스트 데이터에 대한 예측을 시작합니다...")
start_time = time.time()

# 위에서 찾은 최적의 모델(final_knn_classifier)로 바로 예측 수행
final_predictions_numeric = final_knn_classifier.predict(X_test)

end_time = time.time()
print(f"최종 예측 완료! (소요 시간: {end_time - start_time:.2f}초)")
print("-" * 30)


# --- 6. 결과 CSV 파일로 저장 ---
print("\n### 4. 결과 저장 ###")
test_ids = [int(fn.split('.')[0]) for fn in test_filenames_subset]
predicted_class_names = [id_to_label[i] for i in final_predictions_numeric]

final_df = pd.DataFrame({
    'id': test_ids,
    'label': predicted_class_names
})

final_df.sort_values(by='id', inplace=True)
final_df.to_csv(OUTPUT_CSV_PATH, index=False)

print(f"'{OUTPUT_CSV_PATH}' 파일로 결과가 성공적으로 저장되었습니다.")
print("\n=== 최종 결과 미리보기 ===")
print(final_df.head())

### 1. 데이터 로드 및 분할 ###
'train' 폴더에서 총 50000개의 이미지 로드를 시작합니다...
... 1000 / 50000 개 로드 완료
... 2000 / 50000 개 로드 완료
... 3000 / 50000 개 로드 완료
... 4000 / 50000 개 로드 완료
... 5000 / 50000 개 로드 완료
... 6000 / 50000 개 로드 완료
... 7000 / 50000 개 로드 완료
... 8000 / 50000 개 로드 완료
... 9000 / 50000 개 로드 완료
... 10000 / 50000 개 로드 완료
... 11000 / 50000 개 로드 완료
... 12000 / 50000 개 로드 완료
... 13000 / 50000 개 로드 완료
... 14000 / 50000 개 로드 완료
... 15000 / 50000 개 로드 완료
... 16000 / 50000 개 로드 완료
... 17000 / 50000 개 로드 완료
... 18000 / 50000 개 로드 완료
... 19000 / 50000 개 로드 완료
... 20000 / 50000 개 로드 완료
... 21000 / 50000 개 로드 완료
... 22000 / 50000 개 로드 완료
... 23000 / 50000 개 로드 완료
... 24000 / 50000 개 로드 완료
... 25000 / 50000 개 로드 완료
... 26000 / 50000 개 로드 완료
... 27000 / 50000 개 로드 완료
... 28000 / 50000 개 로드 완료
... 29000 / 50000 개 로드 완료
... 30000 / 50000 개 로드 완료
... 31000 / 50000 개 로드 완료
... 32000 / 50000 개 로드 완료
... 33000 / 50000 개 로드 완료
... 34000 / 50000 개 로드 완료
... 35000 / 50000 개 로드 완료
... 36000 / 50000 개 로드 완료
... 37000 

In [3]:
import os
import time
import numpy as np
import pandas as pd
from PIL import Image
from sklearn.model_selection import cross_val_score
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# --- 1. 경로 및 설정 ---
TRAIN_DATA_PATH = '/Users/younghohuh/Downloads/cifar-10/train'
TEST_DATA_PATH = '/Users/younghohuh/Downloads/cifar-10/test'
LABEL_CSV_PATH = '/Users/younghohuh/Downloads/cifar-10/trainLabels.csv'
OUTPUT_CSV_PATH = 'cifar10_predictions_kfold.csv'

NUM_SAMPLES_FOR_CV = 10000 # 교차 검증에 사용할 샘플 데이터 개수 (시간 단축용)
NUM_TEST_SAMPLES = 1000      # 테스트할 이미지 개수

# 클래스 이름 및 레이블 매핑 정의
class_names = ['airplane', 'automobile', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck']
label_to_id = {label: i for i, label in enumerate(class_names)}
id_to_label = {i: label for i, label in enumerate(class_names)}

# --- 2. 이미지 데이터 로드 함수 ---
def load_images_from_folder(folder_path, file_list):
    """지정된 폴더에서 이미지 파일들을 순서대로 로드하여 NumPy 배열로 반환"""
    images = []
    total_files = len(file_list)
    folder_name = os.path.basename(folder_path)
    print(f"'{folder_name}' 폴더에서 총 {total_files}개의 이미지 로드를 시작합니다...")
    
    for i, filename in enumerate(file_list):
        if (i + 1) % 5000 == 0:
            print(f"... {i + 1} / {total_files} 개 로드 완료")
            
        img_path = os.path.join(folder_path, filename)
        with Image.open(img_path) as img:
            images.append(np.array(img).flatten())
            
    print(f"'{folder_name}' 폴더 이미지 로딩 완료.")
    return np.array(images)

# --- 3. 데이터 로드 및 전처리 ---
print("### 1. 데이터 로딩 및 전처리 ###")
try:
    labels_df = pd.read_csv(LABEL_CSV_PATH)
except FileNotFoundError:
    print(f"오류: '{LABEL_CSV_PATH}' 파일을 찾을 수 없습니다. 경로를 확인해주세요.")
    exit()

# 전체 학습 데이터 로드
train_filenames = sorted(os.listdir(TRAIN_DATA_PATH), key=lambda x: int(x.split('.')[0]))
X_train_full_raw = load_images_from_folder(TRAIN_DATA_PATH, train_filenames)
y_train_full_labels = labels_df.sort_values('id')['label'].map(label_to_id).values

# 테스트 데이터 1,000개만 로드
test_filenames_all = sorted(os.listdir(TEST_DATA_PATH), key=lambda x: int(x.split('.')[0]))
test_filenames_subset = test_filenames_all[:NUM_TEST_SAMPLES]
X_test_raw = load_images_from_folder(TEST_DATA_PATH, test_filenames_subset)

print("\n데이터 정규화를 진행합니다...")
X_train_full_normalized = X_train_full_raw / 255.0
X_test_normalized = X_test_raw / 255.0

print(f"  - 전체 학습 데이터: {X_train_full_normalized.shape}")
print(f"  - 테스트 데이터: {X_test_normalized.shape}")
print("-" * 30)

# --- 4. 최적의 k 찾기 (5-Fold Cross-Validation) ---
print(f"\n### 2. 최적의 k 찾기 (5-Fold Cross-Validation, {NUM_SAMPLES_FOR_CV}개 샘플 사용) ###")
print("경고: 이 과정은 이전보다 시간이 더 소요됩니다.")

# 교차 검증을 위한 데이터 샘플링 (시간 단축)
np.random.seed(42) # 항상 같은 샘플을 뽑기 위해 시드 고정
cv_indices = np.random.choice(X_train_full_normalized.shape[0], NUM_SAMPLES_FOR_CV, replace=False)
X_cv_subset = X_train_full_normalized[cv_indices]
y_cv_subset = y_train_full_labels[cv_indices]

best_k = 0
best_accuracy = 0
k_values = range(1, 14, 2)  # 1, 3, 5, ..., 13

for k in k_values:
    print(f"\n_k = {k}_ 교차 검증 중...")
    start_time = time.time()
    
    knn_temp = KNeighborsClassifier(n_neighbors=k, n_jobs=-1)
    
    # cv=5 : 5-Fold Cross-Validation을 의미
    # cross_val_score가 알아서 데이터를 5개로 나누고 학습-평가를 5번 반복합니다.
    scores = cross_val_score(knn_temp, X_cv_subset, y_cv_subset, cv=5, scoring='accuracy', n_jobs=-1)
    
    average_accuracy = np.mean(scores)
    end_time = time.time()
    
    print(f"-> k = {k}의 평균 검증 정확도: {average_accuracy * 100:.2f}% (소요 시간: {end_time - start_time:.2f}초)")
    
    if average_accuracy > best_accuracy:
        best_accuracy = average_accuracy
        best_k = k

print("-" * 30)
print(f"최적의 k를 찾았습니다: k = {best_k} (최고 평균 검증 정확도: {best_accuracy * 100:.2f}%)")
print("-" * 30)

# --- 5. 전체 학습 데이터로 최종 모델 학습 및 예측 ---
print(f"\n### 3. 최종 모델 학습 및 예측 (k={best_k}) ###")
print("전체 50,000개 데이터로 최종 모델을 학습합니다... (시간 소요)")
final_knn_classifier = KNeighborsClassifier(n_neighbors=best_k, n_jobs=-1)

# ★ 전체 학습 데이터로 다시 학습
final_knn_classifier.fit(X_train_full_normalized, y_train_full_labels)

print("1,000개의 테스트 데이터에 대한 예측을 시작합니다...")
start_time = time.time()
final_predictions_numeric = final_knn_classifier.predict(X_test_normalized)
end_time = time.time()

print(f"최종 예측 완료! (소요 시간: {end_time - start_time:.2f}초)")
print("-" * 30)

# --- 6. 결과 CSV 파일로 저장 ---
print("\n### 4. 결과 저장 ###")
test_ids = [int(fn.split('.')[0]) for fn in test_filenames_subset]
predicted_class_names = [id_to_label[i] for i in final_predictions_numeric]

final_df = pd.DataFrame({
    'id': test_ids,
    'label': predicted_class_names
})

final_df.sort_values(by='id', inplace=True)
final_df.to_csv(OUTPUT_CSV_PATH, index=False)

print(f"'{OUTPUT_CSV_PATH}' 파일로 결과가 성공적으로 저장되었습니다.")
print("\n=== 최종 결과 미리보기 ===")
print(final_df.head())

### 1. 데이터 로딩 및 전처리 ###
'train' 폴더에서 총 50000개의 이미지 로드를 시작합니다...
... 5000 / 50000 개 로드 완료
... 10000 / 50000 개 로드 완료
... 15000 / 50000 개 로드 완료
... 20000 / 50000 개 로드 완료
... 25000 / 50000 개 로드 완료
... 30000 / 50000 개 로드 완료
... 35000 / 50000 개 로드 완료
... 40000 / 50000 개 로드 완료
... 45000 / 50000 개 로드 완료
... 50000 / 50000 개 로드 완료
'train' 폴더 이미지 로딩 완료.
'test' 폴더에서 총 1000개의 이미지 로드를 시작합니다...
'test' 폴더 이미지 로딩 완료.

데이터 정규화를 진행합니다...
  - 전체 학습 데이터: (50000, 3072)
  - 테스트 데이터: (1000, 3072)
------------------------------

### 2. 최적의 k 찾기 (5-Fold Cross-Validation, 10000개 샘플 사용) ###
경고: 이 과정은 이전보다 시간이 더 소요됩니다.

_k = 1_ 교차 검증 중...
-> k = 1의 평균 검증 정확도: 28.23% (소요 시간: 4.44초)

_k = 3_ 교차 검증 중...
-> k = 3의 평균 검증 정확도: 27.74% (소요 시간: 4.18초)

_k = 5_ 교차 검증 중...
-> k = 5의 평균 검증 정확도: 28.88% (소요 시간: 3.64초)

_k = 7_ 교차 검증 중...
-> k = 7의 평균 검증 정확도: 28.75% (소요 시간: 3.87초)

_k = 9_ 교차 검증 중...
-> k = 9의 평균 검증 정확도: 28.87% (소요 시간: 3.72초)

_k = 11_ 교차 검증 중...
-> k = 11의 평균 검증 정확도: 28.68% (소요 시간: 3.86초)

_k = 13_ 교차 검증 중...
-