#### TF-IDF 벡터 불러오기

In [1]:
import pickle
import numpy as np
from scipy.sparse import load_npz # 희소 행렬을 저장하고 불러오려면 scipy.sparse.save_npz/load_npz를 사용할 수도 있습니다.

# 파일 로드 경로 정의
tfidf_data_load_path = 's_news_cate_tfidf_xcombined.pkl'
tfidf_labels_load_path = 's_news_cate_tfidf_labels.pkl'

# X_combined (TF-IDF 벡터화된 데이터) 로드
with open(tfidf_data_load_path, 'rb') as f:
    X_combined = pickle.load(f)
print(f"TF-IDF 벡터화된 데이터가 '{tfidf_data_load_path}'에서 성공적으로 로드되었습니다.")
print(f"로드된 X_combined 형태: {X_combined.shape}")

# y_labels (카테고리 라벨) 로드
with open(tfidf_labels_load_path, 'rb') as f:
    y_labels = pickle.load(f)
print(f"카테고리 라벨이 '{tfidf_labels_load_path}'에서 성공적으로 로드되었습니다.")
print(f"로드된 y_labels 형태: {y_labels.shape}")

# 로드된 데이터의 일부를 확인
print("\n로드된 X_combined의 일부 (첫 5개 행):")
print(X_combined[:5])
print("\n로드된 y_labels의 일부 (첫 5개):")
print(y_labels[:5])

TF-IDF 벡터화된 데이터가 's_news_cate_tfidf_xcombined.pkl'에서 성공적으로 로드되었습니다.
로드된 X_combined 형태: (19141, 25000)
카테고리 라벨이 's_news_cate_tfidf_labels.pkl'에서 성공적으로 로드되었습니다.
로드된 y_labels 형태: (19141,)

로드된 X_combined의 일부 (첫 5개 행):
<Compressed Sparse Row sparse matrix of dtype 'float64'
	with 107 stored elements and shape (5, 25000)>
  Coords	Values
  (0, 10884)	0.3456932886972173
  (0, 1852)	0.26551403557459474
  (0, 6392)	0.2282328059616351
  (0, 13285)	0.2851826380971675
  (0, 13829)	0.2034338491048484
  (0, 3431)	0.337550523743626
  (0, 16459)	0.16165290282792044
  (0, 15956)	0.23547450906858422
  (0, 14095)	0.28030992392880616
  (0, 11370)	0.25656923502421447
  (0, 12914)	0.3308974003430059
  (0, 13261)	0.19568277110582913
  (0, 15611)	0.30560366213590606
  (0, 19752)	0.1791349711004066
  (0, 16461)	0.14833848240122854
  (0, 22627)	0.6250529084934864
  (0, 23016)	0.671063519689871
  (0, 20217)	0.39872623957456765
  (1, 8399)	0.0700120068138974
  (1, 4493)	0.58232086754535
  (1, 8809)	0.41772705505

In [2]:
import pickle
import numpy as np
import pandas as pd

# 파일 로드 경로 정의
model_load_path = 's_news_cate_model.pkl'
label_encoder_load_path = 's_news_cate_label_en.pkl'

# 학습된 SVM 모델 로드
with open(model_load_path, 'rb') as f:
    loaded_svm_model = pickle.load(f)
print(f"SVM 모델이 '{model_load_path}'에서 성공적으로 로드되었습니다.")

# 레이블 인코더 로드
with open(label_encoder_load_path, 'rb') as f:
    loaded_label_encoder = pickle.load(f)
print(f"레이블 인코더가 '{label_encoder_load_path}'에서 성공적으로 로드되었습니다.")

SVM 모델이 's_news_cate_model.pkl'에서 성공적으로 로드되었습니다.
레이블 인코더가 's_news_cate_label_en.pkl'에서 성공적으로 로드되었습니다.


https://scikit-learn.org/stable/model_persistence.html#security-maintainability-limitations
https://scikit-learn.org/stable/model_persistence.html#security-maintainability-limitations


In [4]:
import numpy as np
from sklearn.model_selection import train_test_split

# Get original indices from df to link back after splitting
# original_indices = df.index

# 데이터를 훈련 세트와 테스트 세트로 분리
# original_indices도 함께 분리하여 X_test에 해당하는 원본 데이터의 인덱스를 얻습니다.
X_train, X_test, y_train, y_test = train_test_split(
    X_combined, y_labels, 
    test_size=0.2, random_state=42, stratify=y_labels
)

# 분리된 데이터 형태 확인
print(f"X_train 형태: {X_train.shape}")
print(f"X_test 형태: {X_test.shape}")
print(f"y_train 형태: {y_train.shape}")
print(f"y_test 형태: {y_test.shape}")

X_train 형태: (15312, 25000)
X_test 형태: (3829, 25000)
y_train 형태: (15312,)
y_test 형태: (3829,)


In [5]:
from sklearn.preprocessing import LabelEncoder

# 타겟 라벨을 수치형 값으로 인코딩
label_encoder = LabelEncoder()
y_train_encoded = label_encoder.fit_transform(y_train)
y_test_encoded = label_encoder.transform(y_test)

In [6]:
import pickle
import numpy as np
import pandas as pd

# 예측을 위한 X_test의 작은 부분집합 선택 (예: 처음 5개 샘플)
sample_indices = range(5)
sample_X_test = X_test[sample_indices]
sample_y_test_encoded = y_test_encoded[sample_indices]
sample_y_test_original = y_test[sample_indices]

# 로드된 모델을 사용하여 샘플 데이터에 대한 클래스 라벨 예측
predicted_labels_encoded = loaded_svm_model.predict(sample_X_test)

# 예측된 숫자 라벨을 원래의 카테고리 이름으로 디코딩
predicted_category_names = loaded_label_encoder.inverse_transform(predicted_labels_encoded)

print("\n--- 샘플 예측 결과 ---")
for i in range(sample_X_test.shape[0]): # 수정: 희소 행렬의 경우 .shape[0] 사용
    print(f"샘플 {i+1}:")
    print(f"  실제 카테고리 (원본): {sample_y_test_original[i]}")
    print(f"  실제 카테고리 (인코딩): {sample_y_test_encoded[i]}")
    print(f"  예측 카테고리 (인코딩): {predicted_labels_encoded[i]}")
    print(f"  예측 카테고리 (디코딩): {predicted_category_names[i]}")


--- 샘플 예측 결과 ---
샘플 1:
  실제 카테고리 (원본): 사회/문화/체육
  실제 카테고리 (인코딩): 2
  예측 카테고리 (인코딩): 4
  예측 카테고리 (디코딩): 정치
샘플 2:
  실제 카테고리 (원본): 정치
  실제 카테고리 (인코딩): 4
  예측 카테고리 (인코딩): 0
  예측 카테고리 (디코딩): 경제/산업
샘플 3:
  실제 카테고리 (원본): 정치
  실제 카테고리 (인코딩): 4
  예측 카테고리 (인코딩): 2
  예측 카테고리 (디코딩): 사회/문화/체육
샘플 4:
  실제 카테고리 (원본): 사회/문화/체육
  실제 카테고리 (인코딩): 2
  예측 카테고리 (인코딩): 2
  예측 카테고리 (디코딩): 사회/문화/체육
샘플 5:
  실제 카테고리 (원본): 사회/문화/체육
  실제 카테고리 (인코딩): 2
  예측 카테고리 (인코딩): 2
  예측 카테고리 (디코딩): 사회/문화/체육
