In [1]:
import pandas as pd
import numpy as np
import re
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report, accuracy_score, log_loss

In [2]:

def load_data(data_path: str) -> pd.DataFrame:
    df = pd.read_excel(data_path,
                       usecols=['발명의 명칭', '요약', '메인IPC2', '대표청구항'])
    df['input'] = df.apply(
        lambda row: f"{row['발명의 명칭']}\n\n{row['요약']}", axis=1)
    df = df.drop(columns=['발명의 명칭', '요약', '대표청구항'])
    df.columns = ['메인IPC2', '대표청구항']
    return df


# 훈련 데이터 로드
xlsx_path_train = 'dataset/DS학술제-모델링경진대회_Train.xlsx'
df_train = load_data(xlsx_path_train)

# 테스트 데이터 로드
xlsx_path_test = 'dataset/DS학술제-모델링경진대회_Valid.xlsx'
df_test = load_data(xlsx_path_test)

# 특성과 타깃 분리
X_train = df_train['대표청구항']
y_train = df_train['메인IPC2']
X_test = df_test['대표청구항']
y_test = df_test['메인IPC2']

# 텍스트 데이터를 벡터화합니다.
vectorizer = TfidfVectorizer()
X_train_vec = vectorizer.fit_transform(X_train)
X_test_vec = vectorizer.transform(X_test)

In [3]:
# 나이브 베이즈 모델 생성 및 학습
model = MultinomialNB()
model.fit(X_train_vec, y_train)

In [4]:
# 테스트 데이터 예측
y_pred = model.predict(X_test_vec)
y_pred_proba = model.predict_proba(X_test_vec)

# 정확도 계산
accuracy = accuracy_score(y_test, y_pred)

# 손실 계산
loss = log_loss(y_test, y_pred_proba, labels=model.classes_)

# 분류 리포트 생성
report = classification_report(y_test, y_pred, digits=4)

# 결과 출력
print(f'테스트 손실 {loss:.4f}, 정확도 {accuracy:.4f}\n')
print('분류 리포트:')
print(report)

테스트 손실 1.0330, 정확도 0.7442

분류 리포트:
              precision    recall  f1-score   support

        G06F     0.0000    0.0000    0.0000        99
        G06Q     0.7442    1.0000    0.8533       448
        G16H     0.0000    0.0000    0.0000        55

    accuracy                         0.7442       602
   macro avg     0.2481    0.3333    0.2844       602
weighted avg     0.5538    0.7442    0.6350       602



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
