In [3]:
import pandas as pd
import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.metrics import classification_report
from sklearn.metrics import accuracy_score

# 데이터 로드 (헤더가 없음을 명시)
df = pd.read_csv('post_list.csv', encoding='cp949', header=None)

# 열 이름 지정
df.columns = ['Title', 'AuthorGrade']

# 텍스트 데이터와 레이블 분리
texts = df['Title'].values
labels = df['AuthorGrade'].values

# 텍스트 토큰화
tokenizer = Tokenizer()
tokenizer.fit_on_texts(texts)
sequences = tokenizer.texts_to_sequences(texts)

# 시퀀스 패딩
max_len = 100  # 시퀀스의 최대 길이
padded_sequences = pad_sequences(sequences, maxlen=max_len)

# 학습 데이터와 검증 데이터로 분리
X_train, X_val, y_train, y_val = train_test_split(padded_sequences, labels, test_size=0.2, random_state=42)

# AdaBoost 모델 생성
model = DecisionTreeClassifier()

# 모델 학습
model.fit(X_train, y_train)

# 검증 데이터로 평가
y_pred = model.predict(X_val)
print(classification_report(y_val, y_pred))
print('accuracy:', accuracy_score(y_val, y_pred))

              precision    recall  f1-score   support

           0       0.86      0.88      0.87        67
           1       0.88      0.76      0.82        38
           2       0.81      0.89      0.85        44
           3       0.90      0.90      0.90        21
           4       0.93      0.89      0.91        28

    accuracy                           0.86       198
   macro avg       0.88      0.87      0.87       198
weighted avg       0.87      0.86      0.86       198

accuracy: 0.8636363636363636


In [4]:
# 등급 매핑 사전 정의
grade_mapping = {0: '진드기', 1: '닭둘기', 2: '왁무새', 3: '침팬치', 4: '느그자'}

# 예측 함수 정의
def predict_author_grade(text):
    sequence = tokenizer.texts_to_sequences([text])
    padded_sequence = pad_sequences(sequence, maxlen=max_len)
    prediction = model.predict(padded_sequence)
    return prediction[0]

# 예측 예시
example_text = "이곳에 제목을 입력하세요."
predicted_grade = predict_author_grade(example_text)
grade_text = grade_mapping[predicted_grade]
print(f'당신의 등급은 {grade_text}입니다.')

당신의 등급은 진드기입니다.
