In [1]:
import joblib
from sentence_transformers import SentenceTransformer
from konlpy.tag import Okt
import numpy as np

# 1. 로지스틱 회귀 모델 로드
clf = joblib.load('logistic_regression_model.pkl')

# 2. S-BERT 모델 로드
model = SentenceTransformer('sentence_transformer_model')

# 3. 형태소 분석기와 불용어 설정
okt = Okt()
stop_words = ['의', '가', '이', '은', '들', '는', '좀', '잘', '걍', '과', '도', '를', '으로', '자', '에', '와', '한', '하다']

  from tqdm.autonotebook import tqdm, trange





In [2]:
# 4. 텍스트 전처리 함수 정의 (형태소 분석 및 불용어 제거)
def preprocess_text(text, stop_words):
    tokens = okt.morphs(text)  # 형태소 분석으로 토큰화
    filtered_tokens = [word for word in tokens if word not in stop_words]  # 불용어 제거
    return ' '.join(filtered_tokens)

In [3]:
# 5. 사용자 입력에 대한 필터링 기능 정의
def filter_user_input(user_input):
    # 사용자 입력 전처리
    processed_input = preprocess_text(user_input, stop_words)
    
    # S-BERT로 임베딩
    user_embedding = model.encode(processed_input).tolist()
    
    # 예측 (모욕적 텍스트인지 여부)
    predicted_label = clf.predict([user_embedding])[0]
    
    # 예측된 레이블이 1 (모욕적인 텍스트) 인 경우 필터링
    if predicted_label == 1:
        return "경고: 모욕적인 텍스트가 감지되었습니다."
    else:
        return "정상 텍스트입니다."

In [4]:
# 6. 사용자 입력 테스트 루프
while True:
    user_input = input("사용자 입력 (종료하려면 'exit' 입력): ")
    if user_input.lower() == 'exit':
        break
    
    result = filter_user_input(user_input)
    print(result)

경고: 모욕적인 텍스트가 감지되었습니다.
정상 텍스트입니다.
정상 텍스트입니다.
정상 텍스트입니다.
경고: 모욕적인 텍스트가 감지되었습니다.
정상 텍스트입니다.
