In [4]:
from konlpy.tag import Okt

okt = Okt()

stopwords = list(set([
    # 조사, 접속사
    '이', '가', '은', '는', '을', '를', '의', '에', '에서', '에게', '께', '로', '으로', 
    '와', '과', '보다', '처럼', '만큼', '같이', '까지', '부터', '이나', '나', '이며', '며', 
    '등', '고', '면', '게', '지', '죠',
    # 불필요한 구조적 단어
    '그리고', '그러나', '하지만', '그런데', '그래서', '그러면', '따라서', '또한', '즉',
    # 불분명한 대명사
    '나', '저', '우리', '너', '당신', '그', '그녀', '그것', '이것', '저것', 
    # 수사 및 조사적 명사
    '하나', '둘', '셋', '일', '이', '삼', '사', '오', '육', '칠', '팔', '구', '십', '백',
    # 너무 범용적인 단어
    '것', '수', '문제', '내용', '경우', '정도',
    # 감정과 무관한 구어 표현
    '아', '어', '응', '음', '네', '예', '그래',
]))

In [5]:

def tokenize(text):
    try:
        return [
            word for word, pos in okt.pos(text, stem=True)
            if pos in ['Noun', 'Adjective', 'Verb']
            and len(word) > 1
        ]
    except:
        return []

In [None]:
import pandas as pd
import joblib

model = joblib.load("logistic_model.pkl")
vectorizer = joblib.load("logistic_tfdf_vectorizer.pkl")

df = pd.read_csv("balanced_test_final.csv", encoding="utf-8-sig")
texts = df['sentence'].fillna('').astype(str)

texts_tokenized = [' '.join(tokenize(text)) for text in texts]
X_input = vectorizer.transform(texts_tokenized)

# 예측
df['pred'] = model.predict(X_input)
df['prob'] = model.predict_proba(X_input)[:, 1]
df['예측_라벨'] = df['pred'].map({0: '부정', 1: '긍정'})
df['확률기반_예측'] = df['prob'].apply(lambda x: '긍정' if x >= 0.5 else '부정')

# 결과 저장
df.to_csv("예측결과_서비스용.csv", index=False, encoding="utf-8-sig")



TypeError: tokenize() got an unexpected keyword argument 'stopwords'

In [None]:
import pandas as pd
import joblib
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.linear_model import LogisticRegression

# 데이터 로딩 및 정제
train_df = pd.read_csv("36000_reviews_label.csv", encoding="utf-8-sig")
train_df = train_df[train_df['label'].isin([0, 1])]
X_train = train_df["sentence"]
y_train = train_df["label"]

# 모델 A: CountVectorizer + LogisticRegression
vectorizer_a = CountVectorizer()
X_train_a = vectorizer_a.fit_transform(X_train)
model_a = LogisticRegression(max_iter=1000, class_weight='balanced')
model_a.fit(X_train_a, y_train)

# 모델 B: TF-IDF(ngram) + LogisticRegression
vectorizer_b = TfidfVectorizer(ngram_range=(1, 2))
X_train_b = vectorizer_b.fit_transform(X_train)
model_b = LogisticRegression(max_iter=1000, class_weight='balanced')
model_b.fit(X_train_b, y_train)

# 저장
# joblib.dump(model_a, 'model_logistic_count.pkl')
# joblib.dump(vectorizer_a, 'vectorizer_count.pkl')

# joblib.dump(model_b, 'model_logistic_tfidf.pkl')
# joblib.dump(vectorizer_b, 'vectorizer_tfidf.pkl')

print("✅ 두 모델 저장 완료")


In [26]:
model_b = joblib.load("models/model_logistic_tfidf.pkl")
vectorizer_b = joblib.load("models/vectorizer_tfidf.pkl")

X_new_b = vectorizer_b.transform(texts)
df['예측 클래스'] = model_b.predict(X_new_b)
df['긍정 확률'] = model_b.predict_proba(X_new_b)[:, 1]

In [6]:
df.to_csv("테스트_숙소_리뷰_감성_분석_결과.csv", encoding="utf-8-sig", index=False)

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from wordcloud import WordCloud
import seaborn as sns
import os
from sklearn.preprocessing import MinMaxScaler

# 파일 로드
file_path = "숙소_리뷰_감성_분석_결과.csv"
df = pd.read_csv(file_path)

# 기본 컬럼 이름 정리
df.columns = df.columns.str.strip()
df.rename(columns={
    'name': 'accommodation',
    'sentence': 'review',
    'sentiment_tfidf': 'sentiment'  # 이 라인!

}, inplace=True)

# 필수 컬럼만 추출
df = df[['accommodation', 'review', 'sentiment']]

# 1. 숙소별 감성 통계 요약
summary = df.groupby(['accommodation', 'sentiment'])['review'].count().unstack(fill_value=0)
summary['total'] = summary.sum(axis=1)

# 감성 비율 계산
for label in ['긍정', '부정', '중립']:
    if label in summary.columns:
        summary[f'{label}_ratio'] = (summary[label] / summary['total'] * 100).round(1)
    else:
        summary[label] = 0
        summary[f'{label}_ratio'] = 0.0

# 2. 감성별 예시 문장 추출 함수
def extract_examples(df, label, n=2):
    return df[df['sentiment'] == label].groupby('accommodation')['review'].apply(lambda x: x.head(n).tolist())

# 예시 문장 추가
summary['긍정_예시'] = extract_examples(df, '긍정')
summary['부정_예시'] = extract_examples(df, '부정')
summary['중립_예시'] = extract_examples(df, '중립')

# 결측치 보완
summary.fillna({'긍정_예시': '', '부정_예시': '', '중립_예시': ''}, inplace=True)

# 필요하면 저장
summary.to_csv("숙소별_감성분석_요약.csv", encoding='utf-8-sig')

# 일부 미리보기
print(summary[['긍정', '부정', '중립', '긍정_ratio', '부정_ratio', '중립_ratio', '긍정_예시', '부정_예시']].head())

In [None]:
# 확률 기반 + 키워드 기반 중립 보정 로직을 적용
df = pd.read_csv('숙소_리뷰_감성_분석_결과.csv', encoding='utf-8-sig')
# 중립 판단 기준 키워드 리스트
neutral_clues = ['무난', '그냥', '나쁘지', '괜찮긴', '보통', '가격 대비', '애매', '글쎄', '평범', '그럭저럭']

# 숫자 예측값을 텍스트 라벨로 변환
def convert_label(pred):
    if pred == 1 or pred == '1':
        return '긍정'
    elif pred == 0 or pred == '0':
        return '부정'
    return str(pred)

df['pred_tfidf'] = df['pred_tfidf'].apply(convert_label)

# 중립 보정 함수
def smart_reclassify(row, threshold_diff=0.1, prob_threshold=0.6):
    prob = row['prob_tfidf']
    pred = row['pred_tfidf']
    oppo_prob = 1 - prob
    diff = abs(prob - oppo_prob)

    prob_based = (diff < threshold_diff) or (max(prob, oppo_prob) < prob_threshold)
    review = str(row['sentence'])
    keyword_based = any(kw in review for kw in neutral_clues)

    if prob_based or keyword_based:
        return '중립'
    return pred

# 새 컬럼 추가
df['smart_reclassified'] = df.apply(smart_reclassify, axis=1)

# 저장
df.to_csv('중립_보정_결과.csv', encoding='utf-8-sig', index=False)


In [None]:
df.to_csv('중립_보정_결과.csv', encoding='utf-8-sig', index=False)

In [None]:
df = pd.read_csv('중립_보정_결과.csv', encoding='utf-8-sig')
df[['sentence', 'smart_reclassified']].to_csv('중립_보정_결과_내용만.csv', encoding='utf-8-sig', index=False)