In [2]:
from keybert import KeyBERT

# KeyBERT 모델 불러오기 (기본적으로 사전 학습된 BERT 모델 사용)
kw_model = KeyBERT()

# 한글 리뷰 텍스트
doc = """
이 제품은 정말 훌륭합니다. 가격 대비 성능이 좋고, 디자인도 매우 세련되었습니다. 다만, 배터리 수명이 좀 짧은 것이 아쉽습니다.
"""

# 키워드 추출
keywords = kw_model.extract_keywords(doc, keyphrase_ngram_range=(1, 2), stop_words=None, top_n=5)

# 결과 출력
for keyword in keywords:
    print(keyword)


('정말 훌륭합니다', 0.7644)
('대비 성능이', 0.7442)
('디자인도 매우', 0.7338)
('훌륭합니다 가격', 0.7072)
('성능이 좋고', 0.7012)


In [4]:
from keybert import KeyBERT
from transformers import pipeline

# KeyBERT 모델 불러오기
kw_model = KeyBERT()

# 감정 분석 모델 불러오기 (한국어 감정 분석 모델 Hugging Face 사용)
sentiment_analyzer = pipeline("sentiment-analysis", model="nlptown/bert-base-multilingual-uncased-sentiment")

# 한글 리뷰 텍스트
doc = """
이 제품은 정말 훌륭합니다. 가격 대비 성능이 좋고, 디자인도 매우 세련되었습니다. 다만, 배터리 수명이 좀 짧은 것이 아쉽습니다.
"""

# 키워드 추출
keywords = kw_model.extract_keywords(doc, keyphrase_ngram_range=(1, 2), stop_words=None, top_n=5)

# 결과 출력 (키워드와 부정 점수 출력)
for keyword, score in keywords:
    sentiment = sentiment_analyzer(keyword)[0]
    sentiment_score = sentiment['score']
    sentiment_label = sentiment['label']
    
    # 감정 분석 결과가 부정적이면 출력
    if "negative" in sentiment_label.lower():
        print(f"키워드: {keyword}, 중요도 점수: {score}, 부정 점수: {sentiment_score}, 감정: {sentiment_label}")


In [5]:
from keybert import KeyBERT
from transformers import pipeline

# KeyBERT 모델 불러오기
kw_model = KeyBERT()

# 감정 분석 모델 불러오기 (한국어 감정 분석 모델 Hugging Face 사용)
sentiment_analyzer = pipeline("sentiment-analysis", model="nlptown/bert-base-multilingual-uncased-sentiment")

# 한글 리뷰 텍스트
doc = """
이 제품은 정말 훌륭합니다. 가격 대비 성능이 좋고, 디자인도 매우 세련되었습니다. 다만, 배터리 수명이 좀 짧은 것이 아쉽습니다.
"""

# 키워드 추출
keywords = kw_model.extract_keywords(doc, keyphrase_ngram_range=(1, 2), stop_words=None, top_n=5)

# 결과 출력 (키워드와 감정 점수 모두 출력)
for keyword, score in keywords:
    sentiment = sentiment_analyzer(keyword)[0]
    sentiment_score = sentiment['score']
    sentiment_label = sentiment['label']
    
    print(f"키워드: {keyword}, 중요도 점수: {score:.4f}, 감정 점수: {sentiment_score:.4f}, 감정: {sentiment_label}")
    
    # 감정이 부정적인 경우를 확인
    if "negative" in sentiment_label.lower():
        print(f"부정적인 키워드 발견: {keyword}")


키워드: 정말 훌륭합니다, 중요도 점수: 0.7644, 감정 점수: 0.6460, 감정: 5 stars
키워드: 대비 성능이, 중요도 점수: 0.7442, 감정 점수: 0.3548, 감정: 4 stars
키워드: 디자인도 매우, 중요도 점수: 0.7338, 감정 점수: 0.3271, 감정: 4 stars
키워드: 훌륭합니다 가격, 중요도 점수: 0.7072, 감정 점수: 0.4895, 감정: 5 stars
키워드: 성능이 좋고, 중요도 점수: 0.7012, 감정 점수: 0.4389, 감정: 4 stars


In [9]:
from konlpy.tag import Okt
from gensim import corpora
from gensim.models.ldamodel import LdaModel
import pandas as pd

In [10]:
df = pd.read_csv('reviews_1324169.csv')
df

Unnamed: 0,Review,Star
0,임산부라;; 울퉁불퉁 한데 M사이즈 편하게 잘 맞고 부드럽고 좋아요 주머니도 있어서...,5.0
1,허리가 살짝 큰데 끈으로 조이면 되고\n주머니가 있어서 편하고 좋아요~,5.0
2,요즘 살쪄서 편하게 입을 치마 찾다가 샀는데 편하고 조아여 옆트임때매 핏이 이상해보...,5.0
3,배송은 토요일에 시켰는데 화요일에 와서 빠르게 온 것 같구요 받자마자 입어봤는데 너...,5.0
4,살짝 큰감잇는데 여유잇어서 오히려좋아요 옆트임잇어서 활동성도좋고 포인트도되고 예쁘네용,5.0
...,...,...
1003,사이즈도 딱이고 재질도 너무 좋아요 여름에도 입을 수 있을것 같아요,5.0
1004,너무 마음에 듭니다 사이즈도 딱이고 재질도 너무 좋아요 여름에도 입을 수 있을것같아요,5.0
1005,색상도 좋구요\n원단과 핏도 원하던바라\n마음에 드네요,5.0
1006,편하고 좋아요 길이감도 적당하고 옆으로 트여서 활동성이 좋아요,5.0


In [11]:
# 전처리 코드 정의
def clean_review_column(df, column_name):
    # '\n'을 제거하고 한글 자모 및 구두점 제거
    df[column_name] = df[column_name].str.replace('\n', ' ', regex=False)  # 개행 문자 제거
    df[column_name] = df[column_name].str.replace(r'[ㄱ-ㅎㅏ-ㅣ]+', ' ', regex=True)  # 한글 자모 제거
    df[column_name] = df[column_name].str.replace(r'[^\w\s]', ' ', regex=True)  # 특정 구두점 제거
    
    # 여러 공백을 한 칸으로 변환
    df[column_name] = df[column_name].str.replace(r'\s+', ' ', regex=True)  # 여러 개의 공백을 한 칸으로 변환

    return df

In [12]:
df = clean_review_column(df, 'Review')
df

Unnamed: 0,Review,Star
0,임산부라 울퉁불퉁 한데 M사이즈 편하게 잘 맞고 부드럽고 좋아요 주머니도 있어서 조아요,5.0
1,허리가 살짝 큰데 끈으로 조이면 되고 주머니가 있어서 편하고 좋아요,5.0
2,요즘 살쪄서 편하게 입을 치마 찾다가 샀는데 편하고 조아여 옆트임때매 핏이 이상해보...,5.0
3,배송은 토요일에 시켰는데 화요일에 와서 빠르게 온 것 같구요 받자마자 입어봤는데 너...,5.0
4,살짝 큰감잇는데 여유잇어서 오히려좋아요 옆트임잇어서 활동성도좋고 포인트도되고 예쁘네용,5.0
...,...,...
1003,사이즈도 딱이고 재질도 너무 좋아요 여름에도 입을 수 있을것 같아요,5.0
1004,너무 마음에 듭니다 사이즈도 딱이고 재질도 너무 좋아요 여름에도 입을 수 있을것같아요,5.0
1005,색상도 좋구요 원단과 핏도 원하던바라 마음에 드네요,5.0
1006,편하고 좋아요 길이감도 적당하고 옆으로 트여서 활동성이 좋아요,5.0


In [16]:
df['Review'].isnull().sum()

0

In [17]:
documents = df['Review']

In [18]:
# 한글 형태소 분석기 Okt 사용
okt = Okt()

# 1. 형태소 분석 및 불용어 처리
def preprocess(text):
    tokens = okt.nouns(text)  # 명사만 추출
    stop_words = ['이', '그', '저', '그리고', '하지만']  # 불용어 추가
    return [word for word in tokens if word not in stop_words]

# 문서에 대해 전처리 수행
processed_docs = [preprocess(doc) for doc in documents]

# 2. 단어 사전 및 말뭉치(corpus) 생성
dictionary = corpora.Dictionary(processed_docs)
corpus = [dictionary.doc2bow(doc) for doc in processed_docs]

# 3. LDA 모델 학습
lda_model = LdaModel(corpus=corpus, id2word=dictionary, num_topics=3, random_state=42, passes=10)

# 4. 각 토픽 출력
topics = lda_model.print_topics(num_words=4)
for idx, topic in topics:
    print(f"토픽 {idx}: {topic}")

토픽 0: 0.032*"재질" + 0.029*"사이즈" + 0.022*"것" + 0.017*"입"
토픽 1: 0.030*"구매" + 0.028*"사이즈" + 0.024*"허리" + 0.021*"길이"
토픽 2: 0.023*"사이즈" + 0.021*"좀" + 0.021*"더" + 0.021*"허리"


In [None]:
text = '임산부라 울퉁불퉁 한데 M사이즈 편하게 잘 맞고 부드럽고 좋아요 주머니도 있어서 조아요'

# 형태소
okt.morphs(text)
okt.morphs(text, stem=True)