In [1]:
# 전처리 코드 정의
def clean_review_column(df, column_name):
    # '\n'을 제거하고 한글 자모 및 구두점 제거
    df[column_name] = df[column_name].str.replace('\n', ' ', regex=False)  # 개행 문자 제거
    df[column_name] = df[column_name].str.replace(r'[ㄱ-ㅎㅏ-ㅣ]+', ' ', regex=True)  # 한글 자모 제거
    df[column_name] = df[column_name].str.replace(r'[^\w\s]', ' ', regex=True)  # 특정 구두점 제거
    
    # 여러 공백을 한 칸으로 변환
    df[column_name] = df[column_name].str.replace(r'\s+', ' ', regex=True)  # 여러 개의 공백을 한 칸으로 변환

    return df

In [2]:
import pandas as pd

df = pd.read_csv('1967 JET BLACK JEANS [WIDE STRAIGHT]_reviews.csv')
df = clean_review_column(df, 'Review')
documents = df['Review']

In [3]:
df

Unnamed: 0,Review,Star
0,다리가 상당히 길어보입니다 가을에 이것만 땡겨입겠습 둥 아 밑위가 좀 짧아요,5.0
1,아우 예뻐용 홍홍 말라서 30이랑 32 고민 많이 됐는데 32 입어도 예뿌네용,5.0
2,여자후기 없어서 고민 많이 하다가 그냥 샀는데 핏이랑 색감 다 맘에 드네요 길다고 ...,5.0
3,사이즈는 정사이즈 가시면 될 것 같아요 일직선으로 떨어지는 스트레이트 핏이 이쁩니다...,5.0
4,튼실한 제 빵댕이도 견딜줄 몰랐습니다 강추합니다,5.0
...,...,...
995,와이드팬츠 있었는데 버리고 브랜디드 와이드팬츠 삿는데 이쁘네요 허리29정도 입는데 ...,5.0
996,이쁘네요 브랜디드 청바지 맛집입니다 많이 파세요,5.0
997,핏 미치고 색감 미치고 적당히 와이드해서 너무 예뻐요 편하기도 짱좋아여,5.0
998,믿고 사는 부랜디드 입니다 바지 색감 핏가 딱 원하던 예쁜옷이에용,5.0


In [4]:
from keybert import KeyBERT
from sklearn.feature_extraction.text import CountVectorizer

# KeyBERT 모델 초기화
kw_model = KeyBERT()

vectorizer = CountVectorizer(ngram_range=(1, 1))

# 각 문서에서 핵심 키워드 추출
def extract_keywords(text):
    # 각 텍스트에서 상위 5개의 키워드 추출
    keywords = kw_model.extract_keywords(text, vectorizer=vectorizer, top_n=5)
    return keywords

# 전체 문서에 대해 핵심 키워드 추출
df['Keywords'] = documents.apply(extract_keywords)

# 키워드가 잘 추출되었는지 확인
print(df[['Review', 'Keywords']].head())

  from tqdm.autonotebook import tqdm, trange



                                              Review  \
0         다리가 상당히 길어보입니다 가을에 이것만 땡겨입겠습 둥 아 밑위가 좀 짧아요   
1        아우 예뻐용 홍홍 말라서 30이랑 32 고민 많이 됐는데 32 입어도 예뿌네용   
2  여자후기 없어서 고민 많이 하다가 그냥 샀는데 핏이랑 색감 다 맘에 드네요 길다고 ...   
3  사이즈는 정사이즈 가시면 될 것 같아요 일직선으로 떨어지는 스트레이트 핏이 이쁩니다...   
4                         튼실한 제 빵댕이도 견딜줄 몰랐습니다 강추합니다   

                                            Keywords  
0  [(상당히, 0.6784), (길어보입니다, 0.6781), (다리가, 0.5632...  
1  [(30이랑, 0.5924), (32, 0.4495), (입어도, 0.305), (...  
2  [(롤업하는, 0.6706), (다니는, 0.6313), (여자후기, 0.5767)...  
3  [(일직선으로, 0.6306), (정사이즈, 0.6074), (워싱은, 0.5633...  
4  [(강추합니다, 0.7244), (튼실한, 0.633), (견딜줄, 0.5909),...  


In [5]:
df

Unnamed: 0,Review,Star,Keywords
0,다리가 상당히 길어보입니다 가을에 이것만 땡겨입겠습 둥 아 밑위가 좀 짧아요,5.0,"[(상당히, 0.6784), (길어보입니다, 0.6781), (다리가, 0.5632..."
1,아우 예뻐용 홍홍 말라서 30이랑 32 고민 많이 됐는데 32 입어도 예뿌네용,5.0,"[(30이랑, 0.5924), (32, 0.4495), (입어도, 0.305), (..."
2,여자후기 없어서 고민 많이 하다가 그냥 샀는데 핏이랑 색감 다 맘에 드네요 길다고 ...,5.0,"[(롤업하는, 0.6706), (다니는, 0.6313), (여자후기, 0.5767)..."
3,사이즈는 정사이즈 가시면 될 것 같아요 일직선으로 떨어지는 스트레이트 핏이 이쁩니다...,5.0,"[(일직선으로, 0.6306), (정사이즈, 0.6074), (워싱은, 0.5633..."
4,튼실한 제 빵댕이도 견딜줄 몰랐습니다 강추합니다,5.0,"[(강추합니다, 0.7244), (튼실한, 0.633), (견딜줄, 0.5909),..."
...,...,...,...
995,와이드팬츠 있었는데 버리고 브랜디드 와이드팬츠 삿는데 이쁘네요 허리29정도 입는데 ...,5.0,"[(와이드팬츠, 0.6743), (추천합니다, 0.65), (입는데, 0.5236)..."
996,이쁘네요 브랜디드 청바지 맛집입니다 많이 파세요,5.0,"[(청바지, 0.7318), (파세요, 0.6058), (브랜디드, 0.5177),..."
997,핏 미치고 색감 미치고 적당히 와이드해서 너무 예뻐요 편하기도 짱좋아여,5.0,"[(미치고, 0.6483), (와이드해서, 0.5905), (편하기도, 0.5323..."
998,믿고 사는 부랜디드 입니다 바지 색감 핏가 딱 원하던 예쁜옷이에용,5.0,"[(원하던, 0.6988), (입니다, 0.6927), (부랜디드, 0.675), ..."


In [6]:
from collections import Counter

# 각 문서에서 추출된 키워드를 모은 리스트 생성
all_keywords = []

for keywords in df['Keywords']:
    # keywords는 [(단어, 가중치), (단어, 가중치), ...] 형식이므로 단어만 추출
    all_keywords.extend([keyword[0] for keyword in keywords])

# 키워드의 빈도 계산
keyword_counts = Counter(all_keywords)

# 빈도 상위 10개의 키워드 출력
top_keywords = keyword_counts.most_common(15)

# 상위 10개의 키워드와 그 빈도를 출력
print("상위 15개의 키워드:")
for word, count in top_keywords:
    print(f"{word}: {count}번")

상위 15개의 키워드:
너무: 135번
바지: 52번
길어서: 42번
만족합니다: 39번
생각보다: 39번
기장이: 38번
사이즈: 37번
정말: 37번
마음에: 36번
입고: 36번
브랜디드: 33번
자주: 33번
기장은: 32번
들어요: 31번
완전: 31번


In [14]:
from collections import Counter
from konlpy.tag import Okt

# Okt 형태소 분석기 초기화
okt = Okt()

stop_words = ['좋다', '입다', '같다', '이다', '있다', '입','바지','기다']

# 키워드를 원형으로 변환
def lemmatize_keyword(keyword):
    morphs = okt.pos(keyword, stem=True)  # 형태소 분석 및 어간 추출
    lemmatized = [word for word, pos in morphs if pos in ['Noun', 'Verb', 'Adjective']] # 명사, 동사, 형용사 추출
    return ' '.join(lemmatized) if lemmatized else None  # 원형 변환된 단어들을 합침, 없으면 None 반환

# 키워드를 모두 모아서 리스트로 풀기
all_keywords = []
for keywords in df['Keywords']:
    # 키워드 원형으로 변환 후 리스트에 추가 (불용어 제외)
    for keyword, score in keywords:
        lemmatized_keyword = lemmatize_keyword(keyword)
        if lemmatized_keyword and lemmatized_keyword not in stop_words:  # 불용어 필터링
            all_keywords.append(lemmatized_keyword)

# 각 키워드의 빈도를 계산
keyword_counts = Counter(all_keywords)

# 상위 10개의 키워드 추출
top_10_keywords = keyword_counts.most_common(10)

# 결과 출력
print(top_10_keywords)

[('기장', 124), ('사이즈', 112), ('색감', 80), ('만족하다', 68), ('적당하다', 59), ('브랜디 드', 58), ('핏', 57), ('이쁘다', 56), ('허리', 55), ('청바지', 52)]


In [8]:
from collections import defaultdict

# 키워드와 유사도를 저장할 딕셔너리 초기화
keyword_scores = defaultdict(float)

# 키워드를 모두 모아서 유사도를 합산
for keywords in df['Keywords']:
    for keyword, score in keywords:
        keyword_scores[keyword] += score  # 키워드에 유사도(score) 더하기

# 유사도가 높은 상위 10개 키워드 추출
top_10_keywords_with_scores = sorted(keyword_scores.items(), key=lambda x: x[1], reverse=True)[:10]

# 결과 출력
print(top_10_keywords_with_scores)


[('너무', 70.19420000000001), ('만족합니다', 27.608099999999997), ('바지', 26.104500000000012), ('길어서', 24.491500000000006), ('생각보다', 23.062199999999997), ('기장이', 22.215500000000002), ('정말', 20.89), ('입고', 20.1609), ('사이즈', 19.304900000000004), ('마음에', 19.2917)]


In [13]:
from collections import defaultdict
from konlpy.tag import Okt

# Okt 형태소 분석기 초기화
okt = Okt()

stop_words = ['좋다', '입다', '같다', '이다', '있다', '입', '기다', '들다', '생각']


# 키워드를 원형으로 변환하는 함수
def lemmatize_keyword(keyword):
    morphs = okt.pos(keyword, stem=True)  # 형태소 분석 + 어간 추출
    # 품사가 명사(Noun)이거나 동사(Verb), 형용사(Adjective)인 경우만 원형으로 변환
    lemmatized = [word for word, pos in morphs if pos in ['Noun', 'Verb', 'Adjective']]
    return ' '.join(lemmatized)  # 원형 변환된 단어들을 문자열로 합침

# 키워드와 유사도를 저장할 딕셔너리 초기화
keyword_scores = defaultdict(float)

# 키워드를 모두 모아서 유사도를 합산 (원형으로 변환하여 처리)
for keywords in df['Keywords']:
    for keyword, score in keywords:
        lemmatized_keyword = lemmatize_keyword(keyword)  # 키워드 원형 변환
        if lemmatized_keyword and lemmatized_keyword not in stop_words:  # 원형이 비어있지 않고 불용어가 아니라면
            keyword_scores[lemmatized_keyword] += score  # 원형 키워드에 유사도 합산

# 유사도가 높은 상위 10개 키워드 추출
top_10_keywords_with_scores = sorted(keyword_scores.items(), key=lambda x: x[1], reverse=True)[:10]

# 결과 출력
print(top_10_keywords_with_scores)


[('기장', 70.30909999999997), ('사이즈', 65.21169999999998), ('바지', 64.2067), ('색감', 47.90070000000001), ('만족하다', 46.363800000000005), ('적당하다', 36.0886), ('브랜디 드', 32.203500000000005), ('청바지', 31.074899999999996), ('허리', 30.6411), ('와이드', 24.3919)]
