In [11]:
import pandas as pd

In [12]:
def clean_review_column(df, column_name):
    # '\n'을 제거하고 한글 자모 및 구두점 제거
    df[column_name] = df[column_name].str.replace('\n', ' ', regex=False)  # 개행 문자 제거
    df[column_name] = df[column_name].str.replace(r'[ㄱ-ㅎㅏ-ㅣ]+', ' ', regex=True)  # 한글 자모 제거
    df[column_name] = df[column_name].str.replace(r'[^\w\s]', ' ', regex=True)  # 특정 구두점 제거
    
    # 여러 공백을 한 칸으로 변환
    df[column_name] = df[column_name].str.replace(r'\s+', ' ', regex=True)  # 여러 개의 공백을 한 칸으로 변환
    
    return df

In [None]:
from pykospacing import Spacing

spacing = Spacing()

In [9]:
df = pd.read_csv('[SET] 워셔블 케이블 반팔 니트 세트.csv')
df = clean_review_column(df, 'Review')
documents = df['Review']

In [10]:
documents

0      여름에 꼭 가지고 있어야 템 중 하나 입니다 원플원임에도 불구하고 퀄리티랑 핏이 너...
1                여름에 입 기 딱 좋은 두께에 요 부 드러워서 맨 몸에 입어도 괜찮아요
2      시원한 느낌이라 좋습니다 부드러워 편하네요 카라와 단추 라인이 예쁘게 잘 나왔습니다...
3      무신사 매장까지 방문해서 재질확인 후 이 구매하였습니다 여름에 입 기 좋은 두께 감...
4       최고에 요 사이즈 살짝 오버핏인데 그냥 너무 좋야 요 제 스펙이랑 비슷하시면 m 사세요
                             ...                        
885                          합리적인 가격이 고 여름 반팔은 역시나 수아레네요
886                     옷 2벌 와 요 선택 하실 때 다른 거로 선택하시길 바래요
887       약간 큰 느낌이 긴 한데 이 가격에 이 정도면 무난 합니다 한 여름에는 힘들 듯해요
888                      사이즈도 좋고 여름에 잘 입고 다니고 있습니다 추천합니다
889                      가성비 젛아요 품은 생각보다 좀 커요 참고하세요 이 뻐요
Name: Review, Length: 890, dtype: object

In [5]:
from keybert import KeyBERT
from sklearn.feature_extraction.text import CountVectorizer

# KeyBERT 모델 초기화
kw_model = KeyBERT()

vectorizer = CountVectorizer(ngram_range=(1, 1))

# 각 문서에서 핵심 키워드 추출
def extract_keywords(text):
    # 각 텍스트에서 상위 5개의 키워드 추출
    keywords = kw_model.extract_keywords(text, vectorizer=vectorizer, top_n=5)
    return keywords

# 전체 문서에 대해 핵심 키워드 추출
df['Keywords'] = documents.apply(extract_keywords)

# 키워드가 잘 추출되었는지 확인
print(df[['Review', 'Keywords']].head())

  from tqdm.autonotebook import tqdm, trange



                                              Review  \
0  여름에 꼭 가지고 있어야 템 중 하나 입니다 원플원임에도 불구하고 퀄리티랑 핏이 너...   
1               여름에 입기 딱 좋은 두께에요 부드러워서 맨 몸에 입어도 괜찮아요   
2  시원한 느낌이라 좋습니다 부드러워 편하네요 카라와 단추 라인이 예쁘게 잘 나왔습니다...   
3  무신사 매장까지 방문해서 재질확인후이 구매하였습니다 여름에 입기 좋은 두께감입니다 ...   
4     최고에요 사이즈 살짝 오버핏인데 그냥 너무 좋야요 제 스펙이랑 비슷하시면 m 사세요   

                                            Keywords  
0  [(정사이즈로, 0.3535), (구매하시면, 0.3386), (구매하시거나, 0....  
1  [(입어도, 0.6102), (부드러워서, 0.4709), (여름에, 0.4678)...  
2  [(적당히, 0.6256), (라인이, 0.6139), (시원한, 0.6104), ...  
3  [(재질확인후이, 0.7081), (방문해서, 0.6456), (무신사, 0.594...  
4  [(스펙이랑, 0.6513), (사이즈, 0.5276), (사세요, 0.4755),...  


In [6]:
df

Unnamed: 0,Review,Star,Keywords
0,여름에 꼭 가지고 있어야 템 중 하나 입니다 원플원임에도 불구하고 퀄리티랑 핏이 너...,5.0,"[(정사이즈로, 0.3535), (구매하시면, 0.3386), (구매하시거나, 0...."
1,여름에 입기 딱 좋은 두께에요 부드러워서 맨 몸에 입어도 괜찮아요,5.0,"[(입어도, 0.6102), (부드러워서, 0.4709), (여름에, 0.4678)..."
2,시원한 느낌이라 좋습니다 부드러워 편하네요 카라와 단추 라인이 예쁘게 잘 나왔습니다...,5.0,"[(적당히, 0.6256), (라인이, 0.6139), (시원한, 0.6104), ..."
3,무신사 매장까지 방문해서 재질확인후이 구매하였습니다 여름에 입기 좋은 두께감입니다 ...,5.0,"[(재질확인후이, 0.7081), (방문해서, 0.6456), (무신사, 0.594..."
4,최고에요 사이즈 살짝 오버핏인데 그냥 너무 좋야요 제 스펙이랑 비슷하시면 m 사세요,5.0,"[(스펙이랑, 0.6513), (사이즈, 0.5276), (사세요, 0.4755),..."
...,...,...,...
885,합리적인 가격이고 여름 반팔은 역시나 수아레네요,5.0,"[(합리적인, 0.6039), (가격이고, 0.5589), (반팔은, 0.4801)..."
886,옷 2벌 와요 선택하실때 다른거로 선택하시길 바래요,5.0,"[(선택하시길, 0.6377), (2벌, 0.521), (다른거로, 0.5048),..."
887,약간 큰 느낌이긴 한데 이 가격에 이정도면 무난 합니다 한여름에는 힘들듯해요,5.0,"[(한여름에는, 0.6743), (무난, 0.6062), (합니다, 0.5799),..."
888,사이즈도 좋고 여름에 잘 입고 다니고 있습니다 추천합니다,5.0,"[(추천합니다, 0.8154), (다니고, 0.6586), (사이즈도, 0.6375..."


In [7]:
from collections import Counter

# 각 문서에서 추출된 키워드를 모은 리스트 생성
all_keywords = []

for keywords in df['Keywords']:
    # keywords는 [(단어, 가중치), (단어, 가중치), ...] 형식이므로 단어만 추출
    all_keywords.extend([keyword[0] for keyword in keywords])

# 키워드의 빈도 계산
keyword_counts = Counter(all_keywords)

# 빈도 상위 10개의 키워드 출력
top_keywords = keyword_counts.most_common(15)

# 상위 10개의 키워드와 그 빈도를 출력
print("상위 15개의 키워드:")
for word, count in top_keywords:
    print(f"{word}: {count}번")

상위 15개의 키워드:
너무: 91번
입기: 60번
가성비: 49번
좋아요: 46번
여름에: 44번
사이즈도: 44번
만족합니다: 41번
색감도: 39번
입고: 35번
생각보다: 34번
사이즈: 30번
마음에: 28번
입을: 27번
재질도: 27번
좋고: 27번


In [8]:
from collections import Counter
from konlpy.tag import Okt

# Okt 형태소 분석기 초기화
okt = Okt()

stop_words = ['좋다', '입다', '같다', '이다', '있다', '입']

# 키워드를 원형으로 변환
def lemmatize_keyword(keyword):
    morphs = okt.pos(keyword, stem=True)  # 형태소 분석 및 어간 추출
    lemmatized = [word for word, pos in morphs if pos in ['Noun', 'Verb', 'Adjective']] # 명사, 동사, 형용사 추출
    return ' '.join(lemmatized) if lemmatized else None  # 원형 변환된 단어들을 합침, 없으면 None 반환

# 키워드를 모두 모아서 리스트로 풀기
all_keywords = []
for keywords in df['Keywords']:
    # 키워드 원형으로 변환 후 리스트에 추가 (불용어 제외)
    for keyword, score in keywords:
        lemmatized_keyword = lemmatize_keyword(keyword)
        if lemmatized_keyword and lemmatized_keyword not in stop_words:  # 불용어 필터링
            all_keywords.append(lemmatized_keyword)

# 각 키워드의 빈도를 계산
keyword_counts = Counter(all_keywords)

# 상위 10개의 키워드 추출
top_10_keywords = keyword_counts.most_common(10)

# 결과 출력
print(top_10_keywords)

[('사이즈', 114), ('색감', 92), ('여름', 72), ('가성 비', 62), ('재질', 59), ('가격', 58), ('배송', 56), ('니트', 55), ('만족하다', 53), ('시원하다', 52)]


In [23]:
csv_title = "[SET] 워셔블 케이블 반팔 니트 세트"

# 키워드만 추출하여 리스트로 변환
top_10_keywords_list = [keyword for keyword, _ in top_10_keywords]

keywords_str = ', '.join(top_10_keywords_list)

# 데이터프레임 생성 (2열 1행: 'title'과 'keyword')
df = pd.DataFrame({
    'title': [csv_title],
    'keyword': [keywords_str]
})

In [25]:
df.to_csv('output.csv', index=False)

### 유사도

In [9]:
from collections import defaultdict

# 키워드와 유사도를 저장할 딕셔너리 초기화
keyword_scores = defaultdict(float)

# 키워드를 모두 모아서 유사도를 합산
for keywords in df['Keywords']:
    for keyword, score in keywords:
        keyword_scores[keyword] += score  # 키워드에 유사도(score) 더하기

# 유사도가 높은 상위 10개 키워드 추출
top_10_keywords_with_scores = sorted(keyword_scores.items(), key=lambda x: x[1], reverse=True)[:10]

# 결과 출력
print(top_10_keywords_with_scores)


[('너무', 50.934399999999975), ('입기', 29.485300000000002), ('만족합니다', 29.198499999999996), ('가성비', 28.826499999999996), ('사이즈도', 27.499100000000002), ('색감도', 23.14320000000001), ('여름에', 20.394899999999996), ('생각보다', 19.092999999999996), ('입고', 18.4624), ('사이즈', 16.949499999999997)]


In [10]:
from collections import defaultdict
from konlpy.tag import Okt

# Okt 형태소 분석기 초기화
okt = Okt()

stop_words = ['좋다', '입다', '같다', '이다', '있다', '입', '생각']


# 키워드를 원형으로 변환하는 함수
def lemmatize_keyword(keyword):
    morphs = okt.pos(keyword, stem=True)  # 형태소 분석 + 어간 추출
    # 품사가 명사(Noun)이거나 동사(Verb), 형용사(Adjective)인 경우만 원형으로 변환
    lemmatized = [word for word, pos in morphs if pos in ['Noun', 'Verb', 'Adjective']]
    return ' '.join(lemmatized)  # 원형 변환된 단어들을 문자열로 합침

# 키워드와 유사도를 저장할 딕셔너리 초기화
keyword_scores = defaultdict(float)

# 키워드를 모두 모아서 유사도를 합산 (원형으로 변환하여 처리)
for keywords in df['Keywords']:
    for keyword, score in keywords:
        lemmatized_keyword = lemmatize_keyword(keyword)  # 키워드 원형 변환
        if lemmatized_keyword and lemmatized_keyword not in stop_words:  # 원형이 비어있지 않고 불용어가 아니라면
            keyword_scores[lemmatized_keyword] += score  # 원형 키워드에 유사도 합산

# 유사도가 높은 상위 10개 키워드 추출
top_10_keywords_with_scores = sorted(keyword_scores.items(), key=lambda x: x[1], reverse=True)[:10]

# 결과 출력
print(top_10_keywords_with_scores)


[('사이즈', 68.7178), ('색감', 54.8367), ('만족하다', 37.39309999999999), ('가성 비', 36.63450000000001), ('여름', 34.87310000000001), ('재질', 33.6559), ('배송', 32.547399999999996), ('가격', 32.340700000000005), ('시원하다', 30.535999999999994), ('니트', 29.453899999999997)]


# 2

In [36]:
df = pd.read_csv('[2PACK] 쿨 코튼 티셔츠 블랙+화이트.csv')
df = clean_review_column(df, 'Review')
documents = df['Review']

In [37]:
from keybert import KeyBERT
from sklearn.feature_extraction.text import CountVectorizer

# KeyBERT 모델 초기화
kw_model = KeyBERT()

vectorizer = CountVectorizer(ngram_range=(1, 1))

# 전체 문서에 대해 핵심 키워드 추출
df['Keywords'] = documents.apply(extract_keywords)

# 키워드가 잘 추출되었는지 확인
print(df[['Review', 'Keywords']].head())

                                              Review  \
0  이너티로 입을려고 샀는데 단독으로 입어도 이뻐서 완전 맘에 쏙 후기에 S사이즈도 길...   
1      이너티로도 되게 단단하고 여름에 그냥 이거 하나만 입기에도 시웡하고 이쁜거같아요    
2  옷이 되게 크게 나왔나봐요 평소에 s 아니면 m으로 사는 편인데 다른 후기들 보고 ...   
3                          휘뚜루 마뚜루 입기에는 커버낫 기본이 최고예요   
4  두 번째 주문 편함 재질 부드러움 박음질 튼튼함 흰색은 아주 약간 노란끼 있지만 깔...   

                                            Keywords  
0  [(엉덩이, 0.3746), (완전, 0.3354), (s사이즈도, 0.3219),...  
1  [(이너티로도, 0.658), (시웡하고, 0.6566), (입기에도, 0.6257...  
2  [(아니면, 0.5717), (xs인데도, 0.5459), (늘어날, 0.5391)...  
3  [(기본이, 0.7704), (입기에는, 0.7695), (커버낫, 0.4534),...  
4  [(만족도, 0.58), (흰색은, 0.5688), (박음질, 0.5592), (널...  


In [38]:
from collections import Counter
from konlpy.tag import Okt

# Okt 형태소 분석기 초기화
okt = Okt()

stop_words = ['좋다', '입다', '같다', '이다', '있다', '입']

# 키워드를 모두 모아서 리스트로 풀기
all_keywords = []
for keywords in df['Keywords']:
    # 키워드 원형으로 변환 후 리스트에 추가 (불용어 제외)
    for keyword, score in keywords:
        lemmatized_keyword = lemmatize_keyword(keyword)
        if lemmatized_keyword and lemmatized_keyword not in stop_words:  # 불용어 필터링
            all_keywords.append(lemmatized_keyword)

# 각 키워드의 빈도를 계산
keyword_counts = Counter(all_keywords)

# 상위 10개의 키워드 추출
top_10_keywords = keyword_counts.most_common(10)

# 결과 출력
print(top_10_keywords)

[('사이즈', 137), ('편하다', 121), ('시원하다', 120), ('재질', 86), ('여름', 74), ('배송', 68), ('티', 56), ('적당하다', 54), ('가격', 52), ('가성 비', 43)]


In [39]:
csv_title = "[2PACK] 쿨 코튼 티셔츠 블랙+화이트"

# 키워드만 추출하여 리스트로 변환
top_10_keywords_list = [keyword for keyword, _ in top_10_keywords]

keywords_str = ', '.join(top_10_keywords_list)

# 데이터프레임 생성 (2열 1행: 'title'과 'keyword')
new_row = pd.DataFrame({
    'title': [csv_title],
    'keyword': [keywords_str]
})

df = pd.read_csv('output.csv')
df = pd.concat([df, new_row], ignore_index=True)
df.to_csv('output.csv', index=False)

In [40]:
df

Unnamed: 0,title,keyword
0,[SET] 워셔블 케이블 반팔 니트 세트,"사이즈, 색감, 여름, 가성 비, 재질, 가격, 배송, 니트, 만족하다, 시원하다"
1,DOODLE HEART HALF T WHITE GREYISH BLUE,"프린팅, 디자인, 사이즈, 이쁘다, 들다, 편하다, 배송, 예쁘다, 재질, 생각"
2,[2PACK] 쿨 코튼 티셔츠 블랙+화이트,"사이즈, 편하다, 시원하다, 재질, 여름, 배송, 티, 적당하다, 가격, 가성 비"


# 3

In [31]:
df = pd.read_csv('DOODLE HEART HALF T WHITE GREYISH BLUE.csv')
df = clean_review_column(df, 'Review')
documents = df['Review']

In [32]:
from keybert import KeyBERT
from sklearn.feature_extraction.text import CountVectorizer

# KeyBERT 모델 초기화
kw_model = KeyBERT()

vectorizer = CountVectorizer(ngram_range=(1, 1))

# 전체 문서에 대해 핵심 키워드 추출
df['Keywords'] = documents.apply(extract_keywords)

# 키워드가 잘 추출되었는지 확인
print(df[['Review', 'Keywords']].head())

                                              Review  \
0  그래픽도 예쁜데 이 제품은 핏이 정말 너무 좋습니다 너무 길지 않은 스트릿한 티셔츠...   
1              디자인이 너무 예쁘고 그렇게 두껍지도 않아서 한여름에도 입을만 해요   
2                   사이즈도 잘맞고 디자인이랑 프린팅 다 너무 마음에 들어요    
3                   넘 예뻐요 프린팅이 안 유치해서 마음에 들어요 잘 입을게요   
4  커플티로 구매 했는데 너무 이쁘고 흔하지 않아서 더 좋아요 색감도 잘빠지고 프린팅도...   

                                            Keywords  
0  [(티셔츠를, 0.4813), (그래픽도, 0.399), (입을, 0.3822), ...  
1  [(입을만, 0.689), (한여름에도, 0.6263), (디자인이, 0.6153)...  
2  [(디자인이랑, 0.6118), (사이즈도, 0.55), (들어요, 0.519), ...  
3  [(입을게요, 0.5402), (유치해서, 0.5267), (프린팅이, 0.4694...  
4  [(커플티로, 0.6619), (프린팅도, 0.6514), (흔하지, 0.4587)...  


In [33]:
from collections import Counter
from konlpy.tag import Okt

# Okt 형태소 분석기 초기화
okt = Okt()

stop_words = ['좋다', '입다', '같다', '이다', '있다', '입']

# 키워드를 모두 모아서 리스트로 풀기
all_keywords = []
for keywords in df['Keywords']:
    # 키워드 원형으로 변환 후 리스트에 추가 (불용어 제외)
    for keyword, score in keywords:
        lemmatized_keyword = lemmatize_keyword(keyword)
        if lemmatized_keyword and lemmatized_keyword not in stop_words:  # 불용어 필터링
            all_keywords.append(lemmatized_keyword)

# 각 키워드의 빈도를 계산
keyword_counts = Counter(all_keywords)

# 상위 10개의 키워드 추출
top_10_keywords = keyword_counts.most_common(10)

# 결과 출력
print(top_10_keywords)

[('프린팅', 157), ('디자인', 138), ('사이즈', 104), ('이쁘다', 94), ('들다', 57), ('편하다', 56), ('배송', 51), ('예쁘다', 51), ('재질', 49), ('생각', 45)]


In [34]:
csv_title = "DOODLE HEART HALF T WHITE GREYISH BLUE"

# 키워드만 추출하여 리스트로 변환
top_10_keywords_list = [keyword for keyword, _ in top_10_keywords]

keywords_str = ', '.join(top_10_keywords_list)

# 데이터프레임 생성 (2열 1행: 'title'과 'keyword')
new_row = pd.DataFrame({
    'title': [csv_title],
    'keyword': [keywords_str]
})

df = pd.read_csv('output.csv')
df = pd.concat([df, new_row], ignore_index=True)
df.to_csv('output.csv', index=False)

In [35]:
df

Unnamed: 0,title,keyword
0,[SET] 워셔블 케이블 반팔 니트 세트,"사이즈, 색감, 여름, 가성 비, 재질, 가격, 배송, 니트, 만족하다, 시원하다"
1,DOODLE HEART HALF T WHITE GREYISH BLUE,"프린팅, 디자인, 사이즈, 이쁘다, 들다, 편하다, 배송, 예쁘다, 재질, 생각"


# 4

In [41]:
df = pd.read_csv('아우터3. ASI 포시즌 에센셜 피그먼트 후드집업_차콜 그레이.csv')
df = clean_review_column(df, 'Review')
documents = df['Review']

In [42]:
from keybert import KeyBERT
from sklearn.feature_extraction.text import CountVectorizer

# KeyBERT 모델 초기화
kw_model = KeyBERT()

vectorizer = CountVectorizer(ngram_range=(1, 1))

# 전체 문서에 대해 핵심 키워드 추출
df['Keywords'] = documents.apply(extract_keywords)

# 키워드가 잘 추출되었는지 확인
print(df[['Review', 'Keywords']].head())

                                              Review  \
0  저희 아들 180센티에 76kg 한테 입힐려고 주문했는데 넘 늦게 왔네요 취업땜에 ...   
1                         사이즈도 좋고 재질도 좋은데 지퍼가 좀 아쉬워요   
2            원하던 후드집업을 찾았오요 색감도 너무 예쁘고 기장감도 마음에 듭니다    
3  스타일은 잘 잡았지만 얇은게 단점 그리고 지퍼가 스무스하게 내려가진 않음 그래도 이...   
4                    실물이 더 예쁘네요 제가 원하던 피그먼트 후드집업입니다    

                                            Keywords  
0  [(180센티에, 0.5826), (입힐려고, 0.5132), (76kg, 0.49...  
1  [(재질도, 0.7948), (사이즈도, 0.7777), (지퍼가, 0.7216),...  
2  [(후드집업을, 0.7043), (기장감도, 0.6359), (듭니다, 0.5883...  
3  [(내려가진, 0.6305), (합니다, 0.603), (입을, 0.6012), (...  
4  [(후드집업입니다, 0.649), (피그먼트, 0.6464), (실물이, 0.521...  


In [43]:
from collections import Counter
from konlpy.tag import Okt

# Okt 형태소 분석기 초기화
okt = Okt()

stop_words = ['좋다', '입다', '같다', '이다', '있다', '입']

# 키워드를 모두 모아서 리스트로 풀기
all_keywords = []
for keywords in df['Keywords']:
    # 키워드 원형으로 변환 후 리스트에 추가 (불용어 제외)
    for keyword, score in keywords:
        lemmatized_keyword = lemmatize_keyword(keyword)
        if lemmatized_keyword and lemmatized_keyword not in stop_words:  # 불용어 필터링
            all_keywords.append(lemmatized_keyword)

# 각 키워드의 빈도를 계산
keyword_counts = Counter(all_keywords)

# 상위 10개의 키워드 추출
top_10_keywords = keyword_counts.most_common(10)

# 결과 출력
print(top_10_keywords)

[('색감', 115), ('사이즈', 101), ('배송', 85), ('생각', 84), ('지퍼', 75), ('편하다', 75), ('디자인', 65), ('이쁘다', 61), ('적당하다', 58), ('무겁다', 49)]


In [44]:
csv_title = "아우터3. ASI 포시즌 에센셜 피그먼트 후드집업_차콜 그레이"

# 키워드만 추출하여 리스트로 변환
top_10_keywords_list = [keyword for keyword, _ in top_10_keywords]

keywords_str = ', '.join(top_10_keywords_list)

# 데이터프레임 생성 (2열 1행: 'title'과 'keyword')
new_row = pd.DataFrame({
    'title': [csv_title],
    'keyword': [keywords_str]
})

df = pd.read_csv('output.csv')
df = pd.concat([df, new_row], ignore_index=True)
df.to_csv('output.csv', index=False)

In [45]:
df

Unnamed: 0,title,keyword
0,[SET] 워셔블 케이블 반팔 니트 세트,"사이즈, 색감, 여름, 가성 비, 재질, 가격, 배송, 니트, 만족하다, 시원하다"
1,DOODLE HEART HALF T WHITE GREYISH BLUE,"프린팅, 디자인, 사이즈, 이쁘다, 들다, 편하다, 배송, 예쁘다, 재질, 생각"
2,[2PACK] 쿨 코튼 티셔츠 블랙+화이트,"사이즈, 편하다, 시원하다, 재질, 여름, 배송, 티, 적당하다, 가격, 가성 비"
3,아우터3. ASI 포시즌 에센셜 피그먼트 후드집업_차콜 그레이,"색감, 사이즈, 배송, 생각, 지퍼, 편하다, 디자인, 이쁘다, 적당하다, 무겁다"


# 5

In [46]:
df = pd.read_csv('아우터2. 파이어버드 트랙탑 - 블랙  IJ7058.csv')
df = clean_review_column(df, 'Review')
documents = df['Review']

In [47]:
from keybert import KeyBERT
from sklearn.feature_extraction.text import CountVectorizer

# KeyBERT 모델 초기화
kw_model = KeyBERT()

vectorizer = CountVectorizer(ngram_range=(1, 1))

# 전체 문서에 대해 핵심 키워드 추출
df['Keywords'] = documents.apply(extract_keywords)

# 키워드가 잘 추출되었는지 확인
print(df[['Review', 'Keywords']].head())

                                              Review  \
0  굿 확실히 듣던 대로 시보리가 자기주장이 강하네요 어릴 때 이 져지를 입은 형한테 ...   
1  사이즈 정사이즈로 딱 맞고 시보리도 짱짱해서 좋아요 크게사도 이뻤겠지만 만족합니당 ...   
2  L사이즈 구매했다가 너무 커서 S사이즈로 교환했어요 만족합니다 S사이즈도 넉넉해요 ...   
3                        파이어버드 갖고 싶었는데 매일 입고다닐 것 같어용   
4                    사이즈도 좀 큰가 했는데 넉넉하니 너무좋구 핏도 이뻐요    

                                            Keywords  
0  [(자기주장이, 0.6299), (확실히, 0.5971), (형한테, 0.562),...  
1  [(만족합니당, 0.6837), (정사이즈로, 0.631), (자주보이는게, 0.6...  
2  [(넉넉해요, 0.6591), (만족합니다, 0.6568), (커서, 0.6199)...  
3  [(파이어버드, 0.767), (입고다닐, 0.7036), (매일, 0.6965),...  
4  [(넉넉하니, 0.6981), (사이즈도, 0.688), (큰가, 0.6405), ...  


In [50]:
from collections import Counter
from konlpy.tag import Okt

# Okt 형태소 분석기 초기화
okt = Okt()

stop_words = ['좋다', '입다', '같다', '이다', '있다', '입', '생각', '하다']

# 키워드를 모두 모아서 리스트로 풀기
all_keywords = []
for keywords in df['Keywords']:
    # 키워드 원형으로 변환 후 리스트에 추가 (불용어 제외)
    for keyword, score in keywords:
        lemmatized_keyword = lemmatize_keyword(keyword)
        if lemmatized_keyword and lemmatized_keyword not in stop_words:  # 불용어 필터링
            all_keywords.append(lemmatized_keyword)

# 각 키워드의 빈도를 계산
keyword_counts = Counter(all_keywords)

# 상위 10개의 키워드 추출
top_10_keywords = keyword_counts.most_common(10)

# 결과 출력
print(top_10_keywords)

[('사이즈', 181), ('편하다', 105), ('배송', 104), ('아디다스', 68), ('적당하다', 53), ('이쁘다', 53), ('만족하다', 51), ('크다', 47), ('져지', 43), ('디자인', 41)]


In [51]:
csv_title = "아우터2. 파이어버드 트랙탑 - 블랙  IJ7058"

# 키워드만 추출하여 리스트로 변환
top_10_keywords_list = [keyword for keyword, _ in top_10_keywords]

keywords_str = ', '.join(top_10_keywords_list)

# 데이터프레임 생성 (2열 1행: 'title'과 'keyword')
new_row = pd.DataFrame({
    'title': [csv_title],
    'keyword': [keywords_str]
})

df = pd.read_csv('output.csv')
df = pd.concat([df, new_row], ignore_index=True)
df.to_csv('output.csv', index=False)

In [52]:
df

Unnamed: 0,title,keyword
0,[SET] 워셔블 케이블 반팔 니트 세트,"사이즈, 색감, 여름, 가성 비, 재질, 가격, 배송, 니트, 만족하다, 시원하다"
1,DOODLE HEART HALF T WHITE GREYISH BLUE,"프린팅, 디자인, 사이즈, 이쁘다, 들다, 편하다, 배송, 예쁘다, 재질, 생각"
2,[2PACK] 쿨 코튼 티셔츠 블랙+화이트,"사이즈, 편하다, 시원하다, 재질, 여름, 배송, 티, 적당하다, 가격, 가성 비"
3,아우터3. ASI 포시즌 에센셜 피그먼트 후드집업_차콜 그레이,"색감, 사이즈, 배송, 생각, 지퍼, 편하다, 디자인, 이쁘다, 적당하다, 무겁다"
4,아우터2. 파이어버드 트랙탑 - 블랙 IJ7058,"사이즈, 편하다, 배송, 아디다스, 적당하다, 이쁘다, 만족하다, 크다, 져지, 디자인"


# 6

In [55]:
df = pd.read_csv('42283 루즈핏 워크쇼츠 Black_reviews.csv')
df = clean_review_column(df, 'Review')
documents = df['Review']

from keybert import KeyBERT
from sklearn.feature_extraction.text import CountVectorizer

# KeyBERT 모델 초기화
kw_model = KeyBERT()

vectorizer = CountVectorizer(ngram_range=(1, 1))

# 전체 문서에 대해 핵심 키워드 추출
df['Keywords'] = documents.apply(extract_keywords)

# 키워드가 잘 추출되었는지 확인
print(df[['Review', 'Keywords']].head())

                                              Review  \
0  예전부터 치카노 스타일로 입어보고 싶었는데 때마침 눈에 딱 들어와서 구매 해 봤습니...   
1                  요즘 난 디키즈 러버 입니다 요즘 날씨에 여름까지 딱이에요    
2  소재 빳빳하고 무난한 검정색이라 아무옷에 입어도 잘 어울려용 근데 다리길이가 쬐끔 ...   
3                  핏이 너무 이쁘고 디테일들이 들어가서 입는 재미 쏠쏠합니다    
4                   깔별로 쟁여놓는 바지입니다 36사이즈 헐렁호이 츠 직입니자   

                                            Keywords  
0  [(넉넉하니, 0.65), (사이즈는, 0.6146), (들어와서, 0.5614),...  
1  [(날씨에, 0.7014), (디키즈, 0.4882), (요즘, 0.4868), (...  
2  [(검정색이라, 0.6879), (어울려용, 0.6551), (입어도, 0.483)...  
3  [(쏠쏠합니다, 0.7588), (디테일들이, 0.5939), (들어가서, 0.50...  
4  [(36사이즈, 0.7329), (바지입니다, 0.5284), (직입니자, 0.49...  


In [56]:
from collections import Counter
from konlpy.tag import Okt

# Okt 형태소 분석기 초기화
okt = Okt()

stop_words = ['좋다', '입다', '같다', '이다', '있다', '입', '생각', '하다']

# 키워드를 모두 모아서 리스트로 풀기
all_keywords = []
for keywords in df['Keywords']:
    # 키워드 원형으로 변환 후 리스트에 추가 (불용어 제외)
    for keyword, score in keywords:
        lemmatized_keyword = lemmatize_keyword(keyword)
        if lemmatized_keyword and lemmatized_keyword not in stop_words:  # 불용어 필터링
            all_keywords.append(lemmatized_keyword)

# 각 키워드의 빈도를 계산
keyword_counts = Counter(all_keywords)

# 상위 10개의 키워드 추출
top_10_keywords = keyword_counts.most_common(10)

# 결과 출력
print(top_10_keywords)

[('사이즈', 247), ('허리', 123), ('디 키즈', 74), ('재질', 72), ('바지', 64), ('크다', 56), ('만족하다', 50), ('업 하다', 47), ('기장', 47), ('핏', 47)]


In [57]:
csv_title = "42283 루즈핏 워크쇼츠 Black_reviews.csv"

# 키워드만 추출하여 리스트로 변환
top_10_keywords_list = [keyword for keyword, _ in top_10_keywords]

keywords_str = ', '.join(top_10_keywords_list)

# 데이터프레임 생성 (2열 1행: 'title'과 'keyword')
new_row = pd.DataFrame({
    'title': [csv_title],
    'keyword': [keywords_str]
})

df = pd.read_csv('output.csv')
df = pd.concat([df, new_row], ignore_index=True)
df.to_csv('output.csv', index=False)

In [59]:
df

Unnamed: 0,title,keyword
0,[SET] 워셔블 케이블 반팔 니트 세트,"사이즈, 색감, 여름, 가성 비, 재질, 가격, 배송, 니트, 만족하다, 시원하다"
1,DOODLE HEART HALF T WHITE GREYISH BLUE,"프린팅, 디자인, 사이즈, 이쁘다, 들다, 편하다, 배송, 예쁘다, 재질, 생각"
2,[2PACK] 쿨 코튼 티셔츠 블랙+화이트,"사이즈, 편하다, 시원하다, 재질, 여름, 배송, 티, 적당하다, 가격, 가성 비"
3,아우터3. ASI 포시즌 에센셜 피그먼트 후드집업_차콜 그레이,"색감, 사이즈, 배송, 생각, 지퍼, 편하다, 디자인, 이쁘다, 적당하다, 무겁다"
4,아우터2. 파이어버드 트랙탑 - 블랙 IJ7058,"사이즈, 편하다, 배송, 아디다스, 적당하다, 이쁘다, 만족하다, 크다, 져지, 디자인"
5,42283 루즈핏 워크쇼츠 Black_reviews.csv,"사이즈, 허리, 디 키즈, 재질, 바지, 크다, 만족하다, 업 하다, 기장, 핏"


# 7

In [60]:
df = pd.read_csv('(여름버전추가) 투턱 와이드 롱 스웨트 팬츠 [그레이]_reviews.csv')
df = clean_review_column(df, 'Review')
documents = df['Review']

from keybert import KeyBERT
from sklearn.feature_extraction.text import CountVectorizer

# KeyBERT 모델 초기화
kw_model = KeyBERT()

vectorizer = CountVectorizer(ngram_range=(1, 1))

# 전체 문서에 대해 핵심 키워드 추출
df['Keywords'] = documents.apply(extract_keywords)

# 키워드가 잘 추출되었는지 확인
print(df[['Review', 'Keywords']].head())

                                              Review  \
0  장점 1 재질이 좋다 탄탄 재질이 싸구려가 아닌 게 티 나요 이런 트레이닝 팬츠 여...   
1       핏이 엄청 좋은거 같아요 일단 비싸긴했는데 연말특가세일 받아서 싸게샀어요 추천    
2  편하게 입을 스웨트팬츠 찾는 중에 턱이 있어서 심심해보이지 않고 볼륨감 있어서 아주...   
3                    스타일 좋네요 색감이 너무 좋아요 가격대비 가성비입니다    
4  배송빨라서 좋아요 두께는 중간정도라 한겨울아니면 다입을 수 있을듯 싶어요 핏도 예쁘...   

                                            Keywords  
0  [(사진으로는, 0.3445), (여기저기서, 0.3408), (가격대인, 0.33...  
1  [(연말특가세일, 0.7779), (엄청, 0.5831), (추천, 0.4983),...  
2  [(심심해보이지, 0.5359), (검정색, 0.5286), (만족하고, 0.444...  
3  [(가성비입니다, 0.7411), (가격대비, 0.6163), (색감이, 0.574...  
4  [(중간정도라, 0.7328), (한겨울아니면, 0.6507), (다입을, 0.59...  


In [62]:
from collections import Counter
from konlpy.tag import Okt

# Okt 형태소 분석기 초기화
okt = Okt()

stop_words = ['좋다', '입다', '같다', '이다', '있다', '입', '생각', '하다', '기다', '들다']

# 키워드를 모두 모아서 리스트로 풀기
all_keywords = []
for keywords in df['Keywords']:
    # 키워드 원형으로 변환 후 리스트에 추가 (불용어 제외)
    for keyword, score in keywords:
        lemmatized_keyword = lemmatize_keyword(keyword)
        if lemmatized_keyword and lemmatized_keyword not in stop_words:  # 불용어 필터링
            all_keywords.append(lemmatized_keyword)

# 각 키워드의 빈도를 계산
keyword_counts = Counter(all_keywords)

# 상위 10개의 키워드 추출
top_10_keywords = keyword_counts.most_common(10)

# 결과 출력
print(top_10_keywords)

[('편하다', 142), ('여름', 99), ('기장', 77), ('바지', 63), ('배송', 57), ('사이즈', 53), ('핏', 51), ('시원하다', 51), ('이쁘다', 48), ('만족하다', 46)]


In [63]:
csv_title = "(여름버전추가) 투턱 와이드 롱 스웨트 팬츠 [그레이]_reviews"

# 키워드만 추출하여 리스트로 변환
top_10_keywords_list = [keyword for keyword, _ in top_10_keywords]

keywords_str = ', '.join(top_10_keywords_list)

# 데이터프레임 생성 (2열 1행: 'title'과 'keyword')
new_row = pd.DataFrame({
    'title': [csv_title],
    'keyword': [keywords_str]
})

df = pd.read_csv('output.csv')
df = pd.concat([df, new_row], ignore_index=True)
df.to_csv('output.csv', index=False)

In [64]:
df

Unnamed: 0,title,keyword
0,[SET] 워셔블 케이블 반팔 니트 세트,"사이즈, 색감, 여름, 가성 비, 재질, 가격, 배송, 니트, 만족하다, 시원하다"
1,DOODLE HEART HALF T WHITE GREYISH BLUE,"프린팅, 디자인, 사이즈, 이쁘다, 들다, 편하다, 배송, 예쁘다, 재질, 생각"
2,[2PACK] 쿨 코튼 티셔츠 블랙+화이트,"사이즈, 편하다, 시원하다, 재질, 여름, 배송, 티, 적당하다, 가격, 가성 비"
3,아우터3. ASI 포시즌 에센셜 피그먼트 후드집업_차콜 그레이,"색감, 사이즈, 배송, 생각, 지퍼, 편하다, 디자인, 이쁘다, 적당하다, 무겁다"
4,아우터2. 파이어버드 트랙탑 - 블랙 IJ7058,"사이즈, 편하다, 배송, 아디다스, 적당하다, 이쁘다, 만족하다, 크다, 져지, 디자인"
5,42283 루즈핏 워크쇼츠 Black_reviews.csv,"사이즈, 허리, 디 키즈, 재질, 바지, 크다, 만족하다, 업 하다, 기장, 핏"
6,(여름버전추가) 투턱 와이드 롱 스웨트 팬츠 [그레이]_reviews,"편하다, 여름, 기장, 바지, 배송, 사이즈, 핏, 시원하다, 이쁘다, 만족하다"


# 8

In [65]:
df = pd.read_csv('아우터1. 베켄바우어 트랙탑 - 인디고  IP0418.csv')
df = clean_review_column(df, 'Review')
documents = df['Review']

from keybert import KeyBERT
from sklearn.feature_extraction.text import CountVectorizer

# KeyBERT 모델 초기화
kw_model = KeyBERT()

vectorizer = CountVectorizer(ngram_range=(1, 1))

# 전체 문서에 대해 핵심 키워드 추출
df['Keywords'] = documents.apply(extract_keywords)

# 키워드가 잘 추출되었는지 확인
print(df[['Review', 'Keywords']].head())

                                              Review  \
0  너모 예뻐요 그냥 제가 알던 재질인 줄 알았는데 좀 빳빳한 재질이에요 그리고 안에 ...   
1  기장에 비해 품은 작고 또 작은 사이즈로 가자니 입기 답답해서 m 사이즈에서 xl로...   
2  안에 살짝 기모느낌이 나서 따뜻해요 봄이나 가을에 이것만 걸쳐도될듯 아래 밴딩이 잘...   
3  화면보다 색은 어두워요 그게더이쁜듯 입었을때 착감기는느낌은 아니지만 촤라락 떨어지는...   
4   너무 예뻐서 사버림 약 2주 정도 입고 쓰는중 사이즈 약간 힙 백수 st로 입고싶...   

                                            Keywords  
0  [(고만고만합니다, 0.6639), (추천합니다, 0.6417), (안감이, 0.5...  
1  [(사이즈에서, 0.6604), (사이즈로, 0.5839), (나와서, 0.5708...  
2  [(밴딩이, 0.616), (늘어나서, 0.575), (완죤, 0.5624), (편...  
3  [(흰색바지나, 0.7044), (추천해요, 0.6977), (화면보다, 0.616...  
4  [(전형적인, 0.409), (정사이즈, 0.3853), (무조건, 0.3735),...  


In [67]:
from collections import Counter
from konlpy.tag import Okt

# Okt 형태소 분석기 초기화
okt = Okt()

stop_words = ['좋다', '입다', '같다', '이다', '있다', '입', '생각', '하다', '기다', '들다']

# 키워드를 모두 모아서 리스트로 풀기
all_keywords = []
for keywords in df['Keywords']:
    # 키워드 원형으로 변환 후 리스트에 추가 (불용어 제외)
    for keyword, score in keywords:
        lemmatized_keyword = lemmatize_keyword(keyword)
        if lemmatized_keyword and lemmatized_keyword not in stop_words:  # 불용어 필터링
            all_keywords.append(lemmatized_keyword)

# 각 키워드의 빈도를 계산
keyword_counts = Counter(all_keywords)

# 상위 10개의 키워드 추출
top_10_keywords = keyword_counts.most_common(10)

# 결과 출력
print(top_10_keywords)

[('사이즈', 24), ('아디다스', 12), ('편하다', 11), ('색감', 8), ('예쁘다', 8), ('만족하다', 8), ('이쁘다', 8), ('실물', 7), ('역시', 7), ('기장', 6)]


In [68]:
csv_title = "아우터1. 베켄바우어 트랙탑 - 인디고  IP0418"

# 키워드만 추출하여 리스트로 변환
top_10_keywords_list = [keyword for keyword, _ in top_10_keywords]

keywords_str = ', '.join(top_10_keywords_list)

# 데이터프레임 생성 (2열 1행: 'title'과 'keyword')
new_row = pd.DataFrame({
    'title': [csv_title],
    'keyword': [keywords_str]
})

df = pd.read_csv('output.csv')
df = pd.concat([df, new_row], ignore_index=True)
df.to_csv('output.csv', index=False)

In [69]:
df

Unnamed: 0,title,keyword
0,[SET] 워셔블 케이블 반팔 니트 세트,"사이즈, 색감, 여름, 가성 비, 재질, 가격, 배송, 니트, 만족하다, 시원하다"
1,DOODLE HEART HALF T WHITE GREYISH BLUE,"프린팅, 디자인, 사이즈, 이쁘다, 들다, 편하다, 배송, 예쁘다, 재질, 생각"
2,[2PACK] 쿨 코튼 티셔츠 블랙+화이트,"사이즈, 편하다, 시원하다, 재질, 여름, 배송, 티, 적당하다, 가격, 가성 비"
3,아우터3. ASI 포시즌 에센셜 피그먼트 후드집업_차콜 그레이,"색감, 사이즈, 배송, 생각, 지퍼, 편하다, 디자인, 이쁘다, 적당하다, 무겁다"
4,아우터2. 파이어버드 트랙탑 - 블랙 IJ7058,"사이즈, 편하다, 배송, 아디다스, 적당하다, 이쁘다, 만족하다, 크다, 져지, 디자인"
5,42283 루즈핏 워크쇼츠 Black_reviews.csv,"사이즈, 허리, 디 키즈, 재질, 바지, 크다, 만족하다, 업 하다, 기장, 핏"
6,(여름버전추가) 투턱 와이드 롱 스웨트 팬츠 [그레이]_reviews,"편하다, 여름, 기장, 바지, 배송, 사이즈, 핏, 시원하다, 이쁘다, 만족하다"
7,아우터1. 베켄바우어 트랙탑 - 인디고 IP0418,"사이즈, 아디다스, 편하다, 색감, 예쁘다, 만족하다, 이쁘다, 실물, 역시, 기장"


# 9

In [70]:
df = pd.read_csv('1967 JET BLACK JEANS [WIDE STRAIGHT]_reviews.csv')
df = clean_review_column(df, 'Review')
documents = df['Review']

from keybert import KeyBERT
from sklearn.feature_extraction.text import CountVectorizer

# KeyBERT 모델 초기화
kw_model = KeyBERT()

vectorizer = CountVectorizer(ngram_range=(1, 1))

# 전체 문서에 대해 핵심 키워드 추출
df['Keywords'] = documents.apply(extract_keywords)

# 키워드가 잘 추출되었는지 확인
print(df[['Review', 'Keywords']].head())

                                              Review  \
0         다리가 상당히 길어보입니다 가을에 이것만 땡겨입겠습 둥 아 밑위가 좀 짧아요   
1        아우 예뻐용 홍홍 말라서 30이랑 32 고민 많이 됐는데 32 입어도 예뿌네용   
2  여자후기 없어서 고민 많이 하다가 그냥 샀는데 핏이랑 색감 다 맘에 드네요 길다고 ...   
3  사이즈는 정사이즈 가시면 될 것 같아요 일직선으로 떨어지는 스트레이트 핏이 이쁩니다...   
4                         튼실한 제 빵댕이도 견딜줄 몰랐습니다 강추합니다   

                                            Keywords  
0  [(상당히, 0.6784), (길어보입니다, 0.6781), (다리가, 0.5632...  
1  [(30이랑, 0.5924), (32, 0.4495), (입어도, 0.305), (...  
2  [(롤업하는, 0.6706), (다니는, 0.6313), (여자후기, 0.5767)...  
3  [(일직선으로, 0.6306), (정사이즈, 0.6074), (워싱은, 0.5633...  
4  [(강추합니다, 0.7244), (튼실한, 0.633), (견딜줄, 0.5909),...  


In [71]:
from collections import Counter
from konlpy.tag import Okt

# Okt 형태소 분석기 초기화
okt = Okt()

stop_words = ['좋다', '입다', '같다', '이다', '있다', '입', '생각', '하다', '기다', '들다']

# 키워드를 모두 모아서 리스트로 풀기
all_keywords = []
for keywords in df['Keywords']:
    # 키워드 원형으로 변환 후 리스트에 추가 (불용어 제외)
    for keyword, score in keywords:
        lemmatized_keyword = lemmatize_keyword(keyword)
        if lemmatized_keyword and lemmatized_keyword not in stop_words:  # 불용어 필터링
            all_keywords.append(lemmatized_keyword)

# 각 키워드의 빈도를 계산
keyword_counts = Counter(all_keywords)

# 상위 10개의 키워드 추출
top_10_keywords = keyword_counts.most_common(10)

# 결과 출력
print(top_10_keywords)

[('기장', 124), ('바지', 118), ('사이즈', 112), ('색감', 80), ('만족하다', 68), ('적당하다', 59), ('브랜디 드', 58), ('핏', 57), ('이쁘다', 56), ('허리', 55)]


In [72]:
csv_title = "1967 JET BLACK JEANS [WIDE STRAIGHT]_reviews"

# 키워드만 추출하여 리스트로 변환
top_10_keywords_list = [keyword for keyword, _ in top_10_keywords]

keywords_str = ', '.join(top_10_keywords_list)

# 데이터프레임 생성 (2열 1행: 'title'과 'keyword')
new_row = pd.DataFrame({
    'title': [csv_title],
    'keyword': [keywords_str]
})

df = pd.read_csv('output.csv')
df = pd.concat([df, new_row], ignore_index=True)
df.to_csv('output.csv', index=False)

In [73]:
df

Unnamed: 0,title,keyword
0,[SET] 워셔블 케이블 반팔 니트 세트,"사이즈, 색감, 여름, 가성 비, 재질, 가격, 배송, 니트, 만족하다, 시원하다"
1,DOODLE HEART HALF T WHITE GREYISH BLUE,"프린팅, 디자인, 사이즈, 이쁘다, 들다, 편하다, 배송, 예쁘다, 재질, 생각"
2,[2PACK] 쿨 코튼 티셔츠 블랙+화이트,"사이즈, 편하다, 시원하다, 재질, 여름, 배송, 티, 적당하다, 가격, 가성 비"
3,아우터3. ASI 포시즌 에센셜 피그먼트 후드집업_차콜 그레이,"색감, 사이즈, 배송, 생각, 지퍼, 편하다, 디자인, 이쁘다, 적당하다, 무겁다"
4,아우터2. 파이어버드 트랙탑 - 블랙 IJ7058,"사이즈, 편하다, 배송, 아디다스, 적당하다, 이쁘다, 만족하다, 크다, 져지, 디자인"
5,42283 루즈핏 워크쇼츠 Black_reviews.csv,"사이즈, 허리, 디 키즈, 재질, 바지, 크다, 만족하다, 업 하다, 기장, 핏"
6,(여름버전추가) 투턱 와이드 롱 스웨트 팬츠 [그레이]_reviews,"편하다, 여름, 기장, 바지, 배송, 사이즈, 핏, 시원하다, 이쁘다, 만족하다"
7,아우터1. 베켄바우어 트랙탑 - 인디고 IP0418,"사이즈, 아디다스, 편하다, 색감, 예쁘다, 만족하다, 이쁘다, 실물, 역시, 기장"
8,1967 JET BLACK JEANS [WIDE STRAIGHT]_reviews,"기장, 바지, 사이즈, 색감, 만족하다, 적당하다, 브랜디 드, 핏, 이쁘다, 허리"


# 10

In [74]:
df = pd.read_csv('reviews_1875663.csv')
df = clean_review_column(df, 'Review')
documents = df['Review']

from keybert import KeyBERT
from sklearn.feature_extraction.text import CountVectorizer

# KeyBERT 모델 초기화
kw_model = KeyBERT()

vectorizer = CountVectorizer(ngram_range=(1, 1))

# 전체 문서에 대해 핵심 키워드 추출
df['Keywords'] = documents.apply(extract_keywords)

# 키워드가 잘 추출되었는지 확인
print(df[['Review', 'Keywords']].head())

                                              Review  \
0  XS사려다 S샀는데 XS살걸 우선 다른 피케원피스보다 기장이 길었고 시원한 재질이여...   
1  키가 매우매우 크기 때무네 저에게는 미니기장이긴 한데 짧을건 이미 예상하고 구매했습...   
2  네이비랑 블랙 고밈하다가 블랙구매했어요 허리 잘록하게 잘들어가고 핏이뻐요 다만 많이...   
3      처음에 s살까 xs살까 고민하다가 xs샀어요 질도 좋고 예뻐요 네이비도 살까봐여    
4  많이 짧지도 않고 깔끔한 핏에 허리라인이 살짝 들어가서 예뻐요 옷감이 얇아서 밝은데...   

                                            Keywords  
0  [(xs살걸, 0.7127), (xs사려다, 0.6514), (재질이여서, 0.56...  
1  [(갠춘합니당, 0.3518), (미니기장이긴, 0.3505), (속치마, 0.30...  
2  [(네이비랑, 0.5784), (잘들어가고, 0.5773), (잘록하게, 0.567...  
3  [(네이비도, 0.752), (고민하다가, 0.7416), (처음에, 0.6394)...  
4  [(비쳐보여서, 0.7145), (허리라인이, 0.6891), (속치마를, 0.65...  


In [75]:
from collections import Counter
from konlpy.tag import Okt

# Okt 형태소 분석기 초기화
okt = Okt()

stop_words = ['좋다', '입다', '같다', '이다', '있다', '입', '생각', '하다', '기다', '들다']

# 키워드를 모두 모아서 리스트로 풀기
all_keywords = []
for keywords in df['Keywords']:
    # 키워드 원형으로 변환 후 리스트에 추가 (불용어 제외)
    for keyword, score in keywords:
        lemmatized_keyword = lemmatize_keyword(keyword)
        if lemmatized_keyword and lemmatized_keyword not in stop_words:  # 불용어 필터링
            all_keywords.append(lemmatized_keyword)

# 각 키워드의 빈도를 계산
keyword_counts = Counter(all_keywords)

# 상위 10개의 키워드 추출
top_10_keywords = keyword_counts.most_common(10)

# 결과 출력
print(top_10_keywords)

[('시원하다', 167), ('길이', 125), ('사이즈', 123), ('편하다', 115), ('적당하다', 98), ('비치다', 83), ('원피스', 70), ('배송', 53), ('재질', 51), ('라인', 51)]


In [76]:
csv_title = "reviews_1875663"

# 키워드만 추출하여 리스트로 변환
top_10_keywords_list = [keyword for keyword, _ in top_10_keywords]

keywords_str = ', '.join(top_10_keywords_list)

# 데이터프레임 생성 (2열 1행: 'title'과 'keyword')
new_row = pd.DataFrame({
    'title': [csv_title],
    'keyword': [keywords_str]
})

df = pd.read_csv('output.csv')
df = pd.concat([df, new_row], ignore_index=True)
df.to_csv('output.csv', index=False)

In [77]:
df

Unnamed: 0,title,keyword
0,[SET] 워셔블 케이블 반팔 니트 세트,"사이즈, 색감, 여름, 가성 비, 재질, 가격, 배송, 니트, 만족하다, 시원하다"
1,DOODLE HEART HALF T WHITE GREYISH BLUE,"프린팅, 디자인, 사이즈, 이쁘다, 들다, 편하다, 배송, 예쁘다, 재질, 생각"
2,[2PACK] 쿨 코튼 티셔츠 블랙+화이트,"사이즈, 편하다, 시원하다, 재질, 여름, 배송, 티, 적당하다, 가격, 가성 비"
3,아우터3. ASI 포시즌 에센셜 피그먼트 후드집업_차콜 그레이,"색감, 사이즈, 배송, 생각, 지퍼, 편하다, 디자인, 이쁘다, 적당하다, 무겁다"
4,아우터2. 파이어버드 트랙탑 - 블랙 IJ7058,"사이즈, 편하다, 배송, 아디다스, 적당하다, 이쁘다, 만족하다, 크다, 져지, 디자인"
5,42283 루즈핏 워크쇼츠 Black_reviews.csv,"사이즈, 허리, 디 키즈, 재질, 바지, 크다, 만족하다, 업 하다, 기장, 핏"
6,(여름버전추가) 투턱 와이드 롱 스웨트 팬츠 [그레이]_reviews,"편하다, 여름, 기장, 바지, 배송, 사이즈, 핏, 시원하다, 이쁘다, 만족하다"
7,아우터1. 베켄바우어 트랙탑 - 인디고 IP0418,"사이즈, 아디다스, 편하다, 색감, 예쁘다, 만족하다, 이쁘다, 실물, 역시, 기장"
8,1967 JET BLACK JEANS [WIDE STRAIGHT]_reviews,"기장, 바지, 사이즈, 색감, 만족하다, 적당하다, 브랜디 드, 핏, 이쁘다, 허리"
9,reviews_1875663,"시원하다, 길이, 사이즈, 편하다, 적당하다, 비치다, 원피스, 배송, 재질, 라인"


# 11

In [78]:
df = pd.read_csv('reviews_1944554.csv')
df = clean_review_column(df, 'Review')
documents = df['Review']

from keybert import KeyBERT
from sklearn.feature_extraction.text import CountVectorizer

# KeyBERT 모델 초기화
kw_model = KeyBERT()

vectorizer = CountVectorizer(ngram_range=(1, 1))

# 전체 문서에 대해 핵심 키워드 추출
df['Keywords'] = documents.apply(extract_keywords)

# 키워드가 잘 추출되었는지 확인
print(df[['Review', 'Keywords']].head())

                                              Review  \
0                     이뻐요 최고 꾸미고 나갈 때 진짜 자주 입음 무난꾸안꾸   
1  딸아이가 맘에들어합니다 160초반에 48킬로 딱맞습니다 기본디자인이고 만듬세 좋아요...   
2          생각보다 짧아서 당황했지만 두께감 적당하고 허리 들뜸 없어서 너무 좋아요    
3              허리는 맞는데 골반이 너무 껴요 길이는 딱 좋은데 입고벗기 불편해요   
4           오랜만에 짧은청치마 원하던스타일이에요 날씨가 따뜻해서 외출복으로 픽했어요   

                                            Keywords  
0  [(입음, 0.7701), (나갈, 0.6841), (자주, 0.6678), (최고...  
1  [(기본디자인이고, 0.5646), (맘에들어합니다, 0.5142), (160초반에...  
2  [(적당하고, 0.7706), (생각보다, 0.7002), (너무, 0.572), ...  
3  [(허리는, 0.6768), (불편해요, 0.6754), (골반이, 0.668), ...  
4  [(원하던스타일이에요, 0.8043), (날씨가, 0.5828), (오랜만에, 0....  


In [79]:
from collections import Counter
from konlpy.tag import Okt

# Okt 형태소 분석기 초기화
okt = Okt()

stop_words = ['좋다', '입다', '같다', '이다', '있다', '입', '생각', '하다', '기다', '들다']

# 키워드를 모두 모아서 리스트로 풀기
all_keywords = []
for keywords in df['Keywords']:
    # 키워드 원형으로 변환 후 리스트에 추가 (불용어 제외)
    for keyword, score in keywords:
        lemmatized_keyword = lemmatize_keyword(keyword)
        if lemmatized_keyword and lemmatized_keyword not in stop_words:  # 불용어 필터링
            all_keywords.append(lemmatized_keyword)

# 각 키워드의 빈도를 계산
keyword_counts = Counter(all_keywords)

# 상위 10개의 키워드 추출
top_10_keywords = keyword_counts.most_common(10)

# 결과 출력
print(top_10_keywords)

[('사이즈', 169), ('허리', 157), ('적당하다', 121), ('길이', 106), ('치마', 69), ('편하다', 63), ('배송', 63), ('크다', 56), ('만족하다', 47), ('색상', 44)]


In [80]:
csv_title = "reviews_1944554"

# 키워드만 추출하여 리스트로 변환
top_10_keywords_list = [keyword for keyword, _ in top_10_keywords]

keywords_str = ', '.join(top_10_keywords_list)

# 데이터프레임 생성 (2열 1행: 'title'과 'keyword')
new_row = pd.DataFrame({
    'title': [csv_title],
    'keyword': [keywords_str]
})

df = pd.read_csv('output.csv')
df = pd.concat([df, new_row], ignore_index=True)
df.to_csv('output.csv', index=False)

In [81]:
df

Unnamed: 0,title,keyword
0,[SET] 워셔블 케이블 반팔 니트 세트,"사이즈, 색감, 여름, 가성 비, 재질, 가격, 배송, 니트, 만족하다, 시원하다"
1,DOODLE HEART HALF T WHITE GREYISH BLUE,"프린팅, 디자인, 사이즈, 이쁘다, 들다, 편하다, 배송, 예쁘다, 재질, 생각"
2,[2PACK] 쿨 코튼 티셔츠 블랙+화이트,"사이즈, 편하다, 시원하다, 재질, 여름, 배송, 티, 적당하다, 가격, 가성 비"
3,아우터3. ASI 포시즌 에센셜 피그먼트 후드집업_차콜 그레이,"색감, 사이즈, 배송, 생각, 지퍼, 편하다, 디자인, 이쁘다, 적당하다, 무겁다"
4,아우터2. 파이어버드 트랙탑 - 블랙 IJ7058,"사이즈, 편하다, 배송, 아디다스, 적당하다, 이쁘다, 만족하다, 크다, 져지, 디자인"
5,42283 루즈핏 워크쇼츠 Black_reviews.csv,"사이즈, 허리, 디 키즈, 재질, 바지, 크다, 만족하다, 업 하다, 기장, 핏"
6,(여름버전추가) 투턱 와이드 롱 스웨트 팬츠 [그레이]_reviews,"편하다, 여름, 기장, 바지, 배송, 사이즈, 핏, 시원하다, 이쁘다, 만족하다"
7,아우터1. 베켄바우어 트랙탑 - 인디고 IP0418,"사이즈, 아디다스, 편하다, 색감, 예쁘다, 만족하다, 이쁘다, 실물, 역시, 기장"
8,1967 JET BLACK JEANS [WIDE STRAIGHT]_reviews,"기장, 바지, 사이즈, 색감, 만족하다, 적당하다, 브랜디 드, 핏, 이쁘다, 허리"
9,reviews_1875663,"시원하다, 길이, 사이즈, 편하다, 적당하다, 비치다, 원피스, 배송, 재질, 라인"


# 12

In [87]:
df = pd.read_csv('reviews_2551401.csv')
df = clean_review_column(df, 'Review')
documents = df['Review']

from keybert import KeyBERT
from sklearn.feature_extraction.text import CountVectorizer

# KeyBERT 모델 초기화
kw_model = KeyBERT()

vectorizer = CountVectorizer(ngram_range=(1, 1))

# 전체 문서에 대해 핵심 키워드 추출
df['Keywords'] = documents.apply(extract_keywords)

# 키워드가 잘 추출되었는지 확인
print(df[['Review', 'Keywords']].head())

                                              Review  \
0  168 기준 살짝 짧은 기장이기는 하지만 속바지가 있어서 편하게 입기 좋아요 옆쪽 ...   
1  디자인은 정말 예쁜데 안에 박음질은 엉망이에요 단 기장이 아예 다르게 어긋나있는데도...   
2              교복 치마 대신 입으려고 샀는데 편하고 핏도 예쁘고 너무 만족합니다   
3  저렴한 가격인데 품질 좋네요 안에 속바지가 있어서 좀 짧긴해도 부담없어요 저한테는 ...   
4  사이즈랑 길이가 완전 딱입니다 160대초반 44사이즈 입으시면 xs사이즈 예쁘게 잘...   

                                            Keywords  
0  [(기장이기는, 0.6006), (심심하지, 0.5184), (속바지가, 0.490...  
1  [(엉망이에요, 0.697), (허접할거, 0.6658), (기장이, 0.6189)...  
2  [(만족합니다, 0.7323), (입으려고, 0.6412), (편하고, 0.6041...  
3  [(엉덩이가, 0.667), (조여서, 0.6089), (저렴한, 0.5945), ...  
4  [(xs사이즈, 0.5646), (44사이즈, 0.5194), (입으시면, 0.42...  


In [88]:
from collections import Counter
from konlpy.tag import Okt

# Okt 형태소 분석기 초기화
okt = Okt()

stop_words = ['좋다', '입다', '같다', '이다', '있다', '입', '생각', '하다', '기다', '들다', '안']

# 키워드를 모두 모아서 리스트로 풀기
all_keywords = []
for keywords in df['Keywords']:
    # 키워드 원형으로 변환 후 리스트에 추가 (불용어 제외)
    for keyword, score in keywords:
        lemmatized_keyword = lemmatize_keyword(keyword)
        if lemmatized_keyword and lemmatized_keyword not in stop_words:  # 불용어 필터링
            all_keywords.append(lemmatized_keyword)

# 각 키워드의 빈도를 계산
keyword_counts = Counter(all_keywords)

# 상위 10개의 키워드 추출
top_10_keywords = keyword_counts.most_common(10)

# 결과 출력
print(top_10_keywords)

[('편하다', 253), ('바지', 186), ('사이즈', 175), ('허리', 118), ('길이', 61), ('예쁘다', 56), ('만족하다', 53), ('엉덩이', 53), ('적당하다', 52), ('기장', 49)]


In [94]:
csv_title = "reviews_2551401"

# 키워드만 추출하여 리스트로 변환
top_10_keywords_list = [keyword for keyword, _ in top_10_keywords]

keywords_str = ', '.join(top_10_keywords_list)

# 데이터프레임 생성 (2열 1행: 'title'과 'keyword')
new_row = pd.DataFrame({
    'title': [csv_title],
    'keyword': [keywords_str]
})

df = pd.read_csv('output.csv')
df = pd.concat([df, new_row], ignore_index=True)
df.to_csv('output.csv', index=False)

In [95]:
df

Unnamed: 0,title,keyword
0,[SET] 워셔블 케이블 반팔 니트 세트,"사이즈, 색감, 여름, 가성 비, 재질, 가격, 배송, 니트, 만족하다, 시원하다"
1,DOODLE HEART HALF T WHITE GREYISH BLUE,"프린팅, 디자인, 사이즈, 이쁘다, 들다, 편하다, 배송, 예쁘다, 재질, 생각"
2,[2PACK] 쿨 코튼 티셔츠 블랙+화이트,"사이즈, 편하다, 시원하다, 재질, 여름, 배송, 티, 적당하다, 가격, 가성 비"
3,아우터3. ASI 포시즌 에센셜 피그먼트 후드집업_차콜 그레이,"색감, 사이즈, 배송, 생각, 지퍼, 편하다, 디자인, 이쁘다, 적당하다, 무겁다"
4,아우터2. 파이어버드 트랙탑 - 블랙 IJ7058,"사이즈, 편하다, 배송, 아디다스, 적당하다, 이쁘다, 만족하다, 크다, 져지, 디자인"
5,42283 루즈핏 워크쇼츠 Black_reviews.csv,"사이즈, 허리, 디 키즈, 재질, 바지, 크다, 만족하다, 업 하다, 기장, 핏"
6,(여름버전추가) 투턱 와이드 롱 스웨트 팬츠 [그레이]_reviews,"편하다, 여름, 기장, 바지, 배송, 사이즈, 핏, 시원하다, 이쁘다, 만족하다"
7,아우터1. 베켄바우어 트랙탑 - 인디고 IP0418,"사이즈, 아디다스, 편하다, 색감, 예쁘다, 만족하다, 이쁘다, 실물, 역시, 기장"
8,1967 JET BLACK JEANS [WIDE STRAIGHT]_reviews,"기장, 바지, 사이즈, 색감, 만족하다, 적당하다, 브랜디 드, 핏, 이쁘다, 허리"
9,reviews_1875663,"시원하다, 길이, 사이즈, 편하다, 적당하다, 비치다, 원피스, 배송, 재질, 라인"


In [99]:
df = df.drop(index=12)

In [101]:
df = df.reset_index(drop=True)
df.to_csv('output.csv', index=False)

In [102]:
df

Unnamed: 0,title,keyword
0,[SET] 워셔블 케이블 반팔 니트 세트,"사이즈, 색감, 여름, 가성 비, 재질, 가격, 배송, 니트, 만족하다, 시원하다"
1,DOODLE HEART HALF T WHITE GREYISH BLUE,"프린팅, 디자인, 사이즈, 이쁘다, 들다, 편하다, 배송, 예쁘다, 재질, 생각"
2,[2PACK] 쿨 코튼 티셔츠 블랙+화이트,"사이즈, 편하다, 시원하다, 재질, 여름, 배송, 티, 적당하다, 가격, 가성 비"
3,아우터3. ASI 포시즌 에센셜 피그먼트 후드집업_차콜 그레이,"색감, 사이즈, 배송, 생각, 지퍼, 편하다, 디자인, 이쁘다, 적당하다, 무겁다"
4,아우터2. 파이어버드 트랙탑 - 블랙 IJ7058,"사이즈, 편하다, 배송, 아디다스, 적당하다, 이쁘다, 만족하다, 크다, 져지, 디자인"
5,42283 루즈핏 워크쇼츠 Black_reviews.csv,"사이즈, 허리, 디 키즈, 재질, 바지, 크다, 만족하다, 업 하다, 기장, 핏"
6,(여름버전추가) 투턱 와이드 롱 스웨트 팬츠 [그레이]_reviews,"편하다, 여름, 기장, 바지, 배송, 사이즈, 핏, 시원하다, 이쁘다, 만족하다"
7,아우터1. 베켄바우어 트랙탑 - 인디고 IP0418,"사이즈, 아디다스, 편하다, 색감, 예쁘다, 만족하다, 이쁘다, 실물, 역시, 기장"
8,1967 JET BLACK JEANS [WIDE STRAIGHT]_reviews,"기장, 바지, 사이즈, 색감, 만족하다, 적당하다, 브랜디 드, 핏, 이쁘다, 허리"
9,reviews_1875663,"시원하다, 길이, 사이즈, 편하다, 적당하다, 비치다, 원피스, 배송, 재질, 라인"
