# 카테고리

## 함수 정의

In [3]:
import pandas as pd

In [31]:
# 공통 해시태그 추출 함수
def find_common_keywords(row):
    # 각 열의 키워드를 set으로 변환
    sets = [set(row[f'keyword_{i}']) if isinstance(row[f'keyword_{i}'], list) else set() for i in range(1, 5)]
    
    # 네 열 모두에 공통으로 있는 키워드를 추출
    common_keywords = sets[0].intersection(*sets[1:])
    
    # 리스트를 다시 문자열로 변환해서 반환
    return ','.join(common_keywords)

# 모든 키워드를 합치는 함수
def find_all_keywords(row):
    # 각 열의 키워드를 set으로 변환하고 합치기
    sets = [set(row[f'keyword_{i}']) if isinstance(row[f'keyword_{i}'], list) else set() for i in range(1, 5)]
    
    # 모든 키워드의 합집합을 반환
    return ', '.join(sets[0].union(*sets[1:]))

# 중복된 단어 제거 함수
def remove_duplicates(keyword_string):
    keywords = keyword_string.split(', ')
    unique_keywords = list(set(keywords))
    return ', '.join(unique_keywords)

## 원피스 

In [1]:
import pandas as pd

def process_keywords(file_prefix):
    # 4개의 파일을 읽어와서 'keyword' 열을 처리
    df1 = pd.read_csv(f'{file_prefix}_1.csv')
    df2 = pd.read_csv(f'{file_prefix}_2.csv')
    df3 = pd.read_csv(f'{file_prefix}_3.csv')
    df4 = pd.read_csv(f'{file_prefix}_4.csv')
    
    # 열 이름 변경 (필요에 따라 변경)
    df1.rename(columns={'Title': 'title', 'Keyword': 'keyword'}, inplace=True)

    # 각 데이터프레임에서 'keyword' 열만 가져와 리스트로 변환
    df1_keywords = df1['keyword'].str.split(',')
    df2_keywords = df2['keyword'].str.split(',')
    df3_keywords = df3['keyword'].str.split(',')
    df4_keywords = df4['keyword'].str.split(',')

    # 네 개의 키워드를 하나의 데이터프레임으로 병합
    df_keywords = pd.DataFrame({
        'keyword_1': df1_keywords,
        'keyword_2': df2_keywords,
        'keyword_3': df3_keywords,
        'keyword_4': df4_keywords
    })

    # 공통 해시태그 추출 함수 (4개 모두 겹치는 경우)
    def find_common_keywords(row):
        sets = [set(row[f'keyword_{i}']) if isinstance(row[f'keyword_{i}'], list) else set() for i in range(1, 5)]
        return ', '.join(sets[0].intersection(*sets[1:]))

    # 3개 이상 겹치는 키워드 추출 함수
    def find_at_least_three_keywords(row):
        sets = [set(row[f'keyword_{i}']) if isinstance(row[f'keyword_{i}'], list) else set() for i in range(1, 5)]
        keyword_count = {}
        for keyword_set in sets:
            for keyword in keyword_set:
                keyword_count[keyword] = keyword_count.get(keyword, 0) + 1
        
        # 3개 이상 겹치는 키워드 추출
        return ', '.join([k for k, v in keyword_count.items() if v >= 3])

    # 각 함수에 따른 열 추가
    # df_keywords['common_keywords_all'] = df_keywords.apply(find_common_keywords, axis=1)
    df_keywords['common_keywords_3_plus'] = df_keywords.apply(find_at_least_three_keywords, axis=1)
    
    # df1의 'Review' 열을 추가하여 최종 결과 반환 (기존의 Review 열이 존재하지 않으면 삽입)
    if 'title' not in df_keywords.columns:
        df_keywords.insert(0, 'title', df3['title'])

    return df_keywords

In [2]:
result_df = process_keywords('reviews_category/아우터')
result_df

Unnamed: 0,title,keyword_1,keyword_2,keyword_3,keyword_4,common_keywords_3_plus
0,[무료반품]베켄바우어 트랙탑 - 인디고_IP0418,"[아디다스, 핏, 사이즈, 색감, 져지, 가을, 크게, 디자인, 배송...","[사이즈, 아디다스, 배송, 편하다, 색감, 저지, 재질, 가을, 만...","[사이즈, 아디다스, 핏, 편하다, 배송, 색감, 만족하다, 저지, ...","[사이즈, 아디다스, 색감, 편하다, 저지, 배송, 가을, 디자인, ...","색감, 디자인, 가을, 배송, 저지, 사이즈, 편하다, 아디다스"
1,파이어버드 트랙탑 - 블랙_IJ7058,"[사이즈, 핏, 배송, 아디다스, 시보리, 편하다, 오버핏, 져지, ...","[사이즈, 배송, 편하다, 아디다스, 저지, 핏, 시보리, 크다, 적...","[사이즈, 편하다, 배송, 핏, 아디다스, 빠르다, 저지, 크다, 맞...","[사이즈, 편하다, 배송, 아디다스, 저지, 크다, 빠르다, 맞다, ...","시보리, 사이즈, 핏, 편하다, 배송, 아디다스, 저지, 크다, 빠르다"
2,ASI 포시즌 에센셜 피그먼트 후드집업_차콜 그레이,"[색감, 핏, 지퍼, 배송, 사이즈, 가격, 디자인, 오버핏, 편하다...","[색감, 사이즈, 지퍼, 배송, 편하다, 가격, 핏, 디자인, 적당하...","[색감, 사이즈, 배송, 핏, 편하다, 지퍼, 후드, 가격, 디자인,...","[색감, 사이즈, 지퍼, 배송, 편하다, 후드, 가격, 디자인, 집업...","지퍼, 색감, 가격, 핏, 편하다, 사이즈, 디자인, 배송"
3,[무료반품]베켄바우어 트랙탑 - 블랙화이트_II5763,"[사이즈, 핏, 배송, 포인트, 디자인, 투, 아디다스, 크다, 빠르...","[사이즈, 배송, 디자인, 아디다스, 저지, 핏, 포인트, 흔하다, ...","[사이즈, 배송, 핏, 디자인, 빠르다, 크다, 흰색, 흔하다, 맞다...","[사이즈, 배송, 디자인, 빠르다, 포인트, 크다, 아디다스, 저지, ...","저지, 크다, 빠르다, 사이즈, 핏, 포인트, 디자인, 배송, 아디다..."
4,2WAY 스웻 후드 집업 (MELANGE GREY),"[핏, 사이즈, 지퍼, 편하다, 후드집업, 투, 크다, 기장, 오버핏...","[사이즈, 지퍼, 편하다, 핏, 적당하다, 후드 집업, 기장, 레이어드...","[핏, 사이즈, 편하다, 후드, 집업, 적당하다, 짧다, 지퍼, 기장...","[사이즈, 편하다, 후드, 지퍼, 적당하다, 집업, 크다, 짧다, 기...","크다, 레이어드, 편하다, 기장, 지퍼, 적당하다, 짧다"
5,[유튜버 PICK]FR-40S 프렌치 워크 5P 자켓_Military Navy,"[사이즈, 재킷, 크다, 핏, 디자인, 오버핏, 편하다, 배송, 워크...","[사이즈, 디자인, 크다, 편하다, 만족하다, 핏, 배송, 어울리다, ...","[사이즈, 재킷, 크다, 디자인, 편하다, 만족하다, 핏, 배송, 버...","[사이즈, 크다, 재킷, 버핏, 디자인, 편하다, 만족하다, 간절기, ...","재킷, 크다, 사이즈, 간절기, 핏, 편하다, 디자인, 배송, 만족하다"
6,[쿨탠다드] 릴렉스드 베이식 블레이저 [블랙],"[여름, 사이즈, 핏, 블레이저, 얇다, 시원하다, 가격, 배송, 가...","[사이즈, 여름, 시원하다, 블레이저, 가격, 얇다, 배송, 핏, 편...","[여름, 시원하다, 사이즈, 얇다, 핏, 가격, 배송, 편하다, 맞다...","[여름, 시원하다, 사이즈, 얇다, 블레이저, 가격, 가성비, 맞다, ...","여름, 얇다, 가성비, 가격, 시원하다, 핏, 편하다, 블레이저, 사..."
7,시어 후드 베스트 블랙,"[얇다, 여름, 가볍다, 사이즈, 가격, 편하다, 재질, 티, 배송,...","[여름, 얇다, 사이즈, 편하다, 가볍다, 가격, 재질, 덥다, 배송...","[얇다, 여름, 가볍다, 사이즈, 편하다, 재질, 덥다, 가격, 배송...","[얇다, 여름, 사이즈, 편하다, 가볍다, 가격, 재질, 덥다, 배송...","얇다, 배송, 가격, 가볍다, 편하다, 사이즈, 재질, 여름, 덥다"
8,[SAINT YEAR] 세미 오버 핏 셋업 수트_GREY,"[핏, 사이즈, 셋업, 가격, 바지, 가성비, 얇다, 결혼식, 맞다,...","[사이즈, 핏, 가격, 바지, 가성비, 적당하다, 결혼식, 셋업, 얇...","[핏, 사이즈, 얇다, 바지, 가격, 셋업, 맞다, 결혼식, 가성비,...","[사이즈, 가격, 셋업, 얇다, 바지, 가성비, 맞다, 결혼식, 색감...","셋업, 색감, 바지, 결혼식, 얇다, 맞다, 가성비, 가격"
9,MATIN KIM LOGO COATING JUMPER IN BLACK,"[배송, 사이즈, 핏, 얇다, 재질, 빠르다, 디자인, 마뗑킴, 오버...","[배송, 사이즈, 재질, 디자인, 핏, 빠르다, 얇다, 편하다, 마뗑...","[배송, 사이즈, 재질, 얇다, 빠르다, 핏, 디자인, 마뗑킴, 편하...","[배송, 사이즈, 재질, 얇다, 빠르다, 마뗑킴, 디자인, 맞다, 크...","얇다, 디자인, 핏, 편하다, 마뗑킴, 사이즈, 빠르다, 재질, 배송"


In [3]:
result_df.to_csv('reviews_category/아우터_결과.csv', index=False)

In [26]:
result_df = process_keywords('reviews_category/상의')
result_df.to_csv('reviews_category/상의_결과.csv', index=False)

In [1]:
import pandas as pd

df1 = pd.read_csv('reviews_category/원피스_1.csv')
df2 = pd.read_csv('reviews_category/원피스_2.csv')
df3 = pd.read_csv('reviews_category/원피스_3.csv')
df4 = pd.read_csv('reviews_category/원피스_4.csv')

In [2]:
df1.rename(columns={'Title': 'title', 'Keyword': 'keyword'}, inplace=True)
df1

Unnamed: 0,title,keyword
0,1875663,"핏, 길이, 편하다, 사이즈, 얇다, 여름, 허리, 원피스, 시원, 시원하다"
1,3977452,"핏, 짧다, 길이, 사이즈, 원피스, 작다, 자다, 배송, 허리, 소재"
2,1875664,"길이, 여름, 핏, 편하다, 짧다, 얇다, 시원하다, 비침, 라인, 자다"
3,4018731,"바지, 짧다, 귀엽다, 편하다, 속, 리본, 길이, 치마, 키, 가격"
4,3977488,"핏, 짧다, 재질, 길이, 사이즈, 키, 기장, 비침, 원피스, 레이어드"
5,2551401,"허리, 편하다, 사이즈, 바지, 핏, 짧다, 속바지, 길이, 치마, 편"
6,2978106,"편하다, 허리, 사이즈, 여름, 크다, 얇다, 재질, 시원하다, 단추, 길이"
7,3295891,"색감, 여름, 핏, 밑단, 사이즈, 허리, 얇다, 가격, 디자인, 치마"
8,1645762,"사이즈, 허리, 크다, 편하다, 맞다, 길이, 핏, 치마, 배송, 흰색"
9,1944554,"허리, 사이즈, 길이, 핏, 치마, 배송, 짧다, 골반, 기본, 편하다"


In [21]:
# 인덱스 기준으로 합쳐도 되는지 제목 확인해보세요 
# 각 데이터프레임에서 'title' 열만 가져오기
df1_title = df1[['title']].rename(columns={'title': 'title_1'})  # 원피스_1 title
df2_title = df2[['title']].rename(columns={'title': 'title_2'})  # 원피스_2 title
df3_title = df3[['title']].rename(columns={'title': 'title_3'})  # 원피스_3 title
df4_title = df4[['title']].rename(columns={'title': 'title_4'})  # 원피스_4 title

# 'title' 열들을 병렬로 합치기 (인덱스를 기준으로)
title_df = pd.concat([df1_title, df2_title, df3_title, df4_title], axis=1)

# 결과 출력
title_df

Unnamed: 0,title_1,title_2,title_3,title_4
0,1875663,1875663,1875663,1875663
1,3977452,3977452,3977452,3977452
2,1875664,1875664,1875664,1875664
3,4018731,4018731,4018731,4018731
4,3977488,3977488,3977488,3977488
5,2551401,2551401,2551401,2551401
6,2978106,2978106,2978106,2978106
7,3295891,3295891,3295891,3295891
8,1645762,1645762,1645762,1645762
9,1944554,1944554,1944554,1944554


In [3]:
# 각 데이터프레임에서 'keyword' 열만 가져오기
df1_keywords = df1['keyword'].str.split(',')
df2_keywords = df2['keyword'].str.split(',')  # 리스트로 변환
df3_keywords = df3['keyword'].str.split(',')  # 리스트로 변환
df4_keywords = df4['keyword'].str.split(',')  # 리스트로 변환

# 세 개의 키워드 열을 합친 데이터프레임 생성
df_keywords = pd.DataFrame({
    'keyword_1': df1_keywords,
    'keyword_2': df2_keywords,
    'keyword_3': df3_keywords,
    'keyword_4': df4_keywords
})

In [10]:
def find_common_keywords(row, threshold=4):
    # 각 열의 키워드를 set으로 변환
    set_1 = set(row['keyword_1']) if isinstance(row['keyword_1'], list) else set()
    set_2 = set(row['keyword_2']) if isinstance(row['keyword_2'], list) else set()
    set_3 = set(row['keyword_3']) if isinstance(row['keyword_3'], list) else set()
    set_4 = set(row['keyword_4']) if isinstance(row['keyword_4'], list) else set()

    # 각 키워드의 등장 횟수를 계산하기 위한 딕셔너리
    keyword_count = {}
    
    # 각 set의 키워드 등장 횟수 추가
    for keyword in set_1.union(set_2).union(set_3).union(set_4):
        keyword_count[keyword] = sum([keyword in set_1, keyword in set_2, keyword in set_3, keyword in set_4])
    
    # 주어진 threshold에 따라 공통 키워드 추출
    common_keywords = {k for k, v in keyword_count.items() if v >= threshold}
    
    # 리스트를 다시 문자열로 변환해서 반환
    return ','.join(common_keywords)

In [11]:
# 공통된 키워드를 저장할 새 열 추가
df_keywords['common_keywords'] = df_keywords.apply(find_common_keywords, axis=1)
df_keywords['common_keywords_3_plus'] = df_keywords.apply(lambda row: find_common_keywords(row, threshold=3), axis=1)


# df3에서 'title' 열을 가져오기
df_keywords.insert(0, 'title', df3['title'])

# 결과 출력
df_keywords

ValueError: cannot insert title, already exists

In [6]:
df_keywords.to_csv('원피스_최종', index=False)

## 바지 

In [39]:
import pandas as pd

# df1 = pd.read_csv('reviews_category/바지_1.csv')
df2 = pd.read_csv('reviews_category/바지_2.csv')
df3 = pd.read_csv('reviews_category/바지_3.csv')
df4 = pd.read_csv('reviews_category/바지_4.csv')

In [26]:
# 인덱스 기준으로 합쳐도 되는지 제목 확인해보세요 
# 각 데이터프레임에서 'title' 열만 가져오기
#df1_title = df1[['title']].rename(columns={'title': 'title_1'})
df2_title = df2[['title']].rename(columns={'title': 'title_2'})
df3_title = df3[['title']].rename(columns={'title': 'title_3'})
df4_title = df4[['title']].rename(columns={'title': 'title_4'})

# 'title' 열들을 병렬로 합치기 (인덱스를 기준으로)
title_df = pd.concat([ df2_title, df3_title, df4_title], axis=1)

# 결과 출력
title_df

Unnamed: 0,title_2,title_3,title_4
0,Deep One Tuck Sweat Shorts [Grey]_reviews,Deep One Tuck Sweat Shorts [Grey],Deep One Tuck Sweat Shorts [Grey]
1,바이오워싱 카펜터 버뮤다 데님 팬츠_라이트블루_reviews,바이오워싱 카펜터 버뮤다 데님 팬츠_라이트블루,바이오워싱 카펜터 버뮤다 데님 팬츠_라이트블루
2,데미지 워시드 데님 팬츠-미디엄 블루(Cool Air)_reviews,데미지 워시드 데님 팬츠-미디엄 블루(Cool Air),데미지 워시드 데님 팬츠-미디엄 블루(Cool Air)
3,Wide Cargo Half Denim Pants - 5COL_reviews,Wide Cargo Half Denim Pants - 5COL,Wide Cargo Half Denim Pants - 5COL
4,Deep One Tuck Sweat Shorts [Black]_reviews,Deep One Tuck Sweat Shorts [Black],Deep One Tuck Sweat Shorts [Black]
5,[쿨탠다드] 세미 와이드 히든 밴딩 슬랙스 [블랙]_reviews,[쿨탠다드] 세미 와이드 히든 밴딩 슬랙스 [블랙],[쿨탠다드] 세미 와이드 히든 밴딩 슬랙스 [블랙]
6,버뮤다 와이드 원턱 스웨트 쇼츠 [그레이]_reviews,버뮤다 와이드 원턱 스웨트 쇼츠 [그레이],버뮤다 와이드 원턱 스웨트 쇼츠 [그레이]
7,캣 브러쉬 워시드 버뮤다 데님 쇼츠 (SAND BLUE)_reviews,캣 브러쉬 워시드 버뮤다 데님 쇼츠 (SAND BLUE),캣 브러쉬 워시드 버뮤다 데님 쇼츠 (SAND BLUE)
8,캣 브러쉬 워시드 버뮤다 데님 쇼츠 (NORMAL BLACK)_reviews,캣 브러쉬 워시드 버뮤다 데님 쇼츠 (NORMAL BLACK),캣 브러쉬 워시드 버뮤다 데님 쇼츠 (NORMAL BLACK)
9,Deep One Tuck Sweat Pants [Grey]_reviews,Deep One Tuck Sweat Pants [Grey],Deep One Tuck Sweat Pants [Grey]


In [40]:
# 각 데이터프레임에서 'keyword' 열만 가져오기
# df1_keywords = df1['keyword'].str.split(',')
df2_keywords = df2['keyword'].str.split(',')  # 리스트로 변환
df3_keywords = df3['keyword'].str.split(',')  # 리스트로 변환
df4_keywords = df4['keyword'].str.split(',')  # 리스트로 변환

# 세 개의 키워드 열을 합친 데이터프레임 생성
df_keywords = pd.DataFrame({
    'keyword_2': df2_keywords,
    'keyword_3': df3_keywords,
    'keyword_4': df4_keywords
})

# 공통된 키워드를 저장할 새 열 추가
df_keywords['common_keywords'] = df_keywords.apply(find_common_keywords, axis=1)

# df3에서 'title' 열을 가져오기
df_keywords.insert(0, 'title', df3['title'])

# 결과 출력
df_keywords

Unnamed: 0,title,keyword_2,keyword_3,keyword_4,common_keywords
0,Deep One Tuck Sweat Shorts [Grey],"[편하다, 사이즈, 바지, 여름, 핏, 기장, 길이, 크다, 허리, ...","[편하다, 바지, 여름, 사이즈, 핏, 팬츠, 무릎, 크다, 두껍다,...","[바지, 사이즈, 여름, 기장, 버뮤다, 길이, 무릎, 팬츠, 허리,...","허리, 여름, 사이즈"
1,바이오워싱 카펜터 버뮤다 데님 팬츠_라이트블루,"[사이즈, 허리, 바지, 색감, 기장, 크다, 버뮤다, 적당하다, 핏...","[사이즈, 바지, 허리, 여름, 색감, 크다, 핏, 팬츠, 편하다, ...","[사이즈, 허리, 바지, 색감, 여름, 버뮤다, 기장, 팬츠, 가격,...","색감, 허리, 여름,사이즈, 바지"
2,데미지 워시드 데님 팬츠-미디엄 블루(Cool Air),"[바지, 사이즈, 핏, 크다, 허리, 색감, 여름, 편하다, 기장, 통]","[바지, 핏, 사이즈, 크다, 여름, 허리, 편하다, 얇다, 색감, 통]","[바지, 사이즈, 여름, 허리, 색감, 기장, 길이, 워싱, 와이드,...","사이즈, 허리, 여름,바지, 색감"
3,Wide Cargo Half Denim Pants - 5COL,"[바지, 사이즈, 허리, 기장, 색감, 편하다, 크다, 길이, 배송,...","[바지, 사이즈, 허리, 여름, 색감, 편하다, 핏, 작다, 맞다, ...","[바지, 허리, 사이즈, 색감, 여름, 기장, 배송, 길이, 반바지,...","사이즈, 허리, 여름,바지, 색감"
4,Deep One Tuck Sweat Shorts [Black],"[편하다, 바지, 핏, 사이즈, 여름, 기장, 재질, 제로, 적당하다...","[편하다, 바지, 핏, 여름, 사이즈, 두껍다, 제로, 회색, 무릎,...","[사이즈, 바지, 여름, 제로, 기장, 재질, 버뮤다, 회색, 가성비...","여름, 제로, 재질, 바지"
5,[쿨탠다드] 세미 와이드 히든 밴딩 슬랙스 [블랙],"[시원하다, 여름, 사이즈, 얇다, 핏, 슬랙스, 편하다, 기장, 와...","[여름, 시원하다, 얇다, 사이즈, 핏, 슬랙스, 편하다, 와이드, ...","[여름, 사이즈, 와이드, 슬랙스, 세미, 기장, 바지, 재질, 허리...","와이드, 사이즈, 슬랙스"
6,버뮤다 와이드 원턱 스웨트 쇼츠 [그레이],"[편하다, 사이즈, 바지, 여름, 가격, 핏, 적당하다, 시원하다, ...","[편하다, 사이즈, 여름, 바지, 가격, 얇다, 핏, 운동, 재질, ...","[사이즈, 여름, 바지, 가격, 운동, 버뮤다, 재질, 가성비, 기장...","가격, 여름, 재질, 바지"
7,캣 브러쉬 워시드 버뮤다 데님 쇼츠 (SAND BLUE),"[색감, 사이즈, 허리, 바지, 핏, 버뮤다, 크다, 배송, 기장, ...","[색감, 사이즈, 바지, 허리, 핏, 배송, 편하다, 작다, 크다, ...","[색감, 사이즈, 바지, 허리, 버뮤다, 배송, 기장, 워싱, 가격,...","배송, 사이즈, 허리,색감, 바지"
8,캣 브러쉬 워시드 버뮤다 데님 쇼츠 (NORMAL BLACK),"[사이즈, 바지, 허리, 핏, 색감, 워싱, 기장, 배송, 작다, ...","[사이즈, 바지, 핏, 허리, 색감, 작다, 배송, 디자인, 맞다, ...","[사이즈, 바지, 허리, 색감, 배송, 디자인, 워싱, 기장, 가격,...","배송, 허리, 워싱, 바지,사이즈, 색감, 디자인"
9,Deep One Tuck Sweat Pants [Grey],"[편하다, 바지, 사이즈, 핏, 기장, 와이드, 크다, 길이, 통, ...","[편하다, 바지, 핏, 사이즈, 크다, 팬츠, 통, 허리, 길이, ...","[바지, 사이즈, 허리, 기장, 길이, 와이드, 여름, 팬츠, 제로,...","허리, 길이, 와이드, 사이즈"


In [41]:
df_keywords.to_csv('바지_최종', index=False)

## 상의 

In [21]:
import pandas as pd

df1 = pd.read_csv('reviews_category/상의_1.csv')
df2 = pd.read_csv('reviews_category/상의_2.csv')
df3 = pd.read_csv('reviews_category/상의_3.csv')
df4 = pd.read_csv('reviews_category/상의_4.csv')

In [27]:
df1.rename(columns={'Title': 'title', 'Keyword': 'keyword'}, inplace=True)
df1

Unnamed: 0,title,keyword
0,DOODLE HEART HALF T WHITE GREYISH BLUE,"디자인, 프린팅, 사이즈, 핏, 재질, 배송, 가격, 편하다, 오버핏, 색감"
1,[SET] 워셔블 케이블 반팔 니트 세트,"사이즈, 핏, 여름, 색감, 니트, 가격, 가성비, 재질, 배송, 디자인"
2,[2PACK] 쿨 코튼 티셔츠 블랙+화이트,"사이즈, 여름, 재질, 편하다, 배송, 시원, 핏, 가격, 커버낫, 얇다"
3,[3천원 결제혜택]링클 체크 박시 오버핏 롤업 하프 셔츠 다크 네이비,"여름, 얇다, 시원, 핏, 셔츠, 재질, 사이즈, 시원하다, 단추, 편하다"
4,460G 컷 헤비 피그먼트 티셔츠-차콜-,"색감, 핏, 사이즈, 재질, 오버핏, 소버먼트, 여름, 색상, 배송, 워싱"
5,[16수 코마사] 2PACK SMALL ARCH T-SHIRT WHITE / BLACK,"사이즈, 핏, 여름, 재질, 가격, 편하다, 가성비, 오버핏, 두껍다, 배송"
6,빈티지 워싱 네이비 체크셔츠,"여름, 색감, 얇다, 색깔, 사이즈, 핏, 가격, 배송, 재질, 편하다"
7,[3PACK] 에어쿨링 드라이 기능성 무지 반팔티,"운동, 편하다, 시원하다, 가격, 사이즈, 재질, 가성비, 여름, 운동복, 두껍다"
8,TAG OG TEE - WHITE,"사이즈, 디자인, 배송, 핏, 오버핏, 재질, 편하다, 크기, 세탁, 프린팅"
9,[2PACK] EL 스트리트 아트워크 오버핏 반팔티 2종 2PACK,"디자인, 사이즈, 가격, 편하다, 자다, 배송, 얇다, 여름, 빠르다, 오버핏"


### 제목 확인

In [30]:
# 인덱스 기준으로 합쳐도 되는지 제목 확인해보세요 
# 각 데이터프레임에서 'title' 열만 가져오기
df1_title = df1[['title']].rename(columns={'title': 'title_1'})
df2_title = df2[['title']].rename(columns={'title': 'title_2'})
df3_title = df3[['title']].rename(columns={'title': 'title_3'})
df4_title = df4[['title']].rename(columns={'title': 'title_4'})

# 'title' 열들을 병렬로 합치기 (인덱스를 기준으로)
title_df = pd.concat([df1_title, df2_title, df3_title, df4_title], axis=1)

# 결과 출력
title_df

Unnamed: 0,title_2,title_3,title_4
0,DOODLE HEART HALF T WHITE GREYISH BLUE,DOODLE HEART HALF T WHITE GREYISH BLUE,DOODLE HEART HALF T WHITE GREYISH BLUE
1,[SET] 워셔블 케이블 반팔 니트 세트,[SET] 워셔블 케이블 반팔 니트 세트,[SET] 워셔블 케이블 반팔 니트 세트
2,[2PACK] 쿨 코튼 티셔츠 블랙+화이트,[2PACK] 쿨 코튼 티셔츠 블랙+화이트,[2PACK] 쿨 코튼 티셔츠 블랙+화이트
3,[3천원 결제혜택]링클 체크 박시 오버핏 롤업 하프 셔츠 다크 네이비,[3천원 결제혜택]링클 체크 박시 오버핏 롤업 하프 셔츠 다크 네이비,[3천원 결제혜택]링클 체크 박시 오버핏 롤업 하프 셔츠 다크 네이비
4,460G 컷 헤비 피그먼트 티셔츠-차콜-,460G 컷 헤비 피그먼트 티셔츠-차콜-,460G 컷 헤비 피그먼트 티셔츠-차콜-
5,[16수 코마사] 2PACK SMALL ARCH T-SHIRT WHITE _ BLACK,[16수 코마사] 2PACK SMALL ARCH T-SHIRT WHITE _ BLACK,[16수 코마사] 2PACK SMALL ARCH T-SHIRT WHITE _ BLACK
6,빈티지 워싱 네이비 체크셔츠,빈티지 워싱 네이비 체크셔츠,빈티지 워싱 네이비 체크셔츠
7,[3PACK] 에어쿨링 드라이 기능성 무지 반팔티,[3PACK] 에어쿨링 드라이 기능성 무지 반팔티,[3PACK] 에어쿨링 드라이 기능성 무지 반팔티
8,TAG OG TEE - WHITE,TAG OG TEE - WHITE,TAG OG TEE - WHITE
9,[2PACK] EL 스트리트 아트워크 오버핏 반팔티 2종 2PACK,[2PACK] EL 스트리트 아트워크 오버핏 반팔티 2종 2PACK,[2PACK] EL 스트리트 아트워크 오버핏 반팔티 2종 2PACK


## 카테고리 본게임 

In [33]:
# 각 데이터프레임에서 'keyword' 열만 가져오기
df1_keywords = df1['keyword'].str.split(',')  # 리스트로 변환
df2_keywords = df2['keyword'].str.split(',')  # 리스트로 변환
df3_keywords = df3['keyword'].str.split(',')  # 리스트로 변환
df4_keywords = df4['keyword'].str.split(',')  # 리스트로 변환

# 네 개의 키워드 열을 합친 데이터프레임 생성
df_keywords = pd.DataFrame({
    'keyword_1': df1_keywords,
    'keyword_2': df2_keywords,
    'keyword_3': df3_keywords,
    'keyword_4': df4_keywords
})

# 공통된 키워드를 저장할 새 열 추가
df_keywords['common_keywords'] = df_keywords.apply(find_common_keywords, axis=1)

# 모든 키워드를 저장할 새 열 추가
df_keywords['all_keywords'] = df_keywords.apply(find_all_keywords, axis=1)

# df3에서 'title' 열을 가져오기
df_keywords.insert(0, 'title', df3['title'])

# 결과 출력
df_keywords

Unnamed: 0,title,keyword_1,keyword_2,keyword_3,keyword_4,common_keywords,all_keywords
0,DOODLE HEART HALF T WHITE GREYISH BLUE,"[디자인, 프린팅, 사이즈, 핏, 재질, 배송, 가격, 편하다, 오버...","[프린팅, 디자인, 사이즈, 핏, 재질, 배송, 여름, 편하다, 가격...","[디자인, 프린팅, 사이즈, 핏, 여름, 재질, 배송, 편하다, 빠르...","[프린팅, 디자인, 사이즈, 여름, 배송, 재질, 편하다, 가격, 빠...","가격, 재질, 편하다, 사이즈, 배송","프린팅, 디자인, 어울리다, 디자인, 핏, 편하다, 사이즈, 오버핏, ..."
1,[SET] 워셔블 케이블 반팔 니트 세트,"[사이즈, 핏, 여름, 색감, 니트, 가격, 가성비, 재질, 배송, ...","[사이즈, 여름, 니트, 가격, 색감, 재질, 핏, 가성비, 배송, ...","[여름, 사이즈, 색감, 가격, 니트, 핏, 재질, 덥다, 배송, 얇다]","[여름, 니트, 사이즈, 가격, 색감, 재질, 가성비, 덥다, 배송,...","가격, 니트, 재질, 색감, 배송","디자인, 얇다, 맞다, 핏, 사이즈, 가성비, 가격, 니트, 재질,..."
2,[2PACK] 쿨 코튼 티셔츠 블랙+화이트,"[사이즈, 여름, 재질, 편하다, 배송, 시원, 핏, 가격, 커버낫,...","[사이즈, 편하다, 여름, 시원하다, 재질, 가격, 배송, 티, 기본...","[사이즈, 편하다, 여름, 재질, 시원하다, 배송, 얇다, 티, 가격...","[사이즈, 편하다, 여름, 시원하다, 재질, 가격, 배송, 얇다, 기...","가격, 얇다, 재질, 편하다,사이즈, 여름, 배송","얇다, 깔끔하다, 핏, 기본, 편하다, 커버낫, 가격, 재질, 사이즈..."
3,[3천원 결제혜택]링클 체크 박시 오버핏 롤업 하프 셔츠 다크 네이비,"[여름, 얇다, 시원, 핏, 셔츠, 재질, 사이즈, 시원하다, 단추,...","[시원하다, 여름, 셔츠, 얇다, 사이즈, 재질, 편하다, 단추, 가...","[여름, 얇다, 시원하다, 셔츠, 편하다, 재질, 사이즈, 핏, 배송...","[여름, 시원하다, 얇다, 셔츠, 재질, 편하다, 사이즈, 가격, 크...","얇다, 셔츠, 재질, 편하다, 사이즈","얇다, 시원하다, 크다, 핏, 편하다, 사이즈, 가격, 셔츠, 재질,..."
4,460G 컷 헤비 피그먼트 티셔츠-차콜-,"[색감, 핏, 사이즈, 재질, 오버핏, 소버먼트, 여름, 색상, 배송...","[사이즈, 색감, 핏, 재질, 피그먼트, 색상, 여름, 적당하다, 편...","[색감, 사이즈, 핏, 재질, 여름, 편하다, 색상, 오버핏, 피그먼...","[사이즈, 색감, 재질, 오버핏, 피그먼트, 여름, 편하다, 색상, ...","여름, 색상, 재질","적당하다, 피그먼트, 색상, 두껍다, 핏, 편하다, 사이즈, 오버핏,..."
5,[16수 코마사] 2PACK SMALL ARCH T-SHIRT WHITE _ BLACK,"[사이즈, 핏, 여름, 재질, 가격, 편하다, 가성비, 오버핏, 두껍...","[사이즈, 적당하다, 편하다, 여름, 가격, 재질, 티, 가성비, 비...","[사이즈, 여름, 편하다, 적당하다, 재질, 가격, 티, 깔끔하다, ...","[사이즈, 여름, 편하다, 적당하다, 재질, 가격, 크다, 맞다, 가...","가격, 재질, 편하다,사이즈, 여름","적당하다, 두껍다, 맞다, 깔끔하다, 핏, 크다, 편하다, 오버핏, ..."
6,빈티지 워싱 네이비 체크셔츠,"[여름, 색감, 얇다, 색깔, 사이즈, 핏, 가격, 배송, 재질, ...","[셔츠, 여름, 색감, 얇다, 사이즈, 체크, 배송, 적당하다, 재질...","[셔츠, 여름, 얇다, 색감, 체크, 사이즈, 배송, 핏, 적당하다,...","[셔츠, 얇다, 여름, 체크, 색감, 사이즈, 배송, 재질, 적당하다...","얇다, 재질, 색감, 사이즈, 배송","적당하다, 얇다, 핏, 편하다, 사이즈, 가격, 재질, 색깔, 여름..."
7,[3PACK] 에어쿨링 드라이 기능성 무지 반팔티,"[운동, 편하다, 시원하다, 가격, 사이즈, 재질, 가성비, 여름, ...","[운동, 시원하다, 편하다, 사이즈, 가격, 재질, 가성비, 여름, ...","[운동, 편하다, 시원하다, 사이즈, 가격, 여름, 재질, 가성비, ...","[운동, 시원하다, 편하다, 가격, 사이즈, 여름, 가성비, 재질, ...","가격, 재질, 편하다, 여름, 사이즈,운동, 가성비, 시원하다","소재, 얇다, 두껍다, 편하다, 사이즈, 운동, 운동복, 가성비, 가..."
8,TAG OG TEE - WHITE,"[사이즈, 디자인, 배송, 핏, 오버핏, 재질, 편하다, 크기, 세탁...","[사이즈, 디자인, 배송, 편하다, 크다, 재질, 오버핏, 핏, 적당...","[사이즈, 디자인, 배송, 편하다, 크다, 깔끔하다, 핏, 재질, 빠...","[사이즈, 디자인, 배송, 크다, 편하다, 깔끔하다, 오버핏, 재질, ...","디자인, 재질, 편하다,사이즈, 오버핏, 배송","디자인, 프린팅, 적당하다, 크다, 깔끔하다, 핏, 크기, 편하다, ..."
9,[2PACK] EL 스트리트 아트워크 오버핏 반팔티 2종 2PACK,"[디자인, 사이즈, 가격, 편하다, 자다, 배송, 얇다, 여름, 빠르...","[사이즈, 디자인, 가격, 편하다, 배송, 여름, 적당하다, 얇다, ...","[사이즈, 디자인, 편하다, 가격, 배송, 얇다, 빠르다, 여름, 적...","[사이즈, 디자인, 가격, 편하다, 배송, 얇다, 여름, 빠르다, 오...","가격, 얇다, 편하다, 여름, 배송","디자인, 얇다, 적당하다, 자다, 프린팅, 디자인, 맞다, 편하다, ..."


In [38]:
# 중복된 단어 제거
# 결과 확인 및 필요한 열만 선택
selected_columns = df_keywords[['title', 'common_keywords', 'all_keywords']]

# 중복된 단어 제거
selected_columns['common_keywords'] = selected_columns['common_keywords'].apply(remove_duplicates)
selected_columns['all_keywords'] = selected_columns['all_keywords'].apply(remove_duplicates)

# 결과를 CSV 파일로 저장
output_file = file_prefix + '_keywords.csv'
selected_columns.to_csv(output_file, index=False)

print(f'{output_file} 파일 저장 완료.')

reviews_category/상의_keywords.csv 파일 저장 완료.


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  selected_columns['common_keywords'] = selected_columns['common_keywords'].apply(remove_duplicates)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  selected_columns['all_keywords'] = selected_columns['all_keywords'].apply(remove_duplicates)


In [32]:
#  df_keywords.to_csv('상의_최종', index=False)

## 아우터 

In [33]:
import pandas as pd

# df1 = pd.read_csv('reviews_category/아우터_1.csv')
df2 = pd.read_csv('reviews_category/아우터_2.csv')
df3 = pd.read_csv('reviews_category/아우터_3.csv')
df4 = pd.read_csv('reviews_category/아우터_4.csv')

In [34]:
# 인덱스 기준으로 합쳐도 되는지 제목 확인해보세요 
# 각 데이터프레임에서 'title' 열만 가져오기
#df1_title = df1[['title']].rename(columns={'title': 'title_1'})
df2_title = df2[['title']].rename(columns={'title': 'title_2'})
df3_title = df3[['title']].rename(columns={'title': 'title_3'})
df4_title = df4[['title']].rename(columns={'title': 'title_4'})

# 'title' 열들을 병렬로 합치기 (인덱스를 기준으로)
title_df = pd.concat([ df2_title, df3_title, df4_title], axis=1)

# 결과 출력
title_df

Unnamed: 0,title_2,title_3,title_4
0,[무료반품]베켄바우어 트랙탑 - 인디고_IP0418,[무료반품]베켄바우어 트랙탑 - 인디고_IP0418,[무료반품]베켄바우어 트랙탑 - 인디고_IP0418
1,파이어버드 트랙탑 - 블랙_IJ7058,파이어버드 트랙탑 - 블랙_IJ7058,파이어버드 트랙탑 - 블랙_IJ7058
2,ASI 포시즌 에센셜 피그먼트 후드집업_차콜 그레이,ASI 포시즌 에센셜 피그먼트 후드집업_차콜 그레이,ASI 포시즌 에센셜 피그먼트 후드집업_차콜 그레이
3,[무료반품]베켄바우어 트랙탑 - 블랙화이트_II5763,[무료반품]베켄바우어 트랙탑 - 블랙화이트_II5763,[무료반품]베켄바우어 트랙탑 - 블랙화이트_II5763
4,2WAY 스웻 후드 집업 (MELANGE GREY),2WAY 스웻 후드 집업 (MELANGE GREY),2WAY 스웻 후드 집업 (MELANGE GREY)
5,[유튜버 PICK]FR-40S 프렌치 워크 5P 자켓_Military Navy,[유튜버 PICK]FR-40S 프렌치 워크 5P 자켓_Military Navy,[유튜버 PICK]FR-40S 프렌치 워크 5P 자켓_Military Navy
6,[쿨탠다드] 릴렉스드 베이식 블레이저 [블랙],[쿨탠다드] 릴렉스드 베이식 블레이저 [블랙],[쿨탠다드] 릴렉스드 베이식 블레이저 [블랙]
7,시어 후드 베스트 블랙,시어 후드 베스트 블랙,시어 후드 베스트 블랙
8,[SAINT YEAR] 세미 오버 핏 셋업 수트_GREY,[SAINT YEAR] 세미 오버 핏 셋업 수트_GREY,[SAINT YEAR] 세미 오버 핏 셋업 수트_GREY
9,MATIN KIM LOGO COATING JUMPER IN BLACK,MATIN KIM LOGO COATING JUMPER IN BLACK,MATIN KIM LOGO COATING JUMPER IN BLACK


In [35]:
# 각 데이터프레임에서 'keyword' 열만 가져오기
# df1_keywords = df1['keyword'].str.split(',')
df2_keywords = df2['keyword'].str.split(',')  # 리스트로 변환
df3_keywords = df3['keyword'].str.split(',')  # 리스트로 변환
df4_keywords = df4['keyword'].str.split(',')  # 리스트로 변환

# 세 개의 키워드 열을 합친 데이터프레임 생성
df_keywords = pd.DataFrame({
    'keyword_2': df2_keywords,
    'keyword_3': df3_keywords,
    'keyword_4': df4_keywords
})

# 공통된 키워드를 저장할 새 열 추가
df_keywords['common_keywords'] = df_keywords.apply(find_common_keywords, axis=1)

# df3에서 'title' 열을 가져오기
df_keywords.insert(0, 'title', df3['title'])

# 결과 출력
df_keywords

Unnamed: 0,title,keyword_2,keyword_3,keyword_4,common_keywords
0,[무료반품]베켄바우어 트랙탑 - 인디고_IP0418,"[사이즈, 아디다스, 편하다, 색감, 만족하다, 져지, 재질, 기장, ...","[사이즈, 아디다스, 핏, 편하다, 배송, 색감, 싶다, 만족하다, ...","[사이즈, 색감, 아디다스, 가격, 배송, 져지, 크게, 강추, 디자...","사이즈, 색감, 아디다스"
1,파이어버드 트랙탑 - 블랙_IJ7058,"[사이즈, 배송, 편하다, 아디다스, 핏, 져지, 보리, 크다, 기장...","[사이즈, 배송, 편하다, 핏, 아디다스, 빠르다, 크다, 맞다, 싶...","[사이즈, 배송, 아디다스, 오버핏, 져지, 시보리, 크게, 디자인, ...","배송,사이즈, 아디다스"
2,ASI 포시즌 에센셜 피그먼트 후드집업_차콜 그레이,"[색감, 사이즈, 지퍼, 배송, 편하다, 핏, 디자인, 적당하다, 무...","[색감, 사이즈, 배송, 핏, 편하다, 지퍼, 후드, 가격, 디자인,...","[색감, 사이즈, 배송, 지퍼, 후드, 가격, 디자인, 오버핏, 집업...","배송, 사이즈, 가격, 지퍼,색감, 디자인"
3,[무료반품]베켄바우어 트랙탑 - 블랙화이트_II5763,"[사이즈, 배송, 디자인, 아디다스, 포인트, 핏, 흔하다, 흰색, ...","[사이즈, 핏, 배송, 디자인, 빠르다, 흰색, 흔하다, 크다, 싶다...","[사이즈, 배송, 아디다스, 디자인, 포인트, 부분, 흰색, 시보리, ...","배송, 아디다스, 흰색,사이즈, 디자인"
4,2WAY 스웻 후드 집업 (MELANGE GREY),"[사이즈, 지퍼, 편하다, 핏, 적당하다, 후드 집업, 기장, 크다, ...","[핏, 사이즈, 편하다, 후드, 적당하다, 짧다, 집업, 기장, 지퍼...","[사이즈, 후드, 지퍼, 집업, 기장, 오버핏, 레이어드, 이너, 길...","기장, 지퍼"
5,[유튜버 PICK]FR-40S 프렌치 워크 5P 자켓_Military Navy,"[사이즈, 디자인, 크다, 편하다, 만족하다, 오버핏, 핏, 어울리다,...","[사이즈, 크다, 자켓, 디자인, 편하다, 오버핏, 만족하다, 핏, ...","[사이즈, 오버핏, 디자인, 자켓, 배송, 색상, 간절기, 가을, 추...","배송,사이즈, 디자인, 오버핏"
6,[쿨탠다드] 릴렉스드 베이식 블레이저 [블랙],"[여름, 시원하다, 사이즈, 블 레이저, 얇다, 핏, 편하다, 가격, ...","[여름, 사이즈, 시원하다, 얇다, 핏, 배송, 가격, 편하다, 맞다...","[여름, 사이즈, 배송, 블레이저, 가격, 가성비, 한여름, 재질, ...","여름, 가격, 배송, 사이즈"
7,시어 후드 베스트 블랙,"[얇다, 여름, 사이즈, 편하다, 가볍다, 재질, 덥다, 걸치다, 가...","[얇다, 여름, 사이즈, 편하다, 가볍다, 가격, 덥다, 재질, 배송...","[여름, 사이즈, 가격, 재질, 배송, 코디, 포인트, 디자인, 그냥...","가격, 배송, 사이즈, 재질"
8,[SAINT YEAR] 세미 오버 핏 셋업 수트_GREY,"[사이즈, 핏, 바지, 가성비, 적당하다, 가격, 결혼식, 얇다, 색...","[사이즈, 핏, 바지, 얇다, 가격, 셋업, 맞다, 결혼식, 가성비,...","[사이즈, 가격, 셋업, 바지, 가성비, 결혼식, 색감, 배송, 오버...","셋업, 결혼식, 색감, 가성비, 가격,사이즈, 바지"
9,MATIN KIM LOGO COATING JUMPER IN BLACK,"[사이즈, 배송, 재질, 디자인, 얇다, 편하다, 마뗑킴, 가을, 만...","[배송, 재질, 사이즈, 얇다, 빠르다, 핏, 가을, 디자인, 편하다...","[배송, 사이즈, 재질, 마뗑킴, 오버핏, 디자인, 고민, 가을, 남...","가을, 재질, 디자인"


In [36]:
df_keywords.to_csv('상의_최종', index=False)

# 개별 리뷰 비교

In [9]:
df1 = pd.read_csv('saperate_reviews_tags/[2PACK] EL 스트리트 아트워크 오버핏 반팔티 2종 2PACK_1.csv')
df1.rename(columns={'Keyword': 'keyword', 'Review':'Processed_Review'}, inplace=True)

df1

Unnamed: 0,Processed_Review,keyword
0,사이즈 잘 맞구 요 스타일도 좋아서 자주 입는 옷이에요,"자다, 사이즈, 스타일"
1,예쁘고 무낭하네요 사이즈 한 치수 크게 해도 될 듯해요,"무낭, 사이즈, 크다"
2,제 체형에서 는 확실히 크고 은 딱 붙습니다 흰 옷은 요즘 입기엔 적당한 두께이나 ...,"희다, 붙다, 크다, 체형, 비침, 사이즈, 두께, 얼룩"
3,편하고 이쁘게 입으려고 샀습니다 두깨도 너무 두껍지 않고 디자인도 너무 튀지 읺아서...,"편하다, 튀다, 손가다, 디자인, 깨, 두껍다"
4,한번 빨았는데 목이 완전 늘어나서 이제 못 입어요,"목늘어나다, 못, 번빨다"
...,...,...
922,두께도 많이 얇지 않고 생각보다 정 사이즈여서 좋았어요,"두께, 얇다, 정사이즈"
923,착용감은 그럭저럭인데 활동량 많으시고 뛰어다니시는 분들은 원단이 두꺼워서 땀 많이 ...,"원단, 착용, 실수, 그럭저럭, 무게, 뛰어다니다, 두껍다, 활동량, 땀, 가볍다, 표"
924,생각보다는 덜 예쁜 거 같아 요 하지만 그냥 편하게 입는 용도로는 괜춘,"편하다, 용도, 덜"
925,여름에 티셔츠가 없어서 구매했는데 보는 그대로 좋네요 근데 반 바지에 티 하나 입는...,"여름, 아쉽다다점, 티셔츠, 티하나, 바지, 국룰, 비율, 그대로"


In [7]:
df2 = pd.read_csv('saperate_reviews_tags/[2PACK] EL 스트리트 아트워크 오버핏 반팔티 2종 2PACK_2.csv')
df2.rename(columns={'Processed_Review': 'Review'}, inplace=True)

df2

Unnamed: 0,Review,keyword
0,사이즈 잘 맞고요 스타일도 좋아서 자주 입는 옷이에요,"사이즈, 스타일, 맞다"
1,예쁘고 무나 하네요 사이즈 한 치수 크게 해도 될듯해요,"무, 사이즈, 해도, 치수, 크게"
2,제 체형에서는 확실히 크고 은 딱 붙습니다 흰옷은 요즘 입기엔 적당한 두께이나 비침...,"체형, 사이즈, 적당하다, 확실하다, 이유, 의사, 비침, 얼룩, 재다"
3,편하고 이쁘게 입으려고 샀습니다 두께도 너무 두껍지 않고 디자인도 너무 튀지 않아서...,"디자인, 편하다, 손, 가다, 튀다"
4,한번 빨았는데 목이 정말 늘어나서 이제 못 입어요,"목, 한번, 이제, 늘어나다, 빨다"
...,...,...
923,두께도 많이 얇지 않고 생각보다 정 사이즈여서 좋았어요,"사이즈, 두께, 얇다"
924,착용감은 그럭저럭인데 활동량 많으시고 뛰어다니시는 분들은 원단이 두꺼워서 땀 많이 ...,"사이즈, 가볍다, 원단, 그대로, 착용 감다, 나오다, 무게, 실수, 분"
925,생각보다는 덜 예쁜 거 같아요 하지만 그냥 편하게 입는 용도로는 괜춘,"용도, 편하다, 그냥, 괜춘"
926,여름에 티셔츠가 없어서 구매했는데 보는 그대로 좋네요 근데 반바지에 티 하나 입는 ...,"티셔츠, 비율, 보이, 반바지, 점, 이기다, 뭔가, 여름"


In [6]:
df3 = pd.read_csv('saperate_reviews_tags/[2PACK] EL 스트리트 아트워크 오버핏 반팔티 2종 2PACK_3.csv')
df3

Unnamed: 0,Review,Processed_Review,keyword
0,사이즈 잘 맞구요 스타일도 좋아서 자주 입는 옷이에요.,사이즈 잘 맞고요 스타일도 좋아서 자주 입는 옷이에요,"스타일, 맞다, 사이즈"
1,예쁘고 무낭하네요 사이즈 한치수 크게해도 될듯해요,예쁘고 무나 하네요 사이즈 한 치수 크게 해도 될듯해요,"무, 크게, 사이즈, 해도, 치수"
2,"제 체형에서 2는 확실히 크고, 1은 딱 붙습니다. 흰옷은 요즘 입기엔 적당한 두께...",제 체형에서는 확실히 크고 은 딱 붙습니다 흰옷은 요즘 입기엔 적당한 두께이나 비침...,"희다, 사이즈, 크다, 체형, 의사, 붙다, 두께, 확실하다"
3,편하고 이쁘게 입으려고 샀습니다. 두깨도 너무 두껍지 않고 디자인도 너무 튀지 읺아...,편하고 이쁘게 입으려고 샀습니다 두께도 너무 두껍지 않고 디자인도 너무 튀지 않아서...,"손, 두껍다, 디자인, 편하다, 두께, 가다"
4,한번 빨았는데 목이 완전 늘어나서 이제 못입어요,한번 빨았는데 목이 정말 늘어나서 이제 못 입어요,"목, 늘어나다, 빨다, 이제, 한번"
...,...,...,...
923,두께도 많이 얇지않고 생각보다 정사이즈여서 좋았어요!!!,두께도 많이 얇지 않고 생각보다 정 사이즈여서 좋았어요,"사이즈, 여서, 두께, 얇다"
924,착용감은 그럭저럭인데 활동량 많으시고 뛰어다니시는 분들은 원단이 두꺼워서 땀 많이 ...,착용감은 그럭저럭인데 활동량 많으시고 뛰어다니시는 분들은 원단이 두꺼워서 땀 많이 ...,"무게, 사이즈, 뛰어다니다, 착용, 감다, 가볍다, 활동, 량, 두껍다, 그럭저럭, 분"
925,생각보다는 덜 예쁜거같아요 하지만 그냥 편하게 입는 용도로는 괜춘,생각보다는 덜 예쁜 거 같아요 하지만 그냥 편하게 입는 용도로는 괜춘,"편하다, 괜춘, 보다는, 그냥, 용도, 로는"
926,여름에 티셔츠가 없어서 구매했는데 보는 그대로 좋네요. 근데 반바지에 티 하나 입는...,여름에 티셔츠가 없어서 구매했는데 보는 그대로 좋네요 근데 반바지에 티 하나 입는 ...,"반바지, 티셔츠, 아쉽다, 뭔가, 보이, 여름"


In [5]:
df4 = pd.read_csv('saperate_reviews_tags/[2PACK] EL 스트리트 아트워크 오버핏 반팔티 2종 2PACK_4.csv')
df4

Unnamed: 0,Review,Processed_Review,keyword
0,사이즈 잘 맞구요 스타일도 좋아서 자주 입는 옷이에요.,사이즈 잘 맞고요 스타일도 좋아서 자주 입는 옷이에요,"이에요, 스타일, 맞다, 사이즈"
1,예쁘고 무낭하네요 사이즈 한치수 크게해도 될듯해요,예쁘고 무나 하네요 사이즈 한 치수 크게 해도 될듯해요,"해도, 치수, 크게, 사이즈"
2,"제 체형에서 2는 확실히 크고, 1은 딱 붙습니다. 흰옷은 요즘 입기엔 적당한 두께...",제 체형에서는 확실히 크고 은 딱 붙습니다 흰옷은 요즘 입기엔 적당한 두께이나 비침...,"얼룩, 확실하다, 붙다, 이유, 의사, 이나, 재다, 체형, 비침, 희다"
3,편하고 이쁘게 입으려고 샀습니다. 두깨도 너무 두껍지 않고 디자인도 너무 튀지 읺아...,편하고 이쁘게 입으려고 샀습니다 두께도 너무 두껍지 않고 디자인도 너무 튀지 않아서...,"튀다, 가다, 두껍다, 두께, 편하다, 디자인"
4,한번 빨았는데 목이 완전 늘어나서 이제 못입어요,한번 빨았는데 목이 정말 늘어나서 이제 못 입어요,"이제, 빨다, 한번, 늘어나다"
...,...,...,...
923,두께도 많이 얇지않고 생각보다 정사이즈여서 좋았어요!!!,두께도 많이 얇지 않고 생각보다 정 사이즈여서 좋았어요,"여서, 두께, 얇다, 사이즈"
924,착용감은 그럭저럭인데 활동량 많으시고 뛰어다니시는 분들은 원단이 두꺼워서 땀 많이 ...,착용감은 그럭저럭인데 활동량 많으시고 뛰어다니시는 분들은 원단이 두꺼워서 땀 많이 ...,"뛰어다니다, 활동, 그럭저럭, 무게, 실수, 감다, 많다, 이고, 그대로, 착용"
925,생각보다는 덜 예쁜거같아요 하지만 그냥 편하게 입는 용도로는 괜춘,생각보다는 덜 예쁜 거 같아요 하지만 그냥 편하게 입는 용도로는 괜춘,"로는, 용도, 괜춘, 보다는, 그냥, 편하다"
926,여름에 티셔츠가 없어서 구매했는데 보는 그대로 좋네요. 근데 반바지에 티 하나 입는...,여름에 티셔츠가 없어서 구매했는데 보는 그대로 좋네요 근데 반바지에 티 하나 입는 ...,"비율, 굴룰, 뭔가, 보이, 이기다, 반바지, 그대로, 근데, 하나, 아쉽다"


# 리뷰 확인용
혹시 다른 리뷰로 한건 아닐까?

In [58]:


# df2와 df3에서 'Review' 열만 가져오기
df2_review = df2[['Review']].rename(columns={'Review': 'Review_2'})
df3_review = df3[['Review']].rename(columns={'Review': 'Review_3'})

# 'Review' 열들을 병렬로 합치기 (인덱스를 기준으로)
review_df = pd.concat([df2_review, df3_review], axis=1)

# 결과 출력
review_df.tail(10)

Unnamed: 0,Review_2,Review_3
913,살려고 한 년은 미루다 하도 더워서 이제야 구매했네요 예전의 네이비 색도 사고싶습니다,너무나도좋은옷이라고생각되는뷰뷴이라고생각
914,XL 치고 그렇게 안 크고 이쁜 오버핏 화이트는 얇고 찰랑찰랑한데 블랙은 상대적으로...,촉감부드럽고 색상도 흰색이 완전 하얀색이 아니라 더 맘에들고 세탁후에도 변형없이 좋...
915,원단이 쿨코튼이라 시원하고 부드러워서 좋아요,165 기준 s사이즈도 살짝 오버핏이에요 세탁해도 변형 없어서 좋습니다
916,쿨코튼이라 시원하고 부드러워서 마음에 들어요,살려고 한 2년은 미루다 하도 더워서 이제야 구매했네요 예전의 네이비 색도 사고싶습니다
917,사이즈는 넉합니다 길이가 길게 나왔네요 면재질은 탄합니다,XL 치고 그렇게 안 크고 이쁜 오버핏 화이트는 얇고 찰랑찰랑한데 블랙은 상대적으로...
918,와이리 깔꼼하고 이뿝니까 싼가격에 두장 구매 잘한것 같아요,원단이 쿨코튼이라 시원하고 부드러워서 좋아요
919,편하게 아무때나 입기 좋아요 사이즈도 큰편이라 어디든 받쳐입기도 편해요,쿨코튼이라 시원하고 부드러워서 마음에 들어요
920,,사이즈는 넉넉합니다 길이가 길게 나왔네요 면재질은 탄탄합니다
921,,와이리 깔꼼하고 이뿝니까 ♡ 싼가격에 두장 구매 잘한것 같아요 〰️
922,,편하게 아무때나 입기 좋아요 사이즈도 큰편이라 어디든 받쳐입기도 편해요


In [81]:
review_df.head(30)

Unnamed: 0,Review_2,Review_3
0,이너티로 입을려고 샀는데 단독으로 입어도 이뻐서 완전 맘에 쏙 후기에 S사이즈도 길...,이너티로 입을려고 샀는데 단독으로 입어도 이뻐서 완전 맘에 쏙..🩷 후기에 S사이즈...
1,이너티로도 되게 단하고 여름에 그냥 이거 하나만 입기에도 시웡하고 이쁜거같아요,이너티로도 되게 단단하고 여름에 그냥 이거 하나만 입기에도 시웡하고 이쁜거같아요!
2,옷이 되게 크게 나왔나봐요 평소에 s 아니면 m으로 사는 편인데 다른 후기들 보고 ...,옷이 되게 크게 나왔나봐요 ...! 평소에 s 아니면 m으로 사는 편인데 다른 후기...
3,휘뚜루 마뚜루 입기에는 커버낫 기본이 최고예요,휘뚜루 마뚜루 입기에는 커버낫 기본이 최고예요
4,두 번째 주문 편함 재질 부드러움 박음질 튼함 흰색은 아주 약간 노란끼 있지만 깔끔...,두 번째 주문. 편함. 재질 부드러움. 박음질 튼튼함. 흰색은 아주 약간 노란끼 있...
5,옷 재질이 여름에 입기 너무 좋아요 목 둘레가 여유롭고 스판기 있어서 입고 벗기 너...,옷 재질이 여름에 입기 너무 좋아요 목 둘레가 여유롭고 스판기 있어서 입고 벗기 너...
6,포장안쪽에 기름같은게 묻어서 오긴했는데 내용물는 다행이 괜찮습니다 이너나 단독으로 ...,포장안쪽에 기름같은게 묻어서 오긴했는데.내용물는 다행이 괜찮습니다. 이너나 단독으로...
7,부드러운 원단이긴한데 많이 얇아요 흰색은 안이 다비치네요 이너로 입어야겠네요 많이 ...,부드러운 원단이긴한데 많이 얇아요 흰색은 안이 다비치네요 이너로 입어야겠네요 많이...
8,가격도 저렴하고 잘 입을 것 같 요 포장도 깔끔해서 맘에 듭니댱,가격도 저렴하고 잘 입을 것 같ㅇㅏ요 포장도 깔끔해서 맘에 듭니댱
9,입고 등산 갔는데 땀흡수도 잘되고 좋았 습니다 사이즈도 적당해요,입고 등산 갔는데 땀흡수도 잘되고 좋았 습니다 사이즈도 적당해요


# 코드 만드는 중 

In [33]:
import pandas as pd

def process_keywords(file_prefix):
    # 파일 읽기 (df1 ~ df4)
    df1 = pd.read_csv(f'{file_prefix}_1.csv')
    df2 = pd.read_csv(f'{file_prefix}_2.csv')
    df3 = pd.read_csv(f'{file_prefix}_3.csv')
    df4 = pd.read_csv(f'{file_prefix}_4.csv')

    df1.rename(columns={'Keyword': 'keyword'}, inplace=True)
    df2.rename(columns={'Processed_Review': 'Review'}, inplace=True)


    # 각 데이터프레임에서 'keyword' 열만 가져오기
    df1_keywords = df1['keyword'].str.split(',')  # 리스트로 변환
    df2_keywords = df2['keyword'].str.split(',')  # 리스트로 변환
    df3_keywords = df3['keyword'].str.split(',')  # 리스트로 변환
    df4_keywords = df4['keyword'].str.split(',')  # 리스트로 변환

    # 네 개의 키워드 열을 합친 데이터프레임 생성
    df_keywords = pd.DataFrame({
        'keyword_1': df1_keywords,
        'keyword_2': df2_keywords,
        'keyword_3': df3_keywords,
        'keyword_4': df4_keywords
    })

    # 공통 해시태그 추출 함수 (모두 겹치는 경우)
    def find_common_keywords(row):
        set_1 = set(row['keyword_1']) if isinstance(row['keyword_1'], list) else set()
        set_2 = set(row['keyword_2']) if isinstance(row['keyword_2'], list) else set()
        set_3 = set(row['keyword_3']) if isinstance(row['keyword_3'], list) else set()
        set_4 = set(row['keyword_4']) if isinstance(row['keyword_4'], list) else set()
        
        # 4개 모두 공통 키워드 추출
        common_keywords = set_1.intersection(set_2, set_3, set_4)
        return ', '.join(common_keywords)

    # 3개 이상 겹치는 키워드 추출 함수
    def find_at_least_three_keywords(row):
        sets = [set(row['keyword_1']) if isinstance(row['keyword_1'], list) else set(),
                set(row['keyword_2']) if isinstance(row['keyword_2'], list) else set(),
                set(row['keyword_3']) if isinstance(row['keyword_3'], list) else set(),
                set(row['keyword_4']) if isinstance(row['keyword_4'], list) else set()]

        # 3개 이상에서 공통 키워드를 추출
        intersection_3_plus = sets[0].intersection(sets[1]).union(
            sets[0].intersection(sets[2]), sets[0].intersection(sets[3]),
            sets[1].intersection(sets[2]), sets[1].intersection(sets[3]),
            sets[2].intersection(sets[3])
        )
        return ', '.join(intersection_3_plus)

    # 모든 키워드 합치는 함수
    def find_all_keywords(row):
        sets = [set(row['keyword_1']) if isinstance(row['keyword_1'], list) else set(),
                set(row['keyword_2']) if isinstance(row['keyword_2'], list) else set(),
                set(row['keyword_3']) if isinstance(row['keyword_3'], list) else set(),
                set(row['keyword_4']) if isinstance(row['keyword_4'], list) else set()]

        # 모든 키워드를 합쳐서 반환
        all_keywords = sets[0].union(sets[1], sets[2], sets[3])
        return ', '.join(all_keywords)

    # 4개 모두 공통된 키워드를 저장할 새 열 추가
    df_keywords['common_keywords_all'] = df_keywords.apply(find_common_keywords, axis=1)

    # 3개 이상 공통된 키워드를 저장할 새 열 추가
    df_keywords['common_keywords_3_plus'] = df_keywords.apply(find_at_least_three_keywords, axis=1)

    # 모든 키워드를 합친 열 추가
    df_keywords['all_keywords_combined'] = df_keywords.apply(find_all_keywords, axis=1)

    # df1에서 'Review' 열을 가져와 병합
    df_keywords.insert(0, 'Review', df1['Review'])

    return df_keywords

In [35]:
# 함수 호출 예시
file_prefix = 'saperate_reviews_tags/[2PACK] EL 스트리트 아트워크 오버핏 반팔티 2종 2PACK'
df_result = process_keywords(file_prefix)

# 결과 확인
df_result

Unnamed: 0,Review,keyword_1,keyword_2,keyword_3,keyword_4,common_keywords_all,common_keywords_3_plus,all_keywords_combined
0,사이즈 잘 맞구 요 스타일도 좋아서 자주 입는 옷이에요,"[자다, 사이즈, 스타일]","[사이즈, 스타일, 맞다]","[이에요, 스타일, 맞다, 사이즈]","[스타일, 맞다, 사이즈]",,"스타일, 맞다, 사이즈","이에요, 스타일, 맞다, 자다, 스타일, 사이즈, 사이즈"
1,예쁘고 무낭하네요 사이즈 한 치수 크게 해도 될 듯해요,"[무낭, 사이즈, 크다]","[무낭, 사이즈, 치수, 크게, 해도]","[무낭, 사이즈, 크게, 해도, 치수]","[무낭, 해도, 치수, 크게, 사이즈]","무낭, 사이즈","무낭, 크게, 해도, 사이즈, 치수","무낭, 크게, 해도, 크다, 사이즈, 치수"
2,제 체형에서 는 확실히 크고 은 딱 붙습니다 흰 옷은 요즘 입기엔 적당한 두께이나 ...,"[희다, 붙다, 크다, 체형, 비침, 사이즈, 두께, 얼룩]","[체형, 사이즈, 확실하다, 적당하다, 의사, 비치다, 재다, 얼룩, ...","[사이즈, 크다, 체형, 붙다, 두께, 이나, 의사, 확실하다]","[유로, 얼룩, 확실하다, 붙다, 의사, 재다, 늘다, 체형, 비침,...",,"비침, 체형, 크다, 얼룩, 확실하다, 재다, 두께, 의사, 붙다,...","비침, 적당하다, 이나, 늘다, 크다, 얼룩, 희다, 재다, 유로, ..."
3,편하고 이쁘게 입으려고 샀습니다 두깨도 너무 두껍지 않고 디자인도 너무 튀지 읺아서...,"[편하다, 튀다, 손가다, 디자인, 깨, 두껍다]","[디자인, 편하다, 손, 가다, 튀다, 읺아]","[깨, 두껍다, 손, 디자인, 편하다, 가다, 읺아]","[읺아, 튀다, 두껍다, 가다, 편하다, 디자인]",,"디자인, 손, 가다, 읺아, 튀다, 편하다, 두껍다","디자인, 손, 읺아, 편하다, 가다, 손가다, 읺아, 디자인, 튀다, ..."
4,한번 빨았는데 목이 완전 늘어나서 이제 못 입어요,"[목늘어나다, 못, 번빨다]","[목, 이제, 한번, 늘어나다, 빨다]","[목, 늘어나다, 빨다, 이제, 한번]","[빨다, 늘어나다]",,"목, 이제, 빨다, 늘어나다, 한번","목, 이제, 못, 빨다, 번빨다, 빨다, 늘어나다, 한번, 목늘어나다"
...,...,...,...,...,...,...,...,...
923,두께도 많이 얇지 않고 생각보다 정 사이즈여서 좋았어요,"[두께, 얇다, 정사이즈]","[사이즈, 두께, 얇다]","[사이즈, 여서, 두께, 얇다, 많이]","[두께, 얇다, 사이즈]",얇다,"두께, 두께, 얇다, 사이즈","여서, 얇다, 많이, 정사이즈, 두께, 사이즈, 두께, 사이즈"
924,착용감은 그럭저럭인데 활동량 많으시고 뛰어다니시는 분들은 원단이 두꺼워서 땀 많이 ...,"[원단, 착용, 실수, 그럭저럭, 무게, 뛰어다니다, 두껍다, 활동량,...","[원단, 사이즈, 가볍다, 그대로, 착용 감다, 나오다, 무게, 실수,...","[무게, 사이즈, 뛰어다니다, 착용, 감다, 가볍다, 많이, 활동, ...","[그럭저럭, 뛰어다니다, 활동, 무게, 실수, 많다, 그대로, 착용, ...",,"착용, 나오다, 원단, 그럭저럭, 그대로, 무게, 활동, 뛰어다니다, ...","착용, 량, 무게, 착용 감다, 땀, 인데, 두껍다, 표, 실수, ..."
925,생각보다는 덜 예쁜 거 같아 요 하지만 그냥 편하게 입는 용도로는 괜춘,"[편하다, 용도, 덜]","[용도, 편하다, 그냥, 괜춘]","[편하다, 괜춘, 그냥, 보다는, 용도, 로는]","[괜춘, 용도, 편하다]",,"괜춘, 편하다, 편하다, 용도, 그냥","괜춘, 편하다, 로는, 용도, 보다는, 그냥, 괜춘, 편하다, 덜, 용도"
926,여름에 티셔츠가 없어서 구매했는데 보는 그대로 좋네요 근데 반 바지에 티 하나 입는...,"[여름, 아쉽다다점, 티셔츠, 티하나, 바지, 국룰, 비율, 그대로]","[국룰 이기다, 보이, 비율, 티셔츠, 점, 바지, 뭔가, 그대로]","[티셔츠, 아쉽다, 뭔가, 바지, 보이, 없다, 근데]","[국룰, 비율, 보이, 이기다, 그대로, 바지, 하나, 아쉽다, 티셔...",바지,"보이, 바지, 티셔츠, 비율, 그대로, 아쉽다, 뭔가","티셔츠, 아쉽다다점, 아쉽다, 없다, 여름, 티하나, 점, 하나, 보..."


In [36]:
# df_result에서 필요한 열만 선택
selected_columns = df_result[['Review', 'common_keywords_all', 'common_keywords_3_plus', 'all_keywords_combined']]
selected_columns

Unnamed: 0,Review,common_keywords_all,common_keywords_3_plus,all_keywords_combined
0,사이즈 잘 맞구 요 스타일도 좋아서 자주 입는 옷이에요,,"스타일, 맞다, 사이즈","이에요, 스타일, 맞다, 자다, 스타일, 사이즈, 사이즈"
1,예쁘고 무낭하네요 사이즈 한 치수 크게 해도 될 듯해요,"무낭, 사이즈","무낭, 크게, 해도, 사이즈, 치수","무낭, 크게, 해도, 크다, 사이즈, 치수"
2,제 체형에서 는 확실히 크고 은 딱 붙습니다 흰 옷은 요즘 입기엔 적당한 두께이나 ...,,"비침, 체형, 크다, 얼룩, 확실하다, 재다, 두께, 의사, 붙다,...","비침, 적당하다, 이나, 늘다, 크다, 얼룩, 희다, 재다, 유로, ..."
3,편하고 이쁘게 입으려고 샀습니다 두깨도 너무 두껍지 않고 디자인도 너무 튀지 읺아서...,,"디자인, 손, 가다, 읺아, 튀다, 편하다, 두껍다","디자인, 손, 읺아, 편하다, 가다, 손가다, 읺아, 디자인, 튀다, ..."
4,한번 빨았는데 목이 완전 늘어나서 이제 못 입어요,,"목, 이제, 빨다, 늘어나다, 한번","목, 이제, 못, 빨다, 번빨다, 빨다, 늘어나다, 한번, 목늘어나다"
...,...,...,...,...
923,두께도 많이 얇지 않고 생각보다 정 사이즈여서 좋았어요,얇다,"두께, 두께, 얇다, 사이즈","여서, 얇다, 많이, 정사이즈, 두께, 사이즈, 두께, 사이즈"
924,착용감은 그럭저럭인데 활동량 많으시고 뛰어다니시는 분들은 원단이 두꺼워서 땀 많이 ...,,"착용, 나오다, 원단, 그럭저럭, 그대로, 무게, 활동, 뛰어다니다, ...","착용, 량, 무게, 착용 감다, 땀, 인데, 두껍다, 표, 실수, ..."
925,생각보다는 덜 예쁜 거 같아 요 하지만 그냥 편하게 입는 용도로는 괜춘,,"괜춘, 편하다, 편하다, 용도, 그냥","괜춘, 편하다, 로는, 용도, 보다는, 그냥, 괜춘, 편하다, 덜, 용도"
926,여름에 티셔츠가 없어서 구매했는데 보는 그대로 좋네요 근데 반 바지에 티 하나 입는...,바지,"보이, 바지, 티셔츠, 비율, 그대로, 아쉽다, 뭔가","티셔츠, 아쉽다다점, 아쉽다, 없다, 여름, 티하나, 점, 하나, 보..."


In [39]:
# 중복된 단어 제거 함수
def remove_duplicates(keyword_string):
    if pd.isna(keyword_string):
        return keyword_string  # NaN 값 처리
    keywords = keyword_string.split(',')  # 쉼표로 단어 분리
    unique_keywords = sorted(set(key.strip() for key in keywords))  # 중복 제거 및 공백 제거
    return ', '.join(unique_keywords)  # 쉼표로 다시 연결

# common_keywords_all과 common_keywords_3_plus 열에서 중복 제거
selected_columns['common_keywords_3_plus'] = selected_columns['common_keywords_3_plus'].apply(remove_duplicates)
selected_columns['all_keywords_combined'] = selected_columns['all_keywords_combined'].apply(remove_duplicates)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  selected_columns['common_keywords_3_plus'] = selected_columns['common_keywords_3_plus'].apply(remove_duplicates)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  selected_columns['all_keywords_combined'] = selected_columns['all_keywords_combined'].apply(remove_duplicates)


In [40]:
selected_columns

Unnamed: 0,Review,common_keywords_all,common_keywords_3_plus,all_keywords_combined
0,사이즈 잘 맞구 요 스타일도 좋아서 자주 입는 옷이에요,,"맞다, 사이즈, 스타일","맞다, 사이즈, 스타일, 이에요, 자다"
1,예쁘고 무낭하네요 사이즈 한 치수 크게 해도 될 듯해요,"무낭, 사이즈","무낭, 사이즈, 치수, 크게, 해도","무낭, 사이즈, 치수, 크게, 크다, 해도"
2,제 체형에서 는 확실히 크고 은 딱 붙습니다 흰 옷은 요즘 입기엔 적당한 두께이나 ...,,"두께, 붙다, 비침, 사이즈, 얼룩, 의사, 재다, 체형, 크다, 확실하다","늘다, 두께, 붙다, 비치다, 비침, 사이즈, 얼룩, 유로, 의사, 이나, 재다, ..."
3,편하고 이쁘게 입으려고 샀습니다 두깨도 너무 두껍지 않고 디자인도 너무 튀지 읺아서...,,"가다, 두껍다, 디자인, 손, 읺아, 튀다, 편하다","가다, 깨, 두껍다, 디자인, 손, 손가다, 읺아, 튀다, 편하다"
4,한번 빨았는데 목이 완전 늘어나서 이제 못 입어요,,"늘어나다, 목, 빨다, 이제, 한번","늘어나다, 목, 목늘어나다, 못, 번빨다, 빨다, 이제, 한번"
...,...,...,...,...
923,두께도 많이 얇지 않고 생각보다 정 사이즈여서 좋았어요,얇다,"두께, 사이즈, 얇다","두께, 많이, 사이즈, 얇다, 여서, 정사이즈"
924,착용감은 그럭저럭인데 활동량 많으시고 뛰어다니시는 분들은 원단이 두꺼워서 땀 많이 ...,,"가볍다, 그대로, 그럭저럭, 나오다, 두껍다, 뛰어다니다, 무게, 분, 사이즈, 실...","가볍다, 감다, 그대로, 그럭저럭, 나오다, 두껍다, 땀, 뛰어다니다, 량, 많다,..."
925,생각보다는 덜 예쁜 거 같아 요 하지만 그냥 편하게 입는 용도로는 괜춘,,"괜춘, 그냥, 용도, 편하다","괜춘, 그냥, 덜, 로는, 보다는, 용도, 편하다"
926,여름에 티셔츠가 없어서 구매했는데 보는 그대로 좋네요 근데 반 바지에 티 하나 입는...,바지,"그대로, 뭔가, 바지, 보이, 비율, 아쉽다, 티셔츠","국룰, 국룰 이기다, 그대로, 근데, 뭔가, 바지, 보이, 비율, 아쉽다, 아쉽다다..."


In [41]:
# 새로운 CSV 파일로 저장
output_file = file_prefix + '_keywords.csv'
selected_columns.to_csv(output_file, index=False)

In [43]:
output_file

'saperate_reviews_tags/[2PACK] EL 스트리트 아트워크 오버핏 반팔티 2종 2PACK_keywords.csv'

In [44]:
df = pd.read_csv('saperate_reviews_tags/[2PACK] EL 스트리트 아트워크 오버핏 반팔티 2종 2PACK_keywords.csv')
df

Unnamed: 0,Review,common_keywords_all,common_keywords_3_plus,all_keywords_combined
0,사이즈 잘 맞구 요 스타일도 좋아서 자주 입는 옷이에요,,"맞다, 사이즈, 스타일","맞다, 사이즈, 스타일, 이에요, 자다"
1,예쁘고 무낭하네요 사이즈 한 치수 크게 해도 될 듯해요,"무낭, 사이즈","무낭, 사이즈, 치수, 크게, 해도","무낭, 사이즈, 치수, 크게, 크다, 해도"
2,제 체형에서 는 확실히 크고 은 딱 붙습니다 흰 옷은 요즘 입기엔 적당한 두께이나 ...,,"두께, 붙다, 비침, 사이즈, 얼룩, 의사, 재다, 체형, 크다, 확실하다","늘다, 두께, 붙다, 비치다, 비침, 사이즈, 얼룩, 유로, 의사, 이나, 재다, ..."
3,편하고 이쁘게 입으려고 샀습니다 두깨도 너무 두껍지 않고 디자인도 너무 튀지 읺아서...,,"가다, 두껍다, 디자인, 손, 읺아, 튀다, 편하다","가다, 깨, 두껍다, 디자인, 손, 손가다, 읺아, 튀다, 편하다"
4,한번 빨았는데 목이 완전 늘어나서 이제 못 입어요,,"늘어나다, 목, 빨다, 이제, 한번","늘어나다, 목, 목늘어나다, 못, 번빨다, 빨다, 이제, 한번"
...,...,...,...,...
923,두께도 많이 얇지 않고 생각보다 정 사이즈여서 좋았어요,얇다,"두께, 사이즈, 얇다","두께, 많이, 사이즈, 얇다, 여서, 정사이즈"
924,착용감은 그럭저럭인데 활동량 많으시고 뛰어다니시는 분들은 원단이 두꺼워서 땀 많이 ...,,"가볍다, 그대로, 그럭저럭, 나오다, 두껍다, 뛰어다니다, 무게, 분, 사이즈, 실...","가볍다, 감다, 그대로, 그럭저럭, 나오다, 두껍다, 땀, 뛰어다니다, 량, 많다,..."
925,생각보다는 덜 예쁜 거 같아 요 하지만 그냥 편하게 입는 용도로는 괜춘,,"괜춘, 그냥, 용도, 편하다","괜춘, 그냥, 덜, 로는, 보다는, 용도, 편하다"
926,여름에 티셔츠가 없어서 구매했는데 보는 그대로 좋네요 근데 반 바지에 티 하나 입는...,바지,"그대로, 뭔가, 바지, 보이, 비율, 아쉽다, 티셔츠","국룰, 국룰 이기다, 그대로, 근데, 뭔가, 바지, 보이, 비율, 아쉽다, 아쉽다다..."


# 본 코드 (파일 하나씩 집어넣는 용)

In [2]:
import pandas as pd

def process_keywords(file_prefix):
    # 4개의 파일을 읽어와서 'keyword' 열을 처리
    df1 = pd.read_csv(f'{file_prefix}_1.csv')
    df2 = pd.read_csv(f'{file_prefix}_2.csv')
    df3 = pd.read_csv(f'{file_prefix}_3.csv')
    df4 = pd.read_csv(f'{file_prefix}_4.csv')
    
    # 열 이름 변경
    df1.rename(columns={'Keyword': 'keyword'}, inplace=True)
    df2.rename(columns={'Processed_Review': 'Review'}, inplace=True)

    # 각 데이터프레임에서 'keyword' 열만 가져와 리스트로 변환
    df1_keywords = df1['keyword'].str.split(',')
    df2_keywords = df2['keyword'].str.split(',')
    df3_keywords = df3['keyword'].str.split(',')
    df4_keywords = df4['keyword'].str.split(',')

    # 네 개의 키워드를 하나의 데이터프레임으로 병합
    df_keywords = pd.DataFrame({
        'keyword_1': df1_keywords,
        'keyword_2': df2_keywords,
        'keyword_3': df3_keywords,
        'keyword_4': df4_keywords
    })

    # 공통 해시태그 추출 함수 (모두 겹치는 경우)
    def find_common_keywords(row):
        sets = [set(row[f'keyword_{i}']) if isinstance(row[f'keyword_{i}'], list) else set() for i in range(1, 5)]
        return ', '.join(sets[0].intersection(*sets[1:]))

    # 3개 이상 겹치는 키워드 추출 함수
    def find_at_least_three_keywords(row):
        sets = [set(row[f'keyword_{i}']) if isinstance(row[f'keyword_{i}'], list) else set() for i in range(1, 5)]
        intersection_3_plus = sets[0].intersection(sets[1]).union(
            sets[0].intersection(sets[2]), sets[0].intersection(sets[3]),
            sets[1].intersection(sets[2]), sets[1].intersection(sets[3]),
            sets[2].intersection(sets[3])
        )
        return ', '.join(intersection_3_plus)

    # 모든 키워드를 합치는 함수
    def find_all_keywords(row):
        sets = [set(row[f'keyword_{i}']) if isinstance(row[f'keyword_{i}'], list) else set() for i in range(1, 5)]
        return ', '.join(sets[0].union(*sets[1:]))

    # 각 함수에 따른 열 추가
    df_keywords['common_keywords_all'] = df_keywords.apply(find_common_keywords, axis=1)
    df_keywords['common_keywords_3_plus'] = df_keywords.apply(find_at_least_three_keywords, axis=1)
    df_keywords['all_keywords_combined'] = df_keywords.apply(find_all_keywords, axis=1)

    # df1의 'Review' 열을 추가하여 최종 결과 반환
    df_keywords.insert(0, 'Review', df1['Review'])

    return df_keywords

In [3]:
def remove_duplicates(keyword_string):
    if pd.isna(keyword_string):
        return keyword_string  # NaN 값 처리
    keywords = keyword_string.split(',')  # 쉼표로 단어 분리
    unique_keywords = sorted(set(key.strip() for key in keywords))  # 중복 제거 및 공백 제거
    return ', '.join(unique_keywords)  # 쉼표로 다시 연결

In [8]:
# file_prefix 설정
file_prefix = 'saperate_reviews_tags/1645762'

# 키워드 처리 함수 호출
df_result = process_keywords(file_prefix)

# 결과 확인 및 필요한 열만 선택
selected_columns = df_result[['Review', 'common_keywords_all', 'common_keywords_3_plus', 'all_keywords_combined']]

# 중복된 단어 제거
selected_columns['common_keywords_3_plus'] = selected_columns['common_keywords_3_plus'].apply(remove_duplicates)
selected_columns['all_keywords_combined'] = selected_columns['all_keywords_combined'].apply(remove_duplicates)

# 결과를 CSV 파일로 저장
output_file = file_prefix + '_keywords.csv'
selected_columns.to_csv(output_file, index=False)

print(f'{output_file} 파일 저장 완료.')

saperate_reviews_tags/1645762_keywords.csv 파일 저장 완료.


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  selected_columns['common_keywords_3_plus'] = selected_columns['common_keywords_3_plus'].apply(remove_duplicates)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  selected_columns['all_keywords_combined'] = selected_columns['all_keywords_combined'].apply(remove_duplicates)


#### Review에 NaN 발생 -> 값 수정..

In [43]:
file_prefix = 'saperate_reviews_tags/1875663_key'
df_result = process_keywords(file_prefix)
df_result

Unnamed: 0,Review,keyword_1,keyword_2,keyword_3,keyword_4,common_keywords_all,common_keywords_3_plus,all_keywords_combined
0,바지가 통도 크고 길이 감도 마음에 듭니다 위에 티셔츠 아무거나 입어도 다 멋있네요,"[통, 티셔츠, 길이감]","[거나, 듭니, 티셔츠, 바지, 크다, 길이, 통, 감다]","[멋있다, 티셔츠, 크다, 통, 위, 거나, 바지]","[거나, 멋있다, 티셔츠, 길이, 크다, 바지]",티셔츠,"티셔츠, 크다, 길이, 통, 거나, 바지","티셔츠, 거나, 크다, 통, 통, 거나, 길이감, 감다, 듭니, 길이..."
1,힙하게 여름에 잘 입고 다닐 것 같습니다 좋아요 잘 삿습니다,"[자다, 여름, 힙하, 잘삿습니]","[힙하, 여름, 삿습니]","[여름, 힙하, 삿습니]","[삿습니, 힙하, 여름]",,"여름, 힙하, 삿습니","힙하, 삿습니, 자다, 힙하, 여름, 삿습니, 여름, 잘삿습니"
2,요즘 날씨에 입 기 딱 좋아요 색감도 이 쁘네요 만족합니다,"[날씨, 색감, 만족]","[날씨, 만족하다, 색감, 쁘네]","[쁘네, 만족하다, 날씨, 색감]","[날씨, 쁘네, 만족하다, 색감]",색감,"날씨, 색감, 쁘네, 만족하다","날씨, 쁘네, 만족하다, 만족, 날씨, 색감, 쁘네"
3,우선 허리가 생각보다 큽니 다 쫄지 마시고 애매하다 싶으면 사이즈 구매 추천 드립니...,"[흐물흐물, 가을, 여름, 허리, 애매하다, 쫄지말다, 청바지, 보통,...","[적당하다, 애매하다, 드리다, 말다, 추천, 허리]","[청바지, 허리, 여름, 사이즈, 추천, 가을, 보다는, 크다, 얇다...","[흐물, 그렇다고, 편안함, 말다, 보통, 애매하다, 최고, 가을, ...",,"편안함, 허리, 애매하다, 드리다, 가을, 여름, 보통, 추천, 두...","최고, 편안함, 얇다, 크다, 애매하다, 드리다, 가을, 보다는, ..."
4,기준 허리가 많이 컸지만 기장이나 통이 가장 이상적이라 허리는 옷 핀으로 고 정 후...,"[통, 허리, 옷핀, 기장]","[기장, 허리, 허리, 가장, 통, 기준, 핀]","[핀, 기장, 이나, 크다, 통, 허리]","[가장, 기준, 허리, 기장, 크다]",허리,"허리, 기준, 기장, 크다, 통","가장, 허리, 이나, 옷핀, 크다, 가장, 통, 기장, 통, 핀, 기준..."
...,...,...,...,...,...,...,...,...
995,,"[사이즈, 두께감, 바지, 스타일, 물빠지다]",,,,,,"바지, 물빠지다, 스타일, 두께감, 사이즈"
996,,"[여름, 디자인, 길이감, 두껍다]",,,,,,"디자인, 길이감, 여름, 두껍다"
997,,"[상의색상, 두께감, 구애받다, 청바지색상]",,,,,,"청바지색상, 두께감, 상의색상, 구애받다"
998,,"[통넓다, 가랑이, 바람수, 두껍다]",,,,,,"가랑이, 바람수, 통넓다, 두껍다"


In [51]:
df_result = df_result.iloc[:640]

In [52]:
# 결과 확인 및 필요한 열만 선택
selected_columns = df_result[['Review', 'common_keywords_all', 'common_keywords_3_plus', 'all_keywords_combined']]

# 중복된 단어 제거
selected_columns['common_keywords_3_plus'] = selected_columns['common_keywords_3_plus'].apply(remove_duplicates)
selected_columns['all_keywords_combined'] = selected_columns['all_keywords_combined'].apply(remove_duplicates)

# 결과를 CSV 파일로 저장
output_file = file_prefix + '_keywords.csv'
selected_columns.to_csv(output_file, index=False)

print(f'{output_file} 파일 저장 완료.')

saperate_reviews_tags/바이오워싱 카펜터 버뮤다 데님 팬츠_라이트블루_keywords.csv 파일 저장 완료.


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  selected_columns['common_keywords_3_plus'] = selected_columns['common_keywords_3_plus'].apply(remove_duplicates)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  selected_columns['all_keywords_combined'] = selected_columns['all_keywords_combined'].apply(remove_duplicates)


# 본 코드 (파일 스캔 후 _1 있을 때만 동작하게 하기)

In [10]:
import os
import pandas as pd

# Step 1: 키워드 처리 함수 (제공된 기존 함수)
def process_keywords(file_prefix):
    # 파일 읽기 (df1 ~ df4)
    df1 = pd.read_csv(f'{file_prefix}_1.csv')
    df2 = pd.read_csv(f'{file_prefix}_2.csv')
    df3 = pd.read_csv(f'{file_prefix}_3.csv')
    df4 = pd.read_csv(f'{file_prefix}_4.csv')

    # 필요한 열 이름 변경
    df1.rename(columns={'Keyword': 'keyword', 'Review': 'Processed_Review'}, inplace=True)

    # 각 데이터프레임에서 'keyword' 열만 가져오기
    df1_keywords = df1['keyword'].str.split(',')  # 리스트로 변환
    df2_keywords = df2['keyword'].str.split(',')  # 리스트로 변환
    df3_keywords = df3['keyword'].str.split(',')  # 리스트로 변환
    df4_keywords = df4['keyword'].str.split(',')  # 리스트로 변환

    # 네 개의 키워드 열을 합친 데이터프레임 생성
    df_keywords = pd.DataFrame({
        'keyword_1': df1_keywords,
        'keyword_2': df2_keywords,
        'keyword_3': df3_keywords,
        'keyword_4': df4_keywords
    })

    # 공통 해시태그 추출 함수 (모두 겹치는 경우)
    def find_common_keywords(row):
        sets = [set(row[f'keyword_{i}']) if isinstance(row[f'keyword_{i}'], list) else set() for i in range(1, 5)]
        return ', '.join(sets[0].intersection(*sets[1:]))

    # 3개 이상 겹치는 키워드 추출 함수
    def find_at_least_three_keywords(row):
        sets = [set(row[f'keyword_{i}']) if isinstance(row[f'keyword_{i}'], list) else set() for i in range(1, 5)]
        intersection_3_plus = sets[0].intersection(sets[1]).union(
            sets[0].intersection(sets[2]), sets[0].intersection(sets[3]),
            sets[1].intersection(sets[2]), sets[1].intersection(sets[3]),
            sets[2].intersection(sets[3])
        )
        return ', '.join(intersection_3_plus)

    # 모든 키워드 합치는 함수
    def find_all_keywords(row):
        sets = [set(row[f'keyword_{i}']) if isinstance(row[f'keyword_{i}'], list) else set() for i in range(1, 5)]
        return ', '.join(sets[0].union(*sets[1:]))

    # 4개 모두 공통된 키워드를 저장할 새 열 추가
    df_keywords['common_keywords_all'] = df_keywords.apply(find_common_keywords, axis=1)

    # 3개 이상 공통된 키워드를 저장할 새 열 추가
    df_keywords['common_keywords_3_plus'] = df_keywords.apply(find_at_least_three_keywords, axis=1)

    # 모든 키워드를 합친 열 추가
    df_keywords['all_keywords_combined'] = df_keywords.apply(find_all_keywords, axis=1)

    # df3에서 'Review' 열과 df1에서 'Processed_Review' 열을 가져와 병합
    df_keywords.insert(0, 'Processed_Review', df3['Processed_Review'])  # df3에서 가져옴
    df_keywords.insert(1, 'Review', df3['Review'])  # df3에서 가져옴

    return df_keywords

In [11]:
# 중복 단어 제거 함수
def remove_duplicates(keyword_string):
    if pd.isna(keyword_string):
        return keyword_string  # NaN 값 처리
    keywords = keyword_string.split(',')  # 쉼표로 단어 분리
    unique_keywords = sorted(set(key.strip() for key in keywords))  # 중복 제거 및 공백 제거
    return ', '.join(unique_keywords)  # 쉼표로 다시 연결

In [12]:
# Step 2: 파일 처리 함수 (정수 파일 이름 처리)
def process_multiple_file_prefixes(csv_file):
    # file_prefix 목록을 불러오기
    df_prefix = pd.read_csv(csv_file)
    file_prefixes = df_prefix['File Name'].tolist()

    for file_prefix in file_prefixes:
        # file_prefix가 정수일 경우 문자열로 변환
        file_prefix = str(file_prefix)

        # 각 file_prefix에 대해 saperate_reviews_tags 폴더를 스캔하여 _1.csv 파일이 있는지 확인
        folder = 'saperate_reviews_tags'
        if f'{file_prefix}_1.csv' in os.listdir(folder):
            print(f"Processing {file_prefix}_1.csv 파일...")

            # 키워드 처리 실행
            df_result = process_keywords(os.path.join(folder, file_prefix))

            # 필요한 열만 선택
            selected_columns = df_result[['Review', 'Processed_Review', 'common_keywords_all', 'common_keywords_3_plus']]

            # 중복된 단어 제거
            selected_columns['common_keywords_3_plus'] = selected_columns['common_keywords_3_plus'].apply(remove_duplicates)

            # 결과 저장
            output_file = file_prefix + '_keywords.csv'
            selected_columns.to_csv(output_file, index=False)

            print(f'{file_prefix}_keywords.csv 파일 저장 완료.')
        else:
            print(f"{file_prefix}_1.csv 파일이 존재하지 않습니다. 건너뜁니다.")

list_tshirts_not 상의 list_pants_not 바지 list_onepiece_not 원피스 list_jackets_not 아우터

In [17]:
# Step 3: 사용 예시
csv_file = 'list_tshirts_not.csv'  # file_prefix 목록이 들어있는 CSV 파일 경로
process_multiple_file_prefixes(csv_file)

Processing DOODLE HEART HALF T WHITE GREYISH BLUE_1.csv 파일...
DOODLE HEART HALF T WHITE GREYISH BLUE_keywords.csv 파일 저장 완료.
Processing [SET] 워셔블 케이블 반팔 니트 세트_1.csv 파일...


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  selected_columns['common_keywords_3_plus'] = selected_columns['common_keywords_3_plus'].apply(remove_duplicates)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  selected_columns['common_keywords_3_plus'] = selected_columns['common_keywords_3_plus'].apply(remove_duplicates)


[SET] 워셔블 케이블 반팔 니트 세트_keywords.csv 파일 저장 완료.
Processing [2PACK] 쿨 코튼 티셔츠 블랙+화이트_1.csv 파일...
[2PACK] 쿨 코튼 티셔츠 블랙+화이트_keywords.csv 파일 저장 완료.
Processing [3천원 결제혜택]링클 체크 박시 오버핏 롤업 하프 셔츠 다크 네이비_1.csv 파일...


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  selected_columns['common_keywords_3_plus'] = selected_columns['common_keywords_3_plus'].apply(remove_duplicates)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  selected_columns['common_keywords_3_plus'] = selected_columns['common_keywords_3_plus'].apply(remove_duplicates)


[3천원 결제혜택]링클 체크 박시 오버핏 롤업 하프 셔츠 다크 네이비_keywords.csv 파일 저장 완료.
Processing 460G 컷 헤비 피그먼트 티셔츠-차콜-_1.csv 파일...
460G 컷 헤비 피그먼트 티셔츠-차콜-_keywords.csv 파일 저장 완료.
Processing [16수 코마사] 2PACK SMALL ARCH T-SHIRT WHITE _ BLACK_1.csv 파일...


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  selected_columns['common_keywords_3_plus'] = selected_columns['common_keywords_3_plus'].apply(remove_duplicates)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  selected_columns['common_keywords_3_plus'] = selected_columns['common_keywords_3_plus'].apply(remove_duplicates)


[16수 코마사] 2PACK SMALL ARCH T-SHIRT WHITE _ BLACK_keywords.csv 파일 저장 완료.
Processing 빈티지 워싱 네이비 체크셔츠_1.csv 파일...
빈티지 워싱 네이비 체크셔츠_keywords.csv 파일 저장 완료.
Processing [3PACK] 에어쿨링 드라이 기능성 무지 반팔티_1.csv 파일...


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  selected_columns['common_keywords_3_plus'] = selected_columns['common_keywords_3_plus'].apply(remove_duplicates)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  selected_columns['common_keywords_3_plus'] = selected_columns['common_keywords_3_plus'].apply(remove_duplicates)


[3PACK] 에어쿨링 드라이 기능성 무지 반팔티_keywords.csv 파일 저장 완료.
Processing TAG OG TEE - WHITE_1.csv 파일...
TAG OG TEE - WHITE_keywords.csv 파일 저장 완료.
Processing [2PACK] EL 스트리트 아트워크 오버핏 반팔티 2종 2PACK_1.csv 파일...
[2PACK] EL 스트리트 아트워크 오버핏 반팔티 2종 2PACK_keywords.csv 파일 저장 완료.


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  selected_columns['common_keywords_3_plus'] = selected_columns['common_keywords_3_plus'].apply(remove_duplicates)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  selected_columns['common_keywords_3_plus'] = selected_columns['common_keywords_3_plus'].apply(remove_duplicates)


In [47]:
# Step 2-1: 파일 처리 함수 (정수 파일 이름 처리) -> 개별 키워드 같이 추출 
def process_multiple_file_prefixes_keyword(csv_file):
    # file_prefix 목록을 불러오기
    df_prefix = pd.read_csv(csv_file)
    file_prefixes = df_prefix['File Name'].tolist()

    for file_prefix in file_prefixes:
        # file_prefix가 정수일 경우 문자열로 변환
        file_prefix = str(file_prefix)

        # 각 file_prefix에 대해 saperate_reviews_tags 폴더를 스캔하여 _1.csv 파일이 있는지 확인
        folder = 'saperate_reviews_tags'
        if f'{file_prefix}_1.csv' in os.listdir(folder):
            print(f"Processing {file_prefix}_1.csv 파일...")

            # 키워드 처리 실행
            df_result = process_keywords(os.path.join(folder, file_prefix))

            # 필요한 열만 선택
            selected_columns = df_result[['Review', 'keyword_1', 'keyword_2', 'keyword_3', 'keyword_4', 'common_keywords_all', 'common_keywords_3_plus']]

            # 중복된 단어 제거
            selected_columns['common_keywords_3_plus'] = selected_columns['common_keywords_3_plus'].apply(remove_duplicates)

            # 결과 저장
            output_file = file_prefix + '_keywords_all.csv'
            selected_columns.to_csv(output_file, index=False)

            print(f'{file_prefix}_keywords.csv 파일 저장 완료.')
        else:
            print(f"{file_prefix}_1.csv 파일이 존재하지 않습니다. 건너뜁니다.")

 list_pants_not 바지 list_onepiece_not 원피스 list_jackets_not 아우터

In [51]:
csv_file = 'list_jackets_not.csv'

process_multiple_file_prefixes_keyword(csv_file)

Processing [무료반품]베켄바우어 트랙탑 - 인디고_IP0418_1.csv 파일...
[무료반품]베켄바우어 트랙탑 - 인디고_IP0418_keywords.csv 파일 저장 완료.
Processing 파이어버드 트랙탑 - 블랙_IJ7058_1.csv 파일...
파이어버드 트랙탑 - 블랙_IJ7058_keywords.csv 파일 저장 완료.


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  selected_columns['common_keywords_3_plus'] = selected_columns['common_keywords_3_plus'].apply(remove_duplicates)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  selected_columns['common_keywords_3_plus'] = selected_columns['common_keywords_3_plus'].apply(remove_duplicates)


Processing ASI 포시즌 에센셜 피그먼트 후드집업_차콜 그레이_1.csv 파일...
ASI 포시즌 에센셜 피그먼트 후드집업_차콜 그레이_keywords.csv 파일 저장 완료.
[무료반품]베켄바우어 트랙탑 - 블랙화이트_II5763_1.csv 파일이 존재하지 않습니다. 건너뜁니다.
2WAY 스웻 후드 집업 (MELANGE GREY)_1.csv 파일이 존재하지 않습니다. 건너뜁니다.
[유튜버 PICK]FR-40S 프렌치 워크 5P 자켓_Military Navy_1.csv 파일이 존재하지 않습니다. 건너뜁니다.
[쿨탠다드] 릴렉스드 베이식 블레이저 [블랙]_1.csv 파일이 존재하지 않습니다. 건너뜁니다.
시어 후드 베스트 블랙_1.csv 파일이 존재하지 않습니다. 건너뜁니다.
[SAINT YEAR] 세미 오버 핏 셋업 수트_GREY_1.csv 파일이 존재하지 않습니다. 건너뜁니다.
MATIN KIM LOGO COATING JUMPER IN BLACK_1.csv 파일이 존재하지 않습니다. 건너뜁니다.


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  selected_columns['common_keywords_3_plus'] = selected_columns['common_keywords_3_plus'].apply(remove_duplicates)


In [52]:
# Step 2-3: 파일 처리 함수 (정수 파일 이름 처리) -> keyword_1 열만 추출
def process_multiple_file_prefixes_keyword1(csv_file):
    # file_prefix 목록을 불러오기
    df_prefix = pd.read_csv(csv_file)
    file_prefixes = df_prefix['File Name'].tolist()

    for file_prefix in file_prefixes:
        # file_prefix가 정수일 경우 문자열로 변환
        file_prefix = str(file_prefix)

        # 각 file_prefix에 대해 saperate_reviews_tags 폴더를 스캔하여 _1.csv 파일이 있는지 확인
        folder = 'saperate_reviews_tags'
        if f'{file_prefix}_1.csv' in os.listdir(folder):
            print(f"Processing {file_prefix}_1.csv 파일...")

            # 키워드 처리 실행
            df_result = process_keywords(os.path.join(folder, file_prefix))

            # 필요한 열만 선택
            selected_columns = df_result[['Review', 'Processed_Review', 'keyword_1', 'common_keywords_all', 'common_keywords_3_plus']]

            # 중복된 단어 제거
            selected_columns['common_keywords_3_plus'] = selected_columns['common_keywords_3_plus'].apply(remove_duplicates)

            # 결과 저장
            output_file = file_prefix + '_keywords_pre.csv'
            selected_columns.to_csv(output_file, index=False)

            print(f'{file_prefix}_keywords.csv 파일 저장 완료.')
        else:
            print(f"{file_prefix}_1.csv 파일이 존재하지 않습니다. 건너뜁니다.")

In [None]:
 list_pants_not 바지 list_onepiece_not 원피스 list_jackets_not 아우터 list_tshirts_not

In [60]:
csv_file = 'list_onepiece_not.csv'

process_multiple_file_prefixes_keyword1(csv_file)

Processing 1875663_1.csv 파일...
1875663_keywords.csv 파일 저장 완료.
Processing 3977452_1.csv 파일...
3977452_keywords.csv 파일 저장 완료.
Processing 1875664_1.csv 파일...


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  selected_columns['common_keywords_3_plus'] = selected_columns['common_keywords_3_plus'].apply(remove_duplicates)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  selected_columns['common_keywords_3_plus'] = selected_columns['common_keywords_3_plus'].apply(remove_duplicates)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-

1875664_keywords.csv 파일 저장 완료.
Processing 4018731_1.csv 파일...
4018731_keywords.csv 파일 저장 완료.
Processing 3977488_1.csv 파일...
3977488_keywords.csv 파일 저장 완료.
Processing 2551401_1.csv 파일...
2551401_keywords.csv 파일 저장 완료.
Processing 2978106_1.csv 파일...


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  selected_columns['common_keywords_3_plus'] = selected_columns['common_keywords_3_plus'].apply(remove_duplicates)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  selected_columns['common_keywords_3_plus'] = selected_columns['common_keywords_3_plus'].apply(remove_duplicates)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-

2978106_keywords.csv 파일 저장 완료.
Processing 3295891_1.csv 파일...
3295891_keywords.csv 파일 저장 완료.
Processing 1645762_1.csv 파일...
1645762_keywords.csv 파일 저장 완료.
Processing 1944554_1.csv 파일...


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  selected_columns['common_keywords_3_plus'] = selected_columns['common_keywords_3_plus'].apply(remove_duplicates)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  selected_columns['common_keywords_3_plus'] = selected_columns['common_keywords_3_plus'].apply(remove_duplicates)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-

1944554_keywords.csv 파일 저장 완료.


# 본 코드 (파일목록 호출용)

In [45]:
import pandas as pd

def process_keywords(file_prefix):
    # 파일 읽기 (df1 ~ df4)
    df1 = pd.read_csv(f'{file_prefix}_1.csv')
    df2 = pd.read_csv(f'{file_prefix}_2.csv')
    df3 = pd.read_csv(f'{file_prefix}_3.csv')
    df4 = pd.read_csv(f'{file_prefix}_4.csv')

    # 필요한 열 이름 변경
    df1.rename(columns={'Keyword': 'keyword'}, inplace=True)
    df2.rename(columns={'Processed_Review': 'Review'}, inplace=True)

    # 각 데이터프레임에서 'keyword' 열만 가져오기
    df1_keywords = df1['keyword'].str.split(',')  # 리스트로 변환
    df2_keywords = df2['keyword'].str.split(',')  # 리스트로 변환
    df3_keywords = df3['keyword'].str.split(',')  # 리스트로 변환
    df4_keywords = df4['keyword'].str.split(',')  # 리스트로 변환

    # 네 개의 키워드 열을 합친 데이터프레임 생성
    df_keywords = pd.DataFrame({
        'keyword_1': df1_keywords,
        'keyword_2': df2_keywords,
        'keyword_3': df3_keywords,
        'keyword_4': df4_keywords
    })

    # 공통 해시태그 추출 함수 (모두 겹치는 경우)
    def find_common_keywords(row):
        sets = [set(row[f'keyword_{i}']) if isinstance(row[f'keyword_{i}'], list) else set() for i in range(1, 5)]
        return ', '.join(sets[0].intersection(*sets[1:]))

    # 3개 이상 겹치는 키워드 추출 함수
    def find_at_least_three_keywords(row):
        sets = [set(row[f'keyword_{i}']) if isinstance(row[f'keyword_{i}'], list) else set() for i in range(1, 5)]
        intersection_3_plus = sets[0].intersection(sets[1]).union(
            sets[0].intersection(sets[2]), sets[0].intersection(sets[3]),
            sets[1].intersection(sets[2]), sets[1].intersection(sets[3]),
            sets[2].intersection(sets[3])
        )
        return ', '.join(intersection_3_plus)

    # 모든 키워드 합치는 함수
    def find_all_keywords(row):
        sets = [set(row[f'keyword_{i}']) if isinstance(row[f'keyword_{i}'], list) else set() for i in range(1, 5)]
        return ', '.join(sets[0].union(*sets[1:]))

    # 4개 모두 공통된 키워드를 저장할 새 열 추가
    df_keywords['common_keywords_all'] = df_keywords.apply(find_common_keywords, axis=1)

    # 3개 이상 공통된 키워드를 저장할 새 열 추가
    df_keywords['common_keywords_3_plus'] = df_keywords.apply(find_at_least_three_keywords, axis=1)

    # 모든 키워드를 합친 열 추가
    df_keywords['all_keywords_combined'] = df_keywords.apply(find_all_keywords, axis=1)

    # df1에서 'Review' 열을 가져와 병합
    df_keywords.insert(0, 'Review', df1['Review'])

    return df_keywords

In [46]:
# 중복 단어 제거 
def remove_duplicates(keyword_string):
    if pd.isna(keyword_string):
        return keyword_string  # NaN 값 처리
    keywords = keyword_string.split(',')  # 쉼표로 단어 분리
    unique_keywords = sorted(set(key.strip() for key in keywords))  # 중복 제거 및 공백 제거
    return ', '.join(unique_keywords)  # 쉼표로 다시 연결

In [59]:
import os

# file_prefix 목록 CSV 파일에서 불러와 처리하는 함수
def process_multiple_file_prefixes(csv_file):
    # file_prefix 목록 불러오기
    df_prefix = pd.read_csv(csv_file)
    file_prefixes = df_prefix['File Name'].tolist()  # 'file_prefix' 열을 리스트로 변환

    for file_prefix in file_prefixes:
        # 각 file_prefix에 대해 처리할 파일 경로 생성
        full_file_prefix = os.path.join('saperate_reviews_tags', file_prefix)

        # 각 file_prefix에 대해 처리
        df_result = process_keywords(file_prefix)

        # 필요한 열만 선택
        selected_columns = df_result[['Review', 'common_keywords_all', 'common_keywords_3_plus', 'all_keywords_combined']]

        # 중복된 단어 제거
        selected_columns['common_keywords_3_plus'] = selected_columns['common_keywords_3_plus'].apply(remove_duplicates)
        selected_columns['all_keywords_combined'] = selected_columns['all_keywords_combined'].apply(remove_duplicates)

        # 결과 저장
        output_file = file_prefix + '_keywords.csv'
        selected_columns.to_csv(output_file, index=False)

        print(f'{file_prefix}_keywords.csv 파일 저장 완료.')

In [61]:
csv_file = 'list_jackets.csv'  # file_prefix 목록이 들어있는 CSV 파일 경로
process_multiple_file_prefixes(csv_file)

FileNotFoundError: [Errno 2] No such file or directory: '[무료반품]베켄바우어 트랙탑 - 인디고_IP0418_1.csv'

# 리뷰가 다를때
내용 정리 및 확인용

In [60]:
import pandas as pd

# 데이터프레임 불러오기 (예시)
# df2 = pd.read_csv('path_to_df2.csv')
# df3 = pd.read_csv('path_to_df3.csv')

# 1. Review 열 전처리 (공백 제거 및 특수 문자 제거)
df2['Review'] = df2['Review'].str.replace(' ', '', regex=False)
df2['Review'] = df2['Review'].str.replace(r'[^A-Za-z0-9가-힣]', '', regex=True)

df3['Review'] = df3['Review'].str.replace(' ', '', regex=False)
df3['Review'] = df3['Review'].str.replace(r'[^A-Za-z0-9가-힣]', '', regex=True)

# 2. df2와 df3에서 Review의 교집합 찾기
common_reviews = pd.merge(df2[['Review']], df3[['Review']], on='Review', how='inner')['Review']

# 3. df2, df3에서 common_reviews에 해당하는 Review만 남기기
df2_filtered = df2[df2['Review'].isin(common_reviews)]
df3_filtered = df3[df3['Review'].isin(common_reviews)]

# # 결과 출력
# print("df2 전처리 및 필터링 후:")
# print(df2_filtered)

# print("df3 전처리 및 필터링 후:")
# print(df3_filtered)

# 필요한 경우 CSV로 저장
# df2_filtered.to_csv('filtered_df2.csv', index=False)
# df3_filtered.to_csv('filtered_df3.csv', index=False)


In [77]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 920 entries, 0 to 919
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Review   920 non-null    object
 1   keyword  915 non-null    object
dtypes: object(2)
memory usage: 14.5+ KB


In [78]:
df2 = df2.drop_duplicates(subset=['Review'])
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 920 entries, 0 to 919
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Review   920 non-null    object
 1   keyword  915 non-null    object
dtypes: object(2)
memory usage: 14.5+ KB


In [79]:
df3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 923 entries, 0 to 922
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Review   923 non-null    object
 1   keyword  918 non-null    object
dtypes: object(2)
memory usage: 14.6+ KB


In [80]:
df3 = df3.drop_duplicates(subset=['Review'])
df3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 923 entries, 0 to 922
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Review   923 non-null    object
 1   keyword  918 non-null    object
dtypes: object(2)
memory usage: 14.6+ KB
