# 전처리 통일 version

## 함수 정의

In [3]:
import pandas as pd
from keybert import KeyBERT
from sklearn.feature_extraction.text import CountVectorizer
from konlpy.tag import Okt
import re
import os
from collections import Counter

In [4]:
def load_stopwords(file_path):
    with open(file_path, 'r', encoding='utf-8') as f:
        stopwords = f.read().splitlines()  # 각 줄마다 불용어를 리스트에 저장
    return stopwords

# 키워드 추출 함수 정의 (유사도 제거 및 예외 처리)
def extract_keywords(text, kw_model, vectorizer):
    # 불용어 처리 후 텍스트가 비어있는지 확인
    if not text.strip():
        return []  # 빈 텍스트는 건너뛰기
    
    try:
        # 키워드 추출
        keywords = kw_model.extract_keywords(text, vectorizer=vectorizer, top_n=10)
        return [keyword for keyword, score in keywords]  # 유사도 점수는 제외하고 키워드만 반환
    except ValueError as e:
        # 빈 문서나 유효한 단어가 없을 경우 예외 처리
        print(f"Skipping document due to error: {e}")
        return []

# 키워드를 원형으로 변환하는 함수
def lemmatize_keyword(keyword, okt, stop_words):
    morphs = okt.pos(keyword, stem=True)  # 형태소 분석 및 어간 추출
    lemmatized = [word for word, pos in morphs if pos in ['Noun', 'Verb', 'Adjective'] and word not in stop_words]
    return ' '.join(lemmatized) if lemmatized else None  # 원형 변환된 단어들을 합침, 없으면 None 반환

## 메인 함수 (리뷰 전체)

In [5]:
# 메인 함수 (파일명 리스트를 CSV 파일에서 가져와 처리)
def process_keywords_from_file_list(file_list_csv, output_csv, stopword_file):
    # 불용어 파일 불러오기
    stop_words = load_stopwords(stopword_file)

    # 파일명 목록 CSV 불러오기
    file_df = pd.read_csv(file_list_csv)

    # KeyBERT 모델 초기화
    kw_model = KeyBERT()
    vectorizer = CountVectorizer(ngram_range=(1, 1))

    # Okt 형태소 분석기 초기화
    okt = Okt()

    # 기존 output CSV 파일이 있는지 확인하고 로드
    try:
        results_df = pd.read_csv(output_csv)
        print(f"Existing results loaded from {output_csv}")
    except FileNotFoundError:
        # 없을 경우 새로운 데이터프레임 생성
        results_df = pd.DataFrame(columns=['title', 'keyword'])
        print(f"No existing results. Creating new results file: {output_csv}")

    # 파일 처리 시작
    for idx, row in file_df.iterrows():
        file_name = row['File Name']  # 파일명 불러오기
        csv_title = file_name.rsplit('.', 1)[0]  # 파일명에서 확장자 제거하여 제목으로 사용
        file_path = os.path.join('preprocessing_reviews', file_name)  # 폴더 내의 파일 경로 설정

        # 파일 경로 출력
        print(f"Trying to load file from: {file_path}")

        # 중복된 파일 처리 방지
        if csv_title in results_df['title'].values:
            print(f"Skipping {file_name}, already processed.")
            continue

        print(f"Processing file: {file_path}")

        # 데이터 로드 및 정제
        try:
            df = pd.read_csv(file_path)
            print(f"Successfully loaded {file_name}")
        except FileNotFoundError:
            print(f"파일을 찾을 수 없습니다: {file_path}")
            continue

        # 'Processed_Review' 열에서 NaN 값을 빈 문자열로 대체
        df['Processed_Review'] = df['Processed_Review'].fillna('').astype(str)

        # 리뷰 데이터를 사용하여 키워드 추출
        documents = df['Processed_Review']

        # 전체 문서에 대해 핵심 키워드 추출
        df['Keywords'] = documents.apply(lambda text: extract_keywords(text, kw_model, vectorizer))
        print(f"Keywords extracted from {file_name}")

        # 키워드를 모두 모아서 리스트로 풀기
        all_keywords = []
        for keywords in df['Keywords']:
            for keyword in keywords:
                lemmatized_keyword = lemmatize_keyword(keyword, okt, stop_words)
                if lemmatized_keyword:  # 불용어 필터링
                    all_keywords.append(lemmatized_keyword)

        # 각 키워드의 빈도를 계산하고 상위 10개 키워드 추출
        keyword_counts = Counter(all_keywords)
        top_10_keywords = keyword_counts.most_common(10)

        # 상위 10개의 키워드를 쉼표로 구분하여 문자열로 변환
        top_10_keywords_list = [keyword for keyword, _ in top_10_keywords]
        keywords_str = ', '.join(top_10_keywords_list)

        # 새로운 데이터프레임 행 생성
        new_row = pd.DataFrame({'title': [csv_title], 'keyword': [keywords_str]})

        # 데이터프레임에 새로운 행 추가 (concat 사용)
        results_df = pd.concat([results_df, new_row], ignore_index=True)

    # 결과를 CSV 파일로 저장
    results_df.to_csv(output_csv, index=False)
    print(f"Results saved to {output_csv}")

### 실행
list_tshirts 상의
list_pants 바지
list_onepiece 원피스
list_jackets 아우터

In [7]:
# 사용 예시
file_list_csv = 'list_jackets.csv'  # 파일명 목록이 담긴 CSV 파일
output_csv = '아우터_2.csv'  # 결과를 저장할 CSV 파일
stopword_file = '한국어불용어.txt'  # 불용어 목록 파일

process_keywords_from_file_list(file_list_csv, output_csv, stopword_file)

No existing results. Creating new results file: 아우터_2.csv
Trying to load file from: preprocessing_reviews\[무료반품]베켄바우어 트랙탑 - 인디고_IP0418.csv
Processing file: preprocessing_reviews\[무료반품]베켄바우어 트랙탑 - 인디고_IP0418.csv
Successfully loaded [무료반품]베켄바우어 트랙탑 - 인디고_IP0418.csv
Keywords extracted from [무료반품]베켄바우어 트랙탑 - 인디고_IP0418.csv
Trying to load file from: preprocessing_reviews\파이어버드 트랙탑 - 블랙_IJ7058.csv
Processing file: preprocessing_reviews\파이어버드 트랙탑 - 블랙_IJ7058.csv
Successfully loaded 파이어버드 트랙탑 - 블랙_IJ7058.csv
Keywords extracted from 파이어버드 트랙탑 - 블랙_IJ7058.csv
Trying to load file from: preprocessing_reviews\ASI 포시즌 에센셜 피그먼트 후드집업_차콜 그레이.csv
Processing file: preprocessing_reviews\ASI 포시즌 에센셜 피그먼트 후드집업_차콜 그레이.csv
Successfully loaded ASI 포시즌 에센셜 피그먼트 후드집업_차콜 그레이.csv
Keywords extracted from ASI 포시즌 에센셜 피그먼트 후드집업_차콜 그레이.csv
Trying to load file from: preprocessing_reviews\[무료반품]베켄바우어 트랙탑 - 블랙화이트_II5763.csv
Processing file: preprocessing_reviews\[무료반품]베켄바우어 트랙탑 - 블랙화이트_II5763.csv
Successfully loaded [무료반

In [8]:
# 사용 예시
file_list_csv = 'list_onepiece.csv'  # 파일명 목록이 담긴 CSV 파일
output_csv = '원피스_2.csv'  # 결과를 저장할 CSV 파일
stopword_file = '한국어불용어.txt'  # 불용어 목록 파일

process_keywords_from_file_list(file_list_csv, output_csv, stopword_file)

No existing results. Creating new results file: 원피스_2.csv
Trying to load file from: preprocessing_reviews\1875663.csv
Processing file: preprocessing_reviews\1875663.csv
Successfully loaded 1875663.csv
Keywords extracted from 1875663.csv
Trying to load file from: preprocessing_reviews\3977452.csv
Processing file: preprocessing_reviews\3977452.csv
Successfully loaded 3977452.csv
Keywords extracted from 3977452.csv
Trying to load file from: preprocessing_reviews\1875664.csv
Processing file: preprocessing_reviews\1875664.csv
Successfully loaded 1875664.csv
Keywords extracted from 1875664.csv
Trying to load file from: preprocessing_reviews\4018731.csv
Processing file: preprocessing_reviews\4018731.csv
Successfully loaded 4018731.csv
Keywords extracted from 4018731.csv
Trying to load file from: preprocessing_reviews\3977488.csv
Processing file: preprocessing_reviews\3977488.csv
Successfully loaded 3977488.csv
Keywords extracted from 3977488.csv
Trying to load file from: preprocessing_reviews

In [9]:
# 사용 예시
file_list_csv = 'list_pants.csv'  # 파일명 목록이 담긴 CSV 파일
output_csv = '바지_2.csv'  # 결과를 저장할 CSV 파일
stopword_file = '한국어불용어.txt'  # 불용어 목록 파일

process_keywords_from_file_list(file_list_csv, output_csv, stopword_file)

No existing results. Creating new results file: 바지_2.csv
Trying to load file from: preprocessing_reviews\Deep One Tuck Sweat Shorts [Grey].csv
Processing file: preprocessing_reviews\Deep One Tuck Sweat Shorts [Grey].csv
Successfully loaded Deep One Tuck Sweat Shorts [Grey].csv
Keywords extracted from Deep One Tuck Sweat Shorts [Grey].csv
Trying to load file from: preprocessing_reviews\바이오워싱 카펜터 버뮤다 데님 팬츠_라이트블루.csv
Processing file: preprocessing_reviews\바이오워싱 카펜터 버뮤다 데님 팬츠_라이트블루.csv
Successfully loaded 바이오워싱 카펜터 버뮤다 데님 팬츠_라이트블루.csv
Keywords extracted from 바이오워싱 카펜터 버뮤다 데님 팬츠_라이트블루.csv
Trying to load file from: preprocessing_reviews\데미지 워시드 데님 팬츠-미디엄 블루(Cool Air).csv
Processing file: preprocessing_reviews\데미지 워시드 데님 팬츠-미디엄 블루(Cool Air).csv
Successfully loaded 데미지 워시드 데님 팬츠-미디엄 블루(Cool Air).csv
Keywords extracted from 데미지 워시드 데님 팬츠-미디엄 블루(Cool Air).csv
Trying to load file from: preprocessing_reviews\Wide Cargo Half Denim Pants - 5COL.csv
Processing file: preprocessing_reviews\Wide Cargo H

In [10]:
# 사용 예시
file_list_csv = 'list_tshirts.csv'  # 파일명 목록이 담긴 CSV 파일
output_csv = '상의_2.csv'  # 결과를 저장할 CSV 파일
stopword_file = '한국어불용어.txt'  # 불용어 목록 파일

process_keywords_from_file_list(file_list_csv, output_csv, stopword_file)

No existing results. Creating new results file: 상의_2.csv
Trying to load file from: preprocessing_reviews\DOODLE HEART HALF T WHITE GREYISH BLUE.csv
Processing file: preprocessing_reviews\DOODLE HEART HALF T WHITE GREYISH BLUE.csv
Successfully loaded DOODLE HEART HALF T WHITE GREYISH BLUE.csv
Keywords extracted from DOODLE HEART HALF T WHITE GREYISH BLUE.csv
Trying to load file from: preprocessing_reviews\[SET] 워셔블 케이블 반팔 니트 세트.csv
Processing file: preprocessing_reviews\[SET] 워셔블 케이블 반팔 니트 세트.csv
Successfully loaded [SET] 워셔블 케이블 반팔 니트 세트.csv
Keywords extracted from [SET] 워셔블 케이블 반팔 니트 세트.csv
Trying to load file from: preprocessing_reviews\[2PACK] 쿨 코튼 티셔츠 블랙+화이트.csv
Processing file: preprocessing_reviews\[2PACK] 쿨 코튼 티셔츠 블랙+화이트.csv
Successfully loaded [2PACK] 쿨 코튼 티셔츠 블랙+화이트.csv
Keywords extracted from [2PACK] 쿨 코튼 티셔츠 블랙+화이트.csv
Trying to load file from: preprocessing_reviews\[3천원 결제혜택]링클 체크 박시 오버핏 롤업 하프 셔츠 다크 네이비.csv
Processing file: preprocessing_reviews\[3천원 결제혜택]링클 체크 박시 오버핏 롤업 하프

## 메인 함수 (리뷰 개별)

In [11]:
# 키워드 추출 및 원형 변환 적용 코드
def process_reviews(file_list_csv, stopword_file):
    # 불용어 파일 불러오기
    stop_words = load_stopwords(stopword_file)

    # 파일명 목록 CSV 불러오기
    file_df = pd.read_csv(file_list_csv)

    # KeyBERT 모델 초기화
    kw_model = KeyBERT()
    vectorizer = CountVectorizer(ngram_range=(1, 1))

    # Okt 형태소 분석기 초기화
    okt = Okt()

    # 파일 처리 시작
    for idx, row in file_df.iterrows():
        file_name = row['File Name']  # 파일명 불러오기
        csv_title = file_name.rsplit('.', 1)[0]  # 파일명에서 확장자 제거하여 제목으로 사용
        file_path = os.path.join('preprocessing_reviews', file_name)  # reviews 폴더 내의 파일 경로 설정

        # 파일 경로 출력
        print(f"Trying to load file from: {file_path}")

        # 데이터 로드 및 정제
        try:
            df = pd.read_csv(file_path)
            print(f"Successfully loaded {file_name}")
        except FileNotFoundError:
            print(f"파일을 찾을 수 없습니다: {file_path}")
            continue

        # 'Processed_Review' 열에서 NaN 값을 빈 문자열로 대체
        df['Processed_Review'] = df['Processed_Review'].fillna('').astype(str)
        
        # 리뷰 데이터 정제
        documents = df['Processed_Review']

        # 전체 문서에 대해 핵심 키워드 추출
        df['pre_keywords'] = documents.apply(lambda text: extract_keywords(text, kw_model, vectorizer))

        # 원형으로 변환된 키워드를 새로운 열에 추가
        df['keyword'] = df['pre_keywords'].apply(
            lambda keywords: ', '.join([lemmatize_keyword(keyword, okt, stop_words) for keyword in keywords if lemmatize_keyword(keyword, okt, stop_words)])
        )

        # 리뷰와 키워드 열만 따로 저장
        output_df = df[['Processed_Review', 'keyword']]
        output_file = f'{csv_title}_2.csv'
        output_df.to_csv(output_file, index=False)
        print(f"File saved to {output_file}")

In [None]:
list_tshirts 상의  바지 list_onepiece 원피스  아우터

In [12]:
process_reviews('list_jackets.csv', '한국어불용어.txt')

Trying to load file from: preprocessing_reviews\[무료반품]베켄바우어 트랙탑 - 인디고_IP0418.csv
Successfully loaded [무료반품]베켄바우어 트랙탑 - 인디고_IP0418.csv
File saved to [무료반품]베켄바우어 트랙탑 - 인디고_IP0418_2.csv
Trying to load file from: preprocessing_reviews\파이어버드 트랙탑 - 블랙_IJ7058.csv
Successfully loaded 파이어버드 트랙탑 - 블랙_IJ7058.csv
File saved to 파이어버드 트랙탑 - 블랙_IJ7058_2.csv
Trying to load file from: preprocessing_reviews\ASI 포시즌 에센셜 피그먼트 후드집업_차콜 그레이.csv
Successfully loaded ASI 포시즌 에센셜 피그먼트 후드집업_차콜 그레이.csv
File saved to ASI 포시즌 에센셜 피그먼트 후드집업_차콜 그레이_2.csv
Trying to load file from: preprocessing_reviews\[무료반품]베켄바우어 트랙탑 - 블랙화이트_II5763.csv
Successfully loaded [무료반품]베켄바우어 트랙탑 - 블랙화이트_II5763.csv
File saved to [무료반품]베켄바우어 트랙탑 - 블랙화이트_II5763_2.csv
Trying to load file from: preprocessing_reviews\2WAY 스웻 후드 집업 (MELANGE GREY).csv
Successfully loaded 2WAY 스웻 후드 집업 (MELANGE GREY).csv
File saved to 2WAY 스웻 후드 집업 (MELANGE GREY)_2.csv
Trying to load file from: preprocessing_reviews\[유튜버 PICK]FR-40S 프렌치 워크 5P 자켓_Military Navy.csv
Succ

In [13]:
process_reviews('list_pants.csv', '한국어불용어.txt')

Trying to load file from: preprocessing_reviews\Deep One Tuck Sweat Shorts [Grey].csv
Successfully loaded Deep One Tuck Sweat Shorts [Grey].csv
File saved to Deep One Tuck Sweat Shorts [Grey]_2.csv
Trying to load file from: preprocessing_reviews\바이오워싱 카펜터 버뮤다 데님 팬츠_라이트블루.csv
Successfully loaded 바이오워싱 카펜터 버뮤다 데님 팬츠_라이트블루.csv
File saved to 바이오워싱 카펜터 버뮤다 데님 팬츠_라이트블루_2.csv
Trying to load file from: preprocessing_reviews\데미지 워시드 데님 팬츠-미디엄 블루(Cool Air).csv
Successfully loaded 데미지 워시드 데님 팬츠-미디엄 블루(Cool Air).csv
File saved to 데미지 워시드 데님 팬츠-미디엄 블루(Cool Air)_2.csv
Trying to load file from: preprocessing_reviews\Wide Cargo Half Denim Pants - 5COL.csv
Successfully loaded Wide Cargo Half Denim Pants - 5COL.csv
File saved to Wide Cargo Half Denim Pants - 5COL_2.csv
Trying to load file from: preprocessing_reviews\Deep One Tuck Sweat Shorts [Black].csv
Successfully loaded Deep One Tuck Sweat Shorts [Black].csv
File saved to Deep One Tuck Sweat Shorts [Black]_2.csv
Trying to load file from: preprocessi

In [14]:
process_reviews('list_onepiece.csv', '한국어불용어.txt')

Trying to load file from: preprocessing_reviews\1875663.csv
Successfully loaded 1875663.csv
File saved to 1875663_2.csv
Trying to load file from: preprocessing_reviews\3977452.csv
Successfully loaded 3977452.csv
File saved to 3977452_2.csv
Trying to load file from: preprocessing_reviews\1875664.csv
Successfully loaded 1875664.csv
File saved to 1875664_2.csv
Trying to load file from: preprocessing_reviews\4018731.csv
Successfully loaded 4018731.csv
File saved to 4018731_2.csv
Trying to load file from: preprocessing_reviews\3977488.csv
Successfully loaded 3977488.csv
File saved to 3977488_2.csv
Trying to load file from: preprocessing_reviews\2551401.csv
Successfully loaded 2551401.csv
File saved to 2551401_2.csv
Trying to load file from: preprocessing_reviews\2978106.csv
Successfully loaded 2978106.csv
File saved to 2978106_2.csv
Trying to load file from: preprocessing_reviews\3295891.csv
Successfully loaded 3295891.csv
File saved to 3295891_2.csv
Trying to load file from: preprocessing_

In [15]:
process_reviews('list_tshirts.csv', '한국어불용어.txt')

Trying to load file from: preprocessing_reviews\DOODLE HEART HALF T WHITE GREYISH BLUE.csv
Successfully loaded DOODLE HEART HALF T WHITE GREYISH BLUE.csv
File saved to DOODLE HEART HALF T WHITE GREYISH BLUE_2.csv
Trying to load file from: preprocessing_reviews\[SET] 워셔블 케이블 반팔 니트 세트.csv
Successfully loaded [SET] 워셔블 케이블 반팔 니트 세트.csv
File saved to [SET] 워셔블 케이블 반팔 니트 세트_2.csv
Trying to load file from: preprocessing_reviews\[2PACK] 쿨 코튼 티셔츠 블랙+화이트.csv
Successfully loaded [2PACK] 쿨 코튼 티셔츠 블랙+화이트.csv
File saved to [2PACK] 쿨 코튼 티셔츠 블랙+화이트_2.csv
Trying to load file from: preprocessing_reviews\[3천원 결제혜택]링클 체크 박시 오버핏 롤업 하프 셔츠 다크 네이비.csv
Successfully loaded [3천원 결제혜택]링클 체크 박시 오버핏 롤업 하프 셔츠 다크 네이비.csv
File saved to [3천원 결제혜택]링클 체크 박시 오버핏 롤업 하프 셔츠 다크 네이비_2.csv
Trying to load file from: preprocessing_reviews\460G 컷 헤비 피그먼트 티셔츠-차콜-.csv
Successfully loaded 460G 컷 헤비 피그먼트 티셔츠-차콜-.csv
File saved to 460G 컷 헤비 피그먼트 티셔츠-차콜-_2.csv
Trying to load file from: preprocessing_reviews\[16수 코마사] 2PACK SMALL ARCH T