In [2]:
import pandas as pd

In [23]:
def split_reviews_by_quote(file_path, column_index, output_file=None):
    """
    작은 따옴표(')를 기준으로 리뷰를 분리하고 각각 다른 열로 저장하는 함수

    Args:
        file_path (str): 입력 CSV 파일 경로
        column_index (int): 분리할 텍스트가 포함된 열의 인덱스 (0부터 시작)
        output_file (str, optional): 결과를 저장할 출력 파일 경로 (기본값: None)
    
    Returns:
        pd.DataFrame: 분리된 리뷰가 포함된 데이터프레임
    """
    # CSV 파일 읽기
    df = pd.read_excel(file_path)

    df = df.iloc[:,1:]
    
    # 분리할 열 선택
    target_column = df.iloc[:, column_index]
    
    # 작은 따옴표(')를 기준으로 데이터 분리
    split_data = target_column.str.split("'", expand=True)
    
    # 리뷰만 추출 (홀수 번째 인덱스)
    reviews = split_data.iloc[:, 1::2]
    
    # 열 이름 재설정
    reviews.columns = [f"review_{i+1}" for i in range(reviews.shape[1])]
    
    # 기존 데이터와 병합
    df = pd.concat([df, reviews], axis=1)
    
    # 결과를 CSV 파일로 저장 (옵션)
    if output_file:
        df.to_csv(output_file, index=False)
    
    return df


In [27]:
# 예제 사용법
result = split_reviews_by_quote(
    file_path="충주.xlsx",        # 입력 파일 경로
    column_index=3,                  # 분리할 열의 인덱스 (3번째 열이라면 3 입력)
    output_file="충주_1차_전처리.csv"    # 결과를 저장할 파일 경로 (필요하지 않다면 None 설정)
)

