### 지식인 파일 분리 및 저장

In [9]:
import os
import pandas as pd

def read_csv_files(directory):
    """
    지정된 디렉토리 내 모든 CSV 파일을 읽어와 DataFrame의 리스트로 반환
    
    Parameters:
    directory (str): CSV 파일들이 저장된 디렉토리 경로
    
    Returns:
    list: DataFrame과 파일 이름의 튜플 리스트
    """
    data_frames = []
    for root, dirs, files in os.walk(directory):
        for file in files:
            if file.endswith('.csv'):
                file_path = os.path.join(root, file)
                df = pd.read_csv(file_path, encoding='utf-8')
                data_frames.append((df, file))
    return data_frames

def split_and_save_csv(df, category, save_directory):
    """
    DataFrame을 [카테고리, 키워드, 질문]과 [카테고리, 키워드, 답변] 형식으로 분리하여 저장
    
    Parameters:
    df (pd.DataFrame): 원본 데이터프레임
    category (str): 카테고리 이름
    save_directory (str): 저장할 디렉토리 경로
    """
    # 필요한 열이 존재하는지 확인
    if all(column in df.columns for column in ['카테고리', '키워드', '질문', '답변']):
        # 질문과 답변 분리
        df_q = df[['카테고리', '키워드', '질문']]
        df_r = df[['카테고리', '키워드', '답변']]
        
        # 저장할 파일 경로 생성
        q_file_path = os.path.join(save_directory, f"{category}_Q.csv")
        r_file_path = os.path.join(save_directory, f"{category}_R.csv")
        
        # 분리된 DataFrame 저장
        df_q.to_csv(q_file_path, index=False, encoding='utf-8')
        df_r.to_csv(r_file_path, index=False, encoding='utf-8')
        
        print(f"Saved {q_file_path} and {r_file_path}")
    else:
        print(f"Skipping {category}: Required columns are not present")

def process_all_csv_files(directory):
    """
    디렉토리 내 모든 CSV 파일을 읽어와 분리하여 저장
    
    Parameters:
    directory (str): CSV 파일들이 저장된 디렉토리 경로
    """
    data_frames = read_csv_files(directory)
    for df, file in data_frames:
        category = os.path.splitext(file)[0]
        split_and_save_csv(df, category, directory)

# 예시 사용
directory = '카테고리별'  # 카테고리별 파일들이 저장된 디렉토리
process_all_csv_files(directory)

Saved 카테고리별\TV_Q.csv and 카테고리별\TV_R.csv
Skipping TV_Q: Required columns are not present
Skipping TV_R: Required columns are not present
Saved 카테고리별\날씨_Q.csv and 카테고리별\날씨_R.csv
Skipping 날씨_Q: Required columns are not present
Skipping 날씨_R: Required columns are not present
Saved 카테고리별\쇼핑_Q.csv and 카테고리별\쇼핑_R.csv
Skipping 쇼핑_Q: Required columns are not present
Skipping 쇼핑_R: Required columns are not present
Saved 카테고리별\안부 일상 대화_Q.csv and 카테고리별\안부 일상 대화_R.csv
Skipping 안부 일상 대화_Q: Required columns are not present
Skipping 안부 일상 대화_R: Required columns are not present
Saved 카테고리별\정치 경제_Q.csv and 카테고리별\정치 경제_R.csv
Skipping 정치 경제_Q: Required columns are not present
Skipping 정치 경제_R: Required columns are not present
Saved 카테고리별\취미_Q.csv and 카테고리별\취미_R.csv
Skipping 취미_Q: Required columns are not present
Skipping 취미_R: Required columns are not present


In [10]:
df = pd.read_csv('카테고리별/취미_Q.csv', encoding='utf-8')
df.head()

Unnamed: 0,카테고리,키워드,질문
0,취미,게임,gta5 스토리 모드를 다깼는데요 모두 다시해보고 싶어서 새 게임 눌러서 하려는데 ...
1,취미,게임,제가 신들의 장난 스위치 게임을 실물로 사고싶은데\n제가 게임 사는건 처음이고 잘몰...
2,취미,게임,19-20년도쯤에 한창 했던 게임인데 도무지 기억이 안나네요.\n사진과 같이 캐릭터...
3,취미,게임,"작년에 나온 엘지그램360 14인치형 학업용으로 사용 중이다가 게임도 깔고싶어서요,..."
4,취미,게임,
