In [1]:
import os
import json
import pandas as pd

# 카테고리 분류 함수 정의
def classify_category(subject, categories):
    for category, keywords_list in categories.items():
        if subject in keywords_list:
            return category
    return "일치하는 카테고리 없음"

# 카테고리별 키워드 리스트 확장
categories = {
    "일상 대화": ["안부", "일상", "생각", "감정", "성향", "문화", "취미", "여가", "게임", "미용", "독서", "음악", "날씨", "계절", "일상", "방송", "연예", "생활", "반려 동물", "영화", "만화", "가족", "연애", "결혼", "여행", "사회이슈", "타 국가 이슈", "주거와 생활", "군대", "스포츠/레저"],
    "주문": ["경제", "쇼핑", "거래", "상품", "서비스", "식음료", "상거래 전반"],
    "요청": ["도움 요청", "조언 구하기", "피드백 요청", "정보 요청", "교통", "회사/아르바이트"],
    "건강": ["건강정보공유", "질병", "병원", "운동", "영양"],
    "교육": ["자기계발", "공부", "시험", "학교", "교육"]
}

base_dir = 'C:/Users/NM333-68/LLM/datasets'
# 폴더 경로 목록 정의
folders = [
    "TL_01. KAKAO(1)", "TL_01. KAKAO(2)", 
    "TL_01. KAKAO(3)", "TL_01. KAKAO(4)", 
    "TL_02. FACEBOOK", "TL_03. INSTAGRAM", 
    "TL_04. BAND", "TL_05. NATEON"
]

# 데이터를 저장할 리스트 생성
data = []

# 지정된 폴더들 내의 모든 JSON 파일을 처리
for folder in folders:
    folder_path = os.path.join(base_dir, folder)
    for file_name in os.listdir(folder_path):
        if file_name.endswith('.json'):
            file_path = os.path.join(folder_path, file_name)
            with open(file_path, 'r', encoding='utf-8') as f:
                data_json = json.load(f)
            for item in data_json["info"]:
                subject = item["annotations"]["subject"]
                for line in item["annotations"]["lines"]:
                    norm_text = line["norm_text"]  # norm_text 사용
                    # subject를 기반으로 카테고리 분류
                    category = classify_category(subject, categories)
                    # 데이터 리스트에 추가
                    data.append({
                        'id': line["id"],
                        'Category': category,
                        'Text': norm_text
                    })

# 데이터프레임으로 변환
df = pd.DataFrame(data, columns=['id', 'Category', 'Text'])

# CSV 파일로 저장
save_path = 'C:/Users/NM333-68/LLM/KoGPT2/datasets/preprocessed'
csv_file_name = os.path.join(save_path, 'finetuning_data.csv')
df.to_csv(csv_file_name, index=False, encoding='utf-8-sig')

print("전처리 데이터가 성공적으로 저장되었습니다.")


전처리 데이터가 성공적으로 저장되었습니다.
