## 1번 데이터 변환

In [7]:
import csv
import json
import random
from tqdm import tqdm

# CSV 파일 경로
csv_files = ['raw_data/administrative.csv', 'raw_data/news.csv', 'raw_data/technology_science.csv']

# JSONL 파일 경로
jsonl_file_path = 'processing_data/korean-data.jsonl'

# 데이터를 저장할 리스트
data = []

# CSV 파일에서 데이터 읽기
for csv_file_path in csv_files:
    with open(csv_file_path, mode='r', encoding='utf-8') as csv_file:
        csv_reader = csv.DictReader(csv_file)
        for row in csv_reader:
            # 각 행을 JSON 형식의 딕셔너리로 변환
            data.append({"text": row["context"]})

# 데이터 무작위로 섞기
random.shuffle(data)

# JSONL 파일에 데이터를 기록
with open(jsonl_file_path, mode='w', encoding='utf-8') as jsonl_file:
    # tqdm을 사용하여 진행 상황 표시
    for item in tqdm(data, desc="Writing to JSONL"):
        json_str = json.dumps(item, ensure_ascii=False)
        jsonl_file.write(json_str + '\n')


Writing to JSONL: 100%|██████████| 420755/420755 [00:06<00:00, 63461.46it/s]


## 1.5번 데이터 변환

In [9]:
import csv
import json
import random
from tqdm import tqdm

EEVE_template = """A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions.
Human: 다음 어려운 말을 쉽게 알려줘.
{name}
Assistant: {meaning}"""

# CSV 파일 경로
csv_files = ['raw_data/crawling_어려운말 쉬운말.csv']

# JSONL 파일 경로
jsonl_file_path = 'processing_data/easyword-instruct-data.jsonl'

# 데이터를 저장할 리스트
data = []

# CSV 파일에서 데이터 읽기
for csv_file_path in csv_files:
    with open(csv_file_path, mode='r', encoding='utf-8') as csv_file:
        csv_reader = csv.DictReader(csv_file)
        for row in csv_reader:
            name = row["name"]
            meaning = row["meaning"]

            # 각 행을 JSON 형식의 딕셔너리로 변환
            data.append({"text": EEVE_template.format(name=name, meaning=meaning)})

# 데이터 무작위로 섞기
random.shuffle(data)

# JSONL 파일에 데이터를 기록
with open(jsonl_file_path, mode='w', encoding='utf-8') as jsonl_file:
    # tqdm을 사용하여 진행 상황 표시
    for item in tqdm(data, desc="Writing to JSONL"):
        json_str = json.dumps(item, ensure_ascii=False)
        jsonl_file.write(json_str + '\n')


Writing to JSONL: 100%|██████████| 316/316 [00:00<00:00, 79010.44it/s]


## 2번 데이터 변환

In [12]:
import csv
import json
import random
from tqdm import tqdm

EEVE_template = """A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions.
Human: 다음 법률 용어의 뜻을 알려줘.
{name}
Assistant: {meaning}"""

# CSV 파일 경로
csv_files = ['raw_data/crawling_data_1.csv', 'raw_data/crawling_data_2.csv']

# JSONL 파일 경로
jsonl_file_path = 'processing_data/law-terminology-instruct-data.jsonl'

# 데이터를 저장할 리스트
data = []

# CSV 파일에서 데이터 읽기
for csv_file_path in csv_files:
    with open(csv_file_path, mode='r', encoding='utf-8') as csv_file:
        csv_reader = csv.DictReader(csv_file)
        for row in csv_reader:
            name = row["name"]
            meaning = row["meaning"]

            # 각 행을 JSON 형식의 딕셔너리로 변환
            data.append({"text": EEVE_template.format(name=name, meaning=meaning)})

# 데이터 무작위로 섞기
random.shuffle(data)

# JSONL 파일에 데이터를 기록
with open(jsonl_file_path, mode='w', encoding='utf-8') as jsonl_file:
    # tqdm을 사용하여 진행 상황 표시
    for item in tqdm(data, desc="Writing to JSONL"):
        json_str = json.dumps(item, ensure_ascii=False)
        jsonl_file.write(json_str + '\n')


Writing to JSONL: 100%|██████████| 481/481 [00:00<00:00, 160294.00it/s]


## 3번 데이터 변환

In [19]:
import csv
import json
import random
from tqdm import tqdm

csv.field_size_limit(1000000)  # 1MB로 설정, 필요에 따라 조정

# 프롬프트는 추후 수정
EEVE_template = """A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions.
Human: 다음 판결문을 쉽게 바꿔줘. 먼저 법률 용어의 의미를 설명한 뒤, 일반인이 이해할 수 있는 판결문을 제공하고, 초등학생도 이해할 수 있는 쉬운 판결문을 제공해줘.
{judgment}
Assistant: {easy_judgment}"""

# CSV 파일 경로
csv_files = ['raw_data/judgment.csv']

# JSONL 파일 경로
jsonl_file_path = 'processing_data/easy-judgment-instruct-data.jsonl'

# 데이터를 저장할 리스트
data = []
cnt = 0
# CSV 파일에서 데이터 읽기
for csv_file_path in csv_files:
    with open(csv_file_path, mode='r', encoding='utf-8') as csv_file:
        csv_reader = csv.DictReader(csv_file)
        for i, row in enumerate(csv_reader):
            judgment = row["text"]
            if judgment == "" or judgment == None:
                cnt += 1
                if cnt == 1:
                    print(row)
                    print('data_row:',i)
            easy_judgment = row["text2"]

            # 각 행을 JSON 형식의 딕셔너리로 변환
            data.append({"text": EEVE_template.format(judgment=judgment, easy_judgment=easy_judgment)})
print(cnt)
# 데이터 무작위로 섞기
random.shuffle(data)

# JSONL 파일에 데이터를 기록
with open(jsonl_file_path, mode='w', encoding='utf-8') as jsonl_file:
    # tqdm을 사용하여 진행 상황 표시
    for item in tqdm(data, desc="Writing to JSONL"):
        json_str = json.dumps(item, ensure_ascii=False)
        jsonl_file.write(json_str + '\n')

0


Writing to JSONL: 100%|██████████| 59860/59860 [00:03<00:00, 16218.19it/s]
