## 1번 데이터 변환

In [7]:
import csv
import json
import random
from tqdm import tqdm

# CSV 파일 경로
csv_files = ['raw_data/administrative.csv', 'raw_data/news.csv', 'raw_data/technology_science.csv']

# JSONL 파일 경로
jsonl_file_path = 'processing_data/korean-data.jsonl'

# 데이터를 저장할 리스트
data = []

# CSV 파일에서 데이터 읽기
for csv_file_path in csv_files:
    with open(csv_file_path, mode='r', encoding='utf-8') as csv_file:
        csv_reader = csv.DictReader(csv_file)
        for row in csv_reader:
            # 각 행을 JSON 형식의 딕셔너리로 변환
            data.append({"text": row["context"]})

# 데이터 무작위로 섞기
random.shuffle(data)

# JSONL 파일에 데이터를 기록
with open(jsonl_file_path, mode='w', encoding='utf-8') as jsonl_file:
    # tqdm을 사용하여 진행 상황 표시
    for item in tqdm(data, desc="Writing to JSONL"):
        json_str = json.dumps(item, ensure_ascii=False)
        jsonl_file.write(json_str + '\n')


Writing to JSONL: 100%|██████████| 420755/420755 [00:06<00:00, 63461.46it/s]


## 1.5번 데이터 변환

In [9]:
import csv
import json
import random
from tqdm import tqdm

EEVE_template = """A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions.
Human: 다음 어려운 말을 쉽게 알려줘.
{name}
Assistant: {meaning}"""

# CSV 파일 경로
csv_files = ['raw_data/crawling_어려운말 쉬운말.csv']

# JSONL 파일 경로
jsonl_file_path = 'processing_data/easyword-instruct-data.jsonl'

# 데이터를 저장할 리스트
data = []

# CSV 파일에서 데이터 읽기
for csv_file_path in csv_files:
    with open(csv_file_path, mode='r', encoding='utf-8') as csv_file:
        csv_reader = csv.DictReader(csv_file)
        for row in csv_reader:
            name = row["name"]
            meaning = row["meaning"]

            # 각 행을 JSON 형식의 딕셔너리로 변환
            data.append({"text": EEVE_template.format(name=name, meaning=meaning)})

# 데이터 무작위로 섞기
random.shuffle(data)

# JSONL 파일에 데이터를 기록
with open(jsonl_file_path, mode='w', encoding='utf-8') as jsonl_file:
    # tqdm을 사용하여 진행 상황 표시
    for item in tqdm(data, desc="Writing to JSONL"):
        json_str = json.dumps(item, ensure_ascii=False)
        jsonl_file.write(json_str + '\n')


Writing to JSONL: 100%|██████████| 316/316 [00:00<00:00, 79010.44it/s]


## 2번 데이터 변환

In [14]:
import csv
import json
import random
from tqdm import tqdm

EEVE_template = """A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions.
Human: 다음 법률 용어의 뜻을 알려줘.
{name}
Assistant: {meaning}"""

# CSV 파일 경로
csv_files = ['../data/raw_data/crawling_data_1.csv','../data/raw_data/crawling_data_2.csv', '../data/raw_data/verification/recommended_term.csv', '../data/raw_data/verification/recommended_term2.csv']

# JSONL 파일 경로
jsonl_file_path = '../data/processing_data/no-gpt-law-terminology-instruct-data.jsonl'

# 데이터를 저장할 리스트
data = []

# CSV 파일에서 데이터 읽기
for csv_file_path in csv_files:
    with open(csv_file_path, mode='r', encoding='utf-8-sig') as csv_file:
        csv_reader = csv.DictReader(csv_file)
        for row in csv_reader:
            print(row)
            name = row['name']
            meaning = row["meaning"]

            # 각 행을 JSON 형식의 딕셔너리로 변환
            data.append({"text": EEVE_template.format(name=name, meaning=meaning)})

# # 데이터 무작위로 섞기
# random.shuffle(data)

# JSONL 파일에 데이터를 기록
with open(jsonl_file_path, mode='w', encoding='utf-8') as jsonl_file:
    # tqdm을 사용하여 진행 상황 표시
    for item in tqdm(data, desc="Writing to JSONL"):
        json_str = json.dumps(item, ensure_ascii=False)
        jsonl_file.write(json_str + '\n')


{'name': '추징', 'meaning': '몰수할 수 있는 물건 중 범죄행위에 의하여 생기거나 또는 그것에 의하여 취득한 물건의 대가로서 취득한 물건의 전부 또는 일부가 소비되었거나 분실 기타의 사유로몰수할 수 없는 경우에는 그 물건에 상당하는 가액을 납부하게 하는 사법처분임.'}
{'name': '몰수', 'meaning': '범죄행위와 관계있는 일정한 물건을 박탈하여 국고에 귀속시키는 형벌임.'}
{'name': '구류', 'meaning': '수형자를 교도소 내에 구치하는 것으로 30일 미만의 형벌임.'}
{'name': '금고', 'meaning': '수형자를 교도소 내에 구치하여 자유를 박탈하나 정역을 부과하지 아니하는 형벌임.'}
{'name': '징역', 'meaning': '수형자를 교도소 내에 구치하여 정역에 복무하게 하는 형벌임.'}
{'name': '구금', 'meaning': '재판확정 전에 피고인 또는 피의자를 일정기간 동안 교도소 또는 구치소에 구치하는 법원의 강제처분임.'}
{'name': '집행유예', 'meaning': '일단 유죄를 인정하여 형을 선고하되 일정한 요건 아래 일정한 기간 동안 그 형의 집행을 유예하고 그것이 취소 또는 실효됨이 없이 유예기간을 경과하면 형의 선고의 효력을 상실케 하는 제도임.'}
{'name': '선고유예', 'meaning': '법원이 경미한 범죄인에 대해 형의 선고를 유예하고, 유예기간 2년을 사고 없이 경과하면 면소된 것으로 간주하는 제도임.'}
{'name': '기소유예', 'meaning': '검사가 피의사건에 관하여 범죄의 혐의가 인정되고 소송조건이 구비되었으나 여러 정황을 참작하여 공소를 제기하지 아니하는 것임.'}
{'name': '벌금의 가납명령', 'meaning': '벌금 또는 과료를 선고하는 경우 판결이 확정되기 이전에도 납부를 하도록 명하는 것.'}
{'name': '약식명령', 'meaning': '약식절차에 의하여 행하여진 명령. 이는 검사의 약식명령청구에 의하여 법

Writing to JSONL: 100%|██████████| 6691/6691 [00:00<00:00, 177498.36it/s]


## 3번 데이터 변환

In [2]:
import csv
import json
import random
from tqdm import tqdm

csv.field_size_limit(1000000)  # 1MB로 설정, 필요에 따라 조정

# 프롬프트는 추후 수정
EEVE_template = """A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions.
Human: 다음 판결문을 쉽게 바꿔줘. 먼저 법률 용어의 의미를 설명한 뒤, 일반인이 이해할 수 있는 판결문을 제공하고, 초등학생도 이해할 수 있는 쉬운 판결문을 제공해줘.
{judgment}
Assistant: {easy_judgment}"""

# CSV 파일 경로
csv_files = ['raw_data/test.csv']

# JSONL 파일 경로
jsonl_file_path = 'processing_data/easy-judgment-instruct-data.jsonl'

# 데이터를 저장할 리스트
data = []
cnt = 0
# CSV 파일에서 데이터 읽기
for csv_file_path in csv_files:
    with open(csv_file_path, mode='r', encoding='utf-8') as csv_file:
        csv_reader = csv.DictReader(csv_file)
        for i, row in enumerate(csv_reader):
            judgment = row["text"]
            if judgment == "" or judgment == None:
                cnt += 1
                if cnt == 1:
                    print(row)
                    print('data_row:',i)
            easy_judgment = row["text2"]

            # 각 행을 JSON 형식의 딕셔너리로 변환
            data.append({"text": EEVE_template.format(judgment=judgment, easy_judgment=easy_judgment)})
print(cnt)
# 데이터 무작위로 섞기
random.shuffle(data)

# JSONL 파일에 데이터를 기록
with open(jsonl_file_path, mode='w', encoding='utf-8') as jsonl_file:
    # tqdm을 사용하여 진행 상황 표시
    for item in tqdm(data, desc="Writing to JSONL"):
        json_str = json.dumps(item, ensure_ascii=False)
        jsonl_file.write(json_str + '\n')

0


Writing to JSONL: 100%|██████████| 3031/3031 [00:00<00:00, 28326.82it/s]
