In [26]:
import csv
import itertools

from konoise import NoiseGenerator

from itertools import chain, combinations as itertools_combinations


# NoiseGenerator 인스턴스 생성
generator = NoiseGenerator()

In [27]:
# 원본 텍스트
text = "행복한 가정은 모두가 닮았지만, 불행한 가정은 모두 저마다의 이유로 불행하다."

# 가능한 methods 옵션
methods_list = ['change-vowels', 'palatalization']
# , 'linking', 'liquidization', 'nasalization', 'assimilation'

# 모든 methods 조합 생성 (2^6 = 64개)
methods_combinations = []
for i in range(1, len(methods_list) + 1):
    combinations = itertools.combinations(methods_list, i)
    methods_combinations.extend(combinations)

# 결과 저장
results = []

# 각 조합에 대해 노이즈 생성
for methods in methods_combinations:
    methods_str = ','.join(methods)  # 쉼표로 구분된 문자열로 변환
    noisy_text = generator.generate(
        text, 
        methods=methods_str, 
        prob=1  # 노이즈 추가 확률
    )
    results.append(noisy_text)

# 결과 출력
for i, result in enumerate(results, 1):
    print(f"{i}: {result}")


1: [['행복한 갸정은 묘듀갸 닮았지만, 불행한 갸정은 묘듀 져먀댜의 이우료 불행햐댜.']]
2: [['행보칸 가정은 모두가 닮았지만, 불행한 가정은 모두 저마다의 이유로 불행하다.']]
3: [['행복한 갸정은 묘듀갸 닮았지만, 불행한 갸정은 묘듀 져먀댜의 이우료 불행햐댜.']]


In [28]:
# # 모든 조합 생성 함수
# def all_combinations(iterable):
#     return chain.from_iterable(combinations(iterable, r) for r in range(1, len(iterable) + 1))

# # 원본 텍스트 처리 함수
# def generate_noisy_sentences_with_reference(input_csv, output_csv):
#     methods_list = ['change-vowels', 'palatalization']
#     # , 'linking', 'liquidization', 'nasalization', 'assimilation'

#     # CSV 파일 읽기
#     with open(input_csv, mode='r', encoding='utf-8') as file:
#         reader = csv.reader(file)
#         headers = next(reader)  # 헤더 읽기

#         # 결과를 저장할 리스트
#         output_data = []

#         # ID 초기값 설정
#         id_counter = 0

#         for row in reader:
#             original_text = row[2]  # 첫 번째 열에 원본 텍스트가 있다고 가정

#             # 모든 조합에 대해 변형 생성
#             for methods in all_combinations(methods_list):
#                 methods_str = ','.join(methods)  # 쉼표로 구분된 문자열로 변환
#                 noisy_text = generator.generate(
#                     original_text,
#                     methods=methods_str,
#                     prob=1  # 노이즈 추가 확률
#                 )
#                 # ID 생성 (TEST_00000 형식)
#                 id_str = f"TEST_{id_counter:05d}"
#                 id_counter += 1

#                 # 원본 문장, 변형 번호, methods, 노이즈 추가된 문장, 출처를 저장
#                 output_data.append({
#                     'ID': id_str,
#                     'Noisy Text': noisy_text,
#                     'Methods': methods_str,
#                     'Source': original_text
#                 })

#     # 결과를 CSV 파일로 저장
#     with open(output_csv, mode='w', encoding='utf-8', newline='') as file:
#         writer = csv.DictWriter(file, fieldnames=['ID', 'Noisy Text', 'Methods', 'Source'])
#         writer.writeheader()
#         writer.writerows(output_data)

# # 함수 호출
# input_csv = '/apps/study_promptengineerings/train_test.csv'  # 입력 CSV 파일 경로
# output_csv = '/apps/study_promptengineerings/max_chosen2_data.csv'  # 출력 CSV 파일 경로
# generate_noisy_sentences_with_reference(input_csv, output_csv)


In [29]:
# 모든 조합 생성 함수
# def all_combinations(iterable):
#     return chain.from_iterable(combinations(iterable, r) for r in range(1, len(iterable) + 1))
def all_combinations(iterable):
    return chain.from_iterable(itertools_combinations(iterable, r) for r in range(1, len(iterable) + 1))


# 원본 텍스트 처리 함수
def generate_noisy_sentences_with_reference(input_csv, output_csv):
    methods_list = ['change-vowels', 'palatalization']
    # , 'linking', 'liquidization', 'nasalization', 'assimilation'

    # CSV 파일 읽기
    with open(input_csv, mode='r', encoding='utf-8') as file:
        reader = csv.reader(file)
        headers = next(reader)  # 헤더 읽기

        # 결과를 저장할 리스트
        output_data = []

        # ID 초기값 설정
        id_counter = 0

        for row in reader:
            original_text = row[2]  # 첫 번째 열에 원본 텍스트가 있다고 가정

            # 모든 조합에 대해 변형 생성
            for methods in all_combinations(methods_list):
                methods_str = ','.join(methods)  # 쉼표로 구분된 문자열로 변환
                noisy_text = generator.generate(
                    original_text,
                    methods=methods_str,
                    prob=1  # 노이즈 추가 확률
                )
                
                # noisy_text가 리스트라면 첫 번째 요소만 사용
                if isinstance(noisy_text, list):
                    noisy_text = noisy_text[0]

                # ID 생성 (TEST_00000 형식)
                id_str = f"TEST_{id_counter:05d}"
                id_counter += 1

                # 원본 문장, 변형 번호, methods, 노이즈 추가된 문장, 출처를 저장
                output_data.append({
                    'ID': id_str,
                    'Noisy Text': noisy_text,
                    'Methods': methods_str,
                    'Source': original_text
                })

    # 결과를 CSV 파일로 저장
    with open(output_csv, mode='w', encoding='utf-8', newline='') as file:
        writer = csv.DictWriter(file, fieldnames=['ID', 'Noisy Text', 'Methods', 'Source'])
        writer.writeheader()
        writer.writerows(output_data)

# 함수 호출
input_csv = '/apps/study_promptengineerings/train_test.csv'  # 입력 CSV 파일 경로
output_csv = '/apps/study_promptengineerings/max_chosen2_data.csv'  # 출력 CSV 파일 경로
generate_noisy_sentences_with_reference(input_csv, output_csv)
