In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


# Back Translation

In [None]:
!pip install googletrans==4.0.0-rc1

In [None]:
!pip install googletrans==4.0.0-rc1 kss

Collecting googletrans==4.0.0-rc1
  Downloading googletrans-4.0.0rc1.tar.gz (20 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting kss
  Downloading kss-6.0.4.tar.gz (1.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.1/1.1 MB[0m [31m24.9 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting httpx==0.13.3 (from googletrans==4.0.0-rc1)
  Downloading httpx-0.13.3-py3-none-any.whl.metadata (25 kB)
Collecting hstspreload (from httpx==0.13.3->googletrans==4.0.0-rc1)
  Downloading hstspreload-2025.1.1-py3-none-any.whl.metadata (2.1 kB)
Collecting chardet==3.* (from httpx==0.13.3->googletrans==4.0.0-rc1)
  Downloading chardet-3.0.4-py2.py3-none-any.whl.metadata (3.2 kB)
Collecting idna==2.* (from httpx==0.13.3->googletrans==4.0.0-rc1)
  Downloading idna-2.10-py2.py3-none-any.whl.metadata (9.1 kB)
Collecting rfc3986<2,>=1.3 (from httpx==0.13.3->googletrans==4.0.0-rc1)
  Downloading rfc3986-1.5.0-py2.py3-non

In [None]:
import json
import kss
from googletrans import Translator
import time
from tqdm import tqdm
import os

input_path = "/content/drive/MyDrive/ABSA/data/base_data.jsonl"
output_path = "/content/drive/MyDrive/ABSA/data/aug_en_withko.jsonl"
target_languages = ['en']
delay = 1.5
checkpoint_interval = 25

def back_translate(text, translator, src='ko', mid='en', delay=1.5):
    sentences = kss.split_sentences(text)
    result = []
    for sent in sentences:
        try:
            mid_sent = translator.translate(sent, src=src, dest=mid).text
            time.sleep(delay)
            back_sent = translator.translate(mid_sent, src=mid, dest=src).text
            time.sleep(delay)
            result.append(back_sent)
        except Exception as e:
            print(f"[{mid}] 번역 실패: {e}")
            result.append(sent)
    return ' '.join(result)

augmented = []
translated_cache = set()

if os.path.exists(output_path):
    with open(output_path, 'r', encoding='utf-8') as f:
        for line in f:
            entry = json.loads(line)
            augmented.append(entry)
            translated_cache.add((entry['text'], entry['origin']))

translator = Translator()

with open(input_path, 'r', encoding='utf-8') as f:
    base_data = [json.loads(line) for line in f]

for i, item in enumerate(tqdm(base_data, desc="역번역 진행 중", total=len(base_data))):
    text = item['text']
    entities = item['label']

    if (text, 'ko') not in translated_cache:
        augmented.append({
            "text": text,
            "entities": entities,
            "origin": "ko"
        })
        translated_cache.add((text, 'ko'))

    for lang in target_languages:
        if (text, lang) in translated_cache:
            continue

        back_text = back_translate(text, translator, src='ko', mid=lang, delay=delay)
        augmented.append({
            "text": back_text,
            "entities": entities,
            "origin": lang
        })
        translated_cache.add((text, lang))

    if i % checkpoint_interval == 0 and i > 0:
        with open(output_path, 'w', encoding='utf-8') as f:
            for entry in augmented:
                f.write(json.dumps(entry, ensure_ascii=False) + '\n')
        print(f"체크포인트 저장 완료: {i}개 문장 처리")

with open(output_path, 'w', encoding='utf-8') as f:
    for entry in augmented:
        f.write(json.dumps(entry, ensure_ascii=False) + '\n')

print(f"최종 저장 완료: {output_path}")

역번역 진행 중:   2%|▏         | 26/1569 [05:36<4:51:30, 11.34s/it]

체크포인트 저장 완료: 25개 문장 처리


역번역 진행 중:   3%|▎         | 51/1569 [11:33<5:54:33, 14.01s/it]

체크포인트 저장 완료: 50개 문장 처리


역번역 진행 중:   5%|▍         | 76/1569 [16:51<5:24:24, 13.04s/it]

체크포인트 저장 완료: 75개 문장 처리


역번역 진행 중:   6%|▋         | 101/1569 [24:19<9:08:00, 22.40s/it] 

체크포인트 저장 완료: 100개 문장 처리


역번역 진행 중:   8%|▊         | 126/1569 [33:45<13:20:34, 33.29s/it]

체크포인트 저장 완료: 125개 문장 처리


역번역 진행 중:  10%|▉         | 151/1569 [43:32<9:15:31, 23.51s/it]

체크포인트 저장 완료: 150개 문장 처리


역번역 진행 중:  11%|█         | 172/1569 [49:52<5:01:14, 12.94s/it]

[en] 번역 실패: The read operation timed out


역번역 진행 중:  11%|█         | 176/1569 [52:31<11:33:59, 29.89s/it]

체크포인트 저장 완료: 175개 문장 처리


역번역 진행 중:  13%|█▎        | 201/1569 [59:47<7:08:26, 18.79s/it]

체크포인트 저장 완료: 200개 문장 처리


역번역 진행 중:  14%|█▍        | 226/1569 [1:09:10<13:21:25, 35.80s/it]

체크포인트 저장 완료: 225개 문장 처리


역번역 진행 중:  16%|█▌        | 251/1569 [1:18:29<7:54:30, 21.60s/it]

체크포인트 저장 완료: 250개 문장 처리


역번역 진행 중:  18%|█▊        | 276/1569 [1:29:04<11:31:05, 32.07s/it]

체크포인트 저장 완료: 275개 문장 처리


역번역 진행 중:  19%|█▉        | 301/1569 [1:38:49<4:31:10, 12.83s/it]

체크포인트 저장 완료: 300개 문장 처리


역번역 진행 중:  21%|██        | 326/1569 [1:48:44<9:32:54, 27.65s/it]

체크포인트 저장 완료: 325개 문장 처리


역번역 진행 중:  22%|██▏       | 351/1569 [1:57:15<6:54:05, 20.40s/it]

체크포인트 저장 완료: 350개 문장 처리


역번역 진행 중:  24%|██▍       | 376/1569 [2:06:21<4:55:24, 14.86s/it]

체크포인트 저장 완료: 375개 문장 처리


역번역 진행 중:  26%|██▌       | 401/1569 [2:15:14<8:43:47, 26.91s/it] 

체크포인트 저장 완료: 400개 문장 처리


역번역 진행 중:  27%|██▋       | 426/1569 [2:25:01<6:22:50, 20.10s/it]

체크포인트 저장 완료: 425개 문장 처리


역번역 진행 중:  29%|██▊       | 451/1569 [2:34:02<5:25:15, 17.46s/it]

체크포인트 저장 완료: 450개 문장 처리


역번역 진행 중:  30%|███       | 476/1569 [2:42:19<6:47:16, 22.36s/it]

체크포인트 저장 완료: 475개 문장 처리


역번역 진행 중:  32%|███▏      | 501/1569 [2:50:35<6:29:43, 21.89s/it]

체크포인트 저장 완료: 500개 문장 처리


역번역 진행 중:  34%|███▎      | 526/1569 [2:57:50<5:07:12, 17.67s/it]

체크포인트 저장 완료: 525개 문장 처리


역번역 진행 중:  35%|███▌      | 551/1569 [3:09:32<8:40:44, 30.69s/it]

체크포인트 저장 완료: 550개 문장 처리


역번역 진행 중:  37%|███▋      | 576/1569 [3:19:27<6:41:15, 24.25s/it]

체크포인트 저장 완료: 575개 문장 처리


역번역 진행 중:  38%|███▊      | 601/1569 [3:27:57<6:06:00, 22.69s/it]

체크포인트 저장 완료: 600개 문장 처리


역번역 진행 중:  40%|███▉      | 626/1569 [3:38:29<5:39:36, 21.61s/it]

체크포인트 저장 완료: 625개 문장 처리


역번역 진행 중:  41%|████▏     | 651/1569 [3:47:19<5:00:36, 19.65s/it]

체크포인트 저장 완료: 650개 문장 처리


역번역 진행 중:  43%|████▎     | 676/1569 [3:55:57<6:15:14, 25.21s/it]

체크포인트 저장 완료: 675개 문장 처리


역번역 진행 중:  45%|████▍     | 701/1569 [4:06:06<5:07:06, 21.23s/it]

체크포인트 저장 완료: 700개 문장 처리


역번역 진행 중:  46%|████▋     | 726/1569 [4:16:00<5:00:53, 21.42s/it]

체크포인트 저장 완료: 725개 문장 처리


역번역 진행 중:  48%|████▊     | 751/1569 [4:24:33<4:42:55, 20.75s/it]

체크포인트 저장 완료: 750개 문장 처리


역번역 진행 중:  49%|████▉     | 776/1569 [4:35:12<5:36:21, 25.45s/it]

체크포인트 저장 완료: 775개 문장 처리


역번역 진행 중:  51%|█████     | 801/1569 [4:45:52<3:21:45, 15.76s/it]

체크포인트 저장 완료: 800개 문장 처리


역번역 진행 중:  53%|█████▎    | 826/1569 [4:53:47<4:13:21, 20.46s/it]

체크포인트 저장 완료: 825개 문장 처리


역번역 진행 중:  54%|█████▍    | 851/1569 [5:02:58<4:54:10, 24.58s/it]

체크포인트 저장 완료: 850개 문장 처리


역번역 진행 중:  56%|█████▌    | 876/1569 [5:11:03<3:07:37, 16.25s/it]

체크포인트 저장 완료: 875개 문장 처리


역번역 진행 중:  57%|█████▋    | 901/1569 [5:17:09<3:32:34, 19.09s/it]

체크포인트 저장 완료: 900개 문장 처리


역번역 진행 중:  59%|█████▉    | 926/1569 [5:25:26<3:13:44, 18.08s/it]

체크포인트 저장 완료: 925개 문장 처리


역번역 진행 중:  61%|██████    | 951/1569 [5:36:51<3:58:44, 23.18s/it]

체크포인트 저장 완료: 950개 문장 처리


역번역 진행 중:  62%|██████▏   | 976/1569 [5:45:22<2:54:36, 17.67s/it]

체크포인트 저장 완료: 975개 문장 처리


역번역 진행 중:  64%|██████▍   | 1001/1569 [5:55:24<4:17:55, 27.24s/it]

체크포인트 저장 완료: 1000개 문장 처리


역번역 진행 중:  65%|██████▌   | 1026/1569 [6:07:25<1:42:53, 11.37s/it]

체크포인트 저장 완료: 1025개 문장 처리


역번역 진행 중:  67%|██████▋   | 1051/1569 [6:15:18<2:33:06, 17.74s/it]

체크포인트 저장 완료: 1050개 문장 처리


역번역 진행 중:  69%|██████▊   | 1076/1569 [6:25:47<2:17:53, 16.78s/it]

체크포인트 저장 완료: 1075개 문장 처리


역번역 진행 중:  70%|███████   | 1101/1569 [6:34:40<2:12:57, 17.05s/it]

체크포인트 저장 완료: 1100개 문장 처리


역번역 진행 중:  72%|███████▏  | 1126/1569 [6:43:51<1:38:12, 13.30s/it]

체크포인트 저장 완료: 1125개 문장 처리


역번역 진행 중:  72%|███████▏  | 1134/1569 [6:46:54<3:15:48, 27.01s/it]

[en] 번역 실패: The read operation timed out


역번역 진행 중:  73%|███████▎  | 1151/1569 [6:52:38<3:43:33, 32.09s/it]

체크포인트 저장 완료: 1150개 문장 처리


역번역 진행 중:  75%|███████▍  | 1176/1569 [7:00:35<2:21:29, 21.60s/it]

체크포인트 저장 완료: 1175개 문장 처리


역번역 진행 중:  77%|███████▋  | 1201/1569 [7:11:29<2:08:35, 20.97s/it]

체크포인트 저장 완료: 1200개 문장 처리


역번역 진행 중:  78%|███████▊  | 1226/1569 [7:22:21<3:55:09, 41.13s/it]

체크포인트 저장 완료: 1225개 문장 처리


역번역 진행 중:  80%|███████▉  | 1251/1569 [7:30:45<1:35:15, 17.97s/it]

체크포인트 저장 완료: 1250개 문장 처리


역번역 진행 중:  81%|████████▏ | 1276/1569 [7:36:04<49:48, 10.20s/it]

체크포인트 저장 완료: 1275개 문장 처리


역번역 진행 중:  83%|████████▎ | 1301/1569 [7:44:27<1:22:28, 18.47s/it]

체크포인트 저장 완료: 1300개 문장 처리


역번역 진행 중:  85%|████████▍ | 1326/1569 [7:54:40<1:40:14, 24.75s/it]

체크포인트 저장 완료: 1325개 문장 처리


역번역 진행 중:  86%|████████▌ | 1351/1569 [8:00:31<55:29, 15.27s/it]  

체크포인트 저장 완료: 1350개 문장 처리


역번역 진행 중:  88%|████████▊ | 1376/1569 [8:10:52<1:17:48, 24.19s/it]

체크포인트 저장 완료: 1375개 문장 처리


역번역 진행 중:  89%|████████▉ | 1401/1569 [8:19:28<35:17, 12.60s/it]

체크포인트 저장 완료: 1400개 문장 처리


역번역 진행 중:  91%|█████████ | 1426/1569 [8:30:39<1:07:15, 28.22s/it]

체크포인트 저장 완료: 1425개 문장 처리


역번역 진행 중:  92%|█████████▏| 1451/1569 [8:38:59<24:44, 12.58s/it]

체크포인트 저장 완료: 1450개 문장 처리


역번역 진행 중:  94%|█████████▍| 1471/1569 [8:46:47<34:36, 21.19s/it]

[en] 번역 실패: The read operation timed out


역번역 진행 중:  94%|█████████▍| 1476/1569 [8:49:03<40:21, 26.03s/it]

체크포인트 저장 완료: 1475개 문장 처리


역번역 진행 중:  95%|█████████▍| 1483/1569 [8:52:29<30:52, 21.54s/it]


KeyboardInterrupt: 

In [None]:
import json

input_path = "/content/drive/MyDrive/ABSA/data/aug_en_withko.jsonl"  # 원본 파일 경로
output_path = "/content/drive/MyDrive/ABSA/data/aug_en.jsonl"  # 결과 저장 경로

even_lines = []

with open(input_path, 'r', encoding='utf-8') as f:
    for idx, line in enumerate(f):
        if idx % 2 == 0:
            data = json.loads(line)
            even_lines.append(data)

with open(output_path, 'w', encoding='utf-8') as f:
    for item in even_lines:
        f.write(json.dumps(item, ensure_ascii=False) + '\n')

print(f"짝수 번째 행 {len(even_lines)}개가 {output_path}에 저장되었습니다.")

In [None]:
import json

input_path = "/content/drive/MyDrive/ABSA/data/aug_en.jsonl"
output_path = "/content/drive/MyDrive/ABSA/data/aug_en_nn.jsonl"

filtered_data = []

with open(input_path, 'r', encoding='utf-8') as f:
    for line in f:
        entry = json.loads(line)
        filtered_entities = [
            entity for entity in entry.get("label", [])
            if entity[2].endswith("부정") or entity[2].endswith("중립")
        ]
        if filtered_entities:
            filtered_data.append({
                "text": entry["text"],
                "entities": filtered_entities,
                "origin": entry.get("origin", "")
            })

with open(output_path, 'w', encoding='utf-8') as f:
    for entry in filtered_data:
        f.write(json.dumps(entry, ensure_ascii=False) + '\n')

print(f"완료: {len(filtered_data)}개 문장이 {output_path}에 저장되었습니다.")