# HelPago

## 데이터 다운로드 및 준비

### 코드 셀 실행 로그 정보 기록 함수

In [1]:
import time
from datetime import datetime
from google.colab import auth
import subprocess

def log_execution():
    """
    현재 코드 셀의 실행 시작/종료 시간 및 사용자 계정 정보를 출력
    """
    # 사용자 인증 (최초 1회만 입력 필요)
    auth.authenticate_user()
    try:
        user_email = subprocess.check_output(
            'gcloud config get-value account', shell=True).decode().strip()
    except Exception as e:
        user_email = f"계정 확인 실패: {e}"

    # 시작 시간
    start_time = time.time()
    start_dt = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
    print(f"실행 시작: {start_dt}")
    print(f"실행 계정: {user_email}")

    # 종료는 사용자가 호출
    return start_time

### 기본 패키지 및 모듈

In [2]:
start_time = log_execution()

import torch
import torch.nn as nn
import numpy as np

from IPython.display import Image

import matplotlib.pyplot as plt
%matplotlib inline

end_time = time.time()
end_dt = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
print(f"실행 종료: {end_dt}")
print(f"총 실행 시간: {end_time - start_time:.2f}초")

실행 시작: 2025-05-30 02:42:03
실행 계정: 20231164@sungshin.ac.kr
실행 종료: 2025-05-30 02:42:06
총 실행 시간: 2.54초


### Seed 설정 (고정)
- 학번 뒷 세자리로 설정

In [3]:
start_time = log_execution()

torch.manual_seed(164)

end_time = time.time()
end_dt = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
print(f"실행 종료: {end_dt}")
print(f"총 실행 시간: {end_time - start_time:.2f}초")

실행 시작: 2025-05-30 02:42:07
실행 계정: 20231164@sungshin.ac.kr
실행 종료: 2025-05-30 02:42:07
총 실행 시간: 0.00초


### Colab VM에 Google Drive 마운트

In [18]:
start_time = log_execution()

from google.colab import drive
drive.mount('/content/drive', force_remount=True) #실행하면 강제로 리마운트

end_time = time.time()
end_dt = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
print(f"실행 종료: {end_dt}")
print(f"총 실행 시간: {end_time - start_time:.2f}초")

실행 시작: 2025-05-30 03:03:19
실행 계정: 20231164@sungshin.ac.kr
Mounted at /content/drive
실행 종료: 2025-05-30 03:03:22
총 실행 시간: 2.94초


### 데이터 복사 및 압축 해제
- copy ko-en-aihub-v1.zip from google drive to colab vm

#### Step 1: Drive → VM 복사 (이미 있으면 생략)

In [5]:
def copy_zip_from_drive(src, dst):
    print("Step 1: 파일 복사 중...")
    if os.path.exists(zip_dst):
        print(f"VM에 이미 zip 파일 존재 → 복사 생략: {zip_dst}")
    else:
        print("Step 1: Drive → VM zip 복사 중...")

    file_size = os.path.getsize(zip_src)
    chunk_size = 1024 * 1024  # 1MB

    with open(zip_src, 'rb') as src_file, open(zip_dst, 'wb') as dst_file:
        with tqdm(total=file_size, unit='B', unit_scale=True, desc="복사 중") as pbar:
            while True:
                chunk = src_file.read(chunk_size)
                if not chunk:
                    break
                dst_file.write(chunk)
                pbar.update(len(chunk))

    print(f"✅ 복사 완료: {zip_dst}")

#### Step 2: ko-en-aihub-v1.zip 압축 해제 → /content/ko-en-aihub-v1/ (중첩 제거)

In [6]:
def unzip_and_flatten(zip_path, extract_dir):
    print("Step 2: 1차 압축 해제 (중첩 제거) 중...")

    with zipfile.ZipFile(zip_dst, 'r') as zip_ref:
        members = zip_ref.infolist()

        # 올바른 루트 제거를 위해 실제 파일만 필터링
        real_files = [m.filename for m in members if not m.filename.endswith('/') and not m.filename.startswith('__MACOSX') and '/._' not in m.filename ]

        # 가장 긴 공통 경로 prefix 계산
        root_prefix = os.path.commonpath(real_files)
        if not root_prefix.endswith('/'):
            root_prefix = os.path.dirname(root_prefix) + "/"

        with tqdm(total=len(real_files), desc="1차 압축 해제", unit="file") as pbar:
            for member in members:
                if member.is_dir() or member.filename.startswith('__MACOSX') or '/._' in member.filename:
                    continue

                # 공통 루트 제거
                rel_path = os.path.relpath(member.filename, root_prefix)
                target_path = os.path.join(extract_dir, rel_path)

                os.makedirs(os.path.dirname(target_path), exist_ok=True)
                with zip_ref.open(member) as source, open(target_path, "wb") as target:
                    shutil.copyfileobj(source, target)
                pbar.update(1)

    print(f"✅ 1차 압축 해제 완료: {extract_dir}")

#### Step 3: 1_구어체(1).xlsx을 tsv로 저장

In [7]:
def excel_to_tsv(file_path, tsv_path):
    print("Step 3: 1_구어체(1).xlsx을 tsv로 저장 중...")

    # 열 추출 (2열: 한국어, 3열: 영어)
    try:
        df = pd.read_excel(file_path, usecols=[1, 2], names=["ko", "en"], header=0)
        df.dropna(inplace=True)
        df.to_csv(tsv_path, sep="\t", index=False)
        print(f"✅ TSV 저장 완료: {tsv_path} ({len(df)} 문장)")
    except Exception as e:
        print(f"❌ 엑셀 → TSV 변환 오류: {e}")

#### 실행 코드

In [8]:
import os
import zipfile
import shutil
import pandas as pd
from tqdm import tqdm

print("데이터 준비, ✅3개 확인 필요")

# 경로 설정
zip_src = "/content/drive/MyDrive/datasets/ko-en-aihub-v1.zip" # 드라이브에 올려둔 경로
zip_dst = "/content/ko-en-aihub-v1.zip" # 데이터 복사할 경로
extract_dir = "/content/ko-en-aihub-v1" # 압축 해제된 경로

file_path = "/content/ko-en-aihub-v1/content/1_구어체(1).xlsx"
tsv_path = os.path.join(extract_dir, "구어체.tsv")

copy_zip_from_drive(zip_src, zip_dst)
unzip_and_flatten(zip_dst, extract_dir)
excel_to_tsv(file_path, tsv_path)

데이터 준비, ✅3개 확인 필요
Step 1: 파일 복사 중...
VM에 이미 zip 파일 존재 → 복사 생략: /content/ko-en-aihub-v1.zip


복사 중: 100%|██████████| 277M/277M [00:05<00:00, 54.6MB/s]


✅ 복사 완료: /content/ko-en-aihub-v1.zip
Step 2: 1차 압축 해제 (중첩 제거) 중...


1차 압축 해제: 100%|██████████| 10/10 [00:01<00:00,  5.74file/s]


✅ 1차 압축 해제 완료: /content/ko-en-aihub-v1
Step 3: 1_구어체(1).xlsx을 tsv로 저장 중...
✅ TSV 저장 완료: /content/ko-en-aihub-v1/구어체.tsv (200000 문장)


## 소실문 생성 (전처리)
총 4가지 케이스를 고려했으나 프로젝트 규모 축소를 위해 2가지 선정

1. 종결어미 소실 (예: ~다, ~요)
2. ~~조사 소실 (예: 를, 에서)~~
3. 고유명사 일부 소실 (예: 5·18민중항쟁 → 5·18민중항)
4. ~~전체 단어 누락 (예: “학교에 가다” → “학교에”)~~

### 파일 형태 확인
- 데이터마다 열이 다르니까 제대로 됐는지 꼭 확인하기!!!

In [9]:
import pandas as pd

# TSV 파일 로드
tsv_path = "/content/ko-en-aihub-v1/구어체.tsv"
df = pd.read_csv(tsv_path, sep="\t")

# 컬럼명 확인
print(df.columns)

# 예시 문장 출력
df.sample(5)

Index(['ko', 'en'], dtype='object')


Unnamed: 0,ko,en
56098,나는 원래 운동을 싫어하고 체력이 약했어요.,I originally don't like the exercise and had a...
145738,오늘 종일 컴퓨터를 했더니 눈이 아파요.,My eyes hurt because I've worked with my compu...
12315,계산부터 하시면 포장해 드리겠습니다.,Please pay first and I'll pack it up.
102797,로마의 백과사전에는 이런 말이 있습니다.,There are the following words in the encyclope...
165383,우리의 QC팀에서는 폴리싱 품질기준 가이드라인에 따라 아래 항목을 체크하였습니다.,Our QC team checked the item below according t...


### MeCab-ko 설치
소실문 생성을 위해 형태소를 분석해줍니다.

[설치하는 방법 참고한 깃허브 주소](https://github.com/SOMJANG/Mecab-ko-for-Google-Colab)


In [10]:
!git clone https://github.com/SOMJANG/Mecab-ko-for-Google-Colab.git

fatal: destination path 'Mecab-ko-for-Google-Colab' already exists and is not an empty directory.


In [11]:
cd Mecab-ko-for-Google-Colab

/content/Mecab-ko-for-Google-Colab


In [12]:
!bash install_mecab-ko_on_colab_light_220429.sh

Installing konlpy.....
Done
Installing mecab-0.996-ko-0.9.2.tar.gz.....
Downloading mecab-0.996-ko-0.9.2.tar.gz.......
from https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz
--2025-05-30 02:44:08--  https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz
Resolving bitbucket.org (bitbucket.org)... 104.192.142.24, 104.192.142.26, 104.192.142.25, ...
Connecting to bitbucket.org (bitbucket.org)|104.192.142.24|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://bbuseruploads.s3.amazonaws.com/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz?response-content-disposition=attachment%3B%20filename%3D%22mecab-0.996-ko-0.9.2.tar.gz%22&response-content-encoding=None&AWSAccessKeyId=ASIA6KOSE3BNOLBYMIKJ&Signature=ozIkDScohj5ZrcGWgRjpgZuDoxk%3D&x-amz-security-token=IQoJb3JpZ2luX2VjENP%2F%2F%2F%2F%2F%2F%2F%2F%2F%2FwEaCXVzLWVhc3QtMSJHMEUCIQC%2BFkRpIZBW69eNX%2Ffdp12igUjMFwN7UOvJyBOJuHmjjgIgPJNAt%2Ff0BUQLK5CYVIR4l%2Fv

### MeCab-ko 로드 및 샘플 형태소 분석
- N: 명사
- J: 조사
- V: 용언
- M: 관형사/부사
- I: 감탄사
- E: 어미
- X: 접두사/접미사/어근
- S: 부호

[품사 태그 정리](https://blog.naver.com/aramjo/221404488280)

In [13]:
from konlpy.tag import Mecab
mecab = Mecab()

# 샘플 확인
sample = "나는 오늘 사과를 먹었다."
print(mecab.pos(sample))

[('나', 'NP'), ('는', 'JX'), ('오늘', 'MAG'), ('사과', 'NNG'), ('를', 'JKO'), ('먹', 'VV'), ('었', 'EP'), ('다', 'EF'), ('.', 'SF')]


### 종결어미 / 고유명사 기반 소실문 생성
- EF: 종결어미
- NNP: 고유 명사
- NNG: 일반 명사

In [14]:
def make_loss_case(sentence, loss_type='ending'):
    tokens = mecab.pos(sentence)

    if loss_type == 'ending':
        # 종결어미(EF) 기준으로 마지막 종결어미 이전까지만 유지
        for i in reversed(range(len(tokens))):
            if tokens[i][1] == 'EF':
                return ''.join([t[0] for t in tokens[:i]])

    elif loss_type == 'nnp':
        # 고유명사(NNP)가 있을 경우 → 마지막 NNP 이후 제거
        for i in reversed(range(len(tokens))):
            if tokens[i][1] == 'NNP':
                return ''.join([t[0] for t in tokens[:i+1]])  # 일부 남기기

    return None  # 소실 불가한 문장

### 데이터셋에 적용

In [15]:
# ending case (종결어미 제거)
df['ko_loss_ending'] = df['ko'].apply(lambda x: make_loss_case(str(x), 'ending'))

# nnp case (고유명사 일부 소실)
df['ko_loss_nnp'] = df['ko'].apply(lambda x: make_loss_case(str(x), 'nnp'))

# 확인
df[['ko', 'ko_loss_ending', 'ko_loss_nnp']].sample(10)

Unnamed: 0,ko,ko_loss_ending,ko_loss_nnp
53131,나는 서울특별시에서 공무원으로 일했습니다.,나는서울특별시에서공무원으로일했,나는서울특별시
157355,우리가 당신에게 렌즈를 보내드릴게요.,,
62260,나와 함께 있었으면 좋았을 텐데 내 마음이 아프네.,나와함께있었으면좋았을텐데내마음이아프,
28951,그는 엄격하지만 때로는 친절합니다.,,
105531,만약에 함께 보내는 것이 시간이 더 걸리지 않는다면 함께 보내주세요.,,
118251,블루보틀은 스타벅스로 대표되는 기존의 커피전문점과는 여러 차이가 있습니다.,블루보틀은스타벅스로대표되는기존의커피전문점과는여러차이가있,블루보틀은스타벅스
126221,"세련되고 다양한 패턴과 디자인, 재미있는 컬러를 사용하여 밝고 경쾌한 겨울 느낌을 ...",,
119335,빠른 배송 서비스를 원해요.,,
111487,미용사에게 머리를 갈색으로 염색해달라고 부탁했습니다.,미용사에게머리를갈색으로염색해달라고부탁했,
137781,어릴 적 사진을 보면 내 표정이 어둡습니다.,어릴적사진을보면내표정이어둡,


### 소실문 기준 학습 데이터셋 생성

In [16]:
# ending 소실문 기준
df_ending = df[['ko_loss_ending', 'ko']].dropna()
df_ending.columns = ['input', 'output']

# nnp 소실문 기준
df_nnp = df[['ko_loss_nnp', 'ko']].dropna()
df_nnp.columns = ['input', 'output']

### 학습 데이터 저장
코랩 끊기는 것 대비

In [22]:
save_dir = "/content/drive/MyDrive/datasets/processed"

ending_path = os.path.join(save_dir, "restore_ending.tsv")
nnp_path = os.path.join(save_dir, "restore_nnp.tsv")

df_ending.to_csv(ending_path, sep='\t', index=False)
df_nnp.to_csv(nnp_path, sep='\t', index=False)

print(f"✅ 저장 완료: {ending_path} ({len(df_ending)}개)")
print(f"✅ 저장 완료: {nnp_path} ({len(df_nnp)}개)")

✅ 저장 완료: /content/drive/MyDrive/datasets/processed/restore_ending.tsv (112984개)
✅ 저장 완료: /content/drive/MyDrive/datasets/processed/restore_nnp.tsv (29050개)


### 데이터셋 로드
- Colab VM에 있는 데이터에 접근
- (주의) Colab Session이 종료되면 VM에 있는 데이터도 자동 삭제됨