# 한국어 관련 라이브러리 설치

In [None]:
# 설치 후 런타임 다시 시작 필요
!git clone https://github.com/SOMJANG/Mecab-ko-for-Google-Colab.git
!bash ./Mecab-ko-for-Google-Colab/install_mecab-ko_on_colab_light_220429.sh

# 한글 폰트 설치

In [None]:
# 한글폰트 설치: 실행후 런타임 재시작 필요
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf

In [None]:
# 한글 표시 여부 확인
import matplotlib.pyplot as plt
plt.rcParams['font.family'] = 'NanumBarunGothic' # 나눔바른고딕 적용하기

# 예제 데이터
heights = [150, 160, 170, 180, 190]  # 키 (cm)
weights = [50, 60, 70, 80, 90]       # 몸무게 (kg)

# 산점도 그리기
plt.scatter(heights, weights)

# 제목 및 레이블 추가
plt.title("키와 몸무게")
plt.xlabel("키 (cm)")
plt.ylabel("몸무게 (kg)")

# 그래프 표시
plt.show()

# 외부에서 데이터 다운로드 및 확인

In [None]:
!git clone git@github.com:songys/Chatbot_data.git

# 데이터 정제 함수 선언

In [None]:
import re

def preprocess_sentence(sentence, s_token=False, e_token=False):
    sentence = sentence.lower().strip()

    sentence = re.sub(r"([?.!,])", r" \1 ", sentence) # 구두점 분리
    sentence = re.sub(r'[" "]+', " ", sentence) # 공백 제거
    sentence = re.sub(r"[^ㄱ-ㅎ가-힣a-zA-Z?.!,]+", " ", sentence) # 글자 및 구두점 외 특수문자 제거
    sentence = sentence.strip()

    if s_token:
        sentence = '<start> ' + sentence

    if e_token:
        sentence += ' <end>'

    return sentence

# 데이터 로드 및 토큰화

In [None]:
# 파일 읽기
file_path = "" # 파일 경로 입력

with open(file_path, "r", encoding="utf-8") as loaded_file:
    loaded_lines = loaded_file.readlines()

preprocessed_corpus = [preprocess_sentence(line, s_token=True, e_token=True) for line in loaded_lines] # 시작/종료 토큰 사용 전처리

In [None]:
# 한국어 포함된 코퍼스 토큰화
import MeCab

# MeCab 초기화
mecab = Mecab()

# 한국어 토큰화
kor_corpus = [mecab.morphs(sentence) for sentence in preprocessed_corpus]

# 어휘 대체(Lexical Substitution)을 통한 데이터 증강

In [None]:
!git clone git@github.com:Kyubyong/wordvectors.git # ko.bin 파일 사용

# 데이터 벡터화

In [None]:
# 아래와 같이 코퍼스 전체에 시작 및 종료 토큰 추가
sample_data = ["12", "시", "땡", "!"]

print(["<start>"] + sample_data + ["<end>"])

특수 토큰을 더함으로써 ans_corpus 또한 완성이 되었으니, que_corpus 와 결합하여 전체 데이터에 대한 단어 사전을 구축하고 벡터화하여 enc_train 과 dec_train 을 얻으세요!

# 훈련

## 예문
1. 지루하다, 놀러가고 싶어.
2. 오늘 일찍 일어났더니 피곤하다.
3. 간만에 여자친구랑 데이트 하기로 했어.
4. 집에 있는다는 소리야.

---

## 제출

Translations
> 1. 잠깐 쉬 어도 돼요 . <end>
> 2. 맛난 거 드세요 . <end>
> 3. 떨리 겠 죠 . <end>
> 4. 좋 아 하 면 그럴 수 있 어요 . <end>

Hyperparameters
> n_layers: 1
> d_model: 368
> n_heads: 8
> d_ff: 1024
> dropout: 0.2

Training Parameters
> Warmup Steps: 1000
> Batch Size: 64
> Epoch At: 10

# 성능 측정

- BLEU Score를 계산하는 calculate_bleu() 함수도 적용