### 순환신경망(RNN) vs 트랜스포머

순환신경망(RNN)
- 순차적 처리: RNN은 텍스트를 순차적으로 처리합니다. 이는 각 시점(time step)에서의 출력이 이전 시점의 출력에 의존하며, 이러한 방식으로 시퀀스 내의 정보를 전달합니다.
- 기억 능력: RNN은 이전 정보를 '기억'하는 능력을 가지고 있어, 시퀀스 내에서 정보를 전달할 수 있습니다. 그러나 장기 의존성 문제(long-term dependencies)로 인해 매우 긴 시퀀스에서 성능이 저하될 수 있습니다.
- 연산 병렬화 어려움: RNN의 순차적인 처리 특성으로 인해, 연산을 병렬로 수행하기 어렵습니다. 이는 학습 시간이 길어질 수 있다는 단점을 가집니다.

트랜스포머
- 병렬 처리: 트랜스포머는 어텐션 메커니즘(Attention mechanism)을 사용하여 전체 시퀀스를 한 번에 처리합니다. 이를 통해 시퀀스 내의 모든 단어 간의 관계를 동시에 고려할 수 있으며, 연산을 효율적으로 병렬 처리할 수 있습니다.
- 어탠션 메커니즘: 트랜스포머의 핵심은 주의 메커니즘으로, 모델이 입력 시퀀스 내에서 중요한 정보에 '주의'를 집중하게 합니다. 이는 모델이 중요한 정보를 식별하고, 장기 의존성을 효과적으로 처리할 수 있게 돕습니다.
- 더 빠른 학습과 높은 성능: 병렬 처리 능력과 효율적인 장기 의존성 학습 덕분에 트랜스포머는 RNN에 비해 더 빠른 학습 속도와 더 높은 성능을 달성할 수 있습니다.

RNN은 순차적인 데이터 처리에 강점을 가지고 있으나 장기 의존성 문제와 연산 병렬화의 어려움이 있습니다. 반면, 트랜스포머는 어탠션 메커니즘을 통해 전체 시퀀스를 한 번에 처리할 수 있어, 병렬 처리가 가능하고 장기 의존성을 효과적으로 다루며 더 빠른 학습과 높은 성능을 제공합니다.







### Transformer
- Transformer 모델은 자연어 처리(NLP) 분야에서 주목받는 딥러닝 아키텍처. 2017년 "Attention Is All You Need" 논문을 통해 처음 소개되었다.
- 이 모델은 기존의 순환 신경망(RNN)이나 합성곱 신경망(CNN)에 비해 병렬 처리가 용이하고, 장거리 의존성을 효과적으로 학습할 수 있는 것이 특징.
- Transformer의 핵심 구성 요소는 Self-Attention 메커니즘과 Positional Encoding(위치 인코딩)으로, 이를 통해 시퀀스 데이터를 더 효율적으로 처리할 수 있다.

[ Transformer의 구조 ]
- Transformer 모델은 크게 인코더(encoder)와 디코더(decoder)의 두 부분으로 구성. 각 부분은 여러 개의 동일한 레이어로 구성되며, 각 레이어는 Multi-Head Attention과 Feed-Forward Neural Network로 이루어져 있다.
- 인코더는 입력 시퀀스를 처리하여 연속적인 표현(vector representation)으로 변환.
- 각 인코더 레이어는 Multi-Head Self-Attention 메커니즘과 포지션-와이즈(Position-wise) 피드포워드 신경망으로 구성.
- Self-Attention 메커니즘은 입력 시퀀스의 각 단어가 다른 모든 단어와의 관계를 평가하여, 문맥에 따른 단어의 중요도를 파악.
- 디코더는 인코더로부터의 출력과 함께 이전에 생성된 출력 시퀀스를 받아 새로운 출력(예: 번역된 문장)을 생성.
- 디코더 레이어는 인코더 레이어와 유사하지만, 추가적으로 인코더의 출력을 활용하는 Encoder-Decoder Attention 레이어를 포함한다.
- 이 Attention 레이어는 디코더가 인코더의 출력에 주목함으로써 입력 시퀀스와 출력 시퀀스 사이의 관계를 학습한다.

[ 핵심 기술 ]
- Self-Attention은 시퀀스 내의 각 요소가 시퀀스 내의 다른 모든 요소와의 관계를 계산합니다. 이를 통해 모델은 각 단어의 문맥적 의미를 파악할 수 있다.
- Multi-Head Attention은 여러 개의 Attention 메커니즘을 병렬로 사용하여, 다양한 표현(subspace)에서 정보를 동시에 학습.. 이로써 모델은 더 복잡한 문맥 관계를 이해할 수 있다.
- Transformer는 순서 정보가 없는 Self-Attention 메커니즘을 사용하기 때문에, 입력 시퀀스의 단어 위치 정보를 모델에 주입하기 위해 Positional Encoding을 사용한다. 이는 각 단어의 절대적 혹은 상대적 위치 정보를 담은 벡터를 단어의 표현에 추가함으로써 구현된다.
- Transformer 모델은 이러한 구조와 기술을 통해 시퀀스를 효과적으로 처리하며, 이는 기계 번역, 문서 요약, 질문 응답 시스템 등 다양한 NLP 태스크에서 뛰어난 성능을 발휘. Transformer의 성공 이후, 이를 기반으로 한 다양한 변형 모델들(BERT, GPT 등)이 개발되어 NLP 분야의 발전을 이끌고 있다.

### BERT(BiDirectional Encoder Representations from Transformers - 트랜스포머 기반으로 한 양뱡향 인코더 표현)
- BERT는 Google이 개발한 자연어 처리(NLP)에 대한 혁신적인 접근 방식이다. Jacob Devlin과 Google의 동료들이 2018년 논문에서 소개한 BERT는 컴퓨터가 전례 없는 정확도로 인간의 언어를 이해할 수 있게 함으로써 NLP 분야에 큰 영향을 주었다.

1. 구조
- BERT는 입력 데이터를 처리하기 위해 주의 메커니즘을 사용하는 Transformer 아키텍처를 기반으로 한다.
- 텍스트 입력을 순차적으로(왼쪽에서 오른쪽 또는 오른쪽에서 왼쪽) 읽는 기존 모델과 달리 BERT는 텍스트를 양방향으로 처리. 즉, 단어 앞과 뒤의 단어를 살펴봄으로써 단어의 문맥을 검토하여 텍스트를 더욱 깊이 이해하게 된다.

2. 사전 훈련 및 미세 조정
- BERT의 개발에는 사전 훈련과 미세 조정이라는 두 단계가 포함되며 사전 학습 중에 모델은 MLM(마스크 언어 모델링)과 NSP(다음 문장 예측)라는 두 가지 비지도 작업을 통해 대규모 텍스트 데이터 모음(예: Wikipedia 및 BooksCorpus)에 대해 학습된다. MLM에는 입력 토큰의 일정 비율을 무작위로 숨긴 다음 마스크된 토큰을 예측하는 작업이 포함되며 NSP에는 두 개의 텍스트 세그먼트가 원본 텍스트에 연속적으로 나타나는지 예측하는 작업이 포함된다.(자기지도 학습이라고 함.)
- 사전 훈련 후 BERT는 단 하나의 추가 출력 레이어로 미세 조정되어 실질적인 수정 없이 질문 답변, 감정 분석, 언어 추론과 같은 광범위한 NLP 작업을 위한 최첨단 모델을 생성할 수 있다.
3. 영향
- BERT의 양방향 훈련과 상대적으로 작은 데이터 세트로 특정 작업을 미세 조정할 수 있는 능력은 광범위한 NLP 애플리케이션에 매우 효과적이다. BERT 도입으로 NLP 작업에 접근하는 방식이 크게 바뀌었고 수많은 벤치마크와 경쟁에서 기록적인 성능을 달성했다.



### GPT(Generative Pre-trained Transformer)
- OpenAI가 개발한 자연어 처리(NLP) 작업을 위해 설계된 인공 지능 모델의 일종.
- GPT는 변환기 기반 모델 제품군에 속하며, 입력 데이터 내의 다양한 단어의 중요성을 평가하는 주의 메커니즘을 사용하여 텍스트와 같은 데이터 시퀀스를 처리하는 기능으로 알려져 있다.

1. 구조
- GPT는 특히 self-attention 메커니즘으로 유명한 Transformer 아키텍처를 활용하며 이를 통해 GPT는 각 단어를 개별적으로 또는 고정된 순서로 처리하는 대신 전체 단어 순서를 고려하여 문장에 있는 각 단어의 맥락을 효과적으로 이해할 수 있다.

2. 사전 훈련
- GPT는 감독되지 않은 방식으로 대규모 텍스트 데이터 모음에 대해 사전 학습되었다. 사전 훈련에는 다음 단어 예측 작업을 활용하여 이전 단어가 주어지면 문장에서 다음 단어를 예측하는 방법을 학습하는 것이 포함됩니다. 이러한 광범위한 사전 학습을 통해 GPT는 언어 패턴, 문법, 세상에 대한 지식을 폭넓게 이해할 수 있다.

3. 미세 조정
- 사전 학습 후 텍스트 생성, 번역, 질문 답변 등과 같은 특정 NLP 작업에 맞게 GPT를 미세 조정할 수 있다. 미세 조정에는 더 작은 작업별 데이터 세트에 대한 추가 교육이 포함되므로 GPT는 특정 작업을 잘 수행하기 위해 일반화된 언어 이해를 조정할 수 있다.

4. 생성 기능
- GPT의 특징 중 하나는 일관되고 상황에 맞는 텍스트를 생성하는 능력이다. 인간이 작성한 텍스트와 종종 구별할 수 없는 방식으로 문장, 단락 또는 전체 기사를 완성할 수 있다. 이러한 생성 기능으로 인해 GPT는 콘텐츠 제작, 대화 시스템 등을 포함한 광범위한 애플리케이션에 매우 효과적이다.

5. 버전
- GPT-1부터 시작하여 GPT-2, GPT-3, GPT-3.5, GPT-4 등과 같은 주목할만한 버전을 포함하여 각각 이전 버전보다 더 강력하고 복잡한 여러 버전의 GPT가 있다. 각각의 새 버전에는 일반적으로 더 많은 수의 매개변수(예: 훈련 데이터에서 학습된 모델 요소)가 포함되어 있어 보다 미묘한 이해와 텍스트 생성이 가능하다.
- GPT 모델은 NLP 분야에 큰 영향을 미쳤으며 텍스트 생성 및 이해 분야에서 놀라운 능력을 보여주고 AI가 언어 작업에서 달성할 수 있는 것에 대한 새로운 표준을 설정했다.

## 트랜스퍼 러닝(전이 학습)
- 트랜스퍼 러닝(transfer learning)이란 특정 태스크를 학습한 모델을 다른 태스크 수행에 재사용하는 기법
- 트랜스퍼 러닝이 주목받게 된 것은 업스트림 태스크와 프리트레인 덕분. 자연어의 풍부한 문맥(context)을 모델에 내재화하고 이 모델을 다양한 다운스트림 태스크에 적용해 그 성능을 대폭 끌어올림
- 대표적인 업스트림 태스크 가운데 하나가 다음 단어 맞추기(언어모델)입니다. GPT 계열 모델이 바로 이 태스크로 프리트레인을 수행
- 다른 업스트림 태스크로는 빈칸 채우기가 있습니다. BERT 계열 모델이 바로 이 태스크로 프리트레인을 수행. ‘빈칸 채우기’로 업스트림 태스크를 수행한 모델을 마스크 언어 모델(Masked Language Model)
- 다음 단어 맞히기, 빈칸 채우기 같은 업스트림 태스크는 강력한 힘을 지니며 뉴스, 웹 문서, 백과사전 등 글만 있으면 수작업 없이도 다량의 학습 데이터를 아주 싼값에 만들어 낼 수 있다. 이처럼 데이터 내에서 정답을 만들고 이를 바탕으로 모델을 학습하는 방법을 자기 지도 학습(self-supervised learning)이라고 함.(자기주도학습. 면접에 나올만한 질문.)
- 다운스트림 태스크의 학습 방식은 모두 파인튜닝(fine-tuning)이며 프리트레인을 마친 모델을 다운스트림 태스크에 맞게 업데이트하는 기법. 다운스트림 태스크는 자연어 처리의 구체적인 과제들이다.

트랜스포머모델은 인코더와 디코더로 구성.
- 버트는 인코더부분에서 학습.
- gpt는 디코더부분에서 학습.
- 파인튜닝을 위해 학습을 하는 것임


## 바이트 페어 인코딩(Byte Pair Encoding, BPE)
- 원래 정보를 압축하는 알고리즘으로 제안되었는데 최근에는 자연어 처리 모델에 널리 쓰이고 있는 토큰화 기법
- 데이터에서 가장 많이 등장한 문자열을 병합해서 데이터를 압축하는 기법
- 예를 들어 말뭉치: "aaabdaaabac"에 대해 BPE로 토큰화
  - 초기 어휘: {'a', 'b', 'd', 'c'}
  - 코퍼스에서 인접한 문자(바이그램)의 각 쌍이 얼마나 자주 나타나는지 계산
    - "aa"(4회 발생)
    - "ab"(2회 발생)
    - "bd"(1회 발생)
    - "ba"(1회 발생)
    - "ac"(1회 발생)
  - 가장 자주 사용되는 쌍 병합
    - 업데이트된 어휘: {'a', 'b', 'd', 'c', 'aa'}
  - 코퍼스 업데이트
    - "aa" 인스턴스를 새 토큰 "aa"로 대체하여 말뭉치를 업데이트
  - 기준이 충족될 때까지 프로세스 반복
    - 최종 어휘: {'a', 'b', 'd', 'c', 'aa', 'ab', 'aab', 'da', 'aac'}
  - 원래 코퍼스 "aaabdaaabac"은 이제 이 어휘를 사용하여 다음과 같이 토큰화
    - 토큰화된 코퍼스: "aab da aab ac"
  - BPE는 빈도로 계산. transformer 기반의 GPT 토큰화

## 워드피스(wordpiece)
- 말뭉치에서 자주 등장한 문자열을 토큰으로 인식한다는 점에서 BPE와 본질적으로 유사. 다만 어휘 집합을 구축할 때 문자열을 병합하는 기준이 다르다. 워드피스는 BPE처럼 단순히 빈도를 기준으로 병합하는 것이 아니라, 병합했을 때 말뭉치의 우도(likelihood)를 가장 높이는 쌍을 병합.(likelihood. 가능성으로 계산.)
- 말뭉치의 우도 증가"에 관해 이야기할 때, 이는 모델의 언어 표현이 실제 언어에서 발견되는 패턴과 시퀀스를 보다 정확하게 반영하도록 모델 또는 해당 매개변수를 조정하는 것을 의미
- 기술 뉴스 기사 영역에 초점을 맞춰 텍스트를 토큰화하고 이해하기 위한 모델에 대한 어휘를 구축하고 있다고 가정하면 코퍼스는 수많은 기술 뉴스 기사로 구성되어 있으며 처음에 텍스트에는 "스마트폰", "애플리케이션" 및 "네트워크"라는 용어가 자주 등장한다. 모델은 "스마트폰"이라는 단어를 초기 어휘에서 별도의 토큰인 "스마트" + "폰"으로 토큰화할 수 있는 이것은 틀린 것은 아니지만 특히 기술 기사에서 "스마트폰"의 빈도와 구체적인 의미를 고려하면 모델은 더 효율적일 수 있는 "스마트폰"을 단일 토큰으로 추가하는 것을 평가한다.스마트폰"을 어휘에 통합함으로써 모델은 이제 기술 뉴스 기사의 말뭉치를 보다 정확하고 간결하게 표현할 수 있기 때문이다. 어휘에 단일 토큰으로 "스마트폰"이 존재하면 해당 어휘가 관찰된 데이터(기술 뉴스 기사)를 생성하거나 나타낼 수 있을 우도(가능성)이 더 높아진다. 정확하게. 이 업데이트된 어휘를 고려할 때 말뭉치의 우도는 단일 토큰인 "스마트폰"이 별도의 토큰인 "스마트" + "전화"보다 더 효율적으로 개념을 포착할 수 있기 때문에 증가한다.
- transformer 기반의 BERT 토큰화

https://ratsgo.github.io/nlpbook/docs/preprocess/vocab/

/usr/local/lib/python3.10/dist-packages/ratsnlp

In [None]:
!pip install ratsnlp
# !pip install ratsnlp -q # -q 는 quiet 모드. 이것저것 뜨는것 많이 생략해줌



WARNING: The following packages were previously imported in this runtime:
  [dataclasses]
You must restart the runtime in order to use newly installed versions.

Google Colab에서 새 버전의 패키지를 설치한 후에 런타임을 재시작하면, 재시작된 런타임에서는 설치된 새 버전의 패키지를 사용할 수 있습니다. 런타임을 재시작하는 것은 Python 환경을 초기화하며, 이 과정에서 최근에 설치한 패키지 버전이 활성화됩니다. 따라서 런타임 재시작 후 해당 패키지를 다시 임포트하면, 최신 버전이 로드되어 사용됩니다.

In [None]:
from google.colab import drive
drive.mount('/gdrive', force_remount=True)
# /content 가 아닌 이전 경로에 gdrive가 생성됨

Mounted at /gdrive


/usr/local/lib/python3.10/dist-packages/ratsnlp
- 모듈의 경로 확인

In [None]:
# 다양한 언어와 주제의 공개 데이터 세트를 제공하는 파이썬 라이브러리이며 자연어 처리 작업을 위한 데이터를 쉽게 얻을 수 있다.
from Korpora import Korpora
nsmc = Korpora.load("nsmc", force_download=True)


    Korpora 는 다른 분들이 연구 목적으로 공유해주신 말뭉치들을
    손쉽게 다운로드, 사용할 수 있는 기능만을 제공합니다.

    말뭉치들을 공유해 주신 분들에게 감사드리며, 각 말뭉치 별 설명과 라이센스를 공유 드립니다.
    해당 말뭉치에 대해 자세히 알고 싶으신 분은 아래의 description 을 참고,
    해당 말뭉치를 연구/상용의 목적으로 이용하실 때에는 아래의 라이센스를 참고해 주시기 바랍니다.

    # Description
    Author : e9t@github
    Repository : https://github.com/e9t/nsmc
    References : www.lucypark.kr/docs/2015-pyconkr/#39

    Naver sentiment movie corpus v1.0
    This is a movie review dataset in the Korean language.
    Reviews were scraped from Naver Movies.

    The dataset construction is based on the method noted in
    [Large movie review dataset][^1] from Maas et al., 2011.

    [^1]: http://ai.stanford.edu/~amaas/data/sentiment/

    # License
    CC0 1.0 Universal (CC0 1.0) Public Domain Dedication
    Details in https://creativecommons.org/publicdomain/zero/1.0/



[nsmc] download ratings_train.txt: 14.6MB [00:00, 121MB/s]                             
[nsmc] download ratings_test.txt: 4.90MB [00:00, 56.4MB/s]


In [None]:
nsmc.train.texts[0:5]

('아 더빙.. 진짜 짜증나네요 목소리',
 '흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나',
 '너무재밓었다그래서보는것을추천한다',
 '교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정',
 '사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 던스트가 너무나도 이뻐보였다')

In [None]:
# NSMC에 포함된 영화리뷰들을 순수 텍스트 형태로 코랩 환경 로컬의 지정된 디렉토리에 저장
import os
def write_lines(path, lines):
    with open(path, 'w', encoding='utf-8') as f:
        for line in lines:
            f.write(f'{line}\n')
write_lines("/content/train.txt", nsmc.train.get_all_texts())
write_lines("/content/test.txt", nsmc.test.get_all_texts())

In [None]:
!ls

drive  sample_data  test.txt  train.txt


In [None]:
!cat train.txt

[1;30;43m스트리밍 출력 내용이 길어서 마지막 5000줄이 삭제되었습니다.[0m
그 어떤 청춘 스타도 이 영화의 남자 주인공 만큼 빛 나지 않는다
섭외는 어떻게 한건지 배우들이 아까움.
공포영화라면 무조건 악평 혹은 혹평하는 기대치높은 평론가들과 비하치높은 단순관객들 어이없음..
별 반개도 아깝다. 알바 자슥들아. 평점조작 좀 하지마라.
이정도면 훌륭한거 아닌가요
고스트라이더가 불쌍하다
보지마삼 시간이 아깝다
잘만들었다 2점드립니다..
충무로 돈이 남아도나봐?
끌고가는 힘이 어마무시하네요 감독의 다음작품도 기대됩니다 진심으로 잘봤습니다
저절로 웃게만드는 영화
과거 진압작전에 참가했던 지젠느 출신의 실화를 바탕으로 재구성한 걸작..밑에 헐리웃 액션을 기대했나...사건 발생후 사전 브리핑과 도면입수 가상 재훈련이 필수인데 무슨 서바이벌이나 서든하는줄 아네ㅎㅎ
반전은 있는데 재미가 없니....
근데 별 0개는 왜 없죠이런식으로 방송할거면 차라리 게스트 한명만 불러요 병풍세우지 말고
더럽다...ㅅㅂ......................
고문관도 싸이코패스다. 철저히 이기적이고 부대원과 공감할 능력이 떨어진다. 폭력으로 고칠 수도 없으니 시도하지 마라 오히려 화를 당하게 된다. 차별도 하지 말고 하루하루 넘어가는 수 밖에 없다
왕빛나 때문에 끝까지 봄 ㅠㅠ
역시 링은 일본판이 진리였구만.
중간중간 엄마연기 쩌네 ㅋㅋㅋ깨알개그와 시골사람들의 훈훈한 인간미가 함께 느껴지는영화였다. 송중기를 다시보게한 영화이기도하다.
이거 정말 재미있게 봤던 영화다. 가족영화로 강추!!!!!!!!!!
아그들아!! 차라리 영화보고 애니보면서 매일마다 운동을 해야지 그래야 여친 생길수 있어 집에서 운동 안하고 계속 먹기만 하면 여친 안생긴다. 알겠지? 약속할꺼다 넌 아무튼 잘봤어 개쩔었어
처음부터 계속 지루하게 얘기만 나누네요. 30분 정도 억지로 보다가 말았어요.
기대안하고 봤는데 재밌네요
재밌네요 ㅎㅎ 정말 잘 봤습니다.
스릴도 공포도 아닌 어중간함에 경계
잼나요......
이게

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)



In [None]:
# exist_ok가 True로 설정되면 디렉터리가 이미 존재하는 경우 오류가 발생하지 않고 계속 진행
import os

os.makedirs("/gdrive/MyDrive/nlpbook/bbpe", exist_ok=True)
# exist_ok=True 만약 존재하면 생성하지 않음.(오류 안뜨게끔.)

In [None]:
# GPT 계열 모델이 사용하는 바이트 수준 BPE 어휘 집합을 구축
# 코드 수행 결과로 vocab.json(바이트 수준 BPE 어휘 집합)과 merges.txt(바이그램 쌍의 병합 우선 순위)가 생성
from tokenizers import ByteLevelBPETokenizer
bytebpe_tokenizer = ByteLevelBPETokenizer()
bytebpe_tokenizer.train(
    files=["/content/train.txt", "/content/test.txt"], # 학습 말뭉치를 리스트 형태로 넣기
    vocab_size=10000, # 어휘 집합 크기 조절
    special_tokens=["[PAD]"] # 특수 토큰 추가
)
bytebpe_tokenizer.save_model("/gdrive/MyDrive/nlpbook/bbpe")

['/gdrive/MyDrive/nlpbook/bbpe/vocab.json',
 '/gdrive/MyDrive/nlpbook/bbpe/merges.txt']

 - 토크나이저 기법 BPE는 문자 단위가 아니라 유니코드 바이트 수준으로 어휘 집합을 구축하고 토큰화를 수행
 - 유니코드(UTF-8) 1바이트를 10진수로 표현하면 0에서 255 사이의 정수가 됩니다. 이 256개 정수 각각을 특정 문자로 매핑한 것입니다. 예컨대 0은 Ā, 255는 ÿ에 각각 대응

In [None]:
# 바이트 레벨 BPE 어휘 집합 구축 결과 (VOCAB.JSON)
!cat /gdrive/MyDrive/nlpbook/bbpe/vocab.json

{"[PAD]":0,"!":1,"\"":2,"#":3,"$":4,"%":5,"&":6,"'":7,"(":8,")":9,"*":10,"+":11,",":12,"-":13,".":14,"/":15,"0":16,"1":17,"2":18,"3":19,"4":20,"5":21,"6":22,"7":23,"8":24,"9":25,":":26,";":27,"<":28,"=":29,">":30,"?":31,"@":32,"A":33,"B":34,"C":35,"D":36,"E":37,"F":38,"G":39,"H":40,"I":41,"J":42,"K":43,"L":44,"M":45,"N":46,"O":47,"P":48,"Q":49,"R":50,"S":51,"T":52,"U":53,"V":54,"W":55,"X":56,"Y":57,"Z":58,"[":59,"\\":60,"]":61,"^":62,"_":63,"`":64,"a":65,"b":66,"c":67,"d":68,"e":69,"f":70,"g":71,"h":72,"i":73,"j":74,"k":75,"l":76,"m":77,"n":78,"o":79,"p":80,"q":81,"r":82,"s":83,"t":84,"u":85,"v":86,"w":87,"x":88,"y":89,"z":90,"{":91,"|":92,"}":93,"~":94,"¡":95,"¢":96,"£":97,"¤":98,"¥":99,"¦":100,"§":101,"¨":102,"©":103,"ª":104,"«":105,"¬":106,"®":107,"¯":108,"°":109,"±":110,"²":111,"³":112,"´":113,"µ":114,"¶":115,"·":116,"¸":117,"¹":118,"º":119,"»":120,"¼":121,"½":122,"¾":123,"¿":124,"À":125,"Á":126,"Â":127,"Ã":128,"Ä":129,"Å":130,"Æ":131,"Ç":132,"È":133,"É":134,"Ê":135,"Ë":136,"Ì":137

In [None]:
# 바이트 레벨 BPE 병합 우선 순위(MERGE.TXT)
!cat /gdrive/MyDrive/nlpbook/bbpe/merges.txt

#version: 0.2
Ġ ì
Ġ ë
ì Ŀ
ë ĭ
í ķ
ê °
. .
ìĿ ´
ëĭ ¤
ë Ĭ
ì Ĺ
ê ³
ì §
ëĬ Ķ
ì ŀ
ë §
í Ļ
ê³ ł
ì ł
íĻ Ķ
ĺ ģ
Ġ ê
ë ı
ì ķ
ã ħ
ĺģ íĻĶ
ì ļ
ì§ Ģ
íķ ĺ
ê° Ģ
ë Ĥ
ê ²
ì Ħ
Ġì ŀ
¬ ë
ê ¸
Ġì ķ
ëı Ħ
Ġ í
ë ĵ
ë ¦
ìĹ Ĳ
Ġì Ŀ
íķ ľ
Ġì ĺģíĻĶ
Ī ë
³ ´
ì ĭ
ĸ ´
ìĿ ĺ
ê¸ °
ãħ ĭ
Ġì Ĺ
ìĿ Ģ
ë ¡
ë į
ìĿ Ħ
Ŀ ¼
ëĤ ĺ
ê² Į
ĠìĿ ´
ìĦ ľ
Ġë §
ìļ Ķ
ì Ĭ
ì ĸ´
ë¡ ľ
Ġë Ĥ
ë§ Į
ë Ŀ¼
ë¦ ¬
Ġì ł
· ¸
ëĭ Ī
ëĵ ¤
ë ¥
ê ±
ìķ Ħ
ë ł
.. .
ë ©
¬ ´
ì ľ
Ġ ê°
ìĿ ¸
ãħĭ ãħĭ
¯ ¸
ëį °
Ġì §
ë Ħ
Ġìķ Ħ
Į Ģ
ë Ł
ì ĺ
ê µ
íķ ´
Ġë ³´
ë© ´
ì ĥ
ì ĺģíĻĶ
Ġì ĭ
Ġê ·¸
ê ¹
ë °
Ġë ª
ìł Ĳ
ìĭ ľ
Ī ĺ
Ġë ĭ
ë ³´
ìĿ Į
ìĬ ¤
£ ¼
ë ŀ
Ġë °
ìľ ¼
ëĦ ¤
Ġìŀ ¬ë
ë¥ ¼
ë§ Ĳ
Ġì ¢
! !
ë ¶
ì ¤
Ġì Ĥ
ê± °
ì Ĥ
ì Ļ
ë ĮĢ
ëĭĪ ëĭ¤
Īë ¬´
ìŀ Ĳ
ëĬĶ ëį°
ì Ľ
Ġë ³
ìł ķ
Ġë Ħ
ë§ Ī
ê¹ Į
ì ²
ìĹ Ĩ
ĠìĹ Ĩ
ìĹ Ī
ĠëĤ ĺ
Ġ íķĺ
ìļ °
Ġë ´
ì ¹
ìķ ¼
Ġì¢ ĭ
ì £¼
ì§ Ħ
Ġëĭ ¤
ì Īĺ
í ĸ
ë ³
ë ²
ìł ģ
µ ľ
ìŀ ¥
ìŀ Ī
ìŀ ĳ
ìł Ħ
ìĥ ģ
ë ª
.. ..
Ġì ĥ
Ġìł ķ
ì§ ľ
ì Ĩ
° Į
ìľ¼ ë¡ľ
Ġê ²
Ġìŀ Ī
ì§Ģ ë§Į
í ĺ
ê° Ħ
ĠìĹ °
íķĺ ê³ł
Ġì Ļ
¬ë ŀ
ê³ ¼
Ĳ ëı
ìĺ ¤
Ġì Ĭ
Ġë ĵ
ëĤ ´
Ġê ¸
ı ī
ãħ ł
ĠëĦ Īë¬´
ëŁ °
ë ħ
Ġì ĸ´
Ġì ĺ
Ġë§ Į
í ĥ
Ġìŀ¬ë ¯¸
Ġì§ Ģ
¹ Ħ
ë Ķ
ê ·¸

BERT 토크나이저 구축.(BERT는 워드피스 방식)

In [None]:
# 디랙토리 만들기.
import os
os.makedirs("/gdrive/MyDrive/nlpbook/wordpiece", exist_ok=True)

In [None]:
# 워드 피스 어휘 집합 구축
from tokenizers import BertWordPieceTokenizer
wordpiece_tokenizer = BertWordPieceTokenizer(lowercase=False)
wordpiece_tokenizer.train(
    files=["/content/train.txt", "/content/test.txt"],
    vocab_size=10000,
)
wordpiece_tokenizer.save_model("/gdrive/MyDrive/nlpbook/wordpiece")

['/gdrive/MyDrive/nlpbook/wordpiece/vocab.txt']

In [None]:
# 워드피스 어휘 집합 구축 결과
!cat /gdrive/MyDrive/nlpbook/wordpiece/vocab.txt
# ## 은 .. 단어의 일부분임을 표시하는 것임. ##을수도 는 단어의 일부분임.

[PAD]
[UNK]
[CLS]
[SEP]
[MASK]
!
"
%
&
'
(
)
*
+
,
-
.
/
0
1
2
3
4
5
6
7
8
9
:
;
<
=
>
?
@
A
B
C
D
E
F
G
I
K
L
M
N
O
P
R
S
T
V
X
[
]
^
_
`
a
b
c
d
e
f
g
h
i
j
k
l
m
n
o
p
r
s
t
u
v
w
x
y
z
~
★
♡
♥
ㄱ
ㄴ
ㄷ
ㄹ
ㅁ
ㅂ
ㅅ
ㅇ
ㅈ
ㅉ
ㅋ
ㅎ
ㅏ
ㅗ
ㅜ
ㅠ
ㅡ
ㅣ
가
각
간
갈
감
갑
값
갓
갔
강
갖
같
개
객
갠
갱
걍
거
건
걸
검
겁
것
겉
게
겐
겟
겠
겨
격
견
결
겹
겼
경
계
고
곡
곤
골
곱
곳
공
과
관
광
괜
괴
굉
교
구
국
군
굳
굴
굿
궁
권
귀
규
균
그
극
근
글
금
급
기
긴
길
김
깊
까
깎
깐
깔
깜
깝
깨
꺼
껄
껏
께
껴
꼈
꼬
꼭
꼴
꼽
꽃
꽝
꽤
꾸
꾼
꿀
꿈
꿔
뀌
끄
끈
끊
끌
끔
끝
끼
낀
낄
낌
나
낙
낚
난
날
남
납
낫
났
낭
낮
낳
내
낸
낼
냄
냈
냉
냐
냥
너
넌
널
넘
넣
네
넷
녀
년
념
녕
노
녹
논
놀
놈
농
높
놓
놔
놨
뇌
누
눈
뉴
느
는
늘
늙
능
늦
니
닉
닌
닐
님
닙
닝
다
닥
단
닫
달
닮
담
답
당
닿
대
댄
댓
더
덕
던
덜
덤
덩
데
덴
뎁
도
독
돈
돋
돌
동
돼
됐
되
된
될
됨
됩
됬
두
둘
둥
뒤
뒷
드
득
든
듣
들
듬
듭
듯
등
디
딘
딧
딩
따
딱
딴
딸
땅
때
땐
땜
땡
떄
떠
떡
떤
떨
떻
떼
또
똑
똥
뚝
뚱
뛰
뜨
뜩
뜬
뜻
라
락
란
랄
람
랍
랐
랑
래
랙
랜
램
랫
랬
략
량
러
럭
런
럴
럼
럽
렁
렇
레
렉
렌
려
력
련
렬
렵
렷
렸
령
례
로
록
론
롭
롯
롱
뢰
료
룡
루
룬
류
륜
률
륭
르
른
를
름
리
릭
린
릴
림
립
릿
링
마
막
만
많
말
맘
맙
맛
망
맞
맡
매
맥
맨
맹
머
먹
먼
멀
멈
멋
멍
메
멘
멜
며
면
멸
명
몇
모
목
몬
몰
몸
못
몽
묘
무
묵
문
묻
물
뭉
뭐
뭔
뭘
뮤
므
미
믹
민
믿
밀
밋
밌
밑
바
박
밖
반
받
발
밝
밤
밥
방
배
백
뱀
버
번
벌
범
법