<a href="https://colab.research.google.com/github/blendlee/Deeplearning/blob/main/%5BBasic_1%5D_Data_Preprocessing_%26_Tokenization.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Natural Language Processing

## 기본과제 1: Data Preprocessing & Tokenization

> Reference 코드는 Solution 과 함께 공개됩니다.

### Introduction

* 본 과제의 목적은 자연어 처리 모델에 활용하는 텍스트 데이터를 전치리 및 토큰화 과정의 개념을 익히는 것 입니다.
* 영어 텍스트에선 토큰화 및 Vocabulary 작성을 통해 토큰화의 기본을 배우고 [Spacy](https://spacy.io/)으로 불용어를 제외 및 전처리합니다.
* 한국어 텍스트에선 [Konlpy](https://konlpy.org/ko/latest/)를 활용하여 형태소 기반 토큰화를 진행합니다.
* **ANSWER HERE** 이라고 작성된 부분을 채워 완성하시면 됩니다. 다른 부분의 코드를 변경하면 오류가 발생할 수 있습니다.

> 과제 완성 후 ipynb 파일을 제출해 주세요.<br>

### 0. 데이터 업로드

1. Boostcourse [기본 과제] Data Preprocessing & Tokenization 에서 `corpus.txt` 파일을 다운받습니다.
2. 본 Colab 환경에 `corpus.txt`, 파일을 업로드합니다.
3. `!ls` command 를 실행했을 때, `corpus.txt sample_data` 가 나오면 성공적으로 데이터 준비가 완료된 것 입니다.

In [8]:
! ls
! pwd

drive  sample_data
/content


In [6]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [10]:
with open('/content/drive/MyDrive/Week8_NLP/corpus.txt', 'r', encoding='utf-8') as fd:
    corpus = fd.readlines()

# 말뭉치 크기 확인
print(len(corpus))

# 첫 열 문장을 print 해 봅시다.
for sentence in corpus[:10]:
    print(sentence)

1071
A young man participates in a career while the subject who records it smiles.

The man is scratching the back of his neck while looking for a book in a book store.

A person wearing goggles and a hat is sled riding.

A girl in a pink coat and flowered goloshes sledding down a hill.

Three girls are standing in front of a window of a building.

two dog is playing with a same chump on their mouth

Low angle view of people suspended from the swings of a carnival ride.

Black and white photo of two people watching a beautiful painting

Man dressed in black crosses the street screaming

A child sits on street on a busy street.



### 1. 파이썬 기본 코드를 이용한 영어 텍스트 토큰화 및 전처리


💡 토큰화(tokenization)는 무엇인가요?

토큰화는 주어진 입력 데이터를 자연어처리 모델이 인식할 수 있는 단위로 변환해주는 방법입니다. 

💡 단어 단위 토큰화(word tokenization)는요?

단어단위 토큰화의 경우 "단어"가 자연어처리 모델이 인식하는 단위가 됩니다.
"I have a meal"이라고 하는 문장을 가지고 단어 단위 토큰화를 하면 다음과 같습니다. 

- ['I', 'have', 'a', 'meal']

영어의 경우 대부분 공백(space)을 기준으로 단어가 정의되기 때문에 `.split()`을 이용해 쉽게 단어 단위 토큰화를 구현할 수 있습니다.
특히, 영어에서 공백을 기준으로 단어를 구분한 단어 단위 토큰화는 공백 단위 토큰화 (space tokenization)이라고도 할 수 있습니다.

> 이 섹션에서는 파이썬 표준 라이브러리 (Python Standard Libary)만을 사용하세요.

#### 1-A) 토큰화기 (tokenizer) 구현

In [129]:
from typing import List
import re
def tokenize(
    sentence: str
) -> List[str]:
    """ 토큰화기 구현
    공백으로 토큰을 구분하되 . , ! ? 문장 부호는 별개의 토큰으로 처리되어야 합니다.
    영문에서 Apostrophe에 해당하는 ' 는 두가지 경우에 대해 처리해야합니다.
    1. not의 준말인 n't은 하나의 토큰으로 처리되어야 합니다: don't ==> do n't
    2. 다른 Apostrophe 용법은 뒤의 글자들을 붙여서 처리합니다: 's 'm 're 등등 
    그 외 다른 문장 부호는 고려하지 않으며, 작은 따옴표는 모두 Apostrophe로 처리합니다.
    모든 토큰은 소문자로 변환되어야 합나다.

    힌트: 정규표현식을 안다면 re 라이브러리를 사용해 보세요!

    예시: 'I don't like Jenifer's work.'
    ==> ['i', 'do', 'n\'t', 'like', 'jenifer', '\'s', 'work', '.']

    Arguments:
    sentence -- 토큰화할 영문 문장
    
    Return:
    tokens -- 토큰화된 토큰 리스트
    """

    ### YOUR CODE HERE 
    ### ANSWER HERE ###
    sentence=sentence.lower()

    
    sentence = re.split('(\'[a-z]+|n\'t|\W)',sentence)
    

    
    sentence = list(filter(lambda x: x != ' ' and  x != '', sentence))
    tokens: List[str] = list()

    ### END YOUR CODE

    return sentence


**문제 1-A에 대한 테스트 코드**

In [130]:
print ("======Tokenizer Test Cases======")

# First test
sentence = "This sentence should be tokenized properly."


tokens = tokenize(sentence)
assert tokens == ['this', 'sentence', 'should', 'be', 'tokenized', 'properly', '.'], \
    "토큰화된 리스트가 기대 결과와 다릅니다."
print("첫번째 테스트 통과!")

# Second test
sentence = "Jhon's book isn't popular, but he loves his book."

tokens = tokenize(sentence)
assert tokens == ["jhon", "'s", "book", "is", "n't", "popular", ",", "but", "he", "loves", "his", "book", "."], \
    "토큰화된 리스트가 기대 결과와 다릅니다."
print("두번째 테스트 통과!")

print("모든 테스트 통과!")

첫번째 테스트 통과!
두번째 테스트 통과!
모든 테스트 통과!


### 1-B) Vocabulary 만들기
컴퓨터는 글자를 알아볼 수 없기 때문에 각 토큰을 숫자 형식의 유일한 id에 매핑해야합니다.

- ['I', 'have', 'a', 'meal'] ==> [194, 123, 2, 54]

이러한 매핑은 모델 학습 전에 사전 정의되어야합니다.
이때, 모델이 다를 수 있는 토큰들의 집합과 이 매핑을 Vocab라고 흔히 부릅니다.

이 매핑을 만들어 봅시다.

In [157]:
from typing import List, Tuple, Dict
from collections import Counter
# [UNK] 토큰
unk_token = "[UNK]"
unk_token_id = 0 # [UNK] 토큰의 id는 0으로 처리합니다.

def build_vocab(
    sentences: List[List[str]],
    min_freq: int
) -> Tuple[List[str], Dict[str, int], List[int]]:
    """ Vocabulary 만들기
    토큰화된 문장들을 받아 각 토큰을 숫자로 매핑하는 token2id와 그 역매핑인 id2token를 만듭니다.
    자주 안나오는 단어는 과적합을 일으킬 수 있기 때문에 빈도가 적은 단어는 [UNK] 토큰으로 처리합니다.
    이는 Unknown의 준말입니다.
    토큰의 id 번호 순서는 [UNK] 토큰을 제외하고는 자유입니다.

    힌트: collection 라이브러리의 Counter 객체를 활용해보세요.

    Arguments:
    sentences -- Vocabulary를 만들기 위한 토큰화된 문장들
    min_freq -- 단일 토큰으로 처리되기 위한 최소 빈도
                데이터셋에서 최소 빈도보다 더 적게 등장하는 토큰은 [UNK] 토큰으로 처리되어야 합니다.

    Return:
    id2token -- id를 받으면 해당하는 토큰을 반환하는 리스트 
    token2id -- 토큰을 받으면 해당하는 id를 반환하는 딕셔너리
    """

    ### YOUR CODE HERE
    ### ANSWER HERE ###
    tokens=[]
    for sentence in sentences:
      tokens+=sentence
    

    counter= dict(Counter(tokens))
    token2id: Dict[str, int] = {unk_token: unk_token_id}

    id2token: List[str] = [unk_token]
    for key,values in counter.items():
      if values < min_freq:
        continue
      id2token.append(key)
      token2id[key] = id2token.index(key)
    

    ### END YOUR CODE

    assert id2token[unk_token_id] == unk_token and token2id[unk_token] == unk_token_id, \
        "[UNK] 토큰을 적절히 삽입하세요"
    assert len(id2token) == len(token2id), \
        "id2word과 word2id의 크기는 같아야 합니다"
    return id2token, token2id

**문제 1-B에 대한 테스트 코드**

In [158]:
print ("======Vocabulary Builder Test Cases======")

# First test
sentences = [["this", "sentence", "be", "tokenized", "propery", "."],
                ["jhon", "'s", "book", "is", "n't", "popular", ",", "but", "he", "loves", "his", "book", "."]]

id2token, token2id = build_vocab(sentences, min_freq=1)
assert sentences == [[id2token[token2id[token]] for token in sentence] for sentence in sentences], \
    "token2id와 id2token이 서로 역매핑이 아닙니다."
print("첫번째 테스트 통과!")

# Second test
sentences = [["a", "b", "c", "d", "e"],
                ["c", "d", "f", "g"],
                ["d", "e", "g", "h"]]

id2token, token2id = build_vocab(sentences, min_freq=2)
assert set(token2id.keys()) == {unk_token, 'c', 'd', 'e', 'g'} == set(id2token) and len(id2token) == 5, \
    "min_freq 인자가 제대로 작동되지 않습니다."
print("두번째 테스트 통과!")

print("모든 테스트 통과!")

첫번째 테스트 통과!
두번째 테스트 통과!
모든 테스트 통과!


### 1-C) 인코딩 및 디코딩

이제 문장을 받아 토큰화하고 이들을 적절한 id들로 바꾸는 인코딩 함수를 작성해 봅시다.

In [179]:
from typing import Callable

def encode(
    tokenize: Callable[[str], List[str]],
    sentence: str,
    token2id: Dict[str, int]
) -> List[str]:
    """ 인코딩
    문장을 받아 토큰화하고 이들을 적절한 id들로 바꿉니다.
    토큰화 및 인덱싱은 인자로 들어온 tokenize 함수와 인자로 주어진 token2id를 활용합니다.
    Vocab에 없는 단어는 [UNK] 토큰으로 처리합니다.

    Arguments:
    tokenize -- 토큰화 함수: 문장을 받으면 토큰들의 리스트를 반환하는 함수
    sentence -- 토큰화할 영문 문장
    token2id -- 토큰을 받으면 해당하는 id를 반환하는 딕셔너리
    
    Return:
    token_ids -- 문장을 인코딩하여 숫자로 변환한 리스트
    """


    ### YOUR CODE HERE 
    ### ANSWER HERE ###
    token_ids: List[int] = list()

    tokens=tokenize(sentence)
    for token in tokens:
      if token in token2id:
        token_ids.append(token2id[token])

    ### END YOUR CODE

    return token_ids


거꾸로 id들이 있을 때 원문장을 복원하는 디코딩 함수도 필요합니다.
그러나 토큰화 과정에서 공백 및 대소문자 정보를 잃어버리고, [UNK] 토큰으로 인해 원문장을 복원할 수 없습니다.
때문에, 단순히 공백으로 연결된 문장으로 디코딩합시다. 

In [180]:
def decode(
    token_ids: List[int],
    id2token: List[str]
) -> str:
    """ 디코딩
    각 id를 적절한 토큰으로 바꾸고 공백으로 연결하여 문장을 반환합니다.
    """
    return ' '.join(id2token[token_id] for token_id in token_ids)

**앞서 만든 함수로 말뭉치를 인코딩해봅시다.**

In [181]:
from functools import partial

id2token, token2id = build_vocab(list(map(tokenize, corpus)), min_freq=2)
input_ids = list(map(partial(encode, tokenize, token2id=token2id), corpus))

In [182]:
for sid, sentence, token_ids in zip(range(1, 5), corpus, input_ids):
    print(f"======{sid}=====")
    print(f"원문: {sentence}")
    print(f"인코딩 결과: {token_ids}"),
    print(f"디코딩 결과: {decode(token_ids, id2token)}\n")

원문: A young man participates in a career while the subject who records it smiles.

인코딩 결과: [1, 2, 3, 4, 1, 5, 6, 7, 8, 9, 10]
디코딩 결과: a young man in a while the who it . 


원문: The man is scratching the back of his neck while looking for a book in a book store.

인코딩 결과: [6, 3, 11, 12, 6, 13, 14, 15, 5, 16, 17, 1, 18, 4, 1, 18, 19, 9, 10]
디코딩 결과: the man is scratching the back of his while looking for a book in a book store . 


원문: A person wearing goggles and a hat is sled riding.

인코딩 결과: [1, 20, 21, 22, 23, 1, 24, 11, 25, 9, 10]
디코딩 결과: a person wearing goggles and a hat is riding . 


원문: A girl in a pink coat and flowered goloshes sledding down a hill.

인코딩 결과: [1, 26, 4, 1, 27, 28, 23, 29, 30, 1, 31, 9, 10]
디코딩 결과: a girl in a pink coat and flowered down a hill . 




### 2. [Spacy](https://spacy.io/)를 이용한 영어 텍스트 토큰화 및 전처리

In [183]:
! pip install spacy
! python -m spacy download en_core_web_sm

Collecting en_core_web_sm==2.2.5
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-2.2.5/en_core_web_sm-2.2.5.tar.gz (12.0 MB)
[K     |████████████████████████████████| 12.0 MB 10.0 MB/s 
[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('en_core_web_sm')


### 2-A) Spacy를 활용법

In [184]:
import spacy
spacy_tokenizer = spacy.load('en_core_web_sm')

Spacy를 활용한 토큰화는 상대적으로 시간이 오래 걸리지만, 토큰화 외에도 품사 및 단어의 기본형 정보 등 해당 문장에 대해 많은 정보를 제공합니다.

In [185]:
tokens = spacy_tokenizer("Jhon's book isn't popular, but he loves his book.")
print ([(token.text, token.lemma_, token.pos_) for token in tokens])

[('Jhon', 'Jhon', 'PROPN'), ("'s", "'s", 'PART'), ('book', 'book', 'NOUN'), ('is', 'be', 'AUX'), ("n't", 'not', 'PART'), ('popular', 'popular', 'ADJ'), (',', ',', 'PUNCT'), ('but', 'but', 'CCONJ'), ('he', '-PRON-', 'PRON'), ('loves', 'love', 'VERB'), ('his', '-PRON-', 'DET'), ('book', 'book', 'NOUN'), ('.', '.', 'PUNCT')]


**불용어(Stopword)**

불용어란 한 언어에서 자주 등장하지만 큰 의미가 없는 단어를 뜯합니다.
고전적인 자연어 처리에서는 이러한 단어들은 분석에 도움이 되지 않는다고 생각하였기 때문에 이를 제거합니다.
`Spacy`에서는 불용어 단어의 목록을 제공하고 있습니다.

In [186]:
print(spacy.lang.en.stop_words.STOP_WORDS)

{'fifty', "'d", 'latter', 'twelve', 'up', 'him', 'whoever', 'mine', 'one', 'may', 'sometimes', 'next', 'who', 'former', 'sometime', 'while', '‘m', 'very', 'take', 'put', 'their', 'whom', 'twenty', 'go', 'someone', 'and', 'alone', 'became', 'over', 'was', "'m", 'rather', 'they', 'her', 'your', '’m', 'across', 'why', 'nevertheless', 'using', 're', 'formerly', 'top', 'wherever', 'them', 'myself', 'enough', 'us', 'whose', 'hundred', 'without', 'many', 'ours', 'can', 'even', 'themselves', 'thereupon', 'whether', 'noone', 'being', 'fifteen', 'could', 'four', 'under', 'eight', 'has', 'as', 'therein', 'yet', 'last', 'because', 'these', '’ve', 'upon', 'how', 'thus', 'meanwhile', 'nine', 'though', 'on', '‘re', 'yourselves', 'whence', 'therefore', 'neither', 'always', 'else', 'less', "'re", 'beforehand', 'say', '’d', 'bottom', 'so', 'its', 'least', 'wherein', 'anything', 'throughout', 'such', 'per', 'each', 'perhaps', 'before', 'also', 'show', 'becoming', 'name', '’s', 'am', 'what', 'within', 'do

### 2-B) Spacy를 활용한 전처리 및 토큰화

In [199]:
def spacy_tokenize(
    tokenizer: spacy.language.Language,
    sentence: str
) -> List[str]:
    """ Spacy를 활용한 토크나이저 구현
    Spacy를 활용해서 토큰화를 진행합니다. 이때 불용어는 제외하고 어간을 토큰으로 사용합니다.
    
    예시: 'I don't like Jenifer's work.'
    ==> ['I', 'like', 'Jenifer', 'work', '.']

    Arguments:
    tokenizer -- Spacy 토큰화기
    sentence -- 토큰화할 영문 문장
    
    Return:
    tokens -- 불용어 제거 및 토큰화된 토큰 리스트
    """
    
    ### YOUR CODE HERE 
    ### ANSWER HERE ###
    tokens: List[str] = list()
    sentence=sentence.lower()
    tokenized = tokenizer(sentence)

    for token in tokenized:
      if token.text not in spacy.lang.en.stop_words.STOP_WORDS:
        tokens.append(token.text)
    print(tokens)
    ### END YOUR CODE

    return tokens

**문제 2-B에 대한 테스트 코드**

In [200]:
print ("======Spacy Tokenizer Test Cases======")

# First test
sentence = "This sentence should be tokenized properly."




tokens = spacy_tokenize(spacy_tokenizer, sentence)
assert tokens == ['this', 'sentence', 'tokenize', 'properly', '.'], \
    "토큰화된 리스트가 기대 결과와 다릅니다."
print("첫번째 테스트 통과!")

# Second test
sentence = "Jhon's book isn't popular, but he loves his book."
tokens = spacy_tokenize(spacy_tokenizer, sentence)
assert tokens == ['Jhon', 'book', 'popular', ',', 'love', 'book', '.'], \
    "토큰화된 리스트가 기대 결과와 다릅니다."
print("두번째 테스트 통과!")

print("모든 테스트 통과!")

['jhon', 'book', 'popular', ',', 'loves', 'book', '.']


AssertionError: ignored

**앞서 만든 함수로 말뭉치를 인코딩해봅시다.**

In [None]:
from functools import partial
from tqdm.notebook import tqdm

my_tokenize = partial(spacy_tokenize, spacy_tokenizer)
id2token, token2id = build_vocab(list(map(my_tokenize, tqdm(corpus, desc="Building"))), min_freq=3)
input_ids = list(map(partial(encode, my_tokenize, token2id=token2id), tqdm(corpus, desc="Tokenizing")))

In [None]:
for sid, sentence, token_ids in zip(range(1, 5), corpus, input_ids):
    print(f"======{sid}=====")
    print(f"원문: {sentence}")
    print(f"인코딩 결과: {token_ids}"),
    print(f"디코딩 결과: {decode(token_ids, id2token)}\n")

### 3. [Konlpy](https://konlpy.org/ko/latest/)를 활용한 한국어 토큰화
한국어에서 "나는 밥을 먹는다"라는 문장을 단어 단위 토큰화하면 다음과 같습니다.
- ['나', '는', '밥', '을', '먹는다']

한국어에서 "단어"는 공백을 기준으로 정의되지 않습니다. 이는 한국어가 갖고 있는 "교착어"로서의 특징 때문입니다. 
체언 뒤에 조사가 붙는 것이 대표적인 특징이며 의미 단위가 구분되고 자립성이 있기 때문에 조사는 "단어"입니다.

한국어에서는 단어 단위 토큰화 방법는 공백에 기반하지 않고 사용하지 않고 형태소 분석기를 활용하고 있습니다.


(참고 1: [국립 국어원: "조사는 단어이다"](https://www.korean.go.kr/front/onlineQna/onlineQnaView.do?mn_id=216&qna_seq=26915#:~:text='%EC%A1%B0%EC%82%AC'%EB%8A%94%20%EC%99%84%EC%A0%84%ED%95%9C%20%EC%9E%90%EB%A6%BD%EC%84%B1%EC%9D%80,%ED%95%98%EC%97%AC%20%EB%8B%A8%EC%96%B4%EB%A1%9C%20%EC%B2%98%EB%A6%AC%ED%95%A9%EB%8B%88%EB%8B%A4.) )

(참고 2: [Konlpy: 형태소 분석기](https://konlpy-ko.readthedocs.io/ko/v0.4.3/morph/))

In [None]:
! apt-get install -y build-essential openjdk-8-jdk python3-dev curl git automake
! pip install konlpy "tweepy<4.0.0"
! /bin/bash <(curl -s https://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh)

In [None]:
from konlpy.tag import Mecab
tokenizer = Mecab()

In [None]:
text = """\
유구한 역사와 전통에 빛나는 우리 대한국민은 \
3·1운동으로 건립된 대한민국임시정부의 법통과 불의에 항거한 4·19민주이념을 계승하고, \
조국의 민주개혁과 평화적 통일의 사명에 입각하여 정의·인도와 동포애로써 민족의 단결을 공고히 하고, \
모든 사회적 폐습과 불의를 타파하며, \
자율과 조화를 바탕으로 자유민주적 기본질서를 더욱 확고히 하여 \
정치·경제·사회·문화의 모든 영역에 있어서 각인의 기회를 균등히 하고, \
능력을 최고도로 발휘하게 하며, 자유와 권리에 따르는 책임과 의무를 완수하게 하여, \
안으로는 국민생활의 균등한 향상을 기하고 밖으로는 항구적인 세계평화와 인류공영에 이바지함으로써 \
우리들과 우리들의 자손의 안전과 자유와 행복을 영원히 확보할 것을 다짐하면서 \
1948년 7월 12일에 제정되고 8차에 걸쳐 개정된 헌법을 이제 국회의 의결을 거쳐 국민투표에 의하여 개정한다.\
"""

In [None]:
print(tokenizer.pos(text))

In [None]:
print(tokenizer.morphs(text))