# 01. 문장 토큰화

문장 단위 토큰화를 수행하는 경우

`1` 품사 태깅

* 어떠한 단어의 품사는 그 단어 자체의 의미와 함께 문장 안에서 사용된 위치에 따라 달라질 수 있음

* 이럴 경우, 문장 간의 구분이 된 상태에서 단어의 품사를 정해야 하기 때문에 문장 단위로 먼저 토큰화를 수행해야 한다.

## nltk

`1` 필요한 패키지와 함수 불러오기

In [105]:
from nltk.tokenize import sent_tokenize
import nltk

nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\rkdcj\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

`2` 문장 토큰화

In [106]:
text = "My email address is 'abcde@codeit.com'. Send it to Mr.Kim."

tokenized_sents = sent_tokenize(text)

* 문장이 끝나는 지점의 마침표를 기준으로 토큰화가 수행됨.

In [107]:
tokenized_sents

["My email address is 'abcde@codeit.com'.", 'Send it to Mr.Kim.']

***

# 02. 품사 태깅

문장안에 해당 단어가 어떠한 품사로 사용되었는지 태깅을 표시하는 작업

`1` 패키지, 함수 로드

In [108]:
import nltk
from nltk.tag import pos_tag
from nltk.tokenize import word_tokenize

`2` 문장 기준 토큰화 

In [109]:
text = "Watching Time Chasers, it obvious that it was made by a bunch of friends. Maybe they were sitting around one day in film school and said, \"Hey, let\'s pool our money together and make a really bad movie!\" Or something like that."

tokenized_sents = sent_tokenize(text)

In [110]:
tokenized_sents

['Watching Time Chasers, it obvious that it was made by a bunch of friends.',
 'Maybe they were sitting around one day in film school and said, "Hey, let\'s pool our money together and make a really bad movie!"',
 'Or something like that.']

`3` 토큰화 된 문장을 순회하며 순차적으로 단어 토큰화와 품사 태깅 작업을 진행

In [111]:
pos_tagged_words = []
for sentence in tokenized_sents:
    # 단어 토큰화
    tokenized_words = word_tokenize(sentence)

    # 품사 태깅
    pos_tagged = pos_tag(tokenized_words)
    pos_tagged_words.extend(pos_tagged)

* 다음과 같이 품사가 태깅된 것을 확인할 수 있음

In [112]:
pos_tagged_words[:4]

[('Watching', 'VBG'), ('Time', 'NNP'), ('Chasers', 'NNPS'), (',', ',')]

`4` 품사 태깅 함수 만들기

In [113]:
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag

# 품사 태깅 함수
def pos_tagger(tokenized_sents):
    pos_tagged_words = []

    for sentence in tokenized_sents:
        # 단어 토큰화
        tokenized_words = word_tokenize(sentence)
    
        # 품사 태깅
        pos_tagged = pos_tag(tokenized_words)
        pos_tagged_words.extend(pos_tagged)
    
    return pos_tagged_words

## extra

`NLTK`의 `pos_tag()`함수는 `Penn Treebank POS Tags`를 기준으로 품사를 태깅한다.

* 각 품사의 대웅하는 태그는 다음과 같다.

<img src="https://blog.kakaocdn.net/dn/ujEIL/btqSjBtuJmr/LVR89K812qTO4AopMNVWn0/img.png" srcset="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FujEIL%2FbtqSjBtuJmr%2FLVR89K812qTO4AopMNVWn0%2Fimg.png" data-filename="제목 없음.png" data-origin-width="500" data-origin-height="793" data-ke-mobilestyle="widthContent" onerror="this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';">

# 03. 표제어 추출

`-` 표제어(Lemma) : 단어의 사전적 어원 

> ex1. am, are, is는 서로 다른 단어이지만 표제어는 동일하게 `be`이다.
> * 영어 코퍼스에는 특히 많은 be 동사들을 모두 표제어로 통합시키는 작업이 필요할 수 있음 

`1` 단어 토큰화 & 품사 태깅

In [114]:
text = 'You are the happiest person.'
tokenized_words = word_tokenize(text)

# 품사 태그
tagged_words = pos_tag(tokenized_words)

In [115]:
tagged_words

[('You', 'PRP'),
 ('are', 'VBP'),
 ('the', 'DT'),
 ('happiest', 'JJS'),
 ('person', 'NN'),
 ('.', '.')]

`2` WordNet pos Tag

* 앞서 nltk의 품사 태그는 `Penn Treebank POS Tag`를 사용한다고 했음.

* 그러나 표제어 추출에 사용되는 함수는 `WordNet Pos Tag`를 사용한다.

|품사 태그|품사|
|:---|:---|
|`n` (wn.NOUN)|명사|
|`a` (wn.ADJ)|형용사|
|`r` (wn.ADV)|부사|
|`r` (wn.VERB)|동사|

* POS Tag를 살펴보면 `NN, NNp, NNPS`처럼 N으로 시작하는 태그는 모두 명사를 의미하는 것 같음

* 또한, `JJ, JJR, JJS`처럼 `J`로 시작하는 태그는 모두 형용사(Adjective)를 의미한다.

* 이제 이 규칙성을 이용해서 `pos tag`를 `wordnet tag`로 바꿔주자.

In [116]:
from nltk.corpus import wordnet as wn

def penn_to_wn(tag):
    if tag.startswith('J'):
        return wn.ADJ
    elif tag.startswith('N'):
        return wn.NOUN
    elif tag.startswith('R'):
        return wn.ADV
    elif tag.startswith('V'):
        return wn.VERB
    else:
        return

`3` 표제어 추출

In [117]:
from nltk.stem import WordNetLemmatizer
nltk.download('wordnet')
nltk.download('omw-1.4')

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\rkdcj\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\rkdcj\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


True

In [118]:
lemmatizer = WordNetLemmatizer()
lemmatized_words = []

for word, tag in tagged_words:
    # WordNet Pos Tag로 변환
    wn_tag = penn_to_wn(tag)

    # 품사를 기준으로 표제어 추출
    if wn_tag in (wn.NOUN, wn.ADJ, wn.ADV, wn.VERB):
        lemmatized_words.append(lemmatizer.lemmatize(word, wn_tag))
    else:
        lemmatized_words.append(word) ## wordnet post tag에 포함되지 않는 품사들은 변환하지 않고 추가

In [119]:
# 표제어 추출 확인
print('표제어 추출 전 :', tokenized_words)
print('표제어 추출 후 :', lemmatized_words)

표제어 추출 전 : ['You', 'are', 'the', 'happiest', 'person', '.']
표제어 추출 후 : ['You', 'be', 'the', 'happy', 'person', '.']


`4` 함수로 작성

In [120]:
def words_lemmatizer(pos_tagged_words):
    lemmatizer = WordNetLemmatizer()
    lemmatized_words = []

    for word, tag in pos_tagged_words:
        wn_tag = penn_to_wn(tag)

        if wn_tag in (wn.NOUN, wn.ADJ, wn.ADV, wn.VERB):
            lemmatized_words.append(lemmatizer.lemmatize(word, wn_tag))
        else:
            lemmatized_words.append(word)

    return lemmatized_words

***

# 04. 실습 1. imdb

In [121]:
import warnings
warnings.filterwarnings(action = "ignore")

In [122]:
import pandas as pd
df = pd.read_csv('imdb.tsv', delimiter = "\\t")

`1` 대소문자 통합

In [123]:
df['review'] = df['review'].str.lower()

`2` 문장 토큰화

In [124]:
df['sent_tokens'] = df['review'].apply(sent_tokenize)

`3` 품사 태깅

In [125]:
from preprocess import pos_tagger

In [126]:
df['pos_tagged_tokens'] = df['sent_tokens'].apply(pos_tagger)

In [127]:
print(df['pos_tagged_tokens'][0][:5])

[('``', '``'), ('watching', 'JJ'), ('time', 'NN'), ('chasers', 'NNS'), (',', ',')]


`4` 표제어 추출

In [128]:
from preprocess import words_lemmatizer

In [129]:
df['lemmatized_tokens'] = df['pos_tagged_tokens'].apply(words_lemmatizer)

In [130]:
print(df['lemmatized_tokens'][0][:5])

['``', 'watching', 'time', 'chaser', ',']


`5` 추가 전처리

* 빈도 1 이하, 단어 길이 2 이하, 불용어 제거

In [131]:
from nltk.corpus import stopwords
from preprocess import *
nltk.download("stopwords")

stopwords_set = set(stopwords.words('english'))

df['cleaned_tokens'] = df['lemmatized_tokens'].apply(lambda x: clean_by_freq(x, 1))
df['cleaned_tokens'] = df['cleaned_tokens'].apply(lambda x: clean_by_len(x, 2))
df['cleaned_tokens'] = df['cleaned_tokens'].apply(lambda x: clean_by_stopwords(x, stopwords_set))

df[['cleaned_tokens']]

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\rkdcj\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Unnamed: 0,cleaned_tokens
0,"[make, one, film, say, make, really, bad, movi..."
1,"[film, film]"
2,"[new, york, joan, barnard, elvire, audrey, bar..."
3,"[film, film, jump, send, n't, jump, radio, n't..."
4,"[site, movie, bad, even, movie, movie, make, m..."
5,"[ehle, northam, wonderful, wonderful, ehle, no..."
6,"[role, movie, n't, author, book, funny, author..."
7,"[plane, ceo, search, rescue, mission, call, ce..."
8,"[gritty, movie, movie, keep, sci-fi, good, kee..."
9,"[girl, girl]"


`6` 전처리 후 코퍼스로 통합

In [132]:
def combine(sentence):
    return ' '.join(sentence)

In [133]:
df['combined_corpus'] = df['cleaned_tokens'].apply(combine)

df[['combined_corpus']]

Unnamed: 0,combined_corpus
0,make one film say make really bad movie like s...
1,film film
2,new york joan barnard elvire audrey barnard jo...
3,film film jump send n't jump radio n't send re...
4,site movie bad even movie movie make movie spe...
5,ehle northam wonderful wonderful ehle northam ...
6,role movie n't author book funny author author...
7,plane ceo search rescue mission call ceo harla...
8,gritty movie movie keep sci-fi good keep suspe...
9,girl girl


***

# 05. 정수 인코딩

`-` 토큰화된 각 단어에 특정 정수를 맵핑하여 고유 번호로 사용하는 방법

* 가장 일반적인 방법 : 단어의 등장 빈도를 기준으로 정렬한 다음 인덱스를 부여하는 방식

`1` 하나의 로우 정수 인코딩

In [135]:
from collections import Counter

tokens = df['cleaned_tokens'][4]

vocab = Counter(tokens)
vocab = vocab.most_common()

print(vocab)

[('movie', 10), ('jim', 7), ('stand-up', 3), ('day', 3), ('really', 3), ('terrible', 3), ('site', 2), ('bad', 2), ('even', 2), ('make', 2), ('special', 2), ('describe', 2), ('like', 2), ('actor', 2), ('love', 2), ('stand', 2), ('comedian', 2)]


`2` 단어와 코퍼스 안에서 해당 단어의 등장 빈도가 튜플 형태로 매칭되어 리스트 형태로 저장되어있음

* 해당 결과를 가지고 각 단어에 인덱스를 부여

In [136]:
word_to_idx = {}
i = 0

for (word, frequency) in vocab:
    i = i + 1
    word_to_idx[word] = i

print(word_to_idx)

{'movie': 1, 'jim': 2, 'stand-up': 3, 'day': 4, 'really': 5, 'terrible': 6, 'site': 7, 'bad': 8, 'even': 9, 'make': 10, 'special': 11, 'describe': 12, 'like': 13, 'actor': 14, 'love': 15, 'stand': 16, 'comedian': 17}


`3` 토큰들을 부여된 인덱스로 변경

In [137]:
encoded_idx = []

for token in tokens:
    idx = word_to_idx[token]
    encoded_idx.append(idx)

print(encoded_idx)

[7, 1, 8, 9, 1, 1, 10, 1, 11, 12, 1, 1, 12, 1, 2, 10, 3, 4, 3, 2, 13, 2, 14, 15, 16, 4, 17, 11, 2, 4, 9, 7, 15, 2, 3, 2, 14, 1, 16, 17, 2, 13, 5, 6, 5, 6, 1, 6, 5, 8, 1]


`4` 전체 데이터프레임에 적용

* `sum()`함수를 사용 

In [142]:
tokens = sum(df["cleaned_tokens"], [])
print(tokens[:5])

['make', 'one', 'film', 'say', 'make']


* 합쳐진 토큰 리스트로 빈도를 계산하고 많이 등장한 순으로 정렬하여 인덱스를 부여

In [143]:
word_to_idx = {}
i = 0
tokens = sum(df['cleaned_tokens'], [])

vocab = Counter(tokens)
vocab = vocab.most_common()

for (word, frequency) in vocab:
    i = i + 1
    word_to_idx[word] = i

In [146]:
print(word_to_idx)

{'movie': 1, 'film': 2, "n't": 3, 'scene': 4, 'bad': 5, 'time': 6, 'reason': 7, 'make': 8, 'jim': 9, 'good': 10, 'one': 11, 'like': 12, 'could': 13, "'re": 14, 'quastel': 15, 'really': 16, 'even': 17, 'monster': 18, 'joan': 19, 'love': 20, 'author': 21, 'try': 22, 'dialogue': 23, 'idea': 24, 'italy': 25, 'colleague': 26, 'maggot': 27, 'end': 28, 'watch': 29, 'jump': 30, 'radio': 31, 'stand-up': 32, 'day': 33, 'terrible': 34, 'ehle': 35, 'northam': 36, 'search': 37, 'rescue': 38, 'call': 39, 'knowles': 40, 'henriksen': 41, 'easily': 42, 'see': 43, 'appear': 44, 'get': 45, 'character': 46, 'think': 47, 'use': 48, 'whether': 49, 'need': 50, 'though': 51, 'sci-fi': 52, 'look': 53, 'say': 54, 'new': 55, 'york': 56, 'barnard': 57, 'elvire': 58, 'audrey': 59, 'john': 60, 'saxon': 61, 'etruscan': 62, 'tomb': 63, 'drug': 64, 'story': 65, 'romantic': 66, 'waste': 67, 'etrusco': 68, 'send': 69, 'reporter': 70, 'fear': 71, 'site': 72, 'special': 73, 'describe': 74, 'actor': 75, 'stand': 76, 'comed

* 함수를 작성하여 토큰들에 정수 인코딩 적용

In [147]:
def idx_encoder(tokens, word_to_idx):
    encoded_idx = []
    
    for token in tokens:
        idx = word_to_idx[token]
        encoded_idx.append(idx)
        
    return encoded_idx

df['integer_encoded'] = df['cleaned_tokens'].apply(lambda x: idx_encoder(x, word_to_idx))
df[['integer_encoded']]

Unnamed: 0,integer_encoded
0,"[8, 11, 2, 54, 8, 16, 5, 1, 12, 54, 8, 16, 5, ..."
1,"[2, 2]"
2,"[55, 56, 19, 57, 58, 59, 57, 60, 61, 25, 62, 6..."
3,"[2, 2, 30, 69, 3, 30, 31, 3, 69, 70, 71, 30, 7..."
4,"[72, 1, 5, 17, 1, 1, 8, 1, 73, 74, 1, 1, 74, 1..."
5,"[35, 36, 78, 78, 35, 36, 79, 79, 35, 36]"
6,"[80, 1, 3, 21, 81, 82, 21, 21, 80, 3, 82, 83, ..."
7,"[85, 86, 37, 38, 87, 39, 86, 88, 40, 89, 41, 9..."
8,"[120, 1, 1, 121, 52, 10, 121, 122, 53, 1, 52, ..."
9,"[123, 123]"


***

# 06. 패딩

`-` 정수 인코딩 수행 후, 다수의 문장들을 서로 길이를 맞춰서 행렬 형태로 만드는 작업

* 이점 : 좀 더 복잡한 연산을 쉽게 처리하는 것이 가능해짐

## 제로 패딩

`-` 가장 긴 문장의 길이를 구하여 해당 값을 기준으로 문장 길이를 맞추는 방법

* 비어있는 값은 0으로 채운다.

`1` 기존 정수 인코딩한 데이터에서 최대 토큰이 몇 개인지 확인

In [150]:
max_len = max(len(item) for item in df['integer_encoded'])

print('토큰의 최대 개수:', max_len)

토큰의 최대 개수: 200


`2` 해당 값을 기준으로 다른 문장(코퍼스)들의 길이가 `200`이 되도록 `0`을 채워 넣음

In [151]:
for tokens in df['integer_encoded']:
    while len(tokens) < max_len:
        tokens.append(0)

df[['integer_encoded']]

Unnamed: 0,integer_encoded
0,"[8, 11, 2, 54, 8, 16, 5, 1, 12, 54, 8, 16, 5, ..."
1,"[2, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
2,"[55, 56, 19, 57, 58, 59, 57, 60, 61, 25, 62, 6..."
3,"[2, 2, 30, 69, 3, 30, 31, 3, 69, 70, 71, 30, 7..."
4,"[72, 1, 5, 17, 1, 1, 8, 1, 73, 74, 1, 1, 74, 1..."
5,"[35, 36, 78, 78, 35, 36, 79, 79, 35, 36, 0, 0,..."
6,"[80, 1, 3, 21, 81, 82, 21, 21, 80, 3, 82, 83, ..."
7,"[85, 86, 37, 38, 87, 39, 86, 88, 40, 89, 41, 9..."
8,"[120, 1, 1, 121, 52, 10, 121, 122, 53, 1, 52, ..."
9,"[123, 123, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,..."


`-` 결과 확인

In [154]:
[len(i) for i in df['integer_encoded']]

[200, 200, 200, 200, 200, 200, 200, 200, 200, 200]