# 1.Tokenization

## 1.단어 토큰화
---

- 토큰의 기준을 단어(word)로 하는 경우 단어 토큰화라고 함
- 단어(word)는 단어 단위 외에도 단어구, 의미를 갖는 문자열로 간주되기도 함

> Time is an illusion. Lunchtime double so! <br>
> "Time", "is", "an", "illusion", "Lunchtime", "dobule", "so"

## 2.토큰화 선택
---

- 토큰화의 기준 : 해당 데이터를 가지고 어떤 용도로 사용할 것인지에 따라서 그 용도에 영향이 없는 기준으로 정함
- 예시로 영어권의 아포스트로피(') 가 있음

> Don't / Jone's 의 경우 아포스트로피의 처리

In [1]:
from nltk.tokenize import word_tokenize
from nltk.tokenize import WordPunctTokenizer
from tensorflow.keras.preprocessing.text import text_to_word_sequence

In [2]:
sentence = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a patry shop."

print(f"word_tokenize: {word_tokenize(sentence)}")
print()
print(f"WrodPunctTokenzier: {WordPunctTokenizer().tokenize(sentence)}")
print()
print(f"tensorflow_tokenizer: {text_to_word_sequence(sentence)}")

word_tokenize: ['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'patry', 'shop', '.']

WrodPunctTokenzier: ['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'patry', 'shop', '.']

tensorflow_tokenizer: ["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'patry', 'shop']


## 3.토큰화에서 고려 사항
---

1. 구두점이나 특수 문자를 단순 제외해서는 안 됨
2. 줄임말과 단어 내에 띄어쓰기가 있는 경우

In [5]:
# TreebankWordTokenizing

from nltk.tokenize import TreebankWordTokenizer

tokenizer = TreebankWordTokenizer()
text = "Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print('Tree Bank Tokenizer: ', tokenizer.tokenize(text))

Tree Bank Tokenizer:  ['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


## 4.문장 토큰화(Sentence Tokenization)
---

- 토큰의 단위가 문장(sentence)일 경우
- 코퍼스 내에서 문장 단위로 구분하는 작업 (문장 분류로도 불림)
- 갖고 있는 코퍼스가 정제되지 않은 상태라면, 코퍼스를 문장 단위로 토큰화 할 필요가 있음
- 단순히 마침표(.) 단위가 문장의 단위를 구성하지는 않음
- 사용하는 코퍼스가 어떤 국적의 언어인지, 해당 코퍼스 내에서 특수문자들이 어떻게 사용되고 있는지에 따라서 직접 규칙들을 정의할 수 있음

In [6]:
from nltk.tokenize import sent_tokenize

text = "His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
print('문장 토큰화1 :',sent_tokenize(text))

문장 토큰화1 : ['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


In [7]:
text = "I am actively looking for Ph.D. students. and you are a Ph.D student."
print('문장 토큰화2 :',sent_tokenize(text))

문장 토큰화2 : ['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


In [8]:
import kss

text = '딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다. 이제 해보면 알걸요?'
print('한국어 문장 토큰화 :',kss.split_sentences(text))

[Kss]: Oh! You have mecab in your environment. Kss will take this as a backend! :D



한국어 문장 토큰화 : ['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다.', '이제 해보면 알걸요?']


## 5.한국어에서의 토큰화의 어려움
---
- 한국어는 영어와는 달리 띄어쓰기만으로는 토큰화를 하기에 부족
- 한국어는 '어절' NLP에서 어절 토큰화가 지양되고 있음 (어절 토큰화와 단어 토큰화가 같지 않기에)
- 한국어는 교착어(조사, 어미등을 붙여서 말을 만드는 언어)이기 때문

### 5-1.교착어의 특성
- 서로 다른 조사가 붙어서 다른 단어로 인식이 되면 처리가 힘들고 번거로움
- 한국어에서의 조사는 분리해 줄 필요가 있음
- 한국어 토큰화에서는 **형태소(morpheme)**란 개념을 이해해야 함
- 형태소란 `뜻을 가진 가장 작은 말의 단위`를 말함
- 형태소는 2가지의 종류가 있음
    - `자립 형태소`: 접사, 어미, 조사와 상관없이 자립하여 사용할 수 있는 형태소로 그 자체로 단어가 됨
        - 체언 : 명사, 대명사, 수사
        - 수식언 : 관형사, 부사
        - 감탄사
    - `의존 형태소`: 다른 형태소와 결합하여 사용되는 형태소
        - 접사, 어미, 조사, 어간
    - 예시) '에디가 책을 읽었다'
        - 자립 형태소 : 에디, 책
        - 의존 : -가, -을, 읽-, -었, -다
- 한국어에서 영어에서의 단어 토큰화와 유사한 형태를 얻으려면 어절 토큰화가 아닌 형태소 토큰화가 수행되어야 함

### 5-2.잘 지켜지지 않는 띄어쓰기
- 한국어는 많은 경우에 있어서 띄어쓰기가 <span style="color:red">틀렸거나 지켜지지 않는</span> 코퍼스가 많음
- 이는 한국어는 띄어쓰기가 정확히 지켜지지 않더라도 글을 쉽게 이해할 수 있는 언어이기 때문


## 6.품사 태깅(Part-of-speech tagging)
---
- 단어 표기는 같지만 품사에 따라서 단어 의미가 달라지기도 함
- 단어 의미를 제대로 파악하기 위해서는 해당 단어가 어떤 품사로 쓰였는지 보는 것이 주요 지표가 될 수 있음
- 단어 토큰화 과정에서 각 단어가 어떤 품사로 쓰였는지를 구분해놓기도 하는데, 이작업을 품사 태깅이라고 함

## 7.NLTK와 KoNLPy를 이용한 영어, 한국어 토큰화

In [9]:
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag

text = "I am actively looking for Ph.D. students. and you are a Ph.D. student."
tokenized_sentence = word_tokenize(text)

print(f'단어 토큰화: {tokenized_sentence}')
print(f"품사 태깅: {pos_tag(tokenized_sentence)}")

단어 토큰화: ['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']
품사 태깅: [('I', 'PRP'), ('am', 'VBP'), ('actively', 'RB'), ('looking', 'VBG'), ('for', 'IN'), ('Ph.D.', 'NNP'), ('students', 'NNS'), ('.', '.'), ('and', 'CC'), ('you', 'PRP'), ('are', 'VBP'), ('a', 'DT'), ('Ph.D.', 'NNP'), ('student', 'NN'), ('.', '.')]


<details>
<summary>`Penn Treebank Pog Tags`에서 각 태그의 의미는 다음을 참조</summary>
<div markdown="1">

|순서|품사 태그|설명|예시|NLTK|
|---|-------|---|---|---|
|1|CC|coordinating conjunction|and|O|
|2|CD|cardinal number|1, third|O|
|3|DT|determiner|the|O|
|4|EX|existential there|there is|O|
|5|FW|foreign word|les|O|
|6|IN|preposition, subordinating conjunction|in, of, like|O|
|7|IN/that|that as subordinator|that||
|8|JJ|adjective|green|O|
|9|JJR|adjective, comparative|greener|O|
|10|JJS|adjective, superlative|greenest|O|
|11|LS|list marker|1)|O|
|12|MD|modal|could, will|O|
|13|NN|noun, singular or mass|table|O|
|14|NNS|noun plural|tables|O|
|15|NP|proper noun, singular|John|O|
|16|NPS|proper noun, plural|Vikings|O|
|17|PDT|predeterminer|both the boys|O|
|18|POS|possessive ending|friend’s|O|
|19|PP|personal pronoun|I, he, it|O|
|20|PP$|possessive pronoun|my, his|O|
|21|RB|adverb|however, usually, naturally, here, good|O|
|22|RBR|adverb, comparative|better|O|
|23|RBS|adverb, superlative|best|O|
|24|RP|particle|give up|O|
|25|SENT|Sentence-break punctuation|. ! ?||
|26|SYM|Symbol|/ [ = *||
|27|TO|infinitive ‘to’|togo|O|
|28|UH|interjection|uhhuhhuhh|O|
|29|VB|verb be, base form|be|O|
|30|VBD|verb be, past tense|was, were|O|
|31|VBG|verb be, gerund/present participle|being|O|
|32|VBN|verb be, past participle|been|O|
|33|VBP|verb be, sing. present, non-3d|am, are|O|
|34|VBZ|verb be, 3rd person sing. present|is|O|
|35|VH|verb have, base form|have||
|36|VHD|verb have, past tense|had||
|37|VHG|verb have, gerund/present participle|having||
|38|VHN|verb have, past participle|had||
|39|VHP|verb have, sing. present, non-3d|have||
|40|VHZ|verb have, 3rd person sing. present|has||
|41|VV|verb, base form|take||
|42|VVD|verb, past tense|took||
|43|VVG|verb, gerund/present participle|taking||
|44|VVN|verb, past participle|taken||
|45|VVP|verb, sing. present, non-3d|take||
|46|VVZ|verb, 3rd person sing. present|takes||
|47|WDT|wh-determiner|which|O|
|48|WP|wh-pronoun|who, what|O|
|49|WP$|possessive wh-pronoun|whose|O|
|50|WRB|wh-abverb|where, when|O|
|51|#|#|#||
|52|$|$|$||
|53|“|Quotation marks|‘ “||
|54|```` | Opening quotation marks | ‘ “ | |||||
|55|(|Opening brackets|( {||
|56|)|Closing brackets|) }||
|57|,|Comma|,||
|58|:|Punctuation|– ; : — …|
</div>
</details>

- 한국어 처리를 위해서는 몇 가지 형태소 분석기가 존재
    - Okt(Open Korea Text)
    - Mecab
    - Komoran
    - Hannanum
- 한국어 NLP에서 형태소 분석기를 사용하여 단어 토큰화(형태소 토큰화)를 수행

In [11]:
from konlpy.tag import Okt
from konlpy.tag import Kkma

okt = Okt()
kkma = Kkma()

print('OKT 형태소 분석 :',okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('OKT 품사 태깅 :',okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('OKT 명사 추출 :',okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요")) 

OKT 형태소 분석 : ['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']
OKT 품사 태깅 : [('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]
OKT 명사 추출 : ['코딩', '당신', '연휴', '여행']


# 2.정제(Cleaning)와 정규화(Normalization)
---
- 토큰화: 코퍼스에서 용도에 맞게 토큰을 분류하는 작업
- 토큰화 작업 전, 후에는 텍스트 데이터를 용도에 맞게 정제및 정규화하는 일을 수행
    - 정제(Cleaning): 갖고 있는 코퍼스로부터 노이즈 데이터를 제거
    - 정규화(Normalization): 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만듦
- 토큰화 작업 이후에 남은 노이즈 제거를 위해 이루어짐
- 완벽한 정제는 어렵기에 합의점을 찾아서 마무리

## 1.규칙 기반 표기가 다른 단어 통합
---
- 필요에 따라 직접 `코딩을 통해 정의할 수 있는 정규화 규칙의 예`로서 `같은 의미를 갖고 있음에도 표기가 다른 단어들`을 하나의 단어로 정규화하는 방법
- 표기가 다른 단어들을 통합하는 방법인 어간 추출(stemming)과 표제어 추출(lemmatization)이 있음

## 2.대/소문자 통합(SKIP)

## 3.불필요한 단어 제거
---
- 제거해야 하는 노이즈 데이터는 자연어가 아니면서 아무 의미도 갖지 않는 글자들(특수 문자 등)을 의미
- 또한, 분석하고자 하는 목적에 맞지 않는 불필요 단어들을 노이즈 데이터라고 함
- `불용어 제거`, `등장 빈도가 적은 단어`, `길이가 짧은 단어`를 제거

### 3-1.등장 빈도가 적은 단어
- 너무 적게 등장해서 자연어 처리에 도움이 되지 않는 단어 존재

### 3-2. 길이가 짧은 단어
- 영어권 언어에서 길이가 짧은 단어를 삭제하는 것만으로도 자연어 처리에서 크게 의미 없는 단어들을 제거하는 효과가 있음
- 한국어는 유의하지 않을 가능성이 높은데, 한국어 단어의 평균 길이는 2~3 정도로 추정

In [12]:
import re

text = "I was wondering if anyone out there could enlighten me on this car"

# 길이가 1~2인 단어들을 정규 표현식을 이용하여 삭제
shortword = re.compile(r'\W*\b\w{1,2}\b')
print(shortword.sub('',text))

 was wondering anyone out there could enlighten this car


# 3.어간 추출(Stemming) 과 표제어 추출(Lemmatization)
---
- 정규화 기법 중 단어의 개수를 줄일 수 있는 기법 `표제어 추출(Lemmatization)`과 `어간 추출(stemming)`
- 눈으로 봤을 때는 서로 다른 단어들이지만, 하나의 단어로 일반화하여 단어 수를 줄임
- 이러한 방법들은 단어의 빈도수를 기반으로 문제를 풀고자 하는 `BoW(Bag of Words)`표현을 사용하는 자연어 처리 문제에서 사용됨
- 자연어 처리에서 정규화의 지향점은 언제나 갖고 잇는 코퍼스로부터 복잡성을 줄이는 것

## 1.표제어 추출(Lemmatization)
---
- 표제어 : 기본 사전형 단어
- 뿌리 단어를 찾아서 단어의 개수를 줄일 수 있는지 판단
- 예) am, are, is 의 뿌리 단어는 be 이때 표제어는 be
- 표제어 추출을 하는 가장 섬세한 방법은 단어의 형태학적 파싱을 진행
- 형태소 : 의미를 가진 가장 작은 단위
- 형태학 : 형태소로부터 단어들을 만들어가는 학문
- 형태소의 종류로 어간(stem)과 접사(affix)가 존재
    > **어간(stem)** : 단어의 의미를 담고 있는 단어의 핵심부분 <br>
    > **접사(affix)** : 단어의 추가적인 의미를 주는 부분
- 형태학적 파싱은 `이 두가지 구성 요소를 분리하는 작업`

In [13]:
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()
words = [
            'policy', 'doing', 'organization', 'have', 'going', 'love',
            'lives', 'fly', 'dies', 'watched', 'has', 'starting'
        ]
print('표제어 추출 전: ', words)
print('표제어 추출 후: ', [lemmatizer.lemmatize(word) for word in words])

표제어 추출 전:  ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
표제어 추출 후:  ['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


In [15]:
# 의미가 불분명한 단어들

print(lemmatizer.lemmatize('dies', 'v'))
print(lemmatizer.lemmatize('watched', 'v'))
print(lemmatizer.lemmatize('has', 'v'))

die
watch
have


## 2.어간추출(Stemming)
---
- 형태학적 분석을 단순화한 버전
- 정해진 규칙만 보고 단어의 어미를 자르는 어림짐작의 작업
- 섬세한 작업은 아니므로 어간추출 후 나오는 결과 단어는 사전에 존재하지 않는 단어일 수도 있음

In [20]:
from nltk.stem import PorterStemmer
from nltk.stem import LancasterStemmer
from nltk.tokenize import word_tokenize

porter_stemmer = PorterStemmer()
lancaster_stemmer = LancasterStemmer()

sentence="This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
tokenized_sentence = word_tokenize(sentence)

print('어간 추출 전:', tokenized_sentence)
print()
print('porter 어간 추출 후:', [porter_stemmer.stem(word) for word in tokenized_sentence])
print()
print('lancaster 어간 추출 후:', [lancaster_stemmer.stem(word) for word in tokenized_sentence])

어간 추출 전: ['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']

porter 어간 추출 후: ['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']

lancaster 어간 추출 후: ['thi', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'bil', 'bon', "'s", 'chest', ',', 'but', 'an', 'acc', 'cop', ',', 'complet', 'in', 'al', 'thing', '--', 'nam', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'exceiv', 'of', 'the', 'red', 'cross', 'and', 'the', 'writ', 'not', '.']

## 3.한국어에서의 어간 추출
---
- 한국어는 5언 9품사의 구조를 가지고 있음
|언|품사|
|--|--|
|체언|명사, 대명사, 수사|
|수식언|관형사, 부사|
|관계언|조사|
|독립언|감탄사|
|용언|동사, 형용사|

- 용언에 해당되는 '동사'와 '형용사'는 어간(stem)과 어미(ending)의 결합으로 구성

### 3-1.활용(Conjugation)
- 용언의 어간이 어미를 갖는 것을 활용이라고 함
- 어간 : 용언을 활용할 때, 원칙적으로 모양이 변하지 않는 부분. 활용에서 어미에 선행하는 부분. 때론 어간의 모양이 바뀔 수 있음 (긋다, 긋고, 그어서, 그어라)
- 어미 : 용언의 어간 뒤에 붙어서 활용하면서 변하는 부분, 여러 문법적 기능을 수행
- 활용은 어간이 어미를 취할 때, 어간의 모습이 일정하다면 규칙 활용, 어간이나 어미의 모습이 변하는 불규칙 활용으로 나뉨

### 3-2.규칙 활용
- 어간이 어미를 취할 때, 어간의 모습이 일정함
    > 잡(어간) + 다(어미) = 잡다
- 단순히 분리만 해주면 쉽게 어간 추출 가능

### 3-3.불규칙 활용
- 어간이 어미를 취할 때 어간의 모습이 바뀌거나 취하는 어미가 특수한 어미일 경우
    >  ‘듣-, 돕-, 곱-, 잇-, 오르-, 노랗-’ <br>
    > ‘듣/들-, 돕/도우-, 곱/고우-, 잇/이-, 올/올-, 노랗/노라-’
- 이러한 경우에는 어간+어미의 과정에서 모습이 바뀌었으므로 단순히 분리만으로 어간추출이 되지 않고 좀 더 복잡한 규칙을 필요로 함