## Tokenization
주어진 데이터를 토큰이라 불리는 단위로 나누는 작업으로 토큰이 되는 기준은 설정하기에 따라 어절, 단어, 형태소, 음절, 자소 등 다를 수 있다. 일반적으로 Character-based Tokenization / Word-based Tokenization / Subword-based Tokenization으로 구분된다.

In [1]:
import nltk
nltk.download('punkt')

from nltk.tokenize import word_tokenize
from nltk.tokenize import WordPunctTokenizer
from nltk.tokenize import TreebankWordTokenizer

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\LegendKi\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


- nltk에서는 여러 tokenizer들을 제공하며 라이브러리에 있는 함수들을 사용해 사전에 정의된 tokenizer의 규칙에 따라 쉽게 자연어 문장을 토큰화 할 수 있다.

In [2]:
text = "You won't be able to know about natural language perfectly, but you need to master a number of preprocessing skills to perform natural language processing."

## 단어 토큰화

### word_tokenize
- nltk의 word_tokenize는 문장을 단어 기반으로 토큰화하며 space와 구두 점을 기준으로 토큰화 한다. 
- 해당 함수는 won't를 wo / n't로 분리 하는 것을 확인할 수 있다.

In [3]:
word_tokenize(text)

['You',
 'wo',
 "n't",
 'be',
 'able',
 'to',
 'know',
 'about',
 'natural',
 'language',
 'perfectly',
 ',',
 'but',
 'you',
 'need',
 'to',
 'master',
 'a',
 'number',
 'of',
 'preprocessing',
 'skills',
 'to',
 'perform',
 'natural',
 'language',
 'processing',
 '.']

### WordPunctTokenizer
- WordPunctTokenizer는 word_tokenize에 대한 대안으로써 구두점을 별도로 분류하는 특징을 가지고 있기 때문에 word_tokenize와 달리 won't를 won과 t로 분리한다.

In [4]:
punct_tokenizer = WordPunctTokenizer()

punct_tokenizer.tokenize(text)

['You',
 'won',
 "'",
 't',
 'be',
 'able',
 'to',
 'know',
 'about',
 'natural',
 'language',
 'perfectly',
 ',',
 'but',
 'you',
 'need',
 'to',
 'master',
 'a',
 'number',
 'of',
 'preprocessing',
 'skills',
 'to',
 'perform',
 'natural',
 'language',
 'processing',
 '.']

### TreebankWordTokenizer
- TreebankWordTokenizer는 가장 표준적인 방법의 토큰화 방법으로 사용되는 tokenizer이다.
- TreebankWordTokenizer는 두가지 규칙을 갖는다.
    - 1. 하이폰으로 구성된 단어는 하나로 유지한다.
    - 2. dosen't와 같이 어퍼스트로피로 접어가 함께하는 단어는 분리해준다.

In [5]:
tree_tokenizer = TreebankWordTokenizer()

tree_tokenizer.tokenize(text)

['You',
 'wo',
 "n't",
 'be',
 'able',
 'to',
 'know',
 'about',
 'natural',
 'language',
 'perfectly',
 ',',
 'but',
 'you',
 'need',
 'to',
 'master',
 'a',
 'number',
 'of',
 'preprocessing',
 'skills',
 'to',
 'perform',
 'natural',
 'language',
 'processing',
 '.']

## 문장 토큰화
- nltk.sent_tokenize를 사용하면 마침표에 따라 여러 문장들을 문장 단위로 구분할 수 있다.
- sent_tokenize는 단순히 마침표의 유무 만으로 문장의 종결여부를 판단하지 않는다.

In [6]:
sentences = "NLP stands for Natural Language Processing. \
It is a branch of artificial intelligence (AI) that focuses on the interaction between computers and human language. \
NLP combines techniques from linguistics, computer science, and machine learning to enable computers to understand, interpret, \
and generate human language in a way that is meaningful and useful."

In [7]:
nltk.sent_tokenize(sentences) 

['NLP stands for Natural Language Processing.',
 'It is a branch of artificial intelligence (AI) that focuses on the interaction between computers and human language.',
 'NLP combines techniques from linguistics, computer science, and machine learning to enable computers to understand, interpret, and generate human language in a way that is meaningful and useful.']

In [8]:
sentences = "I am actively looking for Ph.D. students. and you are a Ph.D student."

In [9]:
nltk.sent_tokenize(sentences) 

['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']

## Cleaning
코퍼스 내에서 tokenize 작업에 방해가 되거나 의미가 없는 부분의 텍스트, 노이즈를 제거하는 작업으로 tokenize 전에 정제를 하기도 하지만 이후에도 여전히 남아있는 노이즈들을 제거하기 위해 지속적으로 수행한다. 이 때 노이즈는 특수 문자같은 아무 의미를 갖지않는 글자들을 의미하기도 하지만 분석하고 하는 목적에 맞지 않는 불필요한 단어들을 의미한다.

In [10]:
import nltk
from nltk.corpus import stopwords
nltk.download('stopwords') 

stop=set(stopwords.words('english'))
print(stop)

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\LegendKi\AppData\Roaming\nltk_data...


{'itself', 'no', 'is', 'by', 'above', 'o', 've', "you'll", "you're", 'after', 'only', 'didn', 'how', 'ain', "aren't", 'into', 'in', "doesn't", 'yourselves', 'was', 'they', 'own', 'mightn', 'our', 'but', "should've", 't', 'his', 'under', 'once', "hasn't", 'both', 'so', 'theirs', 'weren', 'too', 'any', 'should', 'shouldn', 'doesn', 'and', 'haven', "weren't", 'hadn', 'hers', 'he', 'these', 'hasn', 'most', 'of', 'can', 'during', 'couldn', 'needn', "she's", 'while', 'each', 'if', "isn't", 'between', 'isn', 'him', "shouldn't", 'against', 'why', "hadn't", 'y', 'myself', 'you', 'here', 'where', 'been', 'your', 'for', 'she', 'down', 'are', 'ma', 'me', 'yours', 'am', 'a', 'wasn', 're', 'not', "couldn't", "haven't", "you'd", 'before', 'all', 'to', 'their', "needn't", "wouldn't", 'off', 'when', 'same', 'with', 'other', 'aren', 'its', 'were', 'doing', 'the', 'whom', "you've", 'than', 'from', "didn't", "wasn't", 'himself', 'do', "shan't", 'that', 'd', 'my', 'ourselves', 's', 'such', 'now', 'themselv

[nltk_data]   Unzipping corpora\stopwords.zip.


nltk에서는 사전에 정의된 세트를 갖고 있으며 쉽게 로드하여 사용할 수 있따. 이를 활용해 불용어를 제외한 단어들을 쉽게 추출한다.

In [11]:
sen="I want to go to shopping and a I want to buy some of snack"
tokens=nltk.word_tokenize(sen)

clean_tokens=[]
for tok in tokens:
  if len(tok.lower())>1 and (tok.lower() not in stop): 
    clean_tokens.append(tok)


print("불용어 포함: ",tokens)
print("불용어 미포함: ",clean_tokens)

불용어 포함:  ['I', 'want', 'to', 'go', 'to', 'shopping', 'and', 'a', 'I', 'want', 'to', 'buy', 'some', 'of', 'snack']
불용어 미포함:  ['want', 'go', 'shopping', 'want', 'buy', 'snack']


## Normalization
Normalization은 의미가 중복되거나 의미론적으로 유사한 단어들을 하나로 통합하거나 단어의 원형을 찾아 통일해주는 작업으로 크게 Stemming과 Lemmatization이 있다.

### Stemming
- stem : 줄기라는 뜻을 가진 영어단어로 언어학에서는 stem을 어간이라고 한다.
- 어간은 굴절하는 단어에서 변화하지 않는 부분을 의미하며 stemming이란 어간 추출을 말한다.
- 예를 들어 going이라는 단어가 있다면 Stemming을 진행할 시 go가 된다. Computers라는 단어를 Stemming을 진행할 시 Comput를 추출하는 과정을 Stemming이라고 한다.

In [12]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

In [13]:
s = PorterStemmer() 
text = "This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
words = word_tokenize(text)
print(words)

['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']


In [14]:
for i in words:
  print(f'{i} ==> {s.stem(i)}')

This ==> thi
was ==> wa
not ==> not
the ==> the
map ==> map
we ==> we
found ==> found
in ==> in
Billy ==> billi
Bones ==> bone
's ==> 's
chest ==> chest
, ==> ,
but ==> but
an ==> an
accurate ==> accur
copy ==> copi
, ==> ,
complete ==> complet
in ==> in
all ==> all
things ==> thing
-- ==> --
names ==> name
and ==> and
heights ==> height
and ==> and
soundings ==> sound
-- ==> --
with ==> with
the ==> the
single ==> singl
exception ==> except
of ==> of
the ==> the
red ==> red
crosses ==> cross
and ==> and
the ==> the
written ==> written
notes ==> note
. ==> .


### Lemmatization
- Lemmatization이란 문장 속에서 다양한 형태롤 활용된 단어의 표제어를 찾는 일을 뜻한다.
- 여기서 말하는 표제어란 사전에서 단어의 뜻을 찾을 때 쓰는 기본형으로 Lemmatization은 단어의 원형을 추출해주는 역할을 한다.

In [15]:
from nltk.stem import WordNetLemmatizer
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\LegendKi\AppData\Roaming\nltk_data...


True

In [16]:
lemmatizer = WordNetLemmatizer()
words = ['doing', 'has', 'going', 'loves', 'lives', 'flying', 'dies', 'watching', 'started', 'seen']

In [17]:
for i in words:
  lemma = lemmatizer.lemmatize(i, pos='v')
  print(f'{i} ==> {lemma}')

doing ==> do
has ==> have
going ==> go
loves ==> love
lives ==> live
flying ==> fly
dies ==> die
watching ==> watch
started ==> start
seen ==> see


## Edit Distance
Edit Distance란 2개의 문자열이 얼만큼 다른가를 거리개념으로 치환해 숫자로 표현한 것으로 Edit Distance에는 삽입, 삭제, 교체로 크게 3가지 연산이 존재한다.

In [18]:
import nltk
from nltk.metrics import edit_distance

In [19]:
print(edit_distance("CAT","HAT"))

1
