## Text Tokenization

### 1) 문장 토큰화

In [10]:
import nltk
nltk.download('punkt')
nltk.download('stopwords') 
nltk.download('wordnet')

[nltk_data] Downloading package punkt to C:\Users\Miso
[nltk_data]     CHOI\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to C:\Users\Miso
[nltk_data]     CHOI\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to C:\Users\Miso
[nltk_data]     CHOI\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [2]:
from nltk import sent_tokenize

text_sample = '처음부터 Google은 최고의 사용자 환경을 제공하는 데 초점을 맞췄습니다. \
Google은 새로운 인터넷 브라우저를 개발하든 홈페이지의 디자인을 새롭게 \
변경하든 언제나 내부의 목표나 수익보다는 사용자에게 최상의 서비스를 \
제공하는 것을 우선 고려합니다.'

# 문장 자르는 함수 : sent_tokenize
sentences = sent_tokenize(text = text_sample)
print(type(sentences),len(sentences))
print(sentences)

<class 'list'> 2
['처음부터 Google은 최고의 사용자 환경을 제공하는 데 초점을 맞췄습니다.', 'Google은 새로운 인터넷 브라우저를 개발하든 홈페이지의 디자인을 새롭게 변경하든 언제나 내부의 목표나 수익보다는 사용자에게 최상의 서비스를 제공하는 것을 우선 고려합니다.']


### 2) 단어 토큰화

In [5]:
sentence = '처음부터 Google은 최고의 사용자 환경을 제공하는 데 초점을 맞췄습니다.'

# 공백 기준으로 단어 단위로 구분하는 함수 : word_tokenize
words = word_tokenize(sentence)
print(type(words), len(words))
print(words) # 마침표, 쉼표도 잘림

<class 'list'> 10
['처음부터', 'Google은', '최고의', '사용자', '환경을', '제공하는', '데', '초점을', '맞췄습니다', '.']


### 3) 여러 문장들에 대한 단어 토큰화 (함수 생성)

In [14]:
from nltk import word_tokenize

# 함수 생성: 여러 문장 -> 문장별 토큰화된 단어 
def tokenize_text(text):
    # 문장별로 분리
    sentences = sent_tokenize(text)
    
    # 분리된 문장별 단어 토큰화
    word_tokens = [word_tokenize(sentence) for sentence in sentences]
    return word_tokens
    
    
text_sample = '처음부터 Google은 최고의 사용자 환경을 제공하는 데 초점을 맞췄습니다. \
Google은 새로운 인터넷 브라우저를 개발하든 홈페이지의 디자인을 새롭게 \
변경하든 언제나 내부의 목표나 수익보다는 사용자에게 최상의 서비스를 \
제공하는 것을 우선 고려합니다.'

word_tokens = tokenize_text(text_sample)
print(type(word_tokens), len(word_tokens))
print(word_tokens)

<class 'list'> 2
[['처음부터', 'Google은', '최고의', '사용자', '환경을', '제공하는', '데', '초점을', '맞췄습니다', '.'], ['Google은', '새로운', '인터넷', '브라우저를', '개발하든', '홈페이지의', '디자인을', '새롭게', '변경하든', '언제나', '내부의', '목표나', '수익보다는', '사용자에게', '최상의', '서비스를', '제공하는', '것을', '우선', '고려합니다', '.']]


## n-gram

In [17]:
from nltk import ngrams

sentence = '처음부터 Google은 최고의 사용자 환경을 제공하는 데 초점을 맞췄습니다.'
words = word_tokenize(sentence)

all_grams = ngrams(words,3)
n_grams = [ngram for ngram in all_grams]
print(n_grams)

[('처음부터', 'Google은', '최고의'), ('Google은', '최고의', '사용자'), ('최고의', '사용자', '환경을'), ('사용자', '환경을', '제공하는'), ('환경을', '제공하는', '데'), ('제공하는', '데', '초점을'), ('데', '초점을', '맞췄습니다'), ('초점을', '맞췄습니다', '.')]


### Stopwords 제거

In [32]:
import pandas as pd
# 영어의 경우, nltk에서 stopwords 제공 (179개)
# stopwords = nltk.corpus.stopwords.words('english')

# 한국어는 제공X -> 조사, 접속사, 전치사, 어미, 감탄사 등을 담은 텍스트 파일 생성함
df_stop = pd.read_table('./stopwords_korean.txt', header = None, sep = "\n")
list_stop_kr = list(pd.Series(df_stop[0]))

all_tokens = []

for sentence in word_tokens:
    filtered_words = []
    for word in sentence:
        if word not in list_stop_kr:
            filtered_words.append(word)
    all_tokens.append(filtered_words)
    
print(all_tokens)

[['처음부터', 'Google은', '최고의', '사용자', '환경을', '제공하는', '데', '초점을', '맞췄습니다', '.'], ['Google은', '새로운', '인터넷', '브라우저를', '개발하든', '홈페이지의', '디자인을', '새롭게', '변경하든', '언제나', '내부의', '목표나', '수익보다는', '사용자에게', '최상의', '서비스를', '제공하는', '것을', '고려합니다', '.']]


### Stemming과 Lemmatization

In [12]:
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer() # 객체 생성

print(stemmer.stem('working'), stemmer.stem('works'), stemmer.stem('worked'))
print(stemmer.stem('amusing'), stemmer.stem('amuses'), stemmer.stem('amused'))
print(stemmer.stem('happier'), stemmer.stem('happiest'))
print(stemmer.stem('fancier'), stemmer.stem('fanciest'))

work work work
amus amus amus
happy happiest
fant fanciest


In [11]:
from nltk.stem import WordNetLemmatizer

lemma = WordNetLemmatizer()
# 품사를 찾아서 넣어줘야 함 (v: 동사, a: 형용사)
print(lemma.lemmatize('amusing','v'), lemma.lemmatize('amuses','v'), lemma.lemmatize('amused','v'))
print(lemma.lemmatize('happier','a'), lemma.lemmatize('happiest','a'))
print(lemma.lemmatize('fancier','a'), lemma.lemmatize('fanciest','a'))
# Lemmatization이 Stemming보다 정교하고 의미론적 기반에서 단어 원형을 찾아줌

amuse amuse amuse
happy happy
fancy fancy
