## 2.2 토큰화

In [1]:
# 필요한 nltk 라이브러리 다운로드
import nltk
nltk.download('punkt')  # 마침표 , 개행 문자 등의 데이터 세트를 다운로드
nltk.download('webtext')
nltk.download('wordnet')
nltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\namyo\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package webtext to
[nltk_data]     C:\Users\namyo\AppData\Roaming\nltk_data...
[nltk_data]   Package webtext is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\namyo\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\namyo\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\namyo\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

### 2.2.1 문장 토큰화
`sent_tokenize`

In [2]:
import nltk
para = "Hello everyone. It's good to see you. Let's start our text mining class!"

from nltk.tokenize import sent_tokenize

# 주어진 텍스트를 문장 단위로 토큰화. 주로 . ! ? 등을 이용
print(sent_tokenize(para))

['Hello everyone.', "It's good to see you.", "Let's start our text mining class!"]


In [3]:
paragraph_french = """Je t'ai demandé si tu m'aimais bien, Tu m'a répondu non. 
Je t'ai demandé si j'étais jolie, Tu m'a répondu non. 
Je t'ai demandé si j'étai dans ton coeur, Tu m'a répondu non."""

import nltk.data
tokenizer = nltk.data.load('tokenizers/punkt/french.pickle')
print(tokenizer.tokenize(paragraph_french))

["Je t'ai demandé si tu m'aimais bien, Tu m'a répondu non.", "Je t'ai demandé si j'étais jolie, Tu m'a répondu non.", "Je t'ai demandé si j'étai dans ton coeur, Tu m'a répondu non."]


In [4]:
para_kor = "안녕하세요, 여러분. 만나서 반갑습니다. 이제 텍스트마이닝 클래스를 시작해봅시다!"

# 한국어에 대해서도 sentence tokenizer는 잘 작동함
print(sent_tokenize(para_kor))

['안녕하세요, 여러분.', '만나서 반갑습니다.', '이제 텍스트마이닝 클래스를 시작해봅시다!']


### 2.2.2 단어 토큰화
`word_tokenize`

In [5]:
from nltk.tokenize import word_tokenize

#주어진 text를 word 단위로 tokenize함
para = "Hello everyone. It's good to see you. Let's start our text mining class!"
print(word_tokenize(para))

['Hello', 'everyone', '.', 'It', "'s", 'good', 'to', 'see', 'you', '.', 'Let', "'s", 'start', 'our', 'text', 'mining', 'class', '!']


In [6]:
from nltk.tokenize import WordPunctTokenizer

print(WordPunctTokenizer().tokenize(para))

['Hello', 'everyone', '.', 'It', "'", 's', 'good', 'to', 'see', 'you', '.', 'Let', "'", 's', 'start', 'our', 'text', 'mining', 'class', '!']


word_tokenize와 WordPunctTokenizer는 서로 다른 알고리즘에 기반

In [7]:
para_kor = "안녕하세요, 여러분. 만나서 반갑습니다. 이제 텍스트마이닝 클래스를 시작해봅시다!"
print(word_tokenize(para_kor))
print(WordPunctTokenizer().tokenize(para_kor))

['안녕하세요', ',', '여러분', '.', '만나서', '반갑습니다', '.', '이제', '텍스트마이닝', '클래스를', '시작해봅시다', '!']
['안녕하세요', ',', '여러분', '.', '만나서', '반갑습니다', '.', '이제', '텍스트마이닝', '클래스를', '시작해봅시다', '!']


### 2.2.3 정규표현식을 이용한 토큰화

In [8]:
import re
re.findall("[abc]", "How are you, boy?")

['a', 'b']

In [9]:
re.findall('[0123456789]', '3a7b5c9d')

['3', '7', '5', '9']

In [10]:
print(re.findall('[0-9]', '3a7b5c9d'))
print(re.findall('[a-zA-Z]', 'How are you, boy?'))

print(re.findall('[a-zA-Z0-9_]', '3a7b5c9d'))
print(re.findall('[\w]', '3a7b5c9d'))

print(re.findall('[\w]', "3a 7b_ '.^&5c9d"))
print(re.findall("[_]+", "a_b, c__d, e___f"))  # + : 한 번 이상의 반복을 의미
print(re.findall("[\w]+", "How are you, boy?"))  # 공백 또는 쉼표 등으로 구분되는 단어들 출력 
print(re.findall("[o]{2,4}", "oh, hoow are yoooou, boooooooy?"))  # o가 2~4회 반복된 문자열만 출력

['3', '7', '5', '9']
['H', 'o', 'w', 'a', 'r', 'e', 'y', 'o', 'u', 'b', 'o', 'y']
['3', 'a', '7', 'b', '5', 'c', '9', 'd']
['3', 'a', '7', 'b', '5', 'c', '9', 'd']
['3', 'a', '7', 'b', '_', '5', 'c', '9', 'd']
['_', '__', '___']
['How', 'are', 'you', 'boy']
['oo', 'oooo', 'oooo', 'ooo']


In [11]:
from nltk.tokenize import RegexpTokenizer

#regular expression(정규식)을 이용한 tokenizer
#단어단위로 tokenize \w:문자나 숫자를 의미 즉 문자나 숫자 혹은 '가 반복되는 것을 찾아냄
tokenizer = RegexpTokenizer("[\w']+")
print(tokenizer.tokenize("Sorry, I can't go there."))  # can't를 하나의 단어로 인식

['Sorry', 'I', "can't", 'go', 'there']


In [12]:
tokenizer = RegexpTokenizer("[\w]+") 
print(tokenizer.tokenize("Sorry, I can't go there."))

['Sorry', 'I', 'can', 't', 'go', 'there']


In [13]:
text1 = "Sorry, I can't go there."

# 주어진 텍스트를 모두 소문자로 바꾸고 3글자 이상의 단어들만 출력
tokenizer = RegexpTokenizer("[\w']{3,}")
tokenizer.tokenize(text1.lower())

['sorry', "can't", 'there']

### 2.2.4 노이즈와 불용아 제거

In [14]:
from nltk.corpus import stopwords  # 일반적으로 분석 대상이 아닌 단어들
english_stops = set(stopwords.words('english'))  # 반복이 되지 않도록 set으로 변환

text1 = "Sorry, I couldn't go to movie yesterday."

tokenizer = RegexpTokenizer("[\w']+")
tokens = tokenizer.tokenize(text1.lower())  # word_tokenize로 토큰화

# stopwords를 제외한 단어들만으로 list를 생성
result = [ word for word in tokens if word not in english_stops ]
print(result)

['sorry', 'go', 'movie', 'yesterday']


In [15]:
# nltk가 제공하는 영어 stopword를 확인
print(english_stops)

{'can', "doesn't", "wouldn't", 'only', 'until', 'same', 'hers', 'are', 'theirs', 'when', 'any', 'should', 'be', 'wouldn', 'been', 'ain', 'does', 'mustn', "you'll", 'has', 'out', 'will', 'at', 'of', 'themselves', 'some', 'himself', 'your', 'doing', 'own', 'yours', "couldn't", 'above', 'i', 'mightn', 'did', 'into', 'yourselves', 'for', "she's", 'over', 'all', 'were', 'more', 'my', 'll', 'is', 'by', 'she', "mustn't", 'being', 'but', 'had', 'which', 'do', "needn't", 'myself', 'their', 'yourself', "you'd", 'with', "mightn't", "didn't", 'such', 'the', 'again', 'whom', 'doesn', 'her', 's', 'up', 'y', 'why', 'him', 'than', 'between', 'through', 'after', 'we', "haven't", 'too', "hadn't", 'itself', 'few', "aren't", 'while', 'was', 'below', "you're", 'on', "shouldn't", 'about', 'those', 'so', 'down', 'didn', 'm', 'against', 'isn', 'wasn', 'off', 'ourselves', 'each', 'not', 'these', 'from', 'its', 'further', 'here', 'during', 'having', 'under', 'aren', 'hasn', 'how', 'he', 'before', 'there', 'it',

In [17]:
# 자신만의 stopwords를  만들고 이용
# 한글 처리에도 용이
# 나만의 stopword를 리스트로 정의
my_stopword = ['i', 'go', 'to']

result = [ word for word in tokens if word not in my_stopword ]
print(result)

['sorry', "couldn't", 'movie', 'yesterday']


## 2.3 정규화
### 2.3.1 어간 추출
- `PorterStemmer`
- `LancasterStemmer`

In [18]:
# 포터 스테머
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()
print(stemmer.stem("cooking"), stemmer.stem("cookery"), stemmer.stem("cookbooks"))

cook cookeri cookbook


In [19]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

stemmer = PorterStemmer()
para = "Hello everyone. It's good to see you. Let's start our text mining class!"
tokens = word_tokenize(para)
print(tokens)

results = [ stemmer.stem(token) for token in tokens ]
print(results)

['Hello', 'everyone', '.', 'It', "'s", 'good', 'to', 'see', 'you', '.', 'Let', "'s", 'start', 'our', 'text', 'mining', 'class', '!']
['hello', 'everyon', '.', 'it', "'s", 'good', 'to', 'see', 'you', '.', 'let', "'s", 'start', 'our', 'text', 'mine', 'class', '!']


In [20]:
# 랭카스터 스테머
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()
print(stemmer.stem("cooking"), stemmer.stem("cookery"), stemmer.stem("cookbooks"))

cook cookery cookbook


### 2.3.2 표제어 추출
- `WordNetLemmatizer` : 단어의 기본형으로 변환

In [21]:
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()

print(lemmatizer.lemmatize('cooking'))
print(lemmatizer.lemmatize('cooking', pos='v'))
print(lemmatizer.lemmatize('cookery'))
print(lemmatizer.lemmatize('cookbooks'))

cooking
cook
cookery
cookbook


In [23]:
# lemmatizing과 stemming 비교
from nltk.stem import PorterStemmer
from nltk.stem import WordNetLemmatizer

stemmer = PorterStemmer()
lemmatizer = WordNetLemmatizer()

print("stemming result : {}".format(stemmer.stem("believes")))
print("lemmatizing result : {}".format(lemmatizer.lemmatize("believes")))
print("lemmatizing result : {}".format(lemmatizer.lemmatize("belives", pos='v')))

stemming result : believ
lemmatizing result : belief
lemmatizing result : belives


## 2.4 품사 태깅
### 2.4.2 NLTK를 활용한 품사 태깅
- `nltk.pos_tag()` : (단어, 품사) 리스트 반환
- `nltk.help.upenn_tagset` : 품사의 약어의 의미와 설명을 확인

In [24]:
import nltk
from nltk.tokenize import word_tokenize

tokens = word_tokenize("Hello everyone. It's good to see you. Let's start our text mining class!")
print(nltk.pos_tag(tokens))

[('Hello', 'NNP'), ('everyone', 'NN'), ('.', '.'), ('It', 'PRP'), ("'s", 'VBZ'), ('good', 'JJ'), ('to', 'TO'), ('see', 'VB'), ('you', 'PRP'), ('.', '.'), ('Let', 'VB'), ("'s", 'POS'), ('start', 'VB'), ('our', 'PRP$'), ('text', 'NN'), ('mining', 'NN'), ('class', 'NN'), ('!', '.')]


In [25]:
nltk.help.upenn_tagset('CC')

CC: conjunction, coordinating
    & 'n and both but either et for less minus neither nor or plus so
    therefore times v. versus vs. whether yet


#### 원하는 품사의 단어들만 추출

In [26]:
my_tag_set = ['NN', 'VB', 'JJ']
my_words = [ word for word, tag in nltk.pos_tag(tokens) if tag in my_tag_set ]

print(my_words)

['everyone', 'good', 'see', 'Let', 'start', 'text', 'mining', 'class']


#### 단어에 품사 정보를 추가해 구분

In [28]:
words_with_tag = ['/'.join(item) for item in nltk.pos_tag(tokens)]
print(words_with_tag)

['Hello/NNP', 'everyone/NN', './.', 'It/PRP', "'s/VBZ", 'good/JJ', 'to/TO', 'see/VB', 'you/PRP', './.', 'Let/VB', "'s/POS", 'start/VB', 'our/PRP$', 'text/NN', 'mining/NN', 'class/NN', '!/.']


### 2.4.3 한글 형태소 분석과 품사 태깅
#### 형태소 분석
#### 품사 태깅
#### 한글 형태소 분석과 품사 태깅

In [29]:
sentence = '''절망의 반대가 희망은 아니다.
어두운 밤하늘에 별이 빛나듯
희망은 절망 속에 싹트는 거지
만약에 우리가 희망함이 적다면
그 누가 세상을 비출어줄까.
정희성, 희망 공부'''

tokens = word_tokenize(sentence)
print(tokens)
print(nltk.pos_tag(tokens))

['절망의', '반대가', '희망은', '아니다', '.', '어두운', '밤하늘에', '별이', '빛나듯', '희망은', '절망', '속에', '싹트는', '거지', '만약에', '우리가', '희망함이', '적다면', '그', '누가', '세상을', '비출어줄까', '.', '정희성', ',', '희망', '공부']
[('절망의', 'JJ'), ('반대가', 'NNP'), ('희망은', 'NNP'), ('아니다', 'NNP'), ('.', '.'), ('어두운', 'VB'), ('밤하늘에', 'JJ'), ('별이', 'NNP'), ('빛나듯', 'NNP'), ('희망은', 'NNP'), ('절망', 'NNP'), ('속에', 'NNP'), ('싹트는', 'NNP'), ('거지', 'NNP'), ('만약에', 'NNP'), ('우리가', 'NNP'), ('희망함이', 'NNP'), ('적다면', 'NNP'), ('그', 'NNP'), ('누가', 'NNP'), ('세상을', 'NNP'), ('비출어줄까', 'NNP'), ('.', '.'), ('정희성', 'NN'), (',', ','), ('희망', 'NNP'), ('공부', 'NNP')]


#### KONLPy 설치

In [30]:
from konlpy.tag import Okt
t = Okt()

#### KONLPy 형태소 분석 및 품사 태깅 기능 사용법
- `morphs` : 주어진 텍스트를 형태소 단위로 분리한다.
- `nouns` : 주어진 텍스트를 형태소 단위로 분리해서 명사만을 반환한다.
- `pos` : 주어진 텍스트를 형태소 단위로 분리하고, 각 형태소에 품사를 부착해 반환한다.

In [33]:
sentence = '''절망의 반대가 희망은 아니다.
어두운 밤하늘에 별이 빛나듯
희망은 절망 속에 싹트는 거지
만약에 우리가 희망함이 적다면
그 누가 세상을 비출어줄까.
정희성, 희망 공부'''

print('형태소 : {}'.format(t.morphs(sentence)))
print()
print('명사 : {}'.format(t.nouns(sentence)))
print()
print('품사 태깅 결과 : {}'.format(t.pos(sentence)))

형태소 : ['절망', '의', '반대', '가', '희망', '은', '아니다', '.', '\n', '어', '두운', '밤하늘', '에', '별', '이', '빛나듯', '\n', '희망', '은', '절망', '속', '에', '싹트는', '거지', '\n', '만약', '에', '우리', '가', '희망', '함', '이', '적다면', '\n', '그', '누가', '세상', '을', '비출어줄까', '.', '\n', '정희성', ',', '희망', '공부']

명사 : ['절망', '반대', '희망', '어', '두운', '밤하늘', '별', '희망', '절망', '속', '거지', '만약', '우리', '희망', '함', '그', '누가', '세상', '정희성', '희망', '공부']

품사 태깅 결과 : [('절망', 'Noun'), ('의', 'Josa'), ('반대', 'Noun'), ('가', 'Josa'), ('희망', 'Noun'), ('은', 'Josa'), ('아니다', 'Adjective'), ('.', 'Punctuation'), ('\n', 'Foreign'), ('어', 'Noun'), ('두운', 'Noun'), ('밤하늘', 'Noun'), ('에', 'Josa'), ('별', 'Noun'), ('이', 'Josa'), ('빛나듯', 'Verb'), ('\n', 'Foreign'), ('희망', 'Noun'), ('은', 'Josa'), ('절망', 'Noun'), ('속', 'Noun'), ('에', 'Josa'), ('싹트는', 'Verb'), ('거지', 'Noun'), ('\n', 'Foreign'), ('만약', 'Noun'), ('에', 'Josa'), ('우리', 'Noun'), ('가', 'Josa'), ('희망', 'Noun'), ('함', 'Noun'), ('이', 'Josa'), ('적다면', 'Verb'), ('\n', 'Foreign'), ('그', 'Noun'), ('누가', 'Noun'), (