# 파이썬 텍스트마이닝 완벽 가이드 실습

## 2장. 텍스트 전처리

### 2.2. 토큰화

In [32]:
import nltk
# nltk.download()

In [33]:
para = "hello everyone. It's good to see you. Let's start our text mining class!"

In [34]:
# 문장 단위 토큰화
from nltk.tokenize import sent_tokenize

# 단어 단위 토큰화
# 문장 부호도(. , ! 등) 별도의 단어로 토큰화. 's 로 토큰화.
from nltk.tokenize import word_tokenize

# 단어 단위 토큰화
# 문장 부호도(. , ! 등) 별도의 단어로 토큰화. ' 로 토큰화.
from nltk.tokenize import WordPunctTokenizer

# 정규표현식을 기반으로 토큰화
from nltk.tokenize import RegexpTokenizer

In [35]:
# 단어의 단위로 \w를 이용하겠다. (\w 는 문자, 숫자, _를 포함)
tokenizer = RegexpTokenizer("[\w]+")

In [36]:
tokens = tokenizer.tokenize(para.lower())
print(tokens)

['hello', 'everyone', 'it', 's', 'good', 'to', 'see', 'you', 'let', 's', 'start', 'our', 'text', 'mining', 'class']


#### 2.2.4. 노이즈와 불용어 제거

In [37]:
# nltk의 불용어 사전 기반으로 제거
from nltk.corpus import stopwords

# 중복되지 않도록 set으로 변경 후 사용
english_stops = set(stopwords.words('english'))

In [38]:
# nltk의 불용어 사전 확인
print(english_stops)

{'after', "needn't", 'does', 'through', "hasn't", 'won', 'until', "that'll", "shouldn't", 'so', 'both', 'll', "you'll", 'me', 'needn', "aren't", 've', 'doesn', "mustn't", 'or', 'but', 'do', 'she', 'hadn', 'your', 'now', 'than', 'isn', 'too', 'hasn', 'any', 'you', 'only', 'these', 'what', "isn't", 'have', 'ours', 'are', 'why', 'at', 'haven', 'here', 'them', 'up', 'ma', 'hers', 'off', 'myself', 'just', 'few', 'as', 'were', 'we', 'will', 'above', 'it', "you've", "won't", 'each', 'how', 'an', 'had', "hadn't", 'shouldn', 'wasn', 'am', 'over', 're', "didn't", 'd', 'during', 'between', 'from', 'into', 'this', 'his', 'by', 'having', 'once', 'itself', "should've", 'those', 'while', 'herself', 'under', 'was', 'yourselves', 'm', 'didn', 'before', "don't", 'he', 'that', "weren't", 'whom', 'weren', "haven't", 'against', 'no', 'again', 'further', 'most', 'be', 'with', 'for', 'wouldn', 'more', 'our', 'mightn', "you'd", 'him', 'such', 'being', 'my', 'themselves', 'about', 'her', 'yours', "it's", 't', 

In [39]:
# stopwords 제거해서 list로 다시 저장
result = [word for word in tokens if word not in english_stops]

In [40]:
print(result)

['hello', 'everyone', 'good', 'see', 'let', 'start', 'text', 'mining', 'class']


### 2.3. 정규화

In [41]:
# 어간 추출
# 일반적으로 표제어 추출에 비해 속도가 빠르지만, 추출 결과가 존재하지 않는 단어일 수 있음.
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()

In [42]:
for token in result:
    print(stemmer.stem(token))

hello
everyon
good
see
let
start
text
mine
class


In [43]:
# 표제어 추출
# 사전에 표기된 단어 기본형으로 추출.
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()

In [44]:
for token in result:
    print(lemmatizer.lemmatize(token))

hello
everyone
good
see
let
start
text
mining
class


### 2.4. 품사 태깅

In [45]:
# nltk를 이용한 품사 태깅.
print(nltk.pos_tag(tokens))

[('hello', 'NN'), ('everyone', 'NN'), ('it', 'PRP'), ('s', 'VBD'), ('good', 'JJ'), ('to', 'TO'), ('see', 'VB'), ('you', 'PRP'), ('let', 'VB'), ('s', 'VB'), ('start', 'VB'), ('our', 'PRP$'), ('text', 'NN'), ('mining', 'NN'), ('class', 'NN')]


In [53]:
# 만약 품사 태그(e.g. 'CC')에 대한 설명을 보고 싶다면
nltk.help.upenn_tagset('CC')

CC: conjunction, coordinating
    & 'n and both but either et for less minus neither nor or plus so
    therefore times v. versus vs. whether yet


In [55]:
# 원하는 품사의 단어들만 추출하고 싶다면
my_tags = ['NN', 'VB', 'JJ']
my_words = [word for word, tag in nltk.pos_tag(tokens) if tag in my_tags]
print(my_words)

['hello', 'everyone', 'good', 'see', 'let', 's', 'start', 'text', 'mining', 'class']


In [56]:
# 동음이의어의 구분을 위해 단어에 품사 정보를 추가해 구분하기
# BOW 기반 문서 분류 시 성능 개선할 수 있음
words_with_tag = ['/'.join(item) for item in nltk.pos_tag(tokens)]
print(words_with_tag)

['hello/NN', 'everyone/NN', 'it/PRP', 's/VBD', 'good/JJ', 'to/TO', 'see/VB', 'you/PRP', 'let/VB', 's/VB', 'start/VB', 'our/PRP$', 'text/NN', 'mining/NN', 'class/NN']
