# Chapter 2. 텍스트 전처리

## 2. 토큰화(Tokenization)

#### NLTK (https://www.nltk.org/) 설치

In [41]:
import nltk
nltk.download('punkt')
nltk.download('webtext')
nltk.download('wordnet')
nltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')
nltk.download('tagsets')

[nltk_data] Downloading package punkt to /Users/rose/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package webtext to /Users/rose/nltk_data...
[nltk_data]   Package webtext is already up-to-date!
[nltk_data] Downloading package wordnet to /Users/rose/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package stopwords to /Users/rose/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /Users/rose/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package tagsets to /Users/rose/nltk_data...
[nltk_data]   Unzipping help/tagsets.zip.


True

### 2.1 문장 토큰화(sentence tokenize)

In [5]:
para = "Hello everyone. It's good to see you. Let's start our text mining class!"

from nltk.tokenize import sent_tokenize

# 주어진 텍스트를 문장 단위로 토큰화. 주로 . ! ? 등을 이용
print(sent_tokenize(para))

['Hello everyone.', "It's good to see you.", "Let's start our text mining class!"]


In [7]:
# 영어가 아닌 다른 언어 사용 시 사전 학습된 모델을 지정해 불러올 수 있음
paragraph_french = """Je t'ai demandé si tu m'aimais bien, Tu m'a répondu non. 
                    Je t'ai demandé si j'étais jolie, Tu m'a répondu non. 
                    Je t'ai demandé si j'étai dans ton coeur, Tu m'a répondu non."""

import nltk.data

tokenizer = nltk.data.load('tokenizers/punkt/french.pickle')
print(tokenizer.tokenize(paragraph_french))

["Je t'ai demandé si tu m'aimais bien, Tu m'a répondu non.", "Je t'ai demandé si j'étais jolie, Tu m'a répondu non.", "Je t'ai demandé si j'étai dans ton coeur, Tu m'a répondu non."]


In [13]:
para_kor = "안녕하세요, 여러분. 만나서 반갑습니다. 이제 텍스트 마이닝 클래스를 시작해봅시다!"
print(sent_tokenize(para_kor))

['안녕하세요, 여러분.', '만나서 반갑습니다.', '이제 텍스트 마이닝 클래스를 시작해봅시다!']


### 2.2 단어 토큰화 (word tokenize)

In [14]:
from nltk.tokenize import word_tokenize

# 주어진 텍스트를 단어 단위로 토큰화.
print(word_tokenize(para))

['Hello', 'everyone', '.', 'It', "'s", 'good', 'to', 'see', 'you', '.', 'Let', "'s", 'start', 'our', 'text', 'mining', 'class', '!']


### word_tokenize vs. WordPunctTokenizer : 토크나이저가 서로 다른 알고리즘에 기반하기 때문에 차이 발생

In [15]:
from nltk.tokenize import WordPunctTokenizer
print(WordPunctTokenizer().tokenize(para))

['Hello', 'everyone', '.', 'It', "'", 's', 'good', 'to', 'see', 'you', '.', 'Let', "'", 's', 'start', 'our', 'text', 'mining', 'class', '!']


In [17]:
# 한국어는 형태소 분석 등 다양한 word segmentation 방법 활용해야 함 : KoNLPy
print(word_tokenize(para_kor))

['안녕하세요', ',', '여러분', '.', '만나서', '반갑습니다', '.', '이제', '텍스트', '마이닝', '클래스를', '시작해봅시다', '!']


### 2.3 정규표현식을 이용한 토큰화(https://wikidocs.net/4308)

In [25]:
import re
print(re.findall('[abc]', 'How are you, boy?'))
print(re.findall('[0-9]', '3a7b5c9d'))
print(re.findall('[\w]', "3a 7b_ '.^&5c9d"))
print(re.findall('[_]+', 'a_b, c__d, e___f'))
print(re.findall('[\w]+', 'How are you, boy?'))
print(re.findall('[o]{2,4}', 'oh, hoow are yoooou, boooooooy?'))

['a', 'b']
['3', '7', '5', '9']
['3', 'a', '7', 'b', '_', '5', 'c', '9', 'd']
['_', '__', '___']
['How', 'are', 'you', 'boy']
['oo', 'oooo', 'oooo', 'ooo']


In [26]:
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer("[\w']+")
print(tokenizer.tokenize("Sorry, I can't go there."))

['Sorry', 'I', "can't", 'go', 'there']


In [29]:
text1 = "Sorry, I can't go there."
tokenizer = RegexpTokenizer("[\w']{3,}")
print(tokenizer.tokenize(text1.lower()))

['sorry', "can't", 'there']


### 2.4 노이즈와 불용어 제거

In [30]:
from nltk.corpus import stopwords
english_stops = set(stopwords.words('english'))

text1 = "Sorry, I couldn't go to movie yesterday."
tokenizer = RegexpTokenizer("[\w']+")
tokens = tokenizer.tokenize(text1.lower())  # word_tokenize로 토큰화

# stopwords를 제외한 단어들만으로 list를 생성
result = [word for word in tokens if word not in english_stops]
print(result)

['sorry', 'go', 'movie', 'yesterday']


In [31]:
print(english_stops)

{'down', 'each', 'who', 'of', 'why', 'only', 're', "shouldn't", 'have', 'll', 'are', "hasn't", 'whom', 'no', 'ma', 'into', 'at', 'ourselves', 'were', 'she', 'this', "hadn't", 'weren', 'by', 'theirs', 'couldn', 'my', 'own', 'so', 'than', 'now', 'ours', 'do', 'its', 'a', 'but', 'doesn', 'we', 'that', "haven't", 'y', "you'll", 'themselves', 'shan', 'itself', "you've", 'some', 'has', 'did', 'if', 'yours', 'up', 'won', 'against', 'doing', 'for', 've', 'had', 'after', 'hasn', 'about', "didn't", 'myself', 'yourselves', 'nor', 'needn', "needn't", 'was', 'wouldn', 'over', 'both', 'out', 'haven', 'or', 'too', 'didn', 'off', 'more', 'been', 'until', 'very', 'mightn', 'you', 'they', 'having', "aren't", 'it', 'these', 'hers', 'am', "you're", 'i', 'here', "mightn't", 'herself', "couldn't", 'which', 'be', 'how', 'such', 'once', 'where', 'shouldn', 'under', 'o', "she's", 'your', "wasn't", 'him', 'same', 'an', 'before', 'further', 'mustn', 'then', 'because', "it's", 'other', 'between', "shan't", "don't

In [32]:
# 자신만의 stopwords를 만들고 이용(한글 처리에 유용, 리스트로 정의)
my_stopword = ['i', 'go', 'to']
result = [word for word in tokens if word not in my_stopword]
print(result)

['sorry', "couldn't", 'movie', 'yesterday']


## 3. 정규화(Normalization)

### 3.1 어간 추출(Stemming)

In [33]:
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()
print(stemmer.stem('cooking'), stemmer.stem('cookery'), stemmer.stem('cookbooks'))

cook cookeri cookbook


In [34]:
from nltk.tokenize import word_tokenize

para = "Hello everyone. It's good to see you. Let's start our text mining class!"
tokens = word_tokenize(para)
print(tokens)
result = [stemmer.stem(token) for token in tokens]
print(result)

['Hello', 'everyone', '.', 'It', "'s", 'good', 'to', 'see', 'you', '.', 'Let', "'s", 'start', 'our', 'text', 'mining', 'class', '!']
['hello', 'everyon', '.', 'it', "'s", 'good', 'to', 'see', 'you', '.', 'let', "'s", 'start', 'our', 'text', 'mine', 'class', '!']


In [35]:
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()
print(stemmer.stem('cooking'), stemmer.stem('cookery'), stemmer.stem('cookbooks'))

cook cookery cookbook


### 3.2 표제어 추출(Lemmatization)

In [37]:
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
print(lemmatizer.lemmatize('cooking'))
print(lemmatizer.lemmatize('cooking', pos='v'))  # 품사 지정
print(lemmatizer.lemmatize('cookery'))
print(lemmatizer.lemmatize('cookbooks'))

cooking
cook
cookery
cookbook


### comparison of stemming and lemmatizing

In [38]:
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()
print('stemming result: ', stemmer.stem('believes'))
print('lemmatizing result: ', lemmatizer.lemmatize('believes'))
print('lemmatizing result: ', lemmatizer.lemmatize('believes', pos='v'))

stemming result:  believ
lemmatizing result:  belief
lemmatizing result:  believe


## 4. 품사 태깅(Part-of-Speech Tagging)

### 4.1 품사의 이해 : 명사, 대명사, 수사, 조사, 동사, 형용사, 관형사, 부사, 감탄사

### 4.2 NLTK를 이용한 품사 태깅

In [42]:
from nltk.tokenize import word_tokenize
text = "Hello everyone. It's good to see you. Let's start our text mining class!"
tokens = word_tokenize(text)
print(nltk.pos_tag(tokens))
nltk.help.upenn_tagset('CC')

[('Hello', 'NNP'), ('everyone', 'NN'), ('.', '.'), ('It', 'PRP'), ("'s", 'VBZ'), ('good', 'JJ'), ('to', 'TO'), ('see', 'VB'), ('you', 'PRP'), ('.', '.'), ('Let', 'VB'), ("'s", 'POS'), ('start', 'VB'), ('our', 'PRP$'), ('text', 'NN'), ('mining', 'NN'), ('class', 'NN'), ('!', '.')]
CC: conjunction, coordinating
    & 'n and both but either et for less minus neither nor or plus so
    therefore times v. versus vs. whether yet


In [43]:
my_tag_set = ['NN', 'VB', 'JJ']
my_words = [word for word, tag in nltk.pos_tag(tokens) if tag in my_tag_set]
print(my_words)

['everyone', 'good', 'see', 'Let', 'start', 'text', 'mining', 'class']


In [44]:
# 단어에 품사 정보를 추가해 구분하면 성능 좋음
words_with_tag = ['/'.join(item) for item in nltk.pos_tag(tokens)]
print(words_with_tag)

['Hello/NNP', 'everyone/NN', './.', 'It/PRP', "'s/VBZ", 'good/JJ', 'to/TO', 'see/VB', 'you/PRP', './.', 'Let/VB', "'s/POS", 'start/VB', 'our/PRP$', 'text/NN', 'mining/NN', 'class/NN', '!/.']


### 4.3 한글 형태소 분석과 품사 태깅

### KoNLPy 설치(https://konlpy.org/ko/latest/install/)

In [2]:
# KoNLPy의 Twitter 클래스 임포트(형태소 분석기)
from konlpy.tag import Okt
t = Okt()

In [3]:
sentence = '''절망의 반대가 희망은 아니다.
어두운 밤하늘에 별이 빛나듯
희망은 절망 속에 싹트는 거지
만약에 우리가 희망함이 적다면
그 누가 세상을 비출어줄까.
정희성, 희망 공부'''

In [4]:
print('형태소: ', t.morphs(sentence))
print()
print('명사: ', t.nouns(sentence))
print()
print('품사 태깅 결과: ', t.pos(sentence))

형태소:  ['절망', '의', '반대', '가', '희망', '은', '아니다', '.', '\n', '어', '두운', '밤하늘', '에', '별', '이', '빛나듯', '\n', '희망', '은', '절망', '속', '에', '싹트는', '거지', '\n', '만약', '에', '우리', '가', '희망', '함', '이', '적다면', '\n', '그', '누가', '세상', '을', '비출어줄까', '.', '\n', '정희성', ',', '희망', '공부']

명사:  ['절망', '반대', '희망', '어', '두운', '밤하늘', '별', '희망', '절망', '속', '거지', '만약', '우리', '희망', '함', '그', '누가', '세상', '정희성', '희망', '공부']

품사 태깅 결과:  [('절망', 'Noun'), ('의', 'Josa'), ('반대', 'Noun'), ('가', 'Josa'), ('희망', 'Noun'), ('은', 'Josa'), ('아니다', 'Adjective'), ('.', 'Punctuation'), ('\n', 'Foreign'), ('어', 'Noun'), ('두운', 'Noun'), ('밤하늘', 'Noun'), ('에', 'Josa'), ('별', 'Noun'), ('이', 'Josa'), ('빛나듯', 'Verb'), ('\n', 'Foreign'), ('희망', 'Noun'), ('은', 'Josa'), ('절망', 'Noun'), ('속', 'Noun'), ('에', 'Josa'), ('싹트는', 'Verb'), ('거지', 'Noun'), ('\n', 'Foreign'), ('만약', 'Noun'), ('에', 'Josa'), ('우리', 'Noun'), ('가', 'Josa'), ('희망', 'Noun'), ('함', 'Noun'), ('이', 'Josa'), ('적다면', 'Verb'), ('\n', 'Foreign'), ('그', 'Noun'), ('누가', 'Noun'), (