# TEXT MINING for PRACTICE
- 본 자료는 텍스트 마이닝을 활용한 연구 및 강의를 위한 목적으로 제작되었습니다.
- 본 자료를 강의 목적으로 활용하고자 하시는 경우 꼭 아래 메일주소로 연락주세요.
- 본 자료에 대한 허가되지 않은 배포를 금지합니다.
- 강의, 저작권, 출판, 특허, 공동저자에 관련해서는 문의 바랍니다.
- **Contact : ADMIN(admin@teanaps.com)**

---

## WEEK 05-2. 영어 텍스트 데이터 전처리: NLTK
- Python의 NLTK 패키지를 활용해 텍스트 데이터를 전처리하는 방법에 대해 다룹니다.

---

### 1. 영어 텍스트 데이터를 전처리하는 방법 알아보기: NLTK

---

#### 1.1. TEANAPS 패키지 설치하기

---

In [1]:
# 텍스트 분석을 위한 TEANAPS 패키지를 설치합니다.
# TEANAPS는 Google Colaboratory/Linux 환경에 최적화되어 있습니다.
# Windows 환경에서 일부 기능에 제한이 있을 수 있습니다.

In [2]:
# TEANAPS (https://github.com/fingeredman/teanaps)
#!git clone https://github.com/fingeredman/teanaps.git

In [3]:
#!ls

In [4]:
# TEANAPS 설치를 진행합니다.
# 설치 전 반드시 상단 메뉴에서 [런타임 > 런타임 초기화]를 클릭한 후 진행해주세요.
#!python "teanaps/teanaps_setup.py"

#### 1.2. 단어의 원형을 복원하는 첫 번째 방법 알아보기: Stemming

---

In [5]:
# NLTK 패키지에서는 세 가지 Stemming 도구를 제공합니다.
# 각 Stemmeer는 Stemming을 하는 방법과 기준이 서로 다릅니다.
# 각각의 Stemmer 마다 특성이 다르니 사용해보고 알맞은 Stemmer를 골라 사용해야합니다
# 일반적으로 Porter Stemmer가 가장 많이 활용됩니다

# 1) Porter Stemmer

# Porter Stemmer를 불러옵니다.
from nltk.stem import PorterStemmer
ps = PorterStemmer()

print("1. cooking :", ps.stem("cooking"))
print("2. cookery :", ps.stem("cookery"))
print("3. believes :", ps.stem("believes"))
print("4. using :", ps.stem("using"))

1. cooking : cook
2. cookery : cookeri
3. believes : believ
4. using : use


In [6]:
# 2) Lancaster Stemmer

# Lancaster Stemmer를 불러옵니다.
from nltk.stem import LancasterStemmer
ls = LancasterStemmer()

print("1. cooking :", ls.stem("cooking"))
print("2. cookery :", ls.stem("cookery"))
print("3. believes :", ps.stem("believes"))
print("4. using :", ls.stem("using"))

1. cooking : cook
2. cookery : cookery
3. believes : believ
4. using : us


In [7]:
# 2) Regexp Stemmer

# Regexp Stemmer를 불러옵니다.
from nltk.stem import RegexpStemmer
rs = RegexpStemmer('ing')

print("1. cooking :", rs.stem("cooking"))
print("2. cookery :", rs.stem("cookery"))
print("3. believes :", rs.stem("inglesidie"))
print("4. using :", rs.stem("using"))

1. cooking : cook
2. cookery : cookery
3. believes : lesidie
4. using : us


#### 1.3. 단어의 원형을 복원하는 두 번째 방법 알아보기: Lemmatizing

---

In [8]:
# Lemmatizing은 사전을 기반으로 단어의 원형을 찾아 복원합니다.
# NLTK의 Lemmatizing 기능을 활용하기 위해서는 별도로 사전을 다운로드 받아야 합니다.

#import nltk
#nltk.download('wordnet')

In [9]:
# Lemmatizer를 불러옵니다.
from nltk.stem import WordNetLemmatizer
import nltk
lemmatizer = WordNetLemmatizer()

# Lemmatizer는 lemmatize(WORD, pos=POS) 함수로 호출합니다.
# pos 변수에는 v, n, a 세 가지 품사를 입력할 수 있습니다. (필수는 아님)
print("1-1. cooking :", lemmatizer.lemmatize("cooking"))
print("1-2. cooking(pos=\"v\") :", lemmatizer.lemmatize("cooking", pos="v"))
print("1-3. cooking(pos=\"n\") :", lemmatizer.lemmatize("cooking", pos="n"))
print("2. cookbooks :", lemmatizer.lemmatize("cookbooks"))
print("3. believes :", lemmatizer.lemmatize("believes", pos="v"))
print("4. buses :", lemmatizer.lemmatize("buses"))
print("5. using :", lemmatizer.lemmatize("using", pos="v"))

1-1. cooking : cooking
1-2. cooking(pos="v") : cook
1-3. cooking(pos="n") : cooking
2. cookbooks : cookbook
3. believes : believe
4. buses : bus
5. using : use


#### 1.4. 단어의 원형을 복원하는 세 번째 방법 알아보기: Replacer

---

In [10]:
# Replacer를 불러옵니다.
from teanaps.nlp import Processing
processing = Processing()

# replace(SENTENCE) 함수는 문장 내 줄임말을 원래의 형태로 복원합니다.
sentence = "I should've done that thing I didn't do."
new_sentence = processing.replacer(sentence)
print(new_sentence)

I should have done that thing I did not do.


#### 1.5. 문단을 문장 단위로, 문장을 단어 단위로 분리하기

---

In [11]:
# 1) Sentence Tokenizer
# Sentence Tokenizer를 불러옵니다.
from nltk.tokenize import sent_tokenize

paragraph = "Hello World. How are you? It's good to see you. Thanks for buying this book."
# sent_tokenize(PARAGRAPH) 함수는 다수의 문장이 포함된 문단을 문장 단위로 잘라 리스트로 만듭니다.
sentences_list = sent_tokenize(paragraph)
print(sentences_list)

['Hello World.', 'How are you?', "It's good to see you.", 'Thanks for buying this book.']


In [12]:
# 2) Word Tokenizer
# Word Tokenizer를 불러옵니다.
from nltk.tokenize import word_tokenize

sentence = "It's good to see you"
# word_tokenize(SENTENCE) 함수는 문장을 단어 단위로 잘라 리스트로 만듭니다.
word_list = word_tokenize(sentence)
print(word_list)

['It', "'s", 'good', 'to', 'see', 'you']


#### 1.6. 영문 형태소분석하기

---

In [13]:
# NLTK의 형태소분석 기능을 활용하기 위해서는 별도의 다운로드가 필요합니다.

#import nltk
#nltk.download('averaged_perceptron_tagger')

In [14]:
import nltk

word_list = word_tokenize("Text mining is difficult but very valuable.")
# NLTK 형태소분석기의 pos_tag(WORD_LIST) 함수의 WORD_LIST에는 문자열(문장)이 아닌 단어단위로 구분된 리스트를 넣어줍니다.
word_tagging_list = nltk.tag.pos_tag(word_list)
print(word_tagging_list)

[('Text', 'NN'), ('mining', 'NN'), ('is', 'VBZ'), ('difficult', 'JJ'), ('but', 'CC'), ('very', 'RB'), ('valuable', 'JJ'), ('.', '.')]


#### 1.8. [1.1 ~ 1.7] 과정 활용하기

---

In [15]:
# 1.1 ~ 1.5 과정을 순서대로 수행합니다.

# 1. 원본문단
paragraph = "Hello World. It's good to see you. Thanks for buying this book."
print(paragraph)

Hello World. It's good to see you. Thanks for buying this book.


In [16]:
# 2. 문자열을 모두 소문자로 변경
paragraph = paragraph.lower()
print(paragraph)

hello world. it's good to see you. thanks for buying this book.


In [17]:
# 3. 문장의 줄임말을 원래의 형태로 복원
paragraph = processing.replacer(paragraph)
print(paragraph)

hello world. it is good to see you. thanks for buying this book.


In [18]:
# 4. 여러개 문장이 포함된 문단을 문장 단위로 구분
sentence_list = sent_tokenize(paragraph)
print(sentence_list)

['hello world.', 'it is good to see you.', 'thanks for buying this book.']


In [19]:
# 5. 문장을 단어 단위로 구분
token_sentence_list = []

for sentence in sentence_list:
    word_list = word_tokenize(sentence)
    token_sentence_list.append(word_list)
    print(word_list)

['hello', 'world', '.']
['it', 'is', 'good', 'to', 'see', 'you', '.']
['thanks', 'for', 'buying', 'this', 'book', '.']


In [20]:
# 6. 형태소태깅
tag_sentence_list = []

for token_sentence in token_sentence_list:        
    tag_list = nltk.tag.pos_tag(token_sentence)
    tag_sentence_list.append(tag_list)
    print(tag_list)

[('hello', 'JJ'), ('world', 'NN'), ('.', '.')]
[('it', 'PRP'), ('is', 'VBZ'), ('good', 'JJ'), ('to', 'TO'), ('see', 'VB'), ('you', 'PRP'), ('.', '.')]
[('thanks', 'NNS'), ('for', 'IN'), ('buying', 'VBG'), ('this', 'DT'), ('book', 'NN'), ('.', '.')]


In [21]:
# 7-1. 원형복원: Stemming
from nltk.stem import PorterStemmer
ps = PorterStemmer()

for tag_sentence in tag_sentence_list:
    print([ps.stem(word) for word, pos in tag_sentence])

['hello', 'world', '.']
['it', 'is', 'good', 'to', 'see', 'you', '.']
['thank', 'for', 'buy', 'thi', 'book', '.']


In [22]:
# 7-2. 원형복원: Lemmatizing
from nltk.stem import WordNetLemmatizer
import nltk
lemmatizer = WordNetLemmatizer()

for tag_sentence in tag_sentence_list:
    lemma_sentence = []
    for word, pos in tag_sentence:
        # 품사가 형용사(a), 동사(v), 명사(n)인 경우에만 품사를 옵션으로 넣어줍니다.
        if pos.lower()[0] in ["a", "v", "n"]:
            lemma_sentence.append(lemmatizer.lemmatize(word, pos=pos.lower()[0]))
        else:
            lemma_sentence.append(lemmatizer.lemmatize(word))
    print(lemma_sentence)

['hello', 'world', '.']
['it', 'be', 'good', 'to', 'see', 'you', '.']
['thanks', 'for', 'buy', 'this', 'book', '.']


### 3. 영어 텍스트 데이터를 전처리하는 방법 알아보기: TEANAPS

---

#### 3.1. TEANAPS 패키지 내 형태소분석기 호출하기

---

In [23]:
# TEANAPS 형태소 분석기를 불러옵니다.
from teanaps.nlp import MorphologicalAnalyzer

ma = MorphologicalAnalyzer()

# TEANAPS에서는 영어 텍스트 분석을 위해 NLTK의 형태소분석기를 지원합니다.
# TEANAPS의 형태소분석 과정은 영어 텍스트에 필요한 전처리를 모두 포함합니다.

text = "Hello World. It's good to see you. Thanks for buying this book."
pos_list = ma.parse(text)
print(pos_list)

[('hello', 'VA', (0, 5)), ('world', 'NNG', (6, 11)), ('.', 'SW', (11, 12)), ('it', 'NP', (13, 15)), ('', 'VV', (0, 0)), ('good', 'VA', (19, 23)), ('to', 'TO', (24, 26)), ('see', 'VV', (27, 30)), ('you', 'NP', (31, 34)), ('.', 'SW', (34, 35)), ('thanks', 'NNG', (36, 42)), ('for', 'IN', (43, 46)), ('buy', 'VV', (47, 50)), ('this', 'DT', (54, 58)), ('book', 'NNG', (59, 63)), ('.', 'SW', (63, 64))]
