# **연세-네이버클라우드 데이터사이언스 교육과정: 텍스트마이닝**
## 전처리(Preprocessing)

박기영 (연세대 경제학부)

01TextMining_Preprocessing.ipynb의 목차

1. 정규표현식
2. 전처리
3. 예: 영어 전처리
4. 예: 한글 전처리



In [None]:
# import packages
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import os
import pandas_datareader as pdr
from datetime import date

import seaborn as sns

%config InlineBackend.figure_format = 'retina'   # for retina display in Mac
np.set_printoptions(precision=3, suppress=True)  # for pretty display of numpy arrays
pd.options.display.float_format = '{:,.3f}'.format
pd.options.display.max_rows = 100
pd.options.display.max_columns = 10

In [None]:
# To plot pretty figures
%matplotlib inline
import matplotlib as mpl
import matplotlib.pyplot as plt
mpl.rc('axes', labelsize=16)
mpl.rc('xtick', labelsize=16)
mpl.rc('ytick', labelsize=16)
mpl.rc('font', size=16)
plt.rc('legend', fontsize=16) 

# for Korean fonts 
plt.rcParams['axes.unicode_minus'] = False

# Use seaborn style defaults and set the default figure size
sns.set(rc={'figure.figsize':(14,8)})

## 정규표현 (Regular Expression)

- 정규표현은 특별한 문법의 적용을 받는 문자 변수(strings with a special syntax)를 의미하며 와일드카드(*)의 개념을 확장한 것이라 이해할 수 있음. 
- (예) 정규표현식을 이용해서 문서 안의 웹 주소나 이메일 주소만을 수집한다든가, 필요하지 않는 부분들을 제거할 수 있음.  
- 파이썬의 내장 라이브러리 re를 이용

### 정규 표현식

- quick references: https://www.regular-expressions.info/refquick.html
- 메타문자(meta characters): 원래 그 문자가 가진 뜻이 아닌 특별한 용도로 사용하는 문자를 의미하며 '*'를 예로 들 수 있음. 

|기호|의미|
|---|---|
|.|줄바꿈(\n)을 제외한 모든 문자|
| ^|문자열의 시작 |
|$ |문자열의 끝 |
|* |앞에 있는 문자가 0회 이상 반복된 문자열 |
|+ |앞에 있는 문자가 1회 이상 반복된 문자열 |
|{m} |앞 문자를 m회 반복하는 문자열 |
|{m,n} |앞 문자를 m회 이상, n회 이하 반복하는 문자열 |
|{m,}|앞 문자를 m회 이상 반복하는 문자열|
|? |앞 문자가 나오거나 나오지 않는 문자열. {0,1}과 동일 |
|[^X] |X 문자를 제외한 문자를 매칭 |
|\d|모든 숫자. [0-9]와 동일|
|\D|숫자를 제외한 모든 문자. [^0-9]와 동일|
|\w|문자 또는 숫자. [a-zA-Z0-9]와 동일|
|\W|문자 또는 숫자가 아닌 것. [^a-zA-Z0-9]와 동일|
|\s|공백. [ \t\n\r\f\v]와 동일한 표현|
|(...)|( )의 모든 정규표현식을 만족하는 문자|
|[xyz]|문자 클래스 []. x,y,z 중 한 개의 문자와 일치|

**예**

* [a-zA-Z]: 알파벳 모두
* [0-9]: 숫자.
* [^0-9]: 숫자 제외
* a.b: "a+모든 문자+b"
* ca*t: ct, cat, caaat 모두 포괄할 수 있음. 
* ca+t: cat, caaat 포괄 가능
* ca{2}t: caaat 포괄 가능
* ab?c: "a+(b는 있어도 되고 없어도 됨)+c". ac, abc 포괄 가능



### re 함수

|함수|설명|
|--|--|
|re.compile()|정규 표현식을 컴파일. 즉 파이썬에게 해당 내용을 전해주는 역할을 함.|
|re.search()|해당 문자열에서 정규 표현식에 해당되는 첫 부분을 찾음.|
|re.match()|문자열의 처음이 정규 표현식과 일치하는지 확인|
|re.split()|정규 표현식에 따라 문자열을 나눠서 리스트로 출력|
|re.findall()|정규 표현식에 매치되는 모든 경우의 문자열을 리스트로 출력. 없을 경우 빈 리스트로 출력|
|re.finditer()|정규 표현식에 매치되는 모든 경우의 문자열을 iterator 객체로 출력|
|re.sub()|정규 표현식에 매치되는 부분을 다른 문자열로 대체|

### 정규표현식 연습

- 정규표현식식 앞에 r을 붙이는 것이 중요할 수 있음. 예를 들어 파이썬에서 "\n"은 줄바꿈을 의미하는데 r을 붙이면 "\n"은 \와 n으로 표시된 스트링으로 인식되나 r을 붙이지 않으면 줄바꿈으로 인식함. 

In [100]:
# \n 을 출력함
print(r'\n')

\n


In [99]:
# 줄을 바꿈
print('\n')
print('\n')







In [101]:
import re

In [None]:
# 예제 (1)
text = "Let's write RegEx!"

pattern = r"\w+"
print(re.findall(pattern, text))

pattern = r"\w"
print(re.findall(pattern, text))

pattern = r"\s+"
print(re.findall(pattern, text))

pattern = r"[^a-z]"
print(re.findall(pattern, text))

pattern = r"[^a-zA-Z]"
print(re.findall(pattern, text))

['Let', 's', 'write', 'RegEx']
['L', 'e', 't', 's', 'w', 'r', 'i', 't', 'e', 'R', 'e', 'g', 'E', 'x']
[' ', ' ']
['L', "'", ' ', ' ', 'R', 'E', '!']
["'", ' ', ' ', '!']


In [None]:
# 예제 (2)

text = "Let's study RegEx! Does it sound fun? Did I say 3 sentences? I think so."

# Split 'text' on spaces and print the result
pattern = r"\s+"
print(re.split(pattern, text))

# Find all capitalized words 
pattern = r"[A-Z]\w+"
print(re.findall(pattern, text))

# comparison w/ the above example
pattern = r"[A-Z]"
print(re.findall(pattern, text))

# Write a pattern to match sentence endings: sentence_endings
pattern = r"[.?!]"
print(re.split(pattern, text))

# Find numbers
pattern = r"\d+"
print(re.findall(pattern, text))

["Let's", 'study', 'RegEx!', 'Does', 'it', 'sound', 'fun?', 'Did', 'I', 'say', '3', 'sentences?', 'I', 'think', 'so.']
['Let', 'RegEx', 'Does', 'Did']
['L', 'R', 'E', 'D', 'D', 'I', 'I']
["Let's study RegEx", ' Does it sound fun', ' Did I say 3 sentences', ' I think so', '']
['3']


In [None]:
# 예제 (3)

# 전화번호 익명화 
print(re.sub('\d{4}', 'XXXX', '010-1234-5678'))

# 전화번호 익명화
data = """
원빈 010-1234-5678
이진욱 010-1234-5679
"""

pattern = re.compile("(\d{4})[-]\d{4}")
print(pattern.sub("\g<1>-****", data)) # g<1>에 대해서는 https://www.regular-expressions.info/refquick.html 참고

# 날짜 표시 형식 변환
print(re.sub('(\d{4})-(\d{2})-(\d{2})', 
             r'\1.\2.\3',
             '2021-01-01'))

010-XXXX-XXXX

원빈 010-1234-****
이진욱 010-1234-****

2021.01.01


#### re.match()와 re.search()의 차이

In [102]:
patterns = "ab."
r = re.compile(patterns)

In [103]:
r.search("kkkabc")

<_sre.SRE_Match object; span=(3, 6), match='abc'>

In [104]:
# re.match()는 처음부터 찾아서 ab.와 매치되지 않으므로 결과 출력 안 함
r.match("kkkabc")   

In [None]:
# 위에서 re.compile()의 편리한 점을 볼 수 있음. 아래와 같이 실행해도 같음. 
re.search("ab.","kkkabc")

<_sre.SRE_Match object; span=(3, 6), match='abc'>

#### re.split()

In [None]:
text = "배 사과 미국배 참외"

In [None]:
re.split(" ", text)

['배', '사과', '미국배', '참외']

In [None]:
text = '''배
사과
미국배
참외'''
re.split("\n", text)

['배', '사과', '미국배', '참외']

#### re.findall()

In [None]:
text = """이름: 원빈
전화번호: 010-1234-5678
나이: 35"""

re.findall("\d+", text)

['010', '1234', '5678', '35']

#### re.sub()

In [None]:
text = """
The answer of the first question: (1)
The answer of the second question: (3)
The answer of the third question: (2) 
"""

re.sub("\d+","?",text)

'\nThe answer of the first question: (?)\nThe answer of the second question: (?)\nThe answer of the third question: (?) \n'

#### 한글의 경우

- 한글 문자를 'ㄱ-힣'로 매치하는 경우가 종종 있는데 틀린 사용법임: https://kynk94.github.io/devlog/post/re-match-hangul
  - https://www.unicode.org/charts/PDF/UAC00.pdf

In [None]:
pattern = re.compile(r'[ㄱ-ㅣ가-힣]+')

text = "기후변화climate change는 먼 미래의 일이 아니라 2021년 현재화된 위기이이다."
re.findall(pattern, text)

['기후변화', '는', '먼', '미래의', '일이', '아니라', '년', '현재화된', '위기이이다']

In [None]:
pattern = re.compile(r'\w+')

re.findall(pattern, text)

['기후변화climate', 'change는', '먼', '미래의', '일이', '아니라', '2021년', '현재화된', '위기이이다']

## 전처리(Preprocessing)

### 토큰화(tokenization)
- 토큰이라 불리는 분석 단위로 분리하는 작업이며 많은 경우 단어가 토큰이 됨. 
- 토큰이 문장 단위인 경우도 있으면 이 경우 문장 분리(sentence fragmentation)이라고도 함. 

**주의해야 할 사항**
- 구두점이나 특수 문자를 무조건 제거해서는 안 됨: 
  - $10.2는 '10.2달러'로 해석되어야 하며 10과 2를 따로 분리해서는 안 됨.
- 접어(clitic)의 처리
  - I'm의 m, We're의 re 등을 접어라 하는데 접어를 잘 파악해야 함. 

**한국어 토큰화의 어려움**

영어의 경우 접어 처리, New York같은 합성어, rule-based와 같은 하이픈 처리 등에 유의하면서 띄어쓰기 단위로 토큰화를 상대적으로 쉽게 할 수 있으나 한국어 특유의 특징 때문에 한국어 토큰화는 더 어려움.

- 한국어에는 조사가 있어서 띄어쓰기 단위로 토큰화를 할 수가 없고 형태소 분석이 필요함.
- 띄어쓰기가 잘 지켜지지 않음.


가장 많이 쓰이는 라이브러리는 nltk (Natural Language Toolkit)임.


```
# importing nltk
import nltk
from nltk import word_tokenize
from nltk.tokenize import sent_tokenize
```



#### 토큰화(Tokenization)

In [None]:
# Tokenizing library for English

import nltk
from nltk import word_tokenize
from nltk.tokenize import sent_tokenize

nltk.download('punkt')  # it may not work w/o this line

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [None]:
example ="I don’t think it’s going to be a rapid bounce back."

In [None]:
from nltk.tokenize import word_tokenize  
print(word_tokenize(example))  

['I', 'don', '’', 't', 'think', 'it', '’', 's', 'going', 'to', 'be', 'a', 'rapid', 'bounce', 'back', '.']


In [None]:
# nltk의 WordPunctTokenizer: 이 경우 큰 차이 없음
from nltk.tokenize import WordPunctTokenizer  
print(WordPunctTokenizer().tokenize(example))

['I', 'don', '’', 't', 'think', 'it', '’', 's', 'going', 'to', 'be', 'a', 'rapid', 'bounce', 'back', '.']


In [None]:
# Keras의 토큰화 도구인 text_to-word_sequence의 경우 
# 기본적으로 모든 알파벳을 소문자로 바꾸면서 마침표, 쉼표 등 구두점을 제거
# 그러나 don't, it's의 아포스트로피는 보존하는 것을 볼 수 있음.
import keras_preprocessing
from tensorflow.keras.preprocessing.text import text_to_word_sequence
print(text_to_word_sequence(example))

['i', 'don’t', 'think', 'it’s', 'going', 'to', 'be', 'a', 'rapid', 'bounce', 'back']


### 불용어(stop words) 처리
- 토큰화된 모든 문자열이 분석상 가치가 있지 않으므로 불용어들을 제거 (예를 들어, 영어의 the)
- 개발자가 필요에 따라 직접 불용어를 정의할 수도 있음: 예를 들어 와인에 대한 감상평인 경우 wine이란 단어가 큰 정보를 주지 않음.

In [None]:
# nltk에서 정의된 불용어 리스트 중 앞의 10개 확인
#nltk.download("all")
nltk.download("stopwords")
from nltk.corpus import stopwords  
stopwords.words('english')[:10]  

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]

In [None]:
# 불용어 제거의 예
stop_words = set(stopwords.words('english')) 

word_tokens = word_tokenize(example)

result = []
for w in word_tokens: 
    if w not in stop_words: 
        result.append(w) 

# tokens
print(word_tokens) 
# tokens after removing stop words
print(result) 

['I', 'don', '’', 't', 'think', 'it', '’', 's', 'going', 'to', 'be', 'a', 'rapid', 'bounce', 'back', '.']
['I', '’', 'think', '’', 'going', 'rapid', 'bounce', 'back', '.']


### 어간추출(stemming)
- 단어의 어간을 분리해 내는 작업

In [None]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
s = PorterStemmer()

In [None]:
words=['economical', 'subsidy', 'legalize']
print([s.stem(w) for w in words])

['econom', 'subsidi', 'legal']


### 표제어 추출(lemmatization)
- 단어의 원형(lemma)으로 되돌리는 과정
- 예를 들어, is, was, are, were의 원형은 be임. 
- 어간추출이 단의의 의미적 단위(semantic unit)를 고려하여 접사 등을 제거하는 기계적 방법이라면 표제어 추출은 형태소(morpheme) 분석에 해당함. 
- https://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.html

In [None]:
nltk.download("wordnet")
from nltk.stem import WordNetLemmatizer
n=WordNetLemmatizer()

print([n.lemmatize(w) for w in words])

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.
['economical', 'subsidy', 'legalize']


WordNetLemmatizer는 단어의 품사를 입력할 수 있음:

In [None]:
n.lemmatize('watched', 'v')

'watch'

In [None]:
n.lemmatize('watches', 'n')

'watch'

### 품사 태깅(POS tagging)
- 품사(part-of-speech)란 단어를 문법적 기능에 따라 구분한 것이며 품사 태깅은 텍스트의 단어들에 품사를 달아주는 과정을 의미함.

In [None]:
# 예 (영어)

from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag
nltk.download('averaged_perceptron_tagger')

# 토근화
x = example)word_tokenize(
print(x)

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.
['I', 'don', '’', 't', 'think', 'it', '’', 's', 'going', 'to', 'be', 'a', 'rapid', 'bounce', 'back', '.']


In [None]:
# POS tagging
pos_tag(x)

[('I', 'PRP'),
 ('don', 'VBP'),
 ('’', 'JJ'),
 ('t', 'NN'),
 ('think', 'VBP'),
 ('it', 'PRP'),
 ('’', 'VBZ'),
 ('s', 'RB'),
 ('going', 'VBG'),
 ('to', 'TO'),
 ('be', 'VB'),
 ('a', 'DT'),
 ('rapid', 'JJ'),
 ('bounce', 'NN'),
 ('back', 'RB'),
 ('.', '.')]

In [None]:
# 예 (한국어)

# konlpy 인스톨
!pip install konlpy

Collecting konlpy
[?25l  Downloading https://files.pythonhosted.org/packages/85/0e/f385566fec837c0b83f216b2da65db9997b35dd675e107752005b7d392b1/konlpy-0.5.2-py2.py3-none-any.whl (19.4MB)
[K     |████████████████████████████████| 19.4MB 1.2MB/s 
Collecting JPype1>=0.7.0
[?25l  Downloading https://files.pythonhosted.org/packages/de/af/93f92b38ec1ff3091cd38982ed19cea2800fefb609b5801c41fc43c0781e/JPype1-1.2.1-cp36-cp36m-manylinux2010_x86_64.whl (457kB)
[K     |████████████████████████████████| 460kB 47.1MB/s 
[?25hCollecting beautifulsoup4==4.6.0
[?25l  Downloading https://files.pythonhosted.org/packages/9e/d4/10f46e5cfac773e22707237bfcd51bbffeaf0a576b0a847ec7ab15bd7ace/beautifulsoup4-4.6.0-py3-none-any.whl (86kB)
[K     |████████████████████████████████| 92kB 9.9MB/s 
[?25hCollecting tweepy>=3.7.0
  Downloading https://files.pythonhosted.org/packages/67/c3/6bed87f3b1e5ed2f34bd58bf7978e308c86e255193916be76e5a5ce5dfca/tweepy-3.10.0-py2.py3-none-any.whl
Collecting colorama
  Download

In [None]:
from konlpy.tag import Okt
okt=Okt()

print(okt.morphs("모두에게 바보라 불려도, 칭찬에도 미움에도 휘둘리지 않는 그런 사람이 나는 되고 싶다"))

['모두', '에게', '바보', '라', '불려도', ',', '칭찬', '에도', '미움', '에도', '휘', '둘리', '지', '않는', '그런', '사람', '이', '나', '는', '되고', '싶다']


In [None]:
print(okt.nouns("모두에게 바보라 불려도, 칭찬에도 미움에도 휘둘리지 않는 그런 사람이 나는 되고 싶다"))

['모두', '바보', '칭찬', '미움', '휘', '둘리', '사람', '나']


### 형태소 분석(morpheme analysis)
- 단어를 구성하는 각각의 형태소들을 인식하고 용언의 활용, 불규칙 활용, 축약, 탈락 등이 일어난 형태소를 원형으로 복원하는 과정
- 언어학적으로 언어의 생성 과정을 설명하려는 용도로 사용되나 NLP에서는 전처리 용도로 사용될 수 있음. 

### 정수 인코딩

- 컴퓨터가 처리할 수 있도록 텍스트를 숫자로 바꾸는 작업이 필요함. 
- 첫 단계로 텍스트의 각 단어(토큰)를 고유한 정수로 맵핑(mapping)하는 전처리 작업이 필요함. 
- 가장 널리 쓰이는 방법:
  1. 단어들을 빈도 순으로 정리한 단어 집합(vocabulary)으로 만듬
  2. 순서대로 0부터, 또는 1부터 정수를 부여함. 
  3. 실제 분석에서는 단어 집합 내 모든 단어를 쓰지 않고 빈도가 몇 이상인 단어들만 사용함. 
- 단어 집합에 존재하지 않는 단어들을 Out-of-Vocabulary라 하는데 약자로 'OOV'로 표시함. 

### 패딩(Padding)

- 문장이나 문서의 길이에 따라 길이가 다를 수 있음.
- 컴퓨터에서 행렬을 사용하는데 같은 행렬에 넣고 처리하기 위해서 여러 문장의 길이를 임의로 동일하게 맞춰주는 작업

## 예: 영어 전처리

- 소문자(lowercase)로 변환
- 구두점 제거
- 토큰화
- 불용어 제거
- 어간 추출
- 품사 태깅

In [None]:
import nltk
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger') 

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

#### 소문자로 변환

In [None]:
# You can use three single or double quotes for multi-line strings
# source: https://www.brookings.edu/blog/ben-bernanke/2020/01/04/the-new-tools-of-monetary-policy/

text = """Quantitative easing works through two principal channels: 
by reducing the net supply of longer-term assets, which increases 
their prices and lower their yields; and by signaling policymakers’ 
intention to keep short rates low for an extended period. 
Both channels helped ease financial conditions in the post-crisis era."""

In [None]:
text = text.lower()
print(text)

quantitative easing works through two principal channels: 
by reducing the net supply of longer-term assets, which increases 
their prices and lower their yields; and by signaling policymakers’ 
intention to keep short rates low for an extended period. 
both channels helped ease financial conditions in the post-crisis era.


#### 구두점 제거

In [None]:
import string
print(string.punctuation)

In [None]:
text_p = "".join([char for char in text if char not in string.punctuation])
print(text_p)

quantitative easing works through two principal channels 
by reducing the net supply of longerterm assets which increases 
their prices and lower their yields and by signaling policymakers’ 
intention to keep short rates low for an extended period 
both channels helped ease financial conditions in the postcrisis era


#### 토큰화

In [None]:
from nltk import word_tokenize
words = word_tokenize(text_p)
print(words)

['quantitative', 'easing', 'works', 'through', 'two', 'principal', 'channels', 'by', 'reducing', 'the', 'net', 'supply', 'of', 'longerterm', 'assets', 'which', 'increases', 'their', 'prices', 'and', 'lower', 'their', 'yields', 'and', 'by', 'signaling', 'policymakers', '’', 'intention', 'to', 'keep', 'short', 'rates', 'low', 'for', 'an', 'extended', 'period', 'both', 'channels', 'helped', 'ease', 'financial', 'conditions', 'in', 'the', 'postcrisis', 'era']


#### 불용어 제거

In [None]:
from nltk.corpus import stopwords
stop_words = stopwords.words('english')
print(stop_words)

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', '

In [None]:
filtered_words = [word for word in words if word not in stop_words]
print(filtered_words)

['quantitative', 'easing', 'works', 'two', 'principal', 'channels', 'reducing', 'net', 'supply', 'longerterm', 'assets', 'increases', 'prices', 'lower', 'yields', 'signaling', 'policymakers', '’', 'intention', 'keep', 'short', 'rates', 'low', 'extended', 'period', 'channels', 'helped', 'ease', 'financial', 'conditions', 'postcrisis', 'era']


#### 어간추출

In [None]:
from nltk.stem.porter import PorterStemmer
porter = PorterStemmer()
stemmed = [porter.stem(word) for word in filtered_words]
print(stemmed)

['quantit', 'eas', 'work', 'two', 'princip', 'channel', 'reduc', 'net', 'suppli', 'longerterm', 'asset', 'increas', 'price', 'lower', 'yield', 'signal', 'policymak', '’', 'intent', 'keep', 'short', 'rate', 'low', 'extend', 'period', 'channel', 'help', 'eas', 'financi', 'condit', 'postcrisi', 'era']


#### 품사 태깅

In [None]:
from nltk import pos_tag
pos = pos_tag(filtered_words)
print(pos)

[('quantitative', 'JJ'), ('easing', 'VBG'), ('works', 'NNS'), ('two', 'CD'), ('principal', 'JJ'), ('channels', 'NNS'), ('reducing', 'VBG'), ('net', 'JJ'), ('supply', 'NN'), ('longerterm', 'JJ'), ('assets', 'NNS'), ('increases', 'VBZ'), ('prices', 'NNS'), ('lower', 'JJR'), ('yields', 'NNS'), ('signaling', 'VBG'), ('policymakers', 'NNS'), ('’', 'JJ'), ('intention', 'NN'), ('keep', 'VB'), ('short', 'JJ'), ('rates', 'NNS'), ('low', 'JJ'), ('extended', 'JJ'), ('period', 'NN'), ('channels', 'NNS'), ('helped', 'VBD'), ('ease', 'VB'), ('financial', 'JJ'), ('conditions', 'NNS'), ('postcrisis', 'NN'), ('era', 'NN')]


#### All together

In [None]:
import nltk
import string
from nltk import word_tokenize
from nltk.corpus import stopwords
from nltk.stem.porter import PorterStemmer
from nltk import pos_tag

In [None]:
def MyPreprocess(text):

    text = text.lower() # 소문자로 변환

    text_p = "".join([char for char in text if char not in string.punctuation]) # 구두점 제거
    
    words = word_tokenize(text_p) # 토큰화
    
    stop_words = stopwords.words('english')
    filtered_words = [word for word in words if word not in stop_words] # 불용어 제거
    
    porter = PorterStemmer()
    stemmed = [porter.stem(word) for word in filtered_words] # 어간추출
    
    pos = pos_tag(filtered_words) # 품사 태깅
    
    return words, filtered_words, stemmed, pos

In [None]:
words, filtered_words, stemmed, pos = MyPreprocess(text)

In [None]:
print('Words:', words[:20])

Words: ['quantitative', 'easing', 'works', 'through', 'two', 'principal', 'channels', 'by', 'reducing', 'the', 'net', 'supply', 'of', 'longerterm', 'assets', 'which', 'increases', 'their', 'prices', 'and']


In [None]:
print('Filtered words:', filtered_words[:20])

Filtered words: ['quantitative', 'easing', 'works', 'two', 'principal', 'channels', 'reducing', 'net', 'supply', 'longerterm', 'assets', 'increases', 'prices', 'lower', 'yields', 'signaling', 'policymakers', '’', 'intention', 'keep']


In [None]:
print('Stemmed words:', stemmed[:20])

Stemmed words: ['quantit', 'eas', 'work', 'two', 'princip', 'channel', 'reduc', 'net', 'suppli', 'longerterm', 'asset', 'increas', 'price', 'lower', 'yield', 'signal', 'policymak', '’', 'intent', 'keep']


In [None]:
print('Part of Speech:', pos[:20])

Part of Speech: [('quantitative', 'JJ'), ('easing', 'VBG'), ('works', 'NNS'), ('two', 'CD'), ('principal', 'JJ'), ('channels', 'NNS'), ('reducing', 'VBG'), ('net', 'JJ'), ('supply', 'NN'), ('longerterm', 'JJ'), ('assets', 'NNS'), ('increases', 'VBZ'), ('prices', 'NNS'), ('lower', 'JJR'), ('yields', 'NNS'), ('signaling', 'VBG'), ('policymakers', 'NNS'), ('’', 'JJ'), ('intention', 'NN'), ('keep', 'VB')]


## 예: 한글 전처리

일부 라이브러리 설치에 시간이 걸리니 아래 내용들은 이런 기능들도 있다는 정도로 이해하면 됨. 

- 참고자료: https://colab.research.google.com/drive/1FfhWsP9izQcuVl06P30r5cCxELA1ciVE?usp=sharing

* Basic
 - 숫자 제거
 - Lowercasing
 - "@%*=()/+ 와 같은 punctuation 제거
* Spell check
 - 사전 기반의 오탈자 교정
 - 줄임말 원형 복원 (e.g. I'm not happy -> I am not happy)
* Part-of-Speech
 - 형태소 분석
 - Noun, Adjective, Verb, Adverb만 학습에 사용
* Stemming
 - 형태소 분석 이후 동사 원형 복원
* Stopwords
 - 불용어 제거


#### 기초적인 전처리

In [None]:
text = '''IBM 보고서(2015)2)에 따르면 전 세계 데이터의 80%가 텍스트와 같은 비정형
데이터(unstructured data)로 이루어져있다. 우리가 매일 접하는 언어와 텍스트에
는 풍부한 정보가 내재되어있으나, 하루에도 수백만 건의 문서가 생산되는 오늘
날에는 인지능력만으로 방대한 텍스트 자료를 처리하는 데는 한계가 있다. 이제
는 텍스트 마이닝으로 컴퓨터로 하여금 방대한 텍스트 데이터를 자동으로 분석
하게 함으로써 유익한 정보를 효율적으로 얻을 수 있게 되었다.'''

print(text)

IBM 보고서(2015)2)에 따르면 전 세계 데이터의 80%가 텍스트와 같은 비정형
데이터(unstructured data)로 이루어져있다. 우리가 매일 접하는 언어와 텍스트에
는 풍부한 정보가 내재되어있으나, 하루에도 수백만 건의 문서가 생산되는 오늘
날에는 인지능력만으로 방대한 텍스트 자료를 처리하는 데는 한계가 있다. 이제
는 텍스트 마이닝으로 컴퓨터로 하여금 방대한 텍스트 데이터를 자동으로 분석
하게 함으로써 유익한 정보를 효율적으로 얻을 수 있게 되었다.


In [None]:
# 한글 문장 분리 라이브러리 kss 설치
!pip install kss

Collecting kss
[?25l  Downloading https://files.pythonhosted.org/packages/ee/fd/dd13d9b3a2469bf71529443369e27aa5fff6cb8429c8e86985b1db537152/kss-2.4.0.2-py3-none-any.whl (66kB)
[K     |█████                           | 10kB 17.8MB/s eta 0:00:01[K     |█████████▉                      | 20kB 18.6MB/s eta 0:00:01[K     |██████████████▊                 | 30kB 10.9MB/s eta 0:00:01[K     |███████████████████▋            | 40kB 8.3MB/s eta 0:00:01[K     |████████████████████████▌       | 51kB 4.3MB/s eta 0:00:01[K     |█████████████████████████████▍  | 61kB 4.9MB/s eta 0:00:01[K     |████████████████████████████████| 71kB 3.5MB/s 
[?25hInstalling collected packages: kss
Successfully installed kss-2.4.0.2


In [None]:
import kss

sentence_tokenized_text = []

for sent in kss.split_sentences(text):
        sentence_tokenized_text.append(sent.strip())

In [None]:
sentence_tokenized_text

['IBM 보고서(2015)2)에 따르면 전 세계 데이터의 80%가 텍스트와 같은 비정형\n데이터(unstructured data 로 이루어져있다.',
 '우리가 매일 접하는 언어와 텍스트에\n는 풍부한 정보가 내재되어있으나, 하루에도 수백만 건의 문서가 생산되는 오늘\n날에는 인지능력만으로 방대한 텍스트 자료를 처리하는 데는 한계가 있다.',
 '이제\n는 텍스트 마이닝으로 컴퓨터로 하여금 방대한 텍스트 데이터를 자동으로 분석\n하게 함으로써 유익한 정보를 효율적으로 얻을 수 있게 되었다.']

In [None]:
punct = "/-'?!.,#$%\'()*+-/:;<=>@[\\]^_`{|}~" + '""“”’' + '∞θ÷α•à−β∅³π‘₹´°£€\×™√²—–&'

In [None]:
punct_mapping = {"‘": "'", "₹": "e", "´": "'", "°": "", "€": "e", "™": "tm", "√": " sqrt ", "×": "x", "²": "2", "—": "-", "–": "-", "’": "'", "_": "-", "`": "'", '“': '"', '”': '"', '“': '"', "£": "e", '∞': 'infinity', 'θ': 'theta', '÷': '/', 'α': 'alpha', '•': '.', 'à': 'a', '−': '-', 'β': 'beta', '∅': '', '³': '3', 'π': 'pi', }

In [None]:
def clean_punc(text, punct, mapping):
    for p in mapping:
        text = text.replace(p, mapping[p])
    
    for p in punct:
        text = text.replace(p, f' {p} ')
    
    specials = {'\u200b': ' ', '…': ' ... ', '\ufeff': '', 'करना': '', 'है': ''}
    for s in specials:
        text = text.replace(s, specials[s])
    
    return text.strip()

In [None]:
cleaned_corpus = []
for sent in sentence_tokenized_text:
    cleaned_corpus.append(clean_punc(sent, punct, punct_mapping))

In [None]:
for i in range(0, len(cleaned_corpus)):
    print(cleaned_corpus[i])

IBM 보고서 ( 2015 ) 2 ) 에 따르면 전 세계 데이터의 80 % 가 텍스트와 같은 비정형
데이터 ( unstructured data 로 이루어져있다 .
우리가 매일 접하는 언어와 텍스트에
는 풍부한 정보가 내재되어있으나 ,  하루에도 수백만 건의 문서가 생산되는 오늘
날에는 인지능력만으로 방대한 텍스트 자료를 처리하는 데는 한계가 있다 .
이제
는 텍스트 마이닝으로 컴퓨터로 하여금 방대한 텍스트 데이터를 자동으로 분석
하게 함으로써 유익한 정보를 효율적으로 얻을 수 있게 되었다 .


In [None]:
import re

def clean_text(texts):
    corpus = []
    for i in range(0, len(texts)):
        review = re.sub(r'[@%\\*=()/~#&\+á?\xc3\xa1\-\|\.\:\;\!\-\,\_\~\$\'\"]', '',str(texts[i])) # 구두점 제거
        review = re.sub(r'\d+','', str(texts[i]))# 숫자 제거
        review = review.lower() # 소문자 변환
        review = re.sub(r'\s+', ' ', review) # extra space 제거
        review = re.sub(r'<[^>]+>','',review) # Html tags 제거
        review = re.sub(r'\s+', ' ', review) # 스페이스 제거
        review = re.sub(r"^\s+", '', review) # space from start 제거
        review = re.sub(r'\s+$', '', review) # space from the end 제거
        corpus.append(review)
    return corpus

In [None]:
basic_preprocessed_corpus = clean_text(cleaned_corpus)

In [None]:
for i in range(0, 2):
    print(basic_preprocessed_corpus[i])

ibm 보고서 ( ) ) 에 따르면 전 세계 데이터의 % 가 텍스트와 같은 비정형 데이터 ( unstructured data 로 이루어져있다 .
우리가 매일 접하는 언어와 텍스트에 는 풍부한 정보가 내재되어있으나 , 하루에도 수백만 건의 문서가 생산되는 오늘 날에는 인지능력만으로 방대한 텍스트 자료를 처리하는 데는 한계가 있다 .


* 띄어쓰기 검사: [한국어 띄어쓰기 검사 라이브러리 PyKoSpacing](https://github.com/haven-jeon/PyKoSpacing)를 사용

* 맞춤법 검사로는 [한국어 맞춤법 검사 라이브러리](https://github.com/ssut/py-hanspell) 사용

* 반복되는 이모티콘이나 자소는 [soynlp 라이브러리](https://github.com/lovit/soynlp)를 이용해 필터링

* POS tagging은 [카카오의 Khaiii](https://github.com/kakao/khaiii) 사용



#### 띄어쓰기

In [None]:
# 띄어쓰기 검사기 설치
!pip install git+https://github.com/haven-jeon/PyKoSpacing.git

Collecting git+https://github.com/haven-jeon/PyKoSpacing.git
  Cloning https://github.com/haven-jeon/PyKoSpacing.git to /tmp/pip-req-build-ydaqsfqk
  Running command git clone -q https://github.com/haven-jeon/PyKoSpacing.git /tmp/pip-req-build-ydaqsfqk
Collecting tensorflow==2.4.0
[?25l  Downloading https://files.pythonhosted.org/packages/7a/ce/e76c4e3d2c245f4f20eff1bf9cbcc602109448142881e1f946ba2d7327bb/tensorflow-2.4.0-cp36-cp36m-manylinux2010_x86_64.whl (394.7MB)
[K     |████████████████████████████████| 394.7MB 43kB/s 
Collecting argparse>=1.4.0
  Downloading https://files.pythonhosted.org/packages/f2/94/3af39d34be01a24a6e65433d19e107099374224905f1e0cc6bbe1fd22a2f/argparse-1.4.0-py2.py3-none-any.whl
Building wheels for collected packages: pykospacing
  Building wheel for pykospacing (setup.py) ... [?25l[?25hdone
  Created wheel for pykospacing: filename=pykospacing-0.4-cp36-none-any.whl size=2255638 sha256=1c5580e2c1f3690c2ba8781a247939f6348e19a7afc60df26a9274fe82b88837
  Store

In [None]:
from pykospacing import spacing
spacing_corrected = spacing("이제는텍스트마이닝으로컴퓨터로하여금방대한텍스트데이터를자동으로분셕하게함으로써유익한정보를효울적으로얻을수있게되었다.")
print(spacing_corrected)

이제는 텍스트마이닝으로 컴퓨터로 하여금 방대한 텍스트 데이터를 자동으로 분셕하게 함으로써 유익한 정보를 효울적으로 얻을 수 있게 되었다.


#### 맞춤법 검사

In [None]:
# 맞춤법 검사기 설치
!pip install git+https://github.com/ssut/py-hanspell.git

Collecting git+https://github.com/ssut/py-hanspell.git
  Cloning https://github.com/ssut/py-hanspell.git to /tmp/pip-req-build-28e42ing
  Running command git clone -q https://github.com/ssut/py-hanspell.git /tmp/pip-req-build-28e42ing
Building wheels for collected packages: py-hanspell
  Building wheel for py-hanspell (setup.py) ... [?25l[?25hdone
  Created wheel for py-hanspell: filename=py_hanspell-1.1-cp36-none-any.whl size=4854 sha256=20ed4cf0a4a44ca2aa3c44eaaf19b73aac9c6e9c9476834c4c17a662e2b18bed
  Stored in directory: /tmp/pip-ephem-wheel-cache-7crrlxrj/wheels/0a/25/d1/e5e96476dbb1c318cc26c992dd493394fe42b0c204b3e65588
Successfully built py-hanspell
Installing collected packages: py-hanspell
Successfully installed py-hanspell-1.1


In [None]:
from hanspell import spell_checker
 
spelled_sent = spell_checker.check(spacing_corrected)
checked_sent = spelled_sent.checked
 
print(checked_sent)

이제는 텍스트 마이닝으로 컴퓨터로 하여금 방대한 텍스트 데이터를 자동으로 분석하게 함으로써 유익한 정보를 효율적으로 얻을 수 있게 되었다.


In [None]:
# 데이터에서 반복되는 이모티콘이나 자모를 normalization을 위한 라이브러리를 설치
!pip install soynlp

Collecting soynlp
[?25l  Downloading https://files.pythonhosted.org/packages/7e/50/6913dc52a86a6b189419e59f9eef1b8d599cffb6f44f7bb91854165fc603/soynlp-0.0.493-py3-none-any.whl (416kB)
[K     |████████████████████████████████| 419kB 3.9MB/s 
Installing collected packages: soynlp
Successfully installed soynlp-0.0.493


In [None]:
from soynlp.normalizer import *
print(repeat_normalize('크하하하하하', num_repeats=2))

크하하


#### POS tagging

In [None]:
# Python 기반의 형태소 분석기 중 성능이 가장 좋은 것 중 하나인 카카오의 Khaiii를 사용 (시간 무지 오래 걸림!!!)
!git clone https://github.com/kakao/khaiii.git
!pip install cmake
!mkdir build
!cd build && cmake /content/khaiii
!cd /content/build/ && make all
!cd /content/build/ && make resource
!cd /content/build && make install
!cd /content/build && make package_python
!pip install /content/build/package_python

Cloning into 'khaiii'...
remote: Enumerating objects: 123, done.[K
remote: Counting objects: 100% (123/123), done.[K
remote: Compressing objects: 100% (97/97), done.[K
remote: Total 1000 (delta 38), reused 61 (delta 22), pack-reused 877[K
Receiving objects: 100% (1000/1000), 33.06 MiB | 12.67 MiB/s, done.
Resolving deltas: 100% (396/396), done.
-- [hunter] Initializing Hunter workspace (70287b1ffa810ee4e952052a9adff9b4856d0d54)
-- [hunter]   https://github.com/ruslo/hunter/archive/v0.23.34.tar.gz
-- [hunter]   -> /root/.hunter/_Base/Download/Hunter/0.23.34/70287b1
-- The C compiler identification is GNU 7.5.0
-- The CXX compiler identification is GNU 7.5.0
-- Check for working C compiler: /usr/bin/cc
-- Check for working C compiler: /usr/bin/cc -- works
-- Detecting C compiler ABI info
-- Detecting C compiler ABI info - done
-- Detecting C compile features
-- Detecting C compile features - done
-- Check for working CXX compiler: /usr/bin/c++
-- Check for working CXX compiler: /usr/

In [None]:
# 품사 태깅
from khaiii import KhaiiiApi
api = KhaiiiApi()

for sent in sentence_tokenized_text:
    for word in api.analyze(sent):
        for morph in word.morphs:
            print(morph.lex + '/' + morph.tag)
    print('\n')

IBM/SL
보고서/NNG
(/SS
2015/SN
)/SS
2/SN
)/SS
에/JKB
따르/VV
면/EC
전/MM
세계/NNG
데이터/NNG
의/JKG
80/SN
%/SW
가/JKS
텍스트/NNG
와/JC
같/VA
은/ETM
비/XPN
정/NNG
형/XSN
데이터/NNG
(/SS
unstructured/SL
data/SL
로/JKB
이루/VV
어/EC
지/VV
어/EC
있/VX
다/EF
./SF


우리/NP
가/JKS
매일/MAG
접하/VV
는/ETM
언어/NNG
와/JC
텍스트/NNG
에/JKB
늘/VV
ㄴ/ETM
풍부/XR
하/XSA
ㄴ/ETM
정보/NNG
가/JKS
내재/NNG
되/XSV
어/EC
있/VX
으나/EC
,/SP
하루/NNG
에/JKB
도/JX
수백만/NR
건/NNB
의/JKG
문서/NNG
가/JKS
생산/NNG
되/XSV
는/ETM
오늘/NNG
날/NNG
에/JKB
는/JX
인지/NNG
능력/NNG
만/JX
으로/JKB
방대/XR
하/XSA
ㄴ/ETM
텍스트/NNG
자료/NNG
를/JKO
처리/NNG
하/XSV
는/ETM
데/NNB
는/JX
한계/NNG
가/JKS
있/VV
다/EF
./SF


이제/MAG
늘/VV
ㄴ/ETM
텍스트/NNG
마이닝/NNP
으로/JKB
컴퓨터/NNG
로/JKB
하여금/MAG
방대/XR
하/XSA
ㄴ/ETM
텍스트/NNG
데이터/NNG
를/JKO
자동/NNG
으로/JKB
분석/NNG
하/XSA
게/EC
하/VX
ㅁ/ETN
으로써/JKB
유익/NNG
하/XSA
ㄴ/ETM
정보/NNG
를/JKO
효율/NNG
적/XSN
으로/JKB
얻/VV
을/ETM
수/NNB
있/VV
게/EC
되/VV
었/EP
다/EF
./SF




In [None]:
# '의미있는' 품사만 설정
significant_tags = ['NNG', 'NNP', 'NNB', 'VV', 'VA', 'VX', 'MAG', 'MAJ', 'XSV', 'XSA']

def pos_text(texts):
    corpus = []
    for sent in texts:
        pos_tagged = ''
        for word in api.analyze(sent):
            for morph in word.morphs:
                if morph.tag in significant_tags:
                    pos_tagged += morph.lex + '/' + morph.tag + ' '
        corpus.append(pos_tagged.strip())
    return corpus

In [None]:
pos_tagged_corpus = pos_text(sentence_tokenized_text)
print(pos_tagged_corpus)

['보고서/NNG 따르/VV 세계/NNG 데이터/NNG 텍스트/NNG 같/VA 정/NNG 데이터/NNG 이루/VV 지/VV 있/VX', '매일/MAG 접하/VV 언어/NNG 텍스트/NNG 늘/VV 하/XSA 정보/NNG 내재/NNG 되/XSV 있/VX 하루/NNG 건/NNB 문서/NNG 생산/NNG 되/XSV 오늘/NNG 날/NNG 인지/NNG 능력/NNG 하/XSA 텍스트/NNG 자료/NNG 처리/NNG 하/XSV 데/NNB 한계/NNG 있/VV', '이제/MAG 늘/VV 텍스트/NNG 마이닝/NNP 컴퓨터/NNG 하여금/MAG 하/XSA 텍스트/NNG 데이터/NNG 자동/NNG 분석/NNG 하/XSA 하/VX 유익/NNG 하/XSA 정보/NNG 효율/NNG 얻/VV 수/NNB 있/VV 되/VV']


#### 인기있는 형태소 분석기 소개와 간단한 성능 비교

- Kkma - 세종 말뭉치를 이용해 생성된 사전 (꼬꼬마)
- Komoran- Java로 쓰여진 오픈소스 한글 형태소 분석기
- Twitter(Okt) - 오픈소스 한글 형태소 분석기
- Hannanum - KAIST 말뭉치를 이용해 생성된 사전
- Mecab - 세종 말뭉치로 만들어진 CSV형태의 사전
- https://konlpy-ko.readthedocs.io/ko/v0.5.2/morph/ 참고


In [None]:
!pip install konlpy



In [None]:
text1 = u"아버지가방에들어가신다"
text2 = u"나는 밥을 먹는다"
text3 = u"하늘을 나는 자동차"

In [None]:
# Kkma: 서울대학교 IDS 연구실에서 개발
from konlpy.tag import Kkma
kkma = Kkma()

kkma.morphs         #형태소 분석
kkma.nouns          #명사 분석
kkma.pos            #형태소 분석 태깅
kkma.sentences      #문장 분석

print(kkma.pos(text1))
print(kkma.pos(text2))
print(kkma.pos(text3))

[('아버지', 'NNG'), ('가방', 'NNG'), ('에', 'JKM'), ('들어가', 'VV'), ('시', 'EPH'), ('ㄴ다', 'EFN')]
[('나', 'NP'), ('는', 'JX'), ('밥', 'NNG'), ('을', 'JKO'), ('먹', 'VV'), ('는', 'EPT'), ('다', 'EFN')]
[('하늘', 'NNG'), ('을', 'JKO'), ('날', 'VV'), ('는', 'ETD'), ('자동차', 'NNG')]


In [None]:
# Komoran: https://www.shineware.co.kr/products/komoran/
from konlpy.tag import Komoran
komoran = Komoran()

komoran.morphs    #형태소 분석
komoran.nouns     #명사 분석
komoran.pos       #형태소 분석 태깅

print(komoran.pos(text1))
print(komoran.pos(text2))
print(komoran.pos(text3))

[('아버지', 'NNG'), ('가방', 'NNP'), ('에', 'JKB'), ('들어가', 'VV'), ('시', 'EP'), ('ㄴ다', 'EC')]
[('나', 'NP'), ('는', 'JX'), ('밥', 'NNG'), ('을', 'JKO'), ('먹', 'VV'), ('는다', 'EC')]
[('하늘', 'NNG'), ('을', 'JKO'), ('나', 'NP'), ('는', 'JX'), ('자동차', 'NNG')]


In [None]:
# Okt: 오픈소스이고 과거 트위터 형태소 분석기로 쓰였음. 
from konlpy.tag import Okt
okt = Okt()

okt.morphs     #형태소 분석
okt.nouns      #명사 분석
okt.phrases    #구(Phrase) 분석
okt.pos        #형태소 분석 태깅

print(okt.pos(text1))
print(okt.pos(text2))
print(okt.pos(text3))

[('아버지', 'Noun'), ('가방', 'Noun'), ('에', 'Josa'), ('들어가신다', 'Verb')]
[('나', 'Noun'), ('는', 'Josa'), ('밥', 'Noun'), ('을', 'Josa'), ('먹는다', 'Verb')]
[('하늘', 'Noun'), ('을', 'Josa'), ('나', 'Noun'), ('는', 'Josa'), ('자동차', 'Noun')]


In [None]:
from konlpy.tag import Hannanum
hannanum = Hannanum() 
 
hannanum.analyze  #구(Phrase) 분석
hannanum.morphs   #형태소 분석
hannanum.nouns    #명사 분석
hannanum.pos      #형태소 분석 태깅

print(hannanum.pos(text1))
print(hannanum.pos(text2))
print(hannanum.pos(text3))