## NLTK를 이용한 영어 텍스트 품사 태깅
NLTK는 먼저 토큰화를 하고 토큰들에 대한 품사 태깅을 수행함

In [20]:
import nltk
from nltk.tokenize import word_tokenize

tokens = word_tokenize("Hello everyone. It's good to see you. Let's start our text mining class!")

print(nltk.pos_tag(tokens))   # 품사 태깅 결과를 (단어, 품사)로 구성된 튜플의 리스트로 반환


tokens = word_tokenize("It's an unexpected thing.")
print(nltk.pos_tag(tokens))                       
print(nltk.pos_tag(['unexpected']))

[('Hello', 'NNP'), ('everyone', 'NN'), ('.', '.'), ('It', 'PRP'), ("'s", 'VBZ'), ('good', 'JJ'), ('to', 'TO'), ('see', 'VB'), ('you', 'PRP'), ('.', '.'), ('Let', 'VB'), ("'s", 'POS'), ('start', 'VB'), ('our', 'PRP$'), ('text', 'NN'), ('mining', 'NN'), ('class', 'NN'), ('!', '.')]
[('It', 'PRP'), ("'s", 'VBZ'), ('an', 'DT'), ('unexpected', 'JJ'), ('thing', 'NN'), ('.', '.')]
[('unexpected', 'JJ')]


NLTK는 펜 트리뱅크 태그 세트를 사용하므로 해당 표를 보면 품사 약어의 의미를 알 수 있음  
아래와 같이 품사 약어의 의미와 설명을 볼 수도 있음

In [28]:
nltk.help.upenn_tagset('CC')

CC: conjunction, coordinating
    & 'n and both but either et for less minus neither nor or plus so
    therefore times v. versus vs. whether yet


특정 품사만을 추출하여 분석할 경우는 다음 예시 코드 활용

In [23]:
my_tag_set = ['NN', 'VB', 'JJ']

tokens = word_tokenize("Hello everyone. It's good to see you. Let's start our text mining class!")

print(nltk.pos_tag(tokens))

my_words = [word for word, tag in nltk.pos_tag(tokens) if tag in my_tag_set]

print('my_words: ', my_words)

[('Hello', 'NNP'), ('everyone', 'NN'), ('.', '.'), ('It', 'PRP'), ("'s", 'VBZ'), ('good', 'JJ'), ('to', 'TO'), ('see', 'VB'), ('you', 'PRP'), ('.', '.'), ('Let', 'VB'), ("'s", 'POS'), ('start', 'VB'), ('our', 'PRP$'), ('text', 'NN'), ('mining', 'NN'), ('class', 'NN'), ('!', '.')]
my_words:  ['everyone', 'good', 'see', 'Let', 'start', 'text', 'mining', 'class']


동음이의어를 처리하거나 품사를 이용해 단어를 더욱 정확하게 구분하고 싶을 때는 다음과 같이 단어 뒤에 품사 태그를 붙여 사용  
BOW(Bag Of Words)를 이용한 문서 분류에서 품사 정보 추가시 성능 차이가 있음 

In [30]:
words_with_tag = ['/'.join(item) for item in nltk.pos_tag(tokens)]   # 단어와 토큰을 붙여 서로 다른 품사의 같은 형태 단어를 다른 단어로 
print(words_with_tag)

['Hello/NNP', 'everyone/NN', './.', 'It/PRP', "'s/VBZ", 'good/JJ', 'to/TO', 'see/VB', 'you/PRP', './.', 'Let/VB', "'s/POS", 'start/VB', 'our/PRP$', 'text/NN', 'mining/NN', 'class/NN', '!/.']


## KoNLPy를 이용한 한국어 텍스트 형태소 분석 및 품사 태깅
KoNLPy는 토큰화를 미리 하지 않고 형태소 분석 및 품사 태깅 함수가 토큰화를 함께 수행

In [1]:
from konlpy.tag import Okt
t = Okt()

In [30]:
sentence = '''절망의 반대가 희망은 아니다.
어두운 밤하늘에 별이 빛나듯
희망은 절망 속에 싹트는 거지
만약에 우리가 희망함이 적다면
그 누가 세상을 비출어줄까.
정희성, 희망 공부'''

print('형태소:', t.morphs(sentence))
print()
print('명사:', t.nouns(sentence))
print()
print('품사 태깅 결과:', t.pos(sentence))

sentence = "강아지가 아파서 약을 먹이다."
print(t.pos(sentence))

sentence = "학생들부터 많이 잡혀 들어갔다"
t.pos(sentence)


형태소: ['절망', '의', '반대', '가', '희망', '은', '아니다', '.', '\n', '어', '두운', '밤하늘', '에', '별', '이', '빛나듯', '\n', '희망', '은', '절망', '속', '에', '싹트는', '거지', '\n', '만약', '에', '우리', '가', '희망', '함', '이', '적다면', '\n', '그', '누가', '세상', '을', '비출어줄까', '.', '\n', '정희성', ',', '희망', '공부']

명사: ['절망', '반대', '희망', '어', '두운', '밤하늘', '별', '희망', '절망', '속', '거지', '만약', '우리', '희망', '함', '그', '누가', '세상', '정희성', '희망', '공부']

품사 태깅 결과: [('절망', 'Noun'), ('의', 'Josa'), ('반대', 'Noun'), ('가', 'Josa'), ('희망', 'Noun'), ('은', 'Josa'), ('아니다', 'Adjective'), ('.', 'Punctuation'), ('\n', 'Foreign'), ('어', 'Noun'), ('두운', 'Noun'), ('밤하늘', 'Noun'), ('에', 'Josa'), ('별', 'Noun'), ('이', 'Josa'), ('빛나듯', 'Verb'), ('\n', 'Foreign'), ('희망', 'Noun'), ('은', 'Josa'), ('절망', 'Noun'), ('속', 'Noun'), ('에', 'Josa'), ('싹트는', 'Verb'), ('거지', 'Noun'), ('\n', 'Foreign'), ('만약', 'Noun'), ('에', 'Josa'), ('우리', 'Noun'), ('가', 'Josa'), ('희망', 'Noun'), ('함', 'Noun'), ('이', 'Josa'), ('적다면', 'Verb'), ('\n', 'Foreign'), ('그', 'Noun'), ('누가', 'Noun'), ('세상

[('학생', 'Noun'),
 ('들', 'Suffix'),
 ('부터', 'Josa'),
 ('많이', 'Adverb'),
 ('잡혀', 'Verb'),
 ('들어갔다', 'Verb')]

## 한국어 텍스트 문장 단위 형태소분석

>영어는 띄어쓰기를 기준으로 토큰화해도 단어의 최소 의미 단위와 비교적 일치하나 **한국어는 교착어 특징**을 갖기 때문에 띄어쓰기가 아닌 형태소를 기준으로 토큰화할 때가 많다.

>따라서 한국어 텍스트에 대한 **최소 의미 단위인 형태소 기준 토큰화** 관련 작업들에 대해 좀 더 살펴본다. 

In [1]:
# input_file_name = "./Data/textdatatextdata_utf8.txt"
input_file_name = r".\Data\textdata_utf8.txt"

# with open(input_file_name, "r", encoding="EUC-KR") as input_file:
# with open(input_file_name, "r", encoding="ANSI") as input_file:
with open(input_file_name, "r", encoding="utf8") as input_file:

    text_words = []

    for line in input_file:
        line = line.strip()
        words = line.split() # 일반적으로 단어 구분은 띄어쓰기(공백) 기준으로 이뤄지기 때문에 띄어쓰기 기준으로 분절함.
        text_words += words

print(text_words)


["'눈이", "부시게'가", '가뿐하게', '지상파', '월화극을', '따돌리며', '6%를', '돌파했다.', '27일', '시청률', '조사회사', '닐슨', '코리아에', '따르면', '26일', '방송된', 'JTBC', '월화극', "'눈이", "부시게'는", '6.567%(전국', '유료가구', '기준)의', '시청률을', '기록했다.', '5회', '연속', '자체', '최고', '시청률을', '찍으며', '멈출', '줄', '모르는', '상승세를', '이어가고', '있다.', '동시에', '첫', '6%대', '돌파였다.', '동', '시간대', '방송된', '지상파', '3사', '월화극', 'SBS', "'해치'", 'KBS', '2TV', "'동네변호사", '조들호2:죄와', "벌'", 'MBC', "'아이템'을", '따돌리고', '우위를', '점했다.', 'tvN', "'왕이", '된', "남자'(9.5%)를", '잇는', '월화극', '전체', '2위에', '이름을', '올렸다.', "'왕이", '된', "남자'의", '경우', '종영을', '앞두고', '있기에', "'눈이", "부시게'가", '어디까지', '상승할', '수', '있을지', '주목된다.', '이날', '방송에는', '김혜자(김혜자)가', '방송', '말미', '시간을', '되돌리는', '시계를', '발견하는', '모습이', '그려졌다.', '전무송이', '이', '시계를', '차고', '있었고', '시계를', '본', '후', '눈빛이', '심하게', '흔들린', '김혜자의', '모습을', '통해', '다시금', '시간을', '되돌릴', '수', '있을지', '여부에', '관심이', '쏠렸다.']


In [32]:
line = "봄이 왔어요"
words = line.split()
print(words)

a=["진달래", "개나리"]
print(words + a)

['봄이', '왔어요']
['봄이', '왔어요', '진달래', '개나리']


## splitlines() 메소드 사용

`splitlines()` 메소드는 줄바꿈을 기준으로 문자열을 여러 개로 나눈뒤 리스트로 반환한다. 

In [2]:
poem = """죽는 날까지 하늘을 우러러
한 점 부끄럼이 없기를,
잎새에 이는 바람에도
나는 괴로워했다.
"""
print(poem)

lines = poem.splitlines()

print(lines)
print()
print(lines[0])

죽는 날까지 하늘을 우러러
한 점 부끄럼이 없기를,
잎새에 이는 바람에도
나는 괴로워했다.

['죽는 날까지 하늘을 우러러', '한 점 부끄럼이 없기를,', '잎새에 이는 바람에도', '나는 괴로워했다.']

죽는 날까지 하늘을 우러러


In [7]:
poem = """죽는 날까지 하늘을 우러러\n한 점 부끄럼이 없기를,\n잎새에 이는 바람에도\n나는 괴로워했다.\n"""
print(poem)

lines = poem.splitlines()

print(lines)

죽는 날까지 하늘을 우러러
한 점 부끄럼이 없기를,
잎새에 이는 바람에도
나는 괴로워했다.

['죽는 날까지 하늘을 우러러', '한 점 부끄럼이 없기를,', '잎새에 이는 바람에도', '나는 괴로워했다.']


In [3]:
poem = """죽는 날까지 하늘을 우러러 한 점 부끄럼이 없기를, 잎새에 이는 바람에도 나는 괴로워했다."""
print(poem)

lines = poem.splitlines()

print(lines)

죽는 날까지 하늘을 우러러 한 점 부끄럼이 없기를, 잎새에 이는 바람에도 나는 괴로워했다.
['죽는 날까지 하늘을 우러러 한 점 부끄럼이 없기를, 잎새에 이는 바람에도 나는 괴로워했다.']


# 문장 토큰화

사용 알고리즘마다 차이는 있으나, 일반적으로 단어 토큰화 전에 문서를 문장으로 분절하는 것은 영어나 한국어나 동일한 과정이다.

문장을 구분하는 구분자들에는 **대표적으로, 마침표(.), 물음표(?), 느낌표(!)**가 있다.

그런데 이들 구분자가 때로 문장의 종결이 아닌 곳에서도 사용될 수 있기 때문에 **이들 부호에 공백 문자가 연이어진 경우를 문장의 구분이 이루어지는 것으로 보는 것이 안전**하다. **실제 구현에 있어서는 문장의 구분을 줄의 구분과 일치시켜서 문장의 구분이 텍스트 파일의 외현적 구조에 반영되도록 하는 것이 편리**하다.

In [28]:
input_file_name = r".\Data\textdata.txt"
         
with open(input_file_name, "r", encoding="EUC-KR") as input_file:
    text_sentences = []

    for line in input_file:
        line = line.strip()  # 라인별로 읽음. 
        sentences = line.split(". ")   # 마침표(.) 뒤에 스페이스가 있는 기준으로 분절함.
        text_sentences +=sentences
        
print(text_sentences[:4])
print(len(text_sentences))

with open(input_file_name, "r", encoding="EUC-KR") as input_file:
    for i, line in enumerate(input_file):
        if i== 2:
            print(line)

["'눈이 부시게'가 가뿐하게 지상파 월화극을 따돌리며 6%를 돌파했다.", "27일 시청률 조사회사 닐슨 코리아에 따르면 26일 방송된 JTBC 월화극 '눈이 부시게'는 6.567%(전국 유료가구 기준)의 시청률을 기록했다.", '5회 연속 자체 최고 시청률을 찍으며 멈출 줄 모르는 상승세를 이어가고 있다', '동시에 첫 6%대 돌파였다.']
9
5회 연속 자체 최고 시청률을 찍으며 멈출 줄 모르는 상승세를 이어가고 있다. 동시에 첫 6%대 돌파였다. 



In [26]:
input_file_name = r".\Data\textdata.txt"

text_sentences=[]
with open(input_file_name, "r", encoding="EUC-KR") as input_file:
    for line in input_file:
        sub_sentences = line.splitlines()
        text_sentences +=sub_sentences
print(len(text_sentences))

text_sentences=[]
with open(input_file_name, "r", encoding="EUC-KR") as input_file:
    for line in input_file:
        line = line.strip()
        line = line.replace(". ", ".\n")
        line = line.replace("? ", "?\n")
        line = line.replace("! ", "!\n")   
        sub_sentences = line.splitlines() 
        
        text_sentences +=sub_sentences
        
print(len(text_sentences))


6
9


아래는 위 코드를 사용자 함수를 통해 재작성한 것이다.

In [26]:
# 사용자 함수 작성

def split_sentences(text):
    text = text.strip().replace(". ", ".\n").replace("? ", "?\n").replace("! ", "!\n")
    sentences = text.splitlines()
    
    return sentences

input_file_name = r".\Data\textdata.txt"

text_sentences = []

with open(input_file_name, "r", encoding="EUC-KR") as input_file:
    for line in input_file:
        sub_sentences = split_sentences(line)  # 앞서 정의한 사용자 함수 def split_sentences를 호출해 매개변수에 line을 입력
        text_sentences += sub_sentences
        
print(len(text_sentences))

9


## 정규표현식을 이용한 문장 토큰화

아래 코드는 위 코드를 정규표현식과 사용자 정의 함수를 통해 재정리한 것이다.
정규표현식을 사용하기 위해서는 `re` 모듈을 호출해야 한다.

In [27]:
import re   # re 모듈 호출

def split_sentences(text):
#     sentences = re.split("(?<=[.?!])\s+", text.strip())
    sentences = re.split("[.?!]\s+", text.strip())   # .나 ?나 ! 다음에 스페이스가 1개 이상 오는 패턴 
    
    return sentences

input_file_name = r".\Data\textdata.txt"

text_sentences = []

with open(input_file_name, "r", encoding="EUC-KR") as input_file:
    for line in input_file:
        sub_sentences = split_sentences(line)  # 앞의 사용자 정의 함수 def split_sentences를 호출해 인자에 line을 입력
        text_sentences += sub_sentences
        
print(len(text_sentences))

9


## 한국어 형태소 분석

In [9]:
# from konlpy.tag import Twitter
from konlpy.tag import Okt

# twitter = Twitter()
twitter = Okt()

text = "죽는 날까지 하늘을 우러러 한 점 부끄럼이 없기를, 잎새에 이는 바람에도 나는 괴로워했다."

text_pos = twitter.pos(text) # Twitter 모듈안에 있는 pos 사용자 함수를 호출  
print(text_pos) # 리스트 내 튜플 형태(단어, 품사)로 출력 값 생성


[('죽는', 'Verb'), ('날', 'Noun'), ('까지', 'Josa'), ('하늘', 'Noun'), ('을', 'Josa'), ('우러러', 'Noun'), ('한', 'Verb'), ('점', 'Noun'), ('부끄럼', 'Noun'), ('이', 'Josa'), ('없기를', 'Adjective'), (',', 'Punctuation'), ('잎새', 'Noun'), ('에', 'Josa'), ('이는', 'Verb'), ('바람', 'Noun'), ('에도', 'Josa'), ('나', 'Noun'), ('는', 'Josa'), ('괴로워', 'Adjective'), ('했다', 'Verb'), ('.', 'Punctuation')]


In [10]:

for word, pos in text_pos:
    print("{}\t{}".format(word, pos))
    

죽는	Verb
날	Noun
까지	Josa
하늘	Noun
을	Josa
우러러	Noun
한	Verb
점	Noun
부끄럼	Noun
이	Josa
없기를	Adjective
,	Punctuation
잎새	Noun
에	Josa
이는	Verb
바람	Noun
에도	Josa
나	Noun
는	Josa
괴로워	Adjective
했다	Verb
.	Punctuation


## 튜플의 자동 언패킹(unpacking) 기능 활용법

리스트의 원소인 튜플을 하나씩 접근한 후, 개별 튜플의 원소들을 각각 출력하기 위해서는 다음과 같이 for문을 사용하면 된다.

In [12]:
A = [('a', 1), ('b', 2), ('c', 3), ('d', 4), ('e', 5)]

for i in A:
    print(i[0], i[1])    

a 1
b 2
c 3
d 4
e 5


In [13]:
for first, second in A:
    print(first, second)

a 1
b 2
c 3
d 4
e 5


이번엔 `morphs() 메소드`와 `nouns() 메소드`를 적용해 보면, 결과에서 보듯 문장에서 분절된 형태소와 분절된 형태소들 가운데 명사만을 각각 리스트 내 원소로 반환해 준다. (텍스트 분석에서 가장 많이 사용되는 품사가 명사이기 때문에 명사만 따로 메소드 있음)

In [106]:
text = "죽는 날까지 하늘을 우러러 한 점 부끄럼이 없기를, 잎새에 이는 바람에도 나는 괴로워했다."

text_words = twitter.morphs(text)

print(text_words)

['죽는', '날', '까지', '하늘', '을', '우러러', '한', '점', '부끄럼', '이', '없기를', ',', '잎새', '에', '이는', '바람', '에도', '나', '는', '괴로워', '했다', '.']


In [108]:
text = "죽는 날까지 하늘을 우러러 한 점 부끄럼이 없기를, 잎새에 이는 바람에도 나는 괴로워했다."

text_nouns = twitter.nouns(text)

print(text_nouns)

['날', '하늘', '우러러', '점', '부끄럼', '잎새', '바람', '나']


### (1) 텍스트를 셀 내에서 직접 입력한 후 형태소분석 수행

In [27]:
a= "이 화 여 자 대 학 교"
a1= a.split(" ")

print("a1: ", a1)

a2 =[]

for word in a1:
#    print(word)
#     a2.append(word)
    a2 += word
    
print("a2: ", a2)

a1:  ['이', '화', '여', '자', '대', '학', '교']
a2:  ['이', '화', '여', '자', '대', '학', '교']


In [33]:
from konlpy.tag import Kkma

def split_sentences(text):
    text = text.strip().replace(". ", ".\n").replace("? ", "?\n").replace("! ", "!\n")
    sentences = text.splitlines()
    
    return sentences


def get_pos(analyzer, text):

    morph_anals = []
    sentences = split_sentences(text)                       # 형태소분석 전에 문장 단위로 분리. 위에서 정의한 split_sentences 호출 
    
    for sentence in sentences:
        morph_anal = analyzer.pos(sentence)                 # 문장 단위로 형태소 분석하여 morph_anal의 출력 값 = [(word, pos)] 
        morph_anals.append(morph_anal)
        
    return morph_anals

# main 

textdata = """
'눈이 부시게'가 가뿐하게 지상파 월화극을 따돌리며 6%를 돌파했다. 
27일 시청률 조사회사 닐슨 코리아에 따르면 26일 방송된 JTBC 월화극 '눈이 부시게'는 6.567%(전국 유료가구 기준)의 시청률을 기록? 5회 연속 자체 최고 시청률을 찍으며 멈출 줄 모르는 상승세를 이어가고 있다!
동시에 첫 6%대 돌파였다. 동 시간대 방송된 지상파 3사 월화극 SBS '해치' KBS 2TV '동네변호사 조들호2:죄와 벌' MBC '아이템'을 따돌리고 우위를 점했다. tvN '왕이 된 남자'(9.5%)를 잇는 월화극 전체 2위에 이름을 올렸다. '왕이 된 남자'의 경우 종영을 앞두고 있기에 '눈이 부시게'가 어디까지 상승할 수 있을지 주목된다! 
이날 방송에는 김혜자(김혜자)가 방송 말미 시간을 되돌리는 시계를 발견하는 모습이 그려졌다? 전무송이 이 시계를 차고 있었고 시계를 본 후 눈빛이 심하게 흔들린 김혜자의 모습을 통해 다시금 시간을 되돌릴 수 있을지 여부에 관심이 쏠렸다. 
"""

kkma = Kkma()
textdata_pos = get_pos(kkma, textdata)
print(textdata_pos)


[[("'", 'SS'), ('눈', 'NNG'), ('이', 'JKS'), ('부시', 'VA'), ('게', 'ECD'), ("'", 'SS'), ('가', 'VV'), ('아', 'ECS'), ('가뿐', 'XR'), ('하', 'XSA'), ('게', 'ECD'), ('지상파', 'NNG'), ('월화', 'NNG'), ('극', 'NNG'), ('을', 'JKO'), ('따돌리', 'VV'), ('며', 'ECE'), ('6', 'NR'), ('%', 'SW'), ('를', 'JKO'), ('돌파', 'NNG'), ('하', 'XSV'), ('었', 'EPT'), ('다', 'EFN'), ('.', 'SF')], [], [('27', 'NR'), ('일', 'NNM'), ('시청률', 'NNG'), ('조사', 'NNG'), ('회사', 'NNG'), ('니', 'VV'), ('ㄹ', 'ETD'), ('스', 'VV'), ('ㄴ', 'ETD'), ('코리아', 'NNG'), ('에', 'JKM'), ('따르', 'VV'), ('면', 'ECE'), ('26', 'NR'), ('일', 'NNM'), ('방송', 'NNG'), ('되', 'XSV'), ('ㄴ', 'ETD'), ('JTBC', 'OL'), ('월화', 'NNG'), ('극', 'NNG'), ("'", 'SS'), ('눈', 'NNG'), ('이', 'JKS'), ('부시', 'VA'), ('게', 'ECD'), ("'", 'SS'), ('늘', 'VV'), ('ㄴ', 'ETD'), ('6.567', 'NR'), ('%', 'SW'), ('(', 'SS'), ('전국', 'NNG'), ('유료', 'NNG'), ('가구', 'NNG'), ('기준', 'NNG'), (')', 'SS'), ('의', 'NNG'), ('시청률', 'NNG'), ('을', 'JKO'), ('기록', 'NNG'), ('?', 'SF')], [('5', 'NR'), ('회', 'NNM'), ('연속', 'NNG'), 

In [15]:
import konlpy

print(konlpy.__version__)


0.6.0


### (2) 외부 텍스트 파일을 불러와 형태소분석 수행

In [28]:
# from konlpy.tag import Twitter
from konlpy.tag import Okt

def split_sentences(text):
    text = text.strip().replace(". ", ".\n").replace("? ", "?\n").replace("! ", "!\n")
    sentences = text.splitlines()
    
    return sentences


def get_pos(analyzer, text):

    morph_anals = []
    sentences = split_sentences(text)                       # 형태소분석 전에 문장 단위로 분리. 위 함수 split_sentences 호출 
    
    for sentence in sentences:
        morph_anal = analyzer.pos(sentence)            # 문장 단위로 형태소분석하여 word와 pos를 출력 
        morph_anals.append(morph_anal)
        
    return morph_anals



# main 

input_file_name = r".\Data\textdata.txt"

# twitter = Twitter()
twitter = Okt()

     
textdata_pos = []

with open(input_file_name, "r", encoding="EUC-KR") as input_file:
    for line in input_file:
        words_pos = get_pos(twitter, line)  # 앞서 정의한 사용자 함수 def split_sentences를 호출해 매개변수에 line을 입력
        textdata_pos.append(words_pos)
        
print(textdata_pos)



[[[("'", 'Punctuation'), ('눈', 'Noun'), ('이', 'Josa'), ('부시', 'Noun'), ('게', 'Josa'), ("'", 'Punctuation'), ('가', 'Verb'), ('가뿐하게', 'Adjective'), ('지상파', 'Noun'), ('월화', 'Noun'), ('극', 'Suffix'), ('을', 'Josa'), ('따돌리며', 'Verb'), ('6%', 'Number'), ('를', 'Noun'), ('돌파', 'Noun'), ('했다', 'Verb'), ('.', 'Punctuation')]], [[('27일', 'Number'), ('시청률', 'Noun'), ('조사', 'Noun'), ('회사', 'Noun'), ('닐슨', 'Noun'), ('코리아', 'Noun'), ('에', 'Josa'), ('따르면', 'Verb'), ('26일', 'Number'), ('방송', 'Noun'), ('된', 'Verb'), ('JTBC', 'Alpha'), ('월화', 'Noun'), ('극', 'Suffix'), ("'", 'Punctuation'), ('눈', 'Noun'), ('이', 'Josa'), ('부시', 'Noun'), ('게', 'Josa'), ("'", 'Punctuation'), ('는', 'Verb'), ('6.567%', 'Number'), ('(', 'Foreign'), ('전국', 'Noun'), ('유료', 'Noun'), ('가구', 'Noun'), ('기준', 'Noun'), (')', 'Punctuation'), ('의', 'Noun'), ('시청률', 'Noun'), ('을', 'Josa'), ('기록', 'Noun'), ('했다', 'Verb'), ('.', 'Punctuation')]], [[('5회', 'Number'), ('연속', 'Noun'), ('자체', 'Noun'), ('최고', 'Noun'), ('시청률', 'Noun'), ('을', 'Josa

In [35]:
from konlpy.tag import Okt
t = Okt()

input_file_name = r".\Data\textdata.txt"

f = open(input_file_name, "r", encoding="EUC-KR")

print('품사 태깅 결과:', t.pos(f.read()))


품사 태깅 결과: [("'", 'Punctuation'), ('눈', 'Noun'), ('이', 'Josa'), ('부시', 'Noun'), ('게', 'Josa'), ("'", 'Punctuation'), ('가', 'Verb'), ('가뿐하게', 'Adjective'), ('지상파', 'Noun'), ('월화', 'Noun'), ('극', 'Suffix'), ('을', 'Josa'), ('따돌리며', 'Verb'), ('6%', 'Number'), ('를', 'Noun'), ('돌파', 'Noun'), ('했다', 'Verb'), ('.', 'Punctuation'), ('\n', 'Foreign'), ('27일', 'Number'), ('시청률', 'Noun'), ('조사', 'Noun'), ('회사', 'Noun'), ('닐슨', 'Noun'), ('코리아', 'Noun'), ('에', 'Josa'), ('따르면', 'Verb'), ('26일', 'Number'), ('방송', 'Noun'), ('된', 'Verb'), ('JTBC', 'Alpha'), ('월화', 'Noun'), ('극', 'Suffix'), ("'", 'Punctuation'), ('눈', 'Noun'), ('이', 'Josa'), ('부시', 'Noun'), ('게', 'Josa'), ("'", 'Punctuation'), ('는', 'Verb'), ('6.567%', 'Number'), ('(', 'Foreign'), ('전국', 'Noun'), ('유료', 'Noun'), ('가구', 'Noun'), ('기준', 'Noun'), (')', 'Punctuation'), ('의', 'Noun'), ('시청률', 'Noun'), ('을', 'Josa'), ('기록', 'Noun'), ('했다', 'Verb'), ('.', 'Punctuation'), ('5회', 'Number'), ('연속', 'Noun'), ('자체', 'Noun'), ('최고', 'Noun'), ('시청률', '

### 참고: 영어 텍스트 분석 라이브러리 spaCy

In [13]:
# advanced open source NLP library spacy(advanced NLP techniques, larger volume of text, NLTK와 CoreNLP는 교육 및 연구용)
# anaconda prompt 관리자 권한으로 실행. 한글은 지원 안됨
# conda install -c conda-forge spacy
# python -m spacy download en # default English model (~50MB)   # nlp=spacy.load('en')
# python -m spacy download en_core_web_md # larger English model (~1GB) 다운로드함
# sm/md/lg (small, medium, large) model, The difference lies in accuracy and loading time.

import spacy

nlp = spacy.load('en_core_web_md')

txt = "It's an unexpected thing."

doc = nlp(text)
tokens = [token.text for token in doc]
print(tokens)

# doc = nlp(text)
tokens_with_POS = [token.text + " - " + token.pos_ for token in doc]
print(tokens_with_POS)

# NER(Named Entity Recognition)
text = """Most of the outlay will be at home. No surprise there, either. While Samsung has expanded overseas, South Korea is still host to most of its factories and research engineers. """
doc = nlp(text)
for ent in doc.ents:
    print(ent.text, ent.start_char, ent.end_char, ent.label_)

['It', "'s", 'an', 'unexpected', 'thing', '.']
['It - PRON', "'s - AUX", 'an - DET', 'unexpected - ADJ', 'thing - NOUN', '. - PUNCT']
Samsung 69 76 ORG
South Korea 100 111 GPE


In [17]:
import spacy
from spacy import displacy
text1 = 'I love you, Juliet.'

nlp=spacy.load('en_core_web_md')   # NLTK에서는 dependency 그래프 그리기가 약간 더 복잡
displacy.render(nlp(text1),style='dep', jupyter=True, options ={'distance':150})

displacy.render(nlp(text1),style="ent",jupyter=True)

