## NLTK를 이용한 영어 텍스트 품사 태깅
NLTK는 먼저 토큰화를 하고 토큰들에 대한 품사 태깅을 수행함

In [None]:
import nltk
from nltk.tokenize import word_tokenize

tokens = word_tokenize("Hello everyone. It's good to see you. Let's start our text mining class!")

print(nltk.pos_tag(tokens))   # 품사 태깅 결과를 (단어, 품사)로 구성된 튜플의 리스트로 반환

tokens = word_tokenize("It's an unexpected thing.")
print(nltk.pos_tag(tokens))
print(nltk.pos_tag(['unexpected']))

[('Hello', 'NNP'), ('everyone', 'NN'), ('.', '.'), ('It', 'PRP'), ("'s", 'VBZ'), ('good', 'JJ'), ('to', 'TO'), ('see', 'VB'), ('you', 'PRP'), ('.', '.'), ('Let', 'VB'), ("'s", 'POS'), ('start', 'VB'), ('our', 'PRP$'), ('text', 'NN'), ('mining', 'NN'), ('class', 'NN'), ('!', '.')]
[('It', 'PRP'), ("'s", 'VBZ'), ('an', 'DT'), ('unexpected', 'JJ'), ('thing', 'NN'), ('.', '.')]
[('unexpected', 'JJ')]


NLTK는 펜 트리뱅크 태그 세트를 사용하므로 해당 표를 보면 품사 약어의 의미를 알 수 있음  
아래와 같이 품사 약어의 의미와 설명을 볼 수도 있음

In [None]:
nltk.download('tagsets')  # 태그셋 다운로드

nltk.help.upenn_tagset('CC')
nltk.help.upenn_tagset('RB')

CC: conjunction, coordinating
    & 'n and both but either et for less minus neither nor or plus so
    therefore times v. versus vs. whether yet
RB: adverb
    occasionally unabatingly maddeningly adventurously professedly
    stirringly prominently technologically magisterially predominately
    swiftly fiscally pitilessly ...


[nltk_data] Downloading package tagsets to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package tagsets is already up-to-date!


특정 품사만을 추출하여 분석할 경우는 다음 예시 코드 활용

In [None]:
my_tag_set = ['NN', 'VB', 'JJ']

tokens = word_tokenize("Hello everyone. It's good to see you. Let's start our text mining class!")

print(nltk.pos_tag(tokens))

my_words = [word for word, tag in nltk.pos_tag(tokens) if tag in my_tag_set]

print('my_words: ', my_words)

[('Hello', 'NNP'), ('everyone', 'NN'), ('.', '.'), ('It', 'PRP'), ("'s", 'VBZ'), ('good', 'JJ'), ('to', 'TO'), ('see', 'VB'), ('you', 'PRP'), ('.', '.'), ('Let', 'VB'), ("'s", 'POS'), ('start', 'VB'), ('our', 'PRP$'), ('text', 'NN'), ('mining', 'NN'), ('class', 'NN'), ('!', '.')]
my_words:  ['everyone', 'good', 'see', 'Let', 'start', 'text', 'mining', 'class']


동음이의어를 처리하거나 품사를 이용해 단어를 더욱 정확하게 구분하고 싶을 때는 다음과 같이 단어 뒤에 품사 태그를 붙여 사용  
BOW(Bag Of Words)를 이용한 문서 분류에서 품사 정보 추가시 성능 차이가 있음

In [None]:
words_with_tag = ['/'.join(item) for item in nltk.pos_tag(tokens)]   # 단어와 토큰을 붙여 서로 다른 품사의 같은 형태 단어를 다른 단어로
print(words_with_tag)

['Hello/NNP', 'everyone/NN', './.', 'It/PRP', "'s/VBZ", 'good/JJ', 'to/TO', 'see/VB', 'you/PRP', './.', 'Let/VB', "'s/POS", 'start/VB', 'our/PRP$', 'text/NN', 'mining/NN', 'class/NN', '!/.']


## KoNLPy를 이용한 한국어 텍스트 형태소 분석 및 품사 태깅
KoNLPy는 토큰화를 미리 하지 않고 형태소 분석 및 품사 태깅 함수가 토큰화를 함께 수행

In [None]:
# konlpy를 코랩에서 설치하기
# !curl -s https://raw.githubusercontent.com/teddylee777/machine-learning/master/99-Misc/01-Colab/mecab-colab.sh | bash

In [3]:
from konlpy.tag import Okt

Okt = Okt()

In [4]:
sentence = '''절망의 반대가 희망은 아니다.
어두운 밤하늘에 별이 빛나듯
희망은 절망 속에 싹트는 거지
만약에 우리가 희망함이 적다면
그 누가 세상을 비출어줄까.
정희성, 희망 공부'''

print('형태소:', Okt.morphs(sentence))
print()
print('명사:', Okt.nouns(sentence))
print()
print('품사 태깅 결과:', Okt.pos(sentence))

sentence = "강아지가 아파서 약을 먹이다."
print(Okt.pos(sentence))

sentence = "학생들부터 많이 잡혀 들어갔다"
Okt.pos(sentence)


형태소: ['절망', '의', '반대', '가', '희망', '은', '아니다', '.', '\n', '어', '두운', '밤하늘', '에', '별', '이', '빛나듯', '\n', '희망', '은', '절망', '속', '에', '싹트는', '거지', '\n', '만약', '에', '우리', '가', '희망', '함', '이', '적다면', '\n', '그', '누가', '세상', '을', '비출어줄까', '.', '\n', '정희성', ',', '희망', '공부']

명사: ['절망', '반대', '희망', '어', '두운', '밤하늘', '별', '희망', '절망', '속', '거지', '만약', '우리', '희망', '함', '그', '누가', '세상', '정희성', '희망', '공부']

품사 태깅 결과: [('절망', 'Noun'), ('의', 'Josa'), ('반대', 'Noun'), ('가', 'Josa'), ('희망', 'Noun'), ('은', 'Josa'), ('아니다', 'Adjective'), ('.', 'Punctuation'), ('\n', 'Foreign'), ('어', 'Noun'), ('두운', 'Noun'), ('밤하늘', 'Noun'), ('에', 'Josa'), ('별', 'Noun'), ('이', 'Josa'), ('빛나듯', 'Verb'), ('\n', 'Foreign'), ('희망', 'Noun'), ('은', 'Josa'), ('절망', 'Noun'), ('속', 'Noun'), ('에', 'Josa'), ('싹트는', 'Verb'), ('거지', 'Noun'), ('\n', 'Foreign'), ('만약', 'Noun'), ('에', 'Josa'), ('우리', 'Noun'), ('가', 'Josa'), ('희망', 'Noun'), ('함', 'Noun'), ('이', 'Josa'), ('적다면', 'Verb'), ('\n', 'Foreign'), ('그', 'Noun'), ('누가', 'Noun'), ('세상

[('학생', 'Noun'),
 ('들', 'Suffix'),
 ('부터', 'Josa'),
 ('많이', 'Adverb'),
 ('잡혀', 'Verb'),
 ('들어갔다', 'Verb')]

## 한국어 형태소 분석

In [None]:
# from konlpy.tag import Twitter
from konlpy.tag import Okt

# twitter = Twitter()
twitter = Okt()

text = "죽는 날까지 하늘을 우러러 한 점 부끄럼이 없기를, 잎새에 이는 바람에도 나는 괴로워했다."

text_pos = twitter.pos(text) # Twitter 모듈안에 있는 pos 사용자 함수를 호출
print(text_pos) # 리스트 내 튜플 형태(단어, 품사)로 출력 값 생성


[('죽는', 'Verb'), ('날', 'Noun'), ('까지', 'Josa'), ('하늘', 'Noun'), ('을', 'Josa'), ('우러러', 'Noun'), ('한', 'Verb'), ('점', 'Noun'), ('부끄럼', 'Noun'), ('이', 'Josa'), ('없기를', 'Adjective'), (',', 'Punctuation'), ('잎새', 'Noun'), ('에', 'Josa'), ('이는', 'Verb'), ('바람', 'Noun'), ('에도', 'Josa'), ('나', 'Noun'), ('는', 'Josa'), ('괴로워', 'Adjective'), ('했다', 'Verb'), ('.', 'Punctuation')]


In [None]:
for word, pos in text_pos:
    print("{}\t{}".format(word, pos))


죽는	Verb
날	Noun
까지	Josa
하늘	Noun
을	Josa
우러러	Noun
한	Verb
점	Noun
부끄럼	Noun
이	Josa
없기를	Adjective
,	Punctuation
잎새	Noun
에	Josa
이는	Verb
바람	Noun
에도	Josa
나	Noun
는	Josa
괴로워	Adjective
했다	Verb
.	Punctuation


In [None]:
from konlpy.tag import Okt

twitter = Okt()

text = "죽는 날까지 하늘을 우러러 한 점 부끄럼이 없기를, 잎새에 이는 바람에도 나는 괴로워했다."
# text = "죽는 날까지 하늘을 우러러 한 점 부끄림이 없기를, 잎새에 이는 바람에도 나는 괴로워했다."

text_pos = twitter.pos(text, norm=True, stem=False) # norm: 오타를 정규화해준다고 하나 성능이 별로...
print(text_pos, "\n")

text_pos = twitter.pos(text, norm=False, stem=True) # stem: 했다' => "하다"
print(text_pos, "\n")

text_pos = twitter.pos(text, norm=True, stem=True)
print(text_pos, "\n")

[('죽는', 'Verb'), ('날', 'Noun'), ('까지', 'Josa'), ('하늘', 'Noun'), ('을', 'Josa'), ('우러러', 'Noun'), ('한', 'Verb'), ('점', 'Noun'), ('부끄럼', 'Noun'), ('이', 'Josa'), ('없기를', 'Adjective'), (',', 'Punctuation'), ('잎새', 'Noun'), ('에', 'Josa'), ('이는', 'Verb'), ('바람', 'Noun'), ('에도', 'Josa'), ('나', 'Noun'), ('는', 'Josa'), ('괴로워', 'Adjective'), ('했다', 'Verb'), ('.', 'Punctuation')] 

[('죽다', 'Verb'), ('날', 'Noun'), ('까지', 'Josa'), ('하늘', 'Noun'), ('을', 'Josa'), ('우러러', 'Noun'), ('하다', 'Verb'), ('점', 'Noun'), ('부끄럼', 'Noun'), ('이', 'Josa'), ('없다', 'Adjective'), (',', 'Punctuation'), ('잎새', 'Noun'), ('에', 'Josa'), ('이다', 'Verb'), ('바람', 'Noun'), ('에도', 'Josa'), ('나', 'Noun'), ('는', 'Josa'), ('괴롭다', 'Adjective'), ('하다', 'Verb'), ('.', 'Punctuation')] 

[('죽다', 'Verb'), ('날', 'Noun'), ('까지', 'Josa'), ('하늘', 'Noun'), ('을', 'Josa'), ('우러러', 'Noun'), ('하다', 'Verb'), ('점', 'Noun'), ('부끄럼', 'Noun'), ('이', 'Josa'), ('없다', 'Adjective'), (',', 'Punctuation'), ('잎새', 'Noun'), ('에', 'Josa'), ('이다', 'Verb'), ('바람'

## 튜플의 자동 언패킹(unpacking) 기능 활용법

리스트의 원소인 튜플을 하나씩 접근한 후, 개별 튜플의 원소들을 각각 출력하기 위해서는 다음과 같이 for문을 사용하면 된다.

In [None]:
A = [('a', 1), ('b', 2), ('c', 3), ('d', 4), ('e', 5)]

for i in A:
    print(i[0], i[1])

a 1
b 2
c 3
d 4
e 5


In [None]:
for first, second in A:
    print(first, second)

a 1
b 2
c 3
d 4
e 5


이번엔 `morphs() 메소드`와 `nouns() 메소드`를 적용해 보면, 결과에서 보듯 문장에서 분절된 형태소와 분절된 형태소들 가운데 명사만을 각각 리스트 내 원소로 반환해 준다. (텍스트 분석에서 가장 많이 사용되는 품사가 명사이기 때문에 명사만 따로 메소드 있음)

In [None]:
text = "죽는 날까지 하늘을 우러러 한 점 부끄럼이 없기를, 잎새에 이는 바람에도 나는 괴로워했다."

text_words = twitter.morphs(text)

print(text_words)

['죽는', '날', '까지', '하늘', '을', '우러러', '한', '점', '부끄럼', '이', '없기를', ',', '잎새', '에', '이는', '바람', '에도', '나', '는', '괴로워', '했다', '.']


In [None]:
text = "죽는 날까지 하늘을 우러러 한 점 부끄럼이 없기를, 잎새에 이는 바람에도 나는 괴로워했다."

text_nouns = twitter.nouns(text)

print(text_nouns)

['날', '하늘', '우러러', '점', '부끄럼', '잎새', '바람', '나']


### (1) 텍스트를 셀 내에서 직접 입력한 후 형태소분석 수행

In [None]:
a= "이 화 여 자 대 학 교"
a1= a.split(" ")

print("a1: ", a1)

a2 =[]

for word in a1:
#    print(word)
#     a2.append(word)
    a2 += word

print("a2: ", a2)

a1:  ['이', '화', '여', '자', '대', '학', '교']
a2:  ['이', '화', '여', '자', '대', '학', '교']


In [None]:
from konlpy.tag import Kkma

def split_sentences(text):
    text = text.strip().replace(". ", ".\n").replace("? ", "?\n").replace("! ", "!\n")
    sentences = text.splitlines()

    return sentences


def get_pos(analyzer, text):

    morph_anals = []
    sentences = split_sentences(text)                       # 형태소분석 전에 문장 단위로 분리. 위에서 정의한 split_sentences 호출

    for sentence in sentences:
        morph_anal = analyzer.pos(sentence)                 # 문장 단위로 형태소 분석하여 morph_anal의 출력 값 = [(word, pos)]
        morph_anals.append(morph_anal)

    return morph_anals

# main

textdata = """
'눈이 부시게'가 가뿐하게 지상파 월화극을 따돌리며 6%를 돌파했다.
27일 시청률 조사회사 닐슨 코리아에 따르면 26일 방송된 JTBC 월화극 '눈이 부시게'는 6.567%(전국 유료가구 기준)의 시청률을 기록? 5회 연속 자체 최고 시청률을 찍으며 멈출 줄 모르는 상승세를 이어가고 있다!
동시에 첫 6%대 돌파였다. 동 시간대 방송된 지상파 3사 월화극 SBS '해치' KBS 2TV '동네변호사 조들호2:죄와 벌' MBC '아이템'을 따돌리고 우위를 점했다. tvN '왕이 된 남자'(9.5%)를 잇는 월화극 전체 2위에 이름을 올렸다. '왕이 된 남자'의 경우 종영을 앞두고 있기에 '눈이 부시게'가 어디까지 상승할 수 있을지 주목된다!
이날 방송에는 김혜자(김혜자)가 방송 말미 시간을 되돌리는 시계를 발견하는 모습이 그려졌다? 전무송이 이 시계를 차고 있었고 시계를 본 후 눈빛이 심하게 흔들린 김혜자의 모습을 통해 다시금 시간을 되돌릴 수 있을지 여부에 관심이 쏠렸다.
"""

kkma = Kkma()
textdata_pos = get_pos(kkma, textdata)
print(textdata_pos)


[[("'", 'SS'), ('눈', 'NNG'), ('이', 'JKS'), ('부시', 'VA'), ('게', 'ECD'), ("'", 'SS'), ('가', 'VV'), ('아', 'ECS'), ('가뿐', 'XR'), ('하', 'XSA'), ('게', 'ECD'), ('지상파', 'NNG'), ('월화', 'NNG'), ('극', 'NNG'), ('을', 'JKO'), ('따돌리', 'VV'), ('며', 'ECE'), ('6', 'NR'), ('%', 'SW'), ('를', 'JKO'), ('돌파', 'NNG'), ('하', 'XSV'), ('었', 'EPT'), ('다', 'EFN'), ('.', 'SF')], [], [('27', 'NR'), ('일', 'NNM'), ('시청률', 'NNG'), ('조사', 'NNG'), ('회사', 'NNG'), ('니', 'VV'), ('ㄹ', 'ETD'), ('스', 'VV'), ('ㄴ', 'ETD'), ('코리아', 'NNG'), ('에', 'JKM'), ('따르', 'VV'), ('면', 'ECE'), ('26', 'NR'), ('일', 'NNM'), ('방송', 'NNG'), ('되', 'XSV'), ('ㄴ', 'ETD'), ('JTBC', 'OL'), ('월화', 'NNG'), ('극', 'NNG'), ("'", 'SS'), ('눈', 'NNG'), ('이', 'JKS'), ('부시', 'VA'), ('게', 'ECD'), ("'", 'SS'), ('늘', 'VV'), ('ㄴ', 'ETD'), ('6.567', 'NR'), ('%', 'SW'), ('(', 'SS'), ('전국', 'NNG'), ('유료', 'NNG'), ('가구', 'NNG'), ('기준', 'NNG'), (')', 'SS'), ('의', 'NNG'), ('시청률', 'NNG'), ('을', 'JKO'), ('기록', 'NNG'), ('?', 'SF')], [('5', 'NR'), ('회', 'NNM'), ('연속', 'NNG'), 

In [None]:
import konlpy

print(konlpy.__version__)


0.6.0


### (2) 외부 텍스트 파일을 불러와 형태소분석 수행

In [None]:
# from konlpy.tag import Twitter
from konlpy.tag import Okt

def split_sentences(text):
    text = text.strip().replace(". ", ".\n").replace("? ", "?\n").replace("! ", "!\n")
    sentences = text.splitlines()

    return sentences


def get_pos(analyzer, text):

    morph_anals = []
    sentences = split_sentences(text)                       # 형태소분석 전에 문장 단위로 분리. 위 함수 split_sentences 호출

    for sentence in sentences:
        morph_anal = analyzer.pos(sentence)            # 문장 단위로 형태소분석하여 word와 pos를 출력
        morph_anals.append(morph_anal)

    return morph_anals



# main

input_file_name = r".\Data\textdata.txt"

# twitter = Twitter()
twitter = Okt()


textdata_pos = []

with open(input_file_name, "r", encoding="EUC-KR") as input_file:
    for line in input_file:
        words_pos = get_pos(twitter, line)  # 앞서 정의한 사용자 함수 def split_sentences를 호출해 매개변수에 line을 입력
        textdata_pos.append(words_pos)

print(textdata_pos)


import pickle

# 형태소분석 결과 파일 저장
f = open('test_morphs.txt', 'wb')
pickle.dump(textdata_pos, f)
f.close()

print()

# 파일에서 읽어올 때
f = open('test_morphs.txt', 'rb')
textdata_pos = pickle.load(f)
print(textdata_pos)


[[[("'", 'Punctuation'), ('눈', 'Noun'), ('이', 'Josa'), ('부시', 'Noun'), ('게', 'Josa'), ("'", 'Punctuation'), ('가', 'Verb'), ('가뿐하게', 'Adjective'), ('지상파', 'Noun'), ('월화', 'Noun'), ('극', 'Suffix'), ('을', 'Josa'), ('따돌리며', 'Verb'), ('6%', 'Number'), ('를', 'Noun'), ('돌파', 'Noun'), ('했다', 'Verb'), ('.', 'Punctuation')]], [[('27일', 'Number'), ('시청률', 'Noun'), ('조사', 'Noun'), ('회사', 'Noun'), ('닐슨', 'Noun'), ('코리아', 'Noun'), ('에', 'Josa'), ('따르면', 'Verb'), ('26일', 'Number'), ('방송', 'Noun'), ('된', 'Verb'), ('JTBC', 'Alpha'), ('월화', 'Noun'), ('극', 'Suffix'), ("'", 'Punctuation'), ('눈', 'Noun'), ('이', 'Josa'), ('부시', 'Noun'), ('게', 'Josa'), ("'", 'Punctuation'), ('는', 'Verb'), ('6.567%', 'Number'), ('(', 'Foreign'), ('전국', 'Noun'), ('유료', 'Noun'), ('가구', 'Noun'), ('기준', 'Noun'), (')', 'Punctuation'), ('의', 'Noun'), ('시청률', 'Noun'), ('을', 'Josa'), ('기록', 'Noun'), ('했다', 'Verb'), ('.', 'Punctuation')]], [[('5회', 'Number'), ('연속', 'Noun'), ('자체', 'Noun'), ('최고', 'Noun'), ('시청률', 'Noun'), ('을', 'Josa

In [None]:
from konlpy.tag import Okt
t = Okt()

input_file_name = r".\Data\textdata.txt"

f = open(input_file_name, "r", encoding="EUC-KR")

print('품사 태깅 결과:', t.pos(f.read()))


품사 태깅 결과: [("'", 'Punctuation'), ('눈', 'Noun'), ('이', 'Josa'), ('부시', 'Noun'), ('게', 'Josa'), ("'", 'Punctuation'), ('가', 'Verb'), ('가뿐하게', 'Adjective'), ('지상파', 'Noun'), ('월화', 'Noun'), ('극', 'Suffix'), ('을', 'Josa'), ('따돌리며', 'Verb'), ('6%', 'Number'), ('를', 'Noun'), ('돌파', 'Noun'), ('했다', 'Verb'), ('.', 'Punctuation'), ('\n', 'Foreign'), ('27일', 'Number'), ('시청률', 'Noun'), ('조사', 'Noun'), ('회사', 'Noun'), ('닐슨', 'Noun'), ('코리아', 'Noun'), ('에', 'Josa'), ('따르면', 'Verb'), ('26일', 'Number'), ('방송', 'Noun'), ('된', 'Verb'), ('JTBC', 'Alpha'), ('월화', 'Noun'), ('극', 'Suffix'), ("'", 'Punctuation'), ('눈', 'Noun'), ('이', 'Josa'), ('부시', 'Noun'), ('게', 'Josa'), ("'", 'Punctuation'), ('는', 'Verb'), ('6.567%', 'Number'), ('(', 'Foreign'), ('전국', 'Noun'), ('유료', 'Noun'), ('가구', 'Noun'), ('기준', 'Noun'), (')', 'Punctuation'), ('의', 'Noun'), ('시청률', 'Noun'), ('을', 'Josa'), ('기록', 'Noun'), ('했다', 'Verb'), ('.', 'Punctuation'), ('5회', 'Number'), ('연속', 'Noun'), ('자체', 'Noun'), ('최고', 'Noun'), ('시청률', '

### 참고: 영어 텍스트 분석 라이브러리 spaCy

In [None]:
# advanced open source NLP library spacy(advanced NLP techniques, larger volume of text, NLTK와 CoreNLP는 교육 및 연구용)
# anaconda prompt 관리자 권한으로 실행. 한글은 지원 안됨
# conda install -c conda-forge spacy
# python -m spacy download en # default English model (~50MB)   # nlp=spacy.load('en')
# python -m spacy download en_core_web_md # larger English model (~1GB) 다운로드함
# sm/md/lg (small, medium, large) model, The difference lies in accuracy and loading time.

import spacy

nlp = spacy.load('en_core_web_md')

txt = "It's an unexpected thing."

doc = nlp(text)
tokens = [token.text for token in doc]
print(tokens)

# doc = nlp(text)
tokens_with_POS = [token.text + " - " + token.pos_ for token in doc]
print(tokens_with_POS)

# NER(Named Entity Recognition)
text = """Most of the outlay will be at home. No surprise there, either. While Samsung has expanded overseas, South Korea is still host to most of its factories and research engineers. """
doc = nlp(text)
for ent in doc.ents:
    print(ent.text, ent.start_char, ent.end_char, ent.label_)

['죽는', '날까지', '하늘을', '우러러', '한', '점', '부끄럼이', '없기를', ',', '잎새에', '이는', '바람에도', '나는', '괴로워했다', '.']
['죽는 - PROPN', '날까지 - PROPN', '하늘을 - PROPN', '우러러 - PROPN', '한 - ADP', '점 - PROPN', '부끄럼이 - X', '없기를 - INTJ', ', - PUNCT', '잎새에 - NOUN', '이는 - PROPN', '바람에도 - PROPN', '나는 - PROPN', '괴로워했다 - PROPN', '. - PUNCT']
Samsung 69 76 ORG
South Korea 100 111 GPE


In [None]:
import spacy
from spacy import displacy
text1 = 'I love you, Juliet.'

nlp=spacy.load('en_core_web_md')   # NLTK에서는 dependency 그래프 그리기가 약간 더 복잡
displacy.render(nlp(text1),style='dep', jupyter=True, options ={'distance':150})

displacy.render(nlp(text1),style="ent",jupyter=True)



### 참고: 한글 형태소분석 라이브러리 kiwipiepy  
https://github.com/bab2min/kiwipiepy

In [None]:
# pip install --upgrade pip
# pip install kiwipiepy

# pip3 install --upgrade pip
# pip3 install kiwipiepy

from kiwipiepy import Kiwi
from kiwipiepy.utils import Stopwords

kiwi = Kiwi()
stopwords = Stopwords()

# kiwi.add_user_word(word, tag, score, orig_word)
# kiwi.add_user_word('맛점', 'NNG', 0)

# 사용자 사전 입력 성공 시 True, 실패 시 False 반환
# word : 등록할 형태소. 공백 문자를 포함하지 않은 문자열만 등록 가능.
# tag : 등록할 형태소의 품사. 기본값 NNP.
# score : 등록할 형태소의 점수. 동일한 형태로 분석될 가능성이 있는 경우 값이 클수록 해당 형태소가 더 우선권을 가지고 추출.
# orig_word : 추가할 형태소가 특정 형태소의 변형인 경우 이 인자로 원본 형태소를 넘겨줄 수 있고, 없는 경우 생략.

# kiwi.extract_words(texts, min_cnt, max_word_len, min_score)
# kiwi.extract_add_words(texts, min_cnt, max_word_len, min_score, pos_score)
# texts : Iterable[str]
# min_cnt : 추출할 단어가 입력 텍스트 내에서 최소 몇 번 이상 등장하는 지 결정.
# max_word_len : 추출할 단어의 최대 길이.
# min_score : 추출할 단어의 최소 단어 점수.
# pos_socre : 추출할 단어의 최소 명사 점수.

# kiwi.tokenize(text, match_option, normalize_coda=False)
# kiwi.tokenize("안 먹었엌ㅋㅋ", normalize_coda=False)
# 결과 : [Token(form='안', tag='NNP', start=0, len=1),
#  Token(form='먹었엌', tag='NNP', start=2, len=3),
#  Token(form='ㅋㅋ', tag='SW', start=5, len=2)]
# normalize_coda : ㅋㅋㅋ, ㅎㅎㅎ와 같은 초성체가 뒤따라와 받침으로 들어가서 분석에 실패하는 문제를 해결.
# 덧붙은 받침 때문에 분석이 깨지는 경우를 방지

# kiwi.tokenize("ㅋㅋㅋ 이런 것도 분석이 될까욬ㅋㅋ?", normalize_coda=True)

# add, remove 메소드를 이용해 불용어 목록에 단어를 추가하거나 삭제할 수도 있습니다.
# stopwords.add(('결과', 'NNG'))   # 분석 결과에서 '결과' 제외
# kiwi.tokenize("분석 결과에서 불용어만 제외하고 출력할 수도 있다.", stopwords=stopwords)


# 입력된 텍스트를 형태소 분석하여 결과 반환. 총 top_n개의 결과로 출력
# kiwi.analyze(text, top_n, match_option, normalize_coda=False, z_coda=True, split_complex=False, blocklist=None)

# 입력 텍스트를 문장 단위로 분할하여 반환.
# kiwi.split_into_sents(text, match_options=Match.ALL, normalize_coda=False, z_coda=True, split_complex=False, blocklist=None, return_tokens=False)

# 여러 텍스트 조각을 문맥을 고려해 적절한 공백을 사이에 삽입하여 합침
# kiwi.glue(text_chunks, insert_new_lines=None, return_space_insertions=False)

# 입력 텍스트에서 띄어쓰기 교정
# kiwi.space(text, reset_whitespace=False)

# 형태소들을 결합하여 문장으로 복원
# kiwi.join(morphs, lm_search=True)

print(kiwi.tokenize("두 개의 문장이 있어요. 이런 것도 분석을 잘 할까요?", normalize_coda=False))
print(kiwi.split_into_sents("두 개의 문장이 있어요. 이런 것도 분석을 잘 할까요?"))
print(kiwi.space("두개의문장이있어요.이런것도 분석을잘할까요?"))

[Token(form='두', tag='MM', start=0, len=1), Token(form='개', tag='NNB', start=2, len=1), Token(form='의', tag='JKG', start=3, len=1), Token(form='문장', tag='NNG', start=5, len=2), Token(form='이', tag='JKS', start=7, len=1), Token(form='있', tag='VA', start=9, len=1), Token(form='어요', tag='EF', start=10, len=2), Token(form='.', tag='SF', start=12, len=1), Token(form='이런', tag='MM', start=14, len=2), Token(form='것', tag='NNB', start=17, len=1), Token(form='도', tag='JX', start=18, len=1), Token(form='분석', tag='NNG', start=20, len=2), Token(form='을', tag='JKO', start=22, len=1), Token(form='잘', tag='MAG', start=24, len=1), Token(form='하', tag='VV', start=26, len=1), Token(form='ᆯ까요', tag='EF', start=26, len=3), Token(form='?', tag='SF', start=29, len=1)]
[Sentence(text='두 개의 문장이 있어요.', start=0, end=13, tokens=None, subs=[]), Sentence(text='이런 것도 분석을 잘 할까요?', start=14, end=30, tokens=None, subs=[])]
두 개의 문장이 있어요. 이런 것도 분석을 잘 할까요?


In [None]:
print(kiwi.tokenize("오늘은 정말 맛점하고 싶다."))

[Token(form='오늘', tag='NNG', start=0, len=2), Token(form='은', tag='JX', start=2, len=1), Token(form='정말', tag='MAG', start=4, len=2), Token(form='맛', tag='NNG', start=7, len=1), Token(form='점', tag='NNG', start=8, len=1), Token(form='하', tag='XSV', start=9, len=1), Token(form='고', tag='EC', start=10, len=1), Token(form='싶', tag='VX', start=12, len=1), Token(form='다', tag='EF', start=13, len=1), Token(form='.', tag='SF', start=14, len=1)]


In [None]:
kiwi.add_user_word('맛점', 'NNG', 0)

True

In [None]:
print(kiwi.tokenize("오늘은 정말 맛점하고 싶다."))

[Token(form='오늘', tag='NNG', start=0, len=2), Token(form='은', tag='JX', start=2, len=1), Token(form='정말', tag='MAG', start=4, len=2), Token(form='맛점', tag='NNG', start=7, len=2), Token(form='하', tag='XSV', start=9, len=1), Token(form='고', tag='EC', start=10, len=1), Token(form='싶', tag='VX', start=12, len=1), Token(form='다', tag='EF', start=13, len=1), Token(form='.', tag='SF', start=14, len=1)]


In [None]:
# pip3 install kiwipiepy
from kiwipiepy import Kiwi
from kiwipiepy.utils import Stopwords
import pandas as pd

kiwi = Kiwi()
stopwords = Stopwords()

# new_words = pd.read_csv('new_words.csv')
# for new_word in new_words["Column1"]:
#     kiwi.add_user_word(new_word, 'NNG', 0)

new_words = ['고령화', '고령사회', '액티브시니어', '파워시니어', '실버세대', '실버칼라', '크리에이터']

for new_word in new_words:
    kiwi.add_user_word(new_word, 'NNG', 0)

stopwords_list = ['이번', '최근', '최초', '어제', '올해', '내년', '지난해', '오후', '이날', '오늘', '처음', '이후']

for stop_word in stopwords_list:
    stopwords.add((stop_word, 'NNG'))


def extract_noun(text):
    tokens = [
        token.form
        for token in kiwi.tokenize(text)
        if token.tag in ['NNG', 'NNP'] and len(token.form)>1 and token.form not in stopwords_list
    ]
    tokens= [x.replace('AI', '인공지능').replace('ai', '인공지능') for x in tokens]
    return tokens

norm_list = [('인공 지능', '인공지능'), ('독거 노인', '독거노인'),
             ('자살율', '자살률'), ('취업율', '취업률'), ('진학율', '진학률')]

def norm_text(text):
    for n in norm_list:
        text=text.replace(n[0], n[1])
    return text