In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
from afinn import Afinn
from nltk.corpus import stopwords
from nltk.stem.porter import PorterStemmer
from nltk.tokenize import RegexpTokenizer

In [3]:
from konlpy.tag import Kkma, Komoran, Okt, Hannanum

In [4]:
kkma = Kkma()
kom = Komoran()
han = Hannanum()
okt = Okt()

In [5]:
text = '아버지가 방에 들어가신다'

In [6]:
kkma.morphs(text)

['아버지', '가', '방', '에', '들어가', '시', 'ㄴ다']

In [7]:
kom.morphs(text)

['아버지', '가', '방', '에', '들어가', '시', 'ㄴ다']

In [8]:
han.morphs(text)

['아버지', '가', '방', '에', '들', '어', '가', '시ㄴ다']

In [9]:
okt.morphs(text)

['아버지', '가', '방', '에', '들어가신다']

In [10]:
text = '개나리가 피어있는 동산에 누워있고 싶다'

In [11]:
print(kkma.morphs(text))
print(kom.morphs(text))
print(han.morphs(text))
print(okt.morphs(text))

['개나리', '가', '피', '어', '있', '는', '동산', '에', '눕', '어', '있', '고', '싶', '다']
['개나리', '가', '피', '어', '있', '는', '동산', '에', '눕', '어', '있', '고', '싶', '다']
['개나리', '가', '피', '어', '있', '는', '동산', '에', '눕', '어', '있', '고', '싶', '다']
['개나리', '가', '피어있는', '동산', '에', '누워있고', '싶다']


In [12]:
print(okt.nouns(text))

['개나리', '동산']


In [13]:
text = """
코로나19의 유행규모가 감소 추이를 보이면서 잇단 거리두기 완화 조치가 내려지고 있는 가운데 국내여행 활성화를 위한 정부의 다양한 프로모션이 시행되거나 준비되고 있다. 아직 안심할 수 있는 단계는 아니지만, 정부가 국민에게 ‘여행을 통한 소비’를 독려하고 나서면서 여행업계는 회복에 대한 기대에 부풀어 있고, 국민은 국민대로 여행을 떠나는 발걸음이 한결 가벼워졌다.
◇대한민국 숙박대전이 돌아왔다 = 문화체육관광부는 코로나19가 정점을 넘겼다고 보고 일상회복 차원에서 국내 숙박할인쿠폰을 제공하는 ‘대한민국 숙박대전’ 사업을 7일부터 재개했다. 숙박대전은 코로나19로 빈사 상태에 이른 여행업계를 지원하고 국민 여가 기회를 확대하기 위해 국내숙박 할인쿠폰을 제공하는 사업이다. 숙박대전은 2020년 8월과 11월, 그리고 2021년 11월에도 시행됐으나 그때마다 코로나19 확산으로 사업이 중단됐다.
올해 숙박대전에서 발급되는 할인쿠폰은 모두 100만 장. 숙박비 총액이 7만 원 이하면 2만 원권 쿠폰을, 7만 원을 초과하면 3만 원권 쿠폰을 사용할 수 있다. 할인 적용 시설은 호텔, 콘도, 리조트, 펜션, 농어촌민박, 모텔 등으로 거의 모든 국내 숙박시설에서 다 이용할 수 있다. 단 미등록 숙박시설이거나 숙박이 아닌 대실 용도로는 사용할 수 없다. 발급 기간은 5월 8일까지지만, 선착순으로 100만 장이 모두 소진되면 조기 마감된다. 숙박할인 쿠폰은 한 명이 한 번만 받을 수 있으며, 사업에 참여하는 총 49개 온라인여행사를 통해 발급받을 수 있다. 쿠폰을 받으려면 온라인 여행사 인터넷 홈페이지 등을 통해 매일 유효시간인 오전 10시부터 다음날 오전 7시까지 온라인으로 쿠폰 발급을 신청한 뒤 바로 숙박 예약과 결제를 해야 한다. 쿠폰을 받고 이튿날 오전 7시까지 예약과 결제를 하지 않거나 예약을 취소하면, 발급된 쿠폰은 자동 소멸하지만 쿠폰을 사용하지 않았으므로 다음 유효시간에 재발급받을 수 있다.
관광공사는 이번 숙박대전 사업과 함께 환경·사회·지배구조(ESG) 가치 확산을 위한 친환경·상생·지역경제 활성화 등 다양한 연계 프로모션도 추진한다. 친환경 여행문화 확산을 위한 친환경 숙박상품 기획전이나 별도로 운영하는 중소여행사 판촉 지원을 위한 중소전문관(13개사 입점)도 이런 프로모션의 일환으로 기획됐다. 장애인 고객 전용 콜센터 및 카카오톡 채널 개설을 통한 장애인 전담 지원체계를 구축한다.
"""

In [16]:
%%time
kkma.pos(text)
kom.pos(text)

Wall time: 388 ms


[('코로나', 'NNP'),
 ('19', 'NNP'),
 ('의', 'JKG'),
 ('유행', 'NNG'),
 ('규모', 'NNG'),
 ('가', 'JKS'),
 ('감소', 'NNG'),
 ('추이', 'NNG'),
 ('를', 'JKO'),
 ('보이', 'VV'),
 ('면서', 'EC'),
 ('잇달', 'VV'),
 ('ㄴ', 'ETM'),
 ('거리', 'NNP'),
 ('두기', 'NNP'),
 ('완화', 'NNG'),
 ('조치', 'NNG'),
 ('가', 'JKS'),
 ('내려지', 'VV'),
 ('고', 'EC'),
 ('있', 'VV'),
 ('는', 'ETM'),
 ('가운데', 'NNG'),
 ('국내', 'NNG'),
 ('여행', 'NNP'),
 ('활성', 'NNG'),
 ('화', 'XSN'),
 ('를', 'JKO'),
 ('위하', 'VV'),
 ('ㄴ', 'ETM'),
 ('정부', 'NNG'),
 ('의', 'JKG'),
 ('다양', 'XR'),
 ('하', 'XSA'),
 ('ㄴ', 'ETM'),
 ('프로모션', 'NNP'),
 ('이', 'JKS'),
 ('시행', 'NNG'),
 ('되', 'XSV'),
 ('거나', 'EC'),
 ('준비', 'NNG'),
 ('되', 'XSV'),
 ('고', 'EC'),
 ('있', 'VX'),
 ('다', 'EF'),
 ('.', 'SF'),
 ('아직', 'MAG'),
 ('안심', 'NNG'),
 ('하', 'XSV'),
 ('ㄹ', 'ETM'),
 ('수', 'NNB'),
 ('있', 'VV'),
 ('는', 'ETM'),
 ('단계', 'NNG'),
 ('는', 'JX'),
 ('아니', 'VCN'),
 ('지만', 'EC'),
 (',', 'SP'),
 ('정부', 'NNG'),
 ('가', 'JKS'),
 ('국민', 'NNG'),
 ('에게', 'JKB'),
 ('‘', 'SS'),
 ('여행', 'NNG'),
 ('을', 'JKO'),
 ('통

In [17]:
from nltk.corpus import stopwords
from nltk.stem.porter import PorterStemmer
from gensim import corpora, models
import gensim
from nltk.tokenize import RegexpTokenizer
import numpy as np

In [34]:
tokenizer = RegexpTokenizer('[\w]+')

In [35]:
stop_words = stopwords.words('english')

In [36]:
p_stemmer = PorterStemmer()

In [25]:
from gensim.corpora import Dictionary

text1 = [['man', 'female', 'man', 'human', 'man'],['woman', 'boy', 'human', 'man', 'woman']]

dictionary = Dictionary(text1)

print(dictionary.token2id)

{'female': 0, 'human': 1, 'man': 2, 'boy': 3, 'woman': 4}


In [37]:
doc_a = "Brocolli is good to eat. My brother likes to eat good brocolli, but not my mother."
doc_b = "My mother spends a lot of time driving my brother around to baseball practice."
doc_c = "Some health experts suggest that driving may cause increased tension and blood pressure."
doc_d = "I often feel pressure to perform well at school, but my mother never seems to drive my brother to do better."
doc_e = "Health professionals say that brocolli is good for your health."
doc_f = "Big data is a term used to refer to data sets that are too large or complex for traditional data-processing application software to adequately deal with."
doc_g = "Data with many cases offer greater statistical power, while data with higher complexity may lead to a higher false discovery rate"
doc_h = "Big data was originally associated with three key concepts: volume, variety, and velocity."
doc_i = "A 2016 definition states that 'Big data represents the information assets characterized by such a high volume, velocity and variety to require specific technology and analytical methods for its transformation into value'."
doc_j = "Data must be processed with advanced tools to reveal meaningful information."

In [38]:
doc_set = [doc_a, doc_b, doc_c, doc_d, doc_e, doc_f, doc_g, doc_h, doc_i, doc_j]


In [41]:
texts = []

for w in doc_set:
    raw = w.lower()
    tokens = tokenizer.tokenize(raw)
    stopped_tokens = [i for i in tokens if not i in stop_words]
    stemmer_tokens = [p_stemmer.stem(i) for i in stopped_tokens]
    texts.append(stemmer_tokens)

texts

[['brocolli',
  'good',
  'eat',
  'brother',
  'like',
  'eat',
  'good',
  'brocolli',
  'mother'],
 ['mother',
  'spend',
  'lot',
  'time',
  'drive',
  'brother',
  'around',
  'basebal',
  'practic'],
 ['health',
  'expert',
  'suggest',
  'drive',
  'may',
  'caus',
  'increas',
  'tension',
  'blood',
  'pressur'],
 ['often',
  'feel',
  'pressur',
  'perform',
  'well',
  'school',
  'mother',
  'never',
  'seem',
  'drive',
  'brother',
  'better'],
 ['health', 'profession', 'say', 'brocolli', 'good', 'health'],
 ['big',
  'data',
  'term',
  'use',
  'refer',
  'data',
  'set',
  'larg',
  'complex',
  'tradit',
  'data',
  'process',
  'applic',
  'softwar',
  'adequ',
  'deal'],
 ['data',
  'mani',
  'case',
  'offer',
  'greater',
  'statist',
  'power',
  'data',
  'higher',
  'complex',
  'may',
  'lead',
  'higher',
  'fals',
  'discoveri',
  'rate'],
 ['big',
  'data',
  'origin',
  'associ',
  'three',
  'key',
  'concept',
  'volum',
  'varieti',
  'veloc'],
 ['2016

In [42]:
dictionary = Dictionary(texts)

In [44]:
dictionary.token2id

{'brocolli': 0,
 'brother': 1,
 'eat': 2,
 'good': 3,
 'like': 4,
 'mother': 5,
 'around': 6,
 'basebal': 7,
 'drive': 8,
 'lot': 9,
 'practic': 10,
 'spend': 11,
 'time': 12,
 'blood': 13,
 'caus': 14,
 'expert': 15,
 'health': 16,
 'increas': 17,
 'may': 18,
 'pressur': 19,
 'suggest': 20,
 'tension': 21,
 'better': 22,
 'feel': 23,
 'never': 24,
 'often': 25,
 'perform': 26,
 'school': 27,
 'seem': 28,
 'well': 29,
 'profession': 30,
 'say': 31,
 'adequ': 32,
 'applic': 33,
 'big': 34,
 'complex': 35,
 'data': 36,
 'deal': 37,
 'larg': 38,
 'process': 39,
 'refer': 40,
 'set': 41,
 'softwar': 42,
 'term': 43,
 'tradit': 44,
 'use': 45,
 'case': 46,
 'discoveri': 47,
 'fals': 48,
 'greater': 49,
 'higher': 50,
 'lead': 51,
 'mani': 52,
 'offer': 53,
 'power': 54,
 'rate': 55,
 'statist': 56,
 'associ': 57,
 'concept': 58,
 'key': 59,
 'origin': 60,
 'three': 61,
 'varieti': 62,
 'veloc': 63,
 'volum': 64,
 '2016': 65,
 'analyt': 66,
 'asset': 67,
 'character': 68,
 'definit': 69,
 'h

In [45]:
texts[0]

['brocolli',
 'good',
 'eat',
 'brother',
 'like',
 'eat',
 'good',
 'brocolli',
 'mother']

In [51]:
print(np.unique(np.array(texts[0])))

['brocolli' 'brother' 'eat' 'good' 'like' 'mother']


In [54]:
dictionary.doc2bow(texts[1])

[(1, 1), (5, 1), (6, 1), (7, 1), (8, 1), (9, 1), (10, 1), (11, 1), (12, 1)]