In [25]:
from collections import Counter

from konlpy.corpus import kolaw
from konlpy.tag import Hannanum, Kkma
from konlpy.utils import concordance, pprint
from matplotlib import pyplot

In [19]:
doc = kolaw.open('constitution.txt').read()
pos = Hannanum().pos(doc)
cnt = Counter(pos)

print('nchars  :', len(doc))
print('ntokens :', len(doc.split()))
print('nmorphs :', len(set(pos)))
print('\nTop 20 frequent morphemes:'); pprint(cnt.most_common(20))
print('\nLocations of "대한민국" in the document:')
concordance(u'대한민국', doc, show=True)

nchars  : 18884
ntokens : 4178
nmorphs : 1499

Top 20 frequent morphemes:
[(('의', 'J'), 396),
 (('.', 'S'), 340),
 (('하', 'X'), 291),
 (('에', 'J'), 283),
 (('ㄴ다', 'E'), 241),
 (('ㄴ', 'E'), 223),
 (('이', 'J'), 221),
 (('을', 'J'), 211),
 (('은', 'J'), 184),
 (('어', 'E'), 176),
 (('를', 'J'), 148),
 (('ㄹ', 'E'), 134),
 (('하', 'P'), 124),
 (('는', 'J'), 117),
 (('법률', 'N'), 115),
 ((',', 'S'), 99),
 (('는', 'E'), 97),
 (('있', 'P'), 96),
 (('되', 'X'), 94),
 (('수', 'N'), 91)]

Locations of "대한민국" in the document:
0	대한민국헌법 유구한 역사와
9	대한국민은 3·1운동으로 건립된 대한민국임시정부의 법통과 불의에
98	총강 제1조 ① 대한민국은 민주공화국이다. ②대한민국의
100	① 대한민국은 민주공화국이다. ②대한민국의 주권은 국민에게
110	나온다. 제2조 ① 대한민국의 국민이 되는
126	의무를 진다. 제3조 대한민국의 영토는 한반도와
133	부속도서로 한다. 제4조 대한민국은 통일을 지향하며,
147	추진한다. 제5조 ① 대한민국은 국제평화의 유지에
787	군무원이 아닌 국민은 대한민국의 영역안에서는 중대한
1836	파견 또는 외국군대의 대한민국 영역안에서의 주류에
3620	경제 제119조 ① 대한민국의 경제질서는 개인과


[0, 9, 98, 100, 110, 126, 133, 147, 787, 1836, 3620]

In [20]:
import os
import pandas as pd

In [21]:
article_path = "./stock_data/stock_article0301_0531/article/삼성전자/"
seed_path = "./stock_data/stock_article0301_0531/seed/삼성전자/"

files = os.listdir(article_path)

In [22]:
news_data = pd.DataFrame()

for file in files:
    tmp_article = pd.read_csv(article_path+file).drop(['url'], axis=1)
    tmp_seed = pd.read_csv(seed_path+file)
    tmp = pd.concat([tmp_seed, tmp_article], axis=1)
    
    news_data = news_data.append(tmp, ignore_index=True)

In [23]:
text_all = " ".join(news_data.text.to_numpy().astype(str))

In [30]:
from tqdm import tqdm

k = Kkma()

words = []

for tp in tqdm(news_data[:].itertuples()):
    words += k.nouns(tp[7])
    if(tp[0]%100 == 0):
        print(tp[0])

1it [00:01,  1.47s/it]

0


101it [00:45,  2.03it/s]

100


201it [01:24,  2.86it/s]

200


300it [02:08,  3.58it/s]

300


401it [02:50,  5.61it/s]

400


501it [03:22,  4.90it/s]

500


601it [04:10,  2.51it/s]

600


701it [04:49,  3.49it/s]

700


801it [05:30,  2.64it/s]

800


901it [06:03,  2.53it/s]

900


1001it [06:36,  3.47it/s]

1000


1101it [07:10,  1.99it/s]

1100


1201it [07:44,  2.13it/s]

1200


1301it [08:18,  2.69it/s]

1300


1401it [09:05,  2.25it/s]

1400


1501it [09:39,  1.85it/s]

1500


1602it [10:18,  3.79it/s]

1600


1701it [10:53,  3.41it/s]

1700


1801it [11:24,  4.00it/s]

1800


1901it [11:56,  1.85it/s]

1900


2001it [12:40,  2.89it/s]

2000


2101it [13:11,  2.79it/s]

2100


2200it [13:47,  2.91it/s]

2200


2301it [14:25,  4.79it/s]

2300


2401it [14:58,  3.30it/s]

2400


2501it [15:45,  2.47it/s]

2500


2601it [16:31,  2.43it/s]

2600


2701it [17:19,  2.13it/s]

2700


2802it [17:58,  5.14it/s]

2800


2901it [18:28,  2.79it/s]

2900


3001it [19:10,  2.39it/s]

3000


3103it [19:27,  8.25it/s]

3100


3203it [19:38,  8.93it/s]

3200


3302it [19:49,  8.31it/s]

3300


3402it [19:59,  7.01it/s]

3400


3501it [20:32,  2.51it/s]

3500


3602it [21:11,  2.83it/s]

3600


3700it [21:47,  2.71it/s]

3700


3801it [22:21,  3.00it/s]

3800


3901it [22:58,  1.73it/s]

3900


4001it [23:43,  4.74it/s]

4000


4100it [24:14,  3.28it/s]

4100


4201it [24:49,  4.80it/s]

4200


4301it [25:32,  1.84it/s]

4300


4401it [26:12,  3.26it/s]

4400


4502it [26:42,  4.99it/s]

4500


4603it [27:18,  3.52it/s]

4600


4701it [27:57,  3.40it/s]

4700


4801it [28:38,  2.91it/s]

4800


4901it [29:17,  2.19it/s]

4900


5001it [30:03,  4.25it/s]

5000


5101it [30:36,  2.12it/s]

5100


5201it [31:18,  1.82it/s]

5200


5301it [31:57,  2.66it/s]

5300


5401it [32:36,  3.07it/s]

5400


TypeError: No matching overloads found for kr.lucypark.kkma.KkmaInterface.extractNoun(float), options are:
	public org.snu.ids.ha.index.KeywordList kr.lucypark.kkma.KkmaInterface.extractNoun(java.lang.String)



In [None]:
import pickle

# save
with open('words.pickle', 'wb') as f:
    pickle.dump(words, f, pickle.HIGHEST_PROTOCOL)

# load
with open('words.pickle', 'rb') as f:
    data = pickle.load(f)


In [27]:
nouns = Hannanum().nouns(news_data['text'].iloc[0])

In [28]:
nouns

['(서울=뉴스1)',
 '정은지',
 '기',
 '외국',
 '투자자들',
 '한주',
 '2월',
 '24',
 '28일',
 '코스피',
 '시장',
 '5거래',
 '매물',
 '삼성전자',
 '등',
 '3조4635억원',
 '어치',
 '팔아치웠다',
 '신종',
 '코로나바이러스',
 '감염증(코로나19)',
 '국내외',
 '급속',
 '확산',
 '한국',
 '글로벌',
 '경제',
 '타격',
 '것',
 '우려감',
 '반영',
 '결과',
 '시가총액',
 '1위',
 '삼성전자',
 '순매',
 '규모',
 '1조6128억원',
 '전체',
 '순매도',
 '절반',
 '가량',
 '이',
 'SK하이닉스(5100억원),',
 '삼성전자우(1523억원),',
 '현대차(1257억원),',
 'SK이노베이션(1021억원),',
 '한국전력(783억원),',
 '삼성SDI(706억원),',
 'LG생활건강(678억원)',
 '등',
 '시가총액',
 '20위',
 '대형주',
 '매도세가',
 '집중',
 '외국인',
 '국내',
 '첫',
 '확진자',
 '전',
 '지난달',
 '17일',
 '코스피',
 '시장',
 '1조7944억원',
 '순매수하',
 '증시',
 '활력',
 '주말',
 '기점',
 '국내',
 '코로나19',
 '확진자',
 '수',
 '급증',
 '속도',
 '주식',
 '팔아치웠다',
 '외국인',
 '한주',
 '종목',
 '최대',
 '순매수',
 '종목',
 '경영권',
 '분쟁',
 '이슈',
 '부각',
 '한진칼(559억원)',
 '이달',
 '한진칼',
 '주총',
 '조원태',
 '한진그룹',
 '회장',
 '조현아',
 '전',
 '대한항공',
 '부사장',
 '반도건설',
 '행동주의펀드',
 '3자',
 '주주연합',
 '측',
 '사이',
 '지분',
 '매입',
 '경쟁',
 '한진칼',
 '지분',
 '집',
 '주체',
 '조원태',
 '회장',
 '측',
 '우군',
 '델타항공'

In [12]:
len(nouns)

229

In [None]:
cnt = Counter(pos)

In [None]:
print('nchars  :', len(doc))
print('ntokens :', len(doc.split()))
print('nmorphs :', len(set(pos)))
print('\nTop 20 frequent morphemes:'); pprint(cnt.most_common(20))
print('\nLocations of "대한민국" in the document:')
concordance(u'대한민국', doc, show=True)