In [2]:
import pandas as pd
import pandas_profiling

In [3]:
data = pd.read_csv('kospi30articles_2.csv')

In [4]:
head = data[:5]

In [5]:
# 한국어 문장 토큰화 using KSS
import kss
sample = head.iloc[2]['Article']
sentences = kss.split_sentences(sample)
print('한국어 문장 토큰화 :', sentences)

[Korean Sentence Splitter]: Initializing Pynori...


한국어 문장 토큰화 : ['코로나19 확산 여파로 국가적 혈액 부족 사태가 발생하자 SK그룹(회장 최태원·사진)이 일반 시민과 협력사, 사회적기업들과 함께 팔을 걷었다.', "25일 SK그룹은 대한적십자사와 업무협약을 맺고 작년 12월 중순부터 실시한 '생명나눔", "온(溫)택트' 헌혈 캠페인에 SK 구성원과 시민 등 모두 5773명이 참여한 것으로 집계됐다고 밝혔다.", "이번 헌혈 캠페인은 사회적 '안전망(Safety Net)'을 구축하기 위해 SK 구성원 및 시민의 공감과 참여 유도, 헌혈 접근성 제고를 위한 헌혈버스 등 인프라스트럭처 지원, 혈액암으로 고통받는 아동에 대한 기부 등 '선한 영향력' 확산 활동으로 기획됐다.", '캠페인 기간 SK수펙스추구협의회를 시작으로 SK텔레콤, SK하이닉스, SK(주), SK E&S, SK머티리얼즈 등 SK 그룹사 구성원들은 전국 사업지에서 순차적으로 헌혈에 동참했다.', 'SK그룹 협력업체와 사회적기업 임직원, 그리고 시민들의 발길도 이어졌다.', "또한 SK그룹은 대당 3억원인 헌혈버스 2대와 SK텔레콤이 개발한 헌혈 애플리케이션 '레드 커넥트'를 적십자사에 기증하는 등 인프라 지원에도 힘을 쏟았다."]


In [95]:
# Okt와 꼬꼬마 두 개의 형태소 분석기를 사용하여 토큰화를 수행
# 1) morphs : 형태소 추출
# 2) pos : 품사 태깅(Part-of-speech tagging)
# 3) nouns : 명사 추출

from konlpy.tag import Okt
from konlpy.tag import Kkma

okt = Okt()
kkma = Kkma()

sentence = sentences[1]

print('OKT 형태소 분석 :',okt.morphs(sentence))
print('OKT 품사 태깅 :',okt.pos(sentence))
print('OKT 명사 추출 :',okt.nouns(sentence)) 

OKT 형태소 분석 : ['25일', 'SK', '그룹', '은', '대', '한', '적십자사', '와', '업무', '협약', '을', '맺고', '작년', '12월', '중순', '부터', '실시', '한', "'", '생명', '나눔']
OKT 품사 태깅 : [('25일', 'Number'), ('SK', 'Alpha'), ('그룹', 'Noun'), ('은', 'Josa'), ('대', 'Modifier'), ('한', 'Modifier'), ('적십자사', 'Noun'), ('와', 'Josa'), ('업무', 'Noun'), ('협약', 'Noun'), ('을', 'Josa'), ('맺고', 'Verb'), ('작년', 'Noun'), ('12월', 'Number'), ('중순', 'Noun'), ('부터', 'Josa'), ('실시', 'Noun'), ('한', 'Josa'), ("'", 'Punctuation'), ('생명', 'Noun'), ('나눔', 'Noun')]
OKT 명사 추출 : ['그룹', '적십자사', '업무', '협약', '작년', '중순', '실시', '생명', '나눔']


In [96]:
print('꼬꼬마 형태소 분석 :',kkma.morphs(sentence))
print('꼬꼬마 품사 태깅 :',kkma.pos(sentence))
print('꼬꼬마 명사 추출 :',kkma.nouns(sentence)) 

꼬꼬마 형태소 분석 : ['25', '일', 'SK', '그룹', '은', '대한', '적십자', '사', '와', '업무', '협약', '을', '맺', '고', '작년', '12', '월', '중순', '부터', '실시', '하', 'ㄴ', "'", '생명', '나눔']
꼬꼬마 품사 태깅 : [('25', 'NR'), ('일', 'NNM'), ('SK', 'OL'), ('그룹', 'NNG'), ('은', 'JX'), ('대한', 'NNG'), ('적십자', 'NNG'), ('사', 'NNG'), ('와', 'JC'), ('업무', 'NNG'), ('협약', 'NNG'), ('을', 'JKO'), ('맺', 'VV'), ('고', 'ECE'), ('작년', 'NNG'), ('12', 'NR'), ('월', 'NNM'), ('중순', 'NNG'), ('부터', 'JX'), ('실시', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ("'", 'SS'), ('생명', 'NNG'), ('나눔', 'NNP')]
꼬꼬마 명사 추출 : ['25', '25일', '일', '그룹', '대한', '대한적십자사', '적십자', '적십자사', '사', '업무', '업무협약', '협약', '작년', '12', '12월', '월', '중순', '실시', '생명', '생명나눔', '나눔']


In [108]:
# 불용어 제거
okt = Okt()


stop_words = "로 은 는 에 가 이 을 를 등 이번 그리고 또한 ( ) · . , ), 의 으로 )' 와 한 것 ' 들 에도 도 과 했다 적 그룹"

stop_words = set(stop_words.split(' '))
word_tokens = okt.morphs(sample)

result = [word for word in word_tokens if not word in stop_words]

print('불용어 제거 전 :',word_tokens) 
print('불용어 제거 후 :',result)

불용어 제거 전 : ['\n ', '코로나', '19', '확산', '여파', '로', '국가', '적', '혈액', '부족', '사태', '가', '발생', '하자', 'SK', '그룹', '(', '회장', '최태원', '·', '사진', ')', '이', '일반', '시민', '과', '협력', '사', ',', '사회', '적', '기업', '들', '과', '함께', '팔', '을', '걷었다', '.', '25일', 'SK', '그룹', '은', '대', '한', '적십자사', '와', '업무', '협약', '을', '맺고', '작년', '12월', '중순', '부터', '실시', '한', "'", '생명', '나눔', '온', '(', '溫', ')', '택트', "'", '헌혈', '캠페인', '에', 'SK', '구성원', '과', '시민', '등', '모두', '5773', '명', '이', '참여', '한', '것', '으로', '집계', '됐다고', '밝혔다', '.', '이번', '헌혈', '캠페인', '은', '사회', '적', "'", '안전', '망', '(', 'Safety', 'Net', ")'", '을', '구축', '하기', '위해', 'SK', '구성원', '및', '시민', '의', '공감', '과', '참여', '유도', ',', '헌혈', '접근성', '제', '고', '를', '위', '한', '헌혈', '버스', '등', '인프라스트럭처', '지원', ',', '혈액암', '으로', '고통', '받는', '아동', '에', '대한', '기부', '등', "'", '선한', '영향력', "'", '확산', '활동', '으로', '기획', '됐다', '.', '캠페인', '기간', 'SK', '수', '펙스', '추구', '협의', '회', '를', '시작', '으로', 'SK', '텔레콤', ',', 'SK', '하이닉스', ',', 'SK', '(', '주', '),', 'SK', 'E', '&', 'S', ','

In [113]:
vocab = {}
preprocessed_sentences = []

for sentence in sentences:
    # 단어 토큰화
    tokenized_sentence = okt.morphs(sentence)
    result = []

    for word in tokenized_sentence:
        if word not in stop_words:
            result.append(word)
            if word not in vocab:
                vocab[word] = 0 
            vocab[word] += 1
    preprocessed_sentences.append(result) 
print(preprocessed_sentences)

[['코로나', '19', '확산', '여파', '국가', '혈액', '부족', '사태', '발생', '하자', 'SK', '회장', '최태원', '사진', '일반', '시민', '협력', '사', '사회', '기업', '함께', '팔', '걷었다'], ['25일', 'SK', '대', '적십자사', '업무', '협약', '맺고', '작년', '12월', '중순', '부터', '실시', '생명', '나눔'], ['온', '溫', '택트', '헌혈', '캠페인', 'SK', '구성원', '시민', '모두', '5773', '명', '참여', '집계', '됐다고', '밝혔다'], ['헌혈', '캠페인', '사회', '안전', '망', 'Safety', 'Net', '구축', '하기', '위해', 'SK', '구성원', '및', '시민', '공감', '참여', '유도', '헌혈', '접근성', '제', '고', '위', '헌혈', '버스', '인프라스트럭처', '지원', '혈액암', '고통', '받는', '아동', '대한', '기부', '선한', '영향력', '확산', '활동', '기획', '됐다'], ['캠페인', '기간', 'SK', '수', '펙스', '추구', '협의', '회', '시작', 'SK', '텔레콤', 'SK', '하이닉스', 'SK', '주', 'SK', 'E', '&', 'S', 'SK', '머티리얼즈', 'SK', '사', '구성원', '전국', '사업', '지에서', '순차', '헌혈', '동참'], ['SK', '협력', '업체', '사회', '기업', '임', '직원', '시민', '발길', '이어졌다'], ['SK', '대당', '3억원', '인', '헌혈', '버스', '2', '대와', 'SK', '텔레콤', '개발', '헌혈', '애플리케이션', '레드', '커넥트', '적십자사', '기증', '하는', '인프라', '지원', '힘', '쏟았다']]


In [115]:
print('단어 집합 :',vocab)
vocab_sorted = sorted(vocab.items(), key = lambda x:x[1], reverse = True)
print('정렬')
print(vocab_sorted)

단어 집합 : {'코로나': 1, '19': 1, '확산': 2, '여파': 1, '국가': 1, '혈액': 1, '부족': 1, '사태': 1, '발생': 1, '하자': 1, 'SK': 14, '회장': 1, '최태원': 1, '사진': 1, '일반': 1, '시민': 4, '협력': 2, '사': 2, '사회': 3, '기업': 2, '함께': 1, '팔': 1, '걷었다': 1, '25일': 1, '대': 1, '적십자사': 2, '업무': 1, '협약': 1, '맺고': 1, '작년': 1, '12월': 1, '중순': 1, '부터': 1, '실시': 1, '생명': 1, '나눔': 1, '온': 1, '溫': 1, '택트': 1, '헌혈': 7, '캠페인': 3, '구성원': 3, '모두': 1, '5773': 1, '명': 1, '참여': 2, '집계': 1, '됐다고': 1, '밝혔다': 1, '안전': 1, '망': 1, 'Safety': 1, 'Net': 1, '구축': 1, '하기': 1, '위해': 1, '및': 1, '공감': 1, '유도': 1, '접근성': 1, '제': 1, '고': 1, '위': 1, '버스': 2, '인프라스트럭처': 1, '지원': 2, '혈액암': 1, '고통': 1, '받는': 1, '아동': 1, '대한': 1, '기부': 1, '선한': 1, '영향력': 1, '활동': 1, '기획': 1, '됐다': 1, '기간': 1, '수': 1, '펙스': 1, '추구': 1, '협의': 1, '회': 1, '시작': 1, '텔레콤': 2, '하이닉스': 1, '주': 1, 'E': 1, '&': 1, 'S': 1, '머티리얼즈': 1, '전국': 1, '사업': 1, '지에서': 1, '순차': 1, '동참': 1, '업체': 1, '임': 1, '직원': 1, '발길': 1, '이어졌다': 1, '대당': 1, '3억원': 1, '인': 1, '2': 1, '대와': 1, '개발': 1, '애플리케이션': 1

In [117]:
word_to_index = {}
i = 0
for (word, frequency) in vocab_sorted :
    if frequency > 1 : # 빈도수가 작은 단어는 제외.
        i = i + 1
        word_to_index[word] = i

print(word_to_index)

{'SK': 1, '헌혈': 2, '시민': 3, '사회': 4, '캠페인': 5, '구성원': 6, '확산': 7, '협력': 8, '사': 9, '기업': 10, '적십자사': 11, '참여': 12, '버스': 13, '지원': 14, '텔레콤': 15}


In [118]:
vocab_size = 5

# 인덱스가 5 초과인 단어 제거
words_frequency = [word for word, index in word_to_index.items() if index >= vocab_size + 1]

# 해당 단어에 대한 인덱스 정보를 삭제
for w in words_frequency:
    del word_to_index[w]
print(word_to_index)

{'SK': 1, '헌혈': 2, '시민': 3, '사회': 4, '캠페인': 5}


In [119]:
# 단어 집합에 없는 단어들은 'OOV'의 인덱스로 인코딩
word_to_index['OOV'] = len(word_to_index) + 1
print(word_to_index)

{'SK': 1, '헌혈': 2, '시민': 3, '사회': 4, '캠페인': 5, 'OOV': 6}


In [120]:
# 케라스의 전처리 도구로 인코딩

from tensorflow.keras.preprocessing.text import Tokenizer

vocab_size = 5
tokenizer = Tokenizer(num_words = vocab_size + 1) # 상위 5개 단어만 사용
# fit_on_texts()안에 코퍼스를 입력으로 하면 빈도수를 기준으로 단어 집합을 생성.
tokenizer.fit_on_texts(result)

print(tokenizer.word_index)

{'sk': 1, '헌혈': 2, '대당': 3, '3억원': 4, '인': 5, '버스': 6, '2': 7, '대와': 8, '텔레콤': 9, '개발': 10, '애플리케이션': 11, '레드': 12, '커넥트': 13, '적십자사': 14, '기증': 15, '하는': 16, '인프라': 17, '지원': 18, '힘': 19, '쏟았다': 20}


In [130]:
# 입력으로 들어온 코퍼스에 대해서 각 단어를 이미 정해진 인덱스로 변환
encoded = tokenizer.texts_to_sequences(preprocessed_sentences)
print(encoded)

[[1], [1], [2, 1], [2, 1, 2, 2], [1, 1, 1, 1, 1, 1, 1, 2], [1], [1, 3, 4, 5, 2, 1, 2]]


In [128]:
# 가장 길이가 긴 문장의 길이를 계산
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer

max_len = max(len(item) for item in encoded)
print('최대 길이 :',max_len)

최대 길이 : 8


In [129]:
# 제로패딩
# 모든 문장의 길이를 8로 맞추기. 
# 'PAD'라는 단어가 있다고 가정하고, 이 단어는 0번 단어.
# 길이가 8보다 짧은 문장에는 숫자 0을 채워서 길이 8로 맞추기.

for sentence in encoded:
    while len(sentence) < max_len:
        sentence.append(0)

padded_np = np.array(encoded)
padded_np

array([[1, 0, 0, 0, 0, 0, 0, 0],
       [1, 0, 0, 0, 0, 0, 0, 0],
       [2, 1, 0, 0, 0, 0, 0, 0],
       [2, 1, 2, 2, 0, 0, 0, 0],
       [1, 1, 1, 1, 1, 1, 1, 2],
       [1, 0, 0, 0, 0, 0, 0, 0],
       [1, 3, 4, 5, 2, 1, 2, 0]])

In [131]:
# 원핫인코딩
word_to_index = {word : index for index, word in enumerate(result)}
print('단어 집합 :',word_to_index)

단어 집합 : {'SK': 8, '대당': 1, '3억원': 2, '인': 3, '헌혈': 11, '버스': 5, '2': 6, '대와': 7, '텔레콤': 9, '개발': 10, '애플리케이션': 12, '레드': 13, '커넥트': 14, '적십자사': 15, '기증': 16, '하는': 17, '인프라': 18, '지원': 19, '힘': 20, '쏟았다': 21}


In [132]:
def one_hot_encoding(word, word_to_index):
  one_hot_vector = [0]*(len(word_to_index))
  index = word_to_index[word]
  one_hot_vector[index] = 1
  return one_hot_vector

In [137]:
one_hot_encoding("헌혈", word_to_index)

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0]

In [7]:
from ckonlpy.tag import Twitter
twitter = Twitter()
twitter.morphs(sentences[1])

['25일',
 'SK',
 '그룹',
 '은',
 '대한',
 '적십자사',
 '와',
 '업무',
 '협약',
 '을',
 '맺고',
 '작년',
 '12월',
 '중순',
 '부터',
 '실시',
 '한',
 "'",
 '생명',
 '나눔']

In [8]:
twitter.add_dictionary('SK그룹', 'Noun')

In [9]:
twitter.morphs(sentences[1])

['25일',
 'SK그룹',
 '은',
 '대한',
 '적십자사',
 '와',
 '업무',
 '협약',
 '을',
 '맺고',
 '작년',
 '12월',
 '중순',
 '부터',
 '실시',
 '한',
 "'",
 '생명',
 '나눔']