In [None]:
!pip install konlpy



In [None]:
import pickle
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from tensorflow.keras.utils import to_categorical
from tensorflow.keras.preprocessing.text import *
from tensorflow.keras.preprocessing.sequence import pad_sequences
from konlpy.tag import Okt

In [None]:
pd.set_option('display.unicode.east_asian_width',True)

In [None]:
df = pd.read_csv('/content/datasets/naver_news_titles_210616.csv', index_col=0)
print(df.head())
print(df.info())

                                                                title  category
0    김총리  새 거리두기 방안  일상에 큰 변화 될 것                    Politics
1     백신 유급휴가비  지원한다 법개정안 복지위 통과                   Politics
2   쇄신   변화  강조한 송영길  개혁 속도조절  국민공감대 우선 ......  Politics
3    소통수석  열린자세로  의 중요 이웃국 역할할 것  종합 ......       Politics
4             큐어백  백신 도입     한국  생산 거점                    Politics
<class 'pandas.core.frame.DataFrame'>
Int64Index: 28309 entries, 0 to 28308
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   title     28309 non-null  object
 1   category  28309 non-null  object
dtypes: object(2)
memory usage: 663.5+ KB
None


In [None]:
# 중복 처리
col_dup = df['title'].duplicated()
print(col_dup)
sum_dup = df.title.duplicated().sum()
print(sum_dup)

0        False
1        False
2        False
3        False
4        False
         ...  
28304    False
28305    False
28306    False
28307    False
28308    False
Name: title, Length: 28309, dtype: bool
1234


In [None]:
df = df.drop_duplicates(subset=['title'])
sum_dup = df.title.duplicated().sum()
print(sum_dup)

0


In [None]:
df.reset_index(drop=True, inplace=True)

In [None]:
# 학습을 위한 데이터 분리
X = df['title']
Y = df['category']

In [None]:
# 라벨링, 인코딩
encoder = LabelEncoder()
labeled_Y = encoder.fit_transform(Y)
label = encoder.classes_
print(label)

['Culture' 'Economic' 'IT' 'Politics' 'Social' 'World']


In [None]:
# 라벨링 저장
with(open('/content/datasets/category_encoder.pickle', 'wb')) as f:
    pickle.dump(encoder, f)

In [None]:
print(labeled_Y)

[3 3 3 ... 2 2 2]


In [None]:
onehot_Y = to_categorical(labeled_Y)
print(onehot_Y)

[[0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 ...
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]


In [None]:
# 한가지만 시험 작동
okt = Okt()
print(type(X))
okt_X = okt.morphs(X[0])
print(X[0])
print(okt_X)

<class 'pandas.core.series.Series'>
김총리  새 거리두기 방안  일상에 큰 변화 될 것 
['김', '총리', '새', '거리', '두기', '방안', '일상', '에', '큰', '변화', '될', '것']


1. Okt()
- 객체 생성

2. okt.morphs()

- 텍스트를 형태소 단위로 나눈다. 옵션으로는 norm과 stem이 있다 

- norm은 normalize의 약자로 문장을 정규화하는 역할

- stem은 각 단어에서 어간을 추출하는 기능

3. okt.nouns()

- 텍스트에서 명사만 뽑아낸다.

4. okt.phrases()

- 텍스트에서 어절을 뽑아낸다.

5. okt.pos()

- 각 품사를 태깅하는 역할. 

- 품사를 태깅한다는 것은 주어진 텍스트를 형태소 단위로 나누고, 나눠진 각 형태소를 그에 해당하는 품사와 함께 리스트화 하는 것을 의미한다. 

In [None]:
# Okt를 활용한 형태소 분석
for i in range(len(X)):
    X[i] = okt.morphs(X[i])
print(X)

0        [김, 총리, 새, 거리, 두기, 방안, 일상, 에, 큰, 변화, 될, 것]...
1        [백신, 유급, 휴가, 비, 지원, 한, 다, 법, 개정안, 복지, 위, 통과]...
2        [쇄신, 변화, 강조, 한, 송영길, 개혁, 속도, 조절, 국민, 공감, 대, 우선...
3        [소통, 수석, 열린, 자세, 로, 의, 중요, 이웃, 국, 역할, 할, 것, 종합...
4                 [큐어, 백, 백신, 도입, 한국, 생산, 거점]
                               ...                        
27070    [2만, 4000년, 간, 죽지, 않은, 좀비, 가, 시베리아, 에서, 나타났다]...
27071    [PLAY, IT, 갤럭시, 북, 경험, 키, 보드, 에서도, 블루투스, 키, 보드...
27072    [PLAY, IT, 카카오, 판, 클럽, 하우스, 음, 체험, 기, 작, 지만, 큰...
27073    [PLAY, IT, 홈쇼핑, 고객, 정착, 가능할까, CJ, 온스타일, 이용, 해보...
27074    [PLAY, IT, 크롬, 잡겠다는, 네이버, 웨일, 신, 기능, 사용, 해보니]...
Name: title, Length: 27075, dtype: object


In [None]:
stopwords = pd.read_csv('/content/datasets/stopwords.csv')

In [None]:
print(stopwords.head(30))

    Unnamed: 0  stopword
0            0        아
1            1        휴
2            2    아이구
3            3    아이쿠
4            4    아이고
5            5        어
6            6        나
7            7      우리
8            8      저희
9            9      따라
10          10      의해
11          11        을
12          12        를
13          13        에
14          14        의
15          15        가
16          16      으로
17          17        로
18          18      에게
19          19    뿐이다
20          20  의거하여
21          21  근거하여
22          22  입각하여
23          23  기준으로
24          24    예하면
25          25      예를
26          26      들면
27          27    들자면
28          28        저
29          29      소인


In [None]:
words = []
for word in okt_X:
    if word not in list(stopwords['stopword']):
        words.append(word)
print(words)

['김', '총리', '새', '거리', '두기', '방안', '일상', '큰', '변화', '될']


In [None]:
# 스탑워드를 이용한 전처리
for i in range(len(X)):
    result = []
    for j in range(len(X[i])):
        if len(X[i][j]) > 1:
            if X[i][j] not in list(stopwords['stopword']):
                result.append(X[i][j])
    X[i] = ' '.join(result)
print(X)

0                            총리 거리 두기 방안 일상 변화
1                     백신 유급 휴가 지원 개정안 복지 통과
2           쇄신 변화 강조 송영길 개혁 속도 조절 국민 공감
3                  소통 수석 열린 자세 중요 이웃 역할 종합
4                            큐어 백신 도입 한국 생산 거점
                               ...                        
27070          2만 4000년 죽지 않은 좀비 시베리아 나타났다
27071    PLAY IT 갤럭시 경험 보드 에서도 블루투스 보드 트리오 500 보니...
27072                 PLAY IT 카카오 클럽 하우스 체험 차이
27073    PLAY IT 홈쇼핑 고객 정착 가능할까 CJ 온스타일 이용 해보니...
27074    PLAY IT 크롬 잡겠다는 네이버 웨일 기능 사용 해보니...
Name: title, Length: 27075, dtype: object


In [None]:
# 토크나이징
token = Tokenizer()
token.fit_on_texts(X)
tokened_X = token.texts_to_sequences(X) # X로 숫자로 변환
print(tokened_X[0])

[281, 74, 138, 873, 603, 126]


In [None]:
# 토큰 저장 / 추후 기사 토큰 활용
with open('/content/datasets/news_token.pickle', 'wb') as f:
    pickle.dump(token, f)

In [None]:
wordsize = len(token.word_index) + 1
# word_index / 각 단어 별 붙여진 번호
# len 단어 갯수 확인 (0이 없어서 0을 추가하기 위해서 1을 더함)
print(wordsize)

24151


In [None]:
max = 0
for i in range(len(tokened_X)):
    if max < len(tokened_X[i]):
        max = len(tokened_X[i])
print(max)

27


In [None]:
# 패딩 / 빈공간 0으로 채워주기
X_pad = pad_sequences(tokened_X, max)
print(X_pad[:10])

[[    0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0   281    74   138
    873   603   126]
 [    0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     2  4851  1001   105
   1953  2506   189]
 [    0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0  2507   126  1030    66   636   219
   2825     7  1245]
 [    0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0   923  1803  1804  3229  1421
   1547  1095     4]
 [    0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0     0     0     0  1805     2   312
     11   156  2661]
 [    0     0     0     0     0     0     0     0     0     0     0     0
      0     0     0     0     0     0    66    19  1139 13780  3725  1139
   1059

In [None]:
X_train, X_test, Y_train, Y_test = train_test_split(
    X_pad, onehot_Y, test_size=0.1)
print(X_train.shape)
print(X_test.shape)
print(Y_train.shape)
print(Y_test.shape)

(24367, 27)
(2708, 27)
(24367, 6)
(2708, 6)


In [None]:
xy = X_train, X_test, Y_train, Y_test
np.save('/content/datasets/news_data_max_{}_size{}'.format(max, wordsize), xy)

  return array(a, dtype, copy=False, order=order, subok=True)
