In [15]:
from gensim.summarization.summarizer import summarize

In [16]:
import numpy as np
import pandas as pd
import re
import matplotlib.pyplot as plt
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from bs4 import BeautifulSoup 
from tensorflow.keras.preprocessing.text import Tokenizer 
from tensorflow.keras.preprocessing.sequence import pad_sequences
import urllib.request

from konlpy.tag import Kkma

kkma = Kkma()
np.random.seed(seed=0)
data = pd.read_csv("MBNnews2018.csv", nrows = 30000, encoding='CP949')

In [17]:
print('SJ 열에서 중복을 배제한 유일한 샘플의 수 :', data['ART_SJ_CN'].nunique())
print('Body 열에서 중복을 배제한 유일한 샘플의 수 :', data['ART_CN'].nunique())

SJ 열에서 중복을 배제한 유일한 샘플의 수 : 27601
Body 열에서 중복을 배제한 유일한 샘플의 수 : 29939


In [18]:
data.drop_duplicates(subset=['ART_CN'], inplace=True)
print("전체 샘플 수 :", len(data))

전체 샘플 수 : 29939


In [19]:
print(data.isnull().sum())

MBN_MDA_SP_CD          0
MDA_ART_ESSN_NO        0
MDA_CGR_NM             0
ART_DATE               0
ART_SJ_CN              0
ART_CN                 0
ATCH_IMG_NM        15669
JRNL_NM            28603
WRT_DATE               0
dtype: int64


In [20]:
# stop_words = set(stopwords.words('english'))
# print('불용어 개수 :', len(stop_words))
# print(stop_words)

f = open("preprocessing.txt",encoding='UTF-8')
preprocessing_Text = f.read()
stop_words = word_tokenize(preprocessing_Text)

print(stop_words)

['아', '휴', '아이구', '아이쿠', '아이고', '어', '나', '우리', '저희', '따라', '의해', '을', '를', '에', '의', '가', '으로', '로', '에게', '뿐이다', '의거하여', '근거하여', '입각하여', '기준으로', '예하면', '예를', '들면', '예를', '들자면', '저', '소인', '소생', '저희', '지말고', '하지마', '하지마라', '다른', '물론', '또한', '그리고', '비길수', '없다', '해서는', '안된다', '뿐만', '아니라', '만이', '아니다', '만은', '아니다', '막론하고', '관계없이', '그치지', '않다', '그러나', '그런데', '하지만', '든간에', '논하지', '않다', '따지지', '않다', '설사', '비록', '더라도', '아니면', '만', '못하다', '하는', '편이', '낫다', '불문하고', '향하여', '향해서', '향하다', '쪽으로', '틈타', '이용하여', '타다', '오르다', '제외하고', '이', '외에', '이', '밖에', '하여야', '비로소', '한다면', '몰라도', '외에도', '이곳', '여기', '부터', '기점으로', '따라서', '할', '생각이다', '하려고하다', '이리하여', '그리하여', '그렇게', '함으로써', '하지만', '일때', '할때', '앞에서', '중에서', '보는데서', '으로써', '로써', '까지', '해야한다', '일것이다', '반드시', '할줄알다', '할수있다', '할수있어', '임에', '틀림없다', '한다면', '등', '등등', '제', '겨우', '단지', '다만', '할뿐', '딩동', '댕그', '대해서', '대하여', '대하면', '훨씬', '얼마나', '얼마만큼', '얼마큼', '남짓', '여', '얼마간', '약간', '다소', '좀', '조금', '다수', '몇', '얼마', '지만', '하물며', '또한', '그러나', '그렇지만', '하지만', '이외에

In [21]:
# 전처리 함수
def preprocess_sentence(sentence, remove_stopwords = True):
    sentence = sentence.upper() # 텍스트 소문자화
    sentence = BeautifulSoup(sentence, "lxml").text # <br />, <a href = ...> 등의 html 태그 제거
    sentence = re.sub(r'\([^)]*\)', '', sentence) # 괄호로 닫힌 문자열  제거 Ex) my husband (and myself) for => my husband for
    sentence = re.sub('"','', sentence) # 쌍따옴표 " 제거
    sentence = re.sub('[ㅋ]{2,}', 'ㅋㅋ', sentence) # ㅋ이 3개 이상이면 2개로 변경. Ex) ㅋㅋㅋㅋㅋㅋ -> ㅋㅋ

    # 불용어 제거 (Text)
    if remove_stopwords:
        tokens = ' '.join(word for word in sentence.split() if not word in stop_words if len(word) > 1)
    # 불용어 미제거 (Summary)
    else:
        tokens = ' '.join(word for word in sentence.split() if len(word) > 1)
    return tokens

In [22]:
clean_text = []
for s in data['ART_CN']:
    clean_text.append(preprocess_sentence(s))
clean_text[:5]

["지난해 11월 국제선 여객이 전년 동월 대비 11.1% 증가한 것으로 나타났습니다. 중국노선 감소폭이 완화되고 일본·동남아 대체노선 운항 확대, 원화강세로 인한 여행수요 증가 등이 영향을 미친 것으로 분석됩니다. 국토교통부가 발표한 '2017년 11월 항공운송시장 동향'에 따르면, 국제선 여객은 전년 동월 대비 11.1% 증가한 644만 명을 기록했습니다. 국제여객은 지난해 7월 전년 동월 대비 2.2% 감소했으나, 8월부터 증가세로 돌아섰습니다. 지난 8월 1.1%, 9월 3.7%, 10월 4%, 11월 11.1% 증가했습니다.일본 노선은 전년 동월 대비 7월 27.9%, 8월 25.5%, 9월, 21.6%, 10월 17.8%, 11월 27.9% 증가했습니다. 동남아 노선은 전년 동월 대비 7월 12.9%, 8월 16.7%, 9월 16.7%, 10월 18.7%, 11월 21.7% 증가했습니다. 지역별로는 중국 노선이 9개월 연속 감소세이나 8월부터 감소폭이 계속 완화되고 있습니다. 일본·동남아·대양주노선 등은 자릿수 증가율을 보였습니다. 공항별로는 대구, 김해, 인천공항에서 전년 동월 대비 성장세를 보였습니다. 청주, 양양, 제주, 무안공항은 감소했으나 청주공항 감소폭은 계속 완화되고 있는 것으로 나타났습니다. 청주 공항은 7월 -82.2%, 8월 -83%, 9월 -77%, 10월 -71.9, 11월 -59.7%를 기록했습니다. 항공사별로는 국적 대형항공사가 전년 동월 대비 4.5% 증가했으며 국적 저비용항공사의 경우에도 전년 동월 대비 40.7% 증가해 국적사 분담률은 69.5%를 기록했습니다. 지난해 11월 국내여객은 전년 동월 대비 4.1% 증가했습니다. 국내선 여객은 저비용항공사 공급석 제주노선 여객 수요 증가로 전년 동월 대비 4.1% 증가한 263만 명을 기록했습니다.공항별로는 광주, 청주, 대구공항 등은 높은 증가율을 보였으나 울산, 김포공항 등은 감소세를 보였습니다. 항공사별로는 국적 대형항공사의 국내여객 운송량은 111만 명으로 전년 동월

In [23]:
clean_summary = []
for s in data['ART_SJ_CN']:
    clean_summary.append(preprocess_sentence(s, 0))
clean_summary[:5]

['11월 국제여객 전년비 11% 증가…중국 노선 감소폭 완화',
 '고객을 웃게하자...올 한해 행복 전파 나선 현대백화점',
 '강남차병원 `새해 첫아기` 2명 탄생',
 "지난해 수출 5천739억달러 '사상최대'…반도체 수출 900억달러",
 '중기부, 전통시장에 화재알림시설 설치']

In [24]:
data['ART_CN'] = clean_text
data['ART_SJ_CN'] = clean_summary

In [25]:
data.replace('', np.nan, inplace=True)
print(data.isnull().sum())

MBN_MDA_SP_CD          0
MDA_ART_ESSN_NO        0
MDA_CGR_NM             0
ART_DATE               0
ART_SJ_CN              0
ART_CN                 2
ATCH_IMG_NM        15669
JRNL_NM            28603
WRT_DATE               0
dtype: int64


In [26]:
data.dropna(axis = 0, inplace = True)
print('전체 샘플수 :',(len(data)))
print(data.isnull().sum())

전체 샘플수 : 4
MBN_MDA_SP_CD      0
MDA_ART_ESSN_NO    0
MDA_CGR_NM         0
ART_DATE           0
ART_SJ_CN          0
ART_CN             0
ATCH_IMG_NM        0
JRNL_NM            0
WRT_DATE           0
dtype: int64


In [29]:
data = data[['ART_SJ_CN', 'ART_CN']]

summar = []
for text in data['ART_CN']:
    if len(text) < 15:
        continue
    summar.append(summarize(text))

ValueError: input must have more than one sentence