In [1]:
import os
import numpy as np
import pandas as pd
import glob

In [2]:
from ekonlpy.sentiment import MPCK

def text2tokens(text):
    return MPCK().tokenize(text)

def text2ngram(text):
    mpck = MPCK()
    bef_tokens = mpck.tokenize(text)
    ngrams = mpck.ngramize(bef_tokens)
    
    return ngrams

In [3]:
def getReadCSV():
    #get DATASET PATH
    BASE_DIR = os.getcwd()
    DATASET_PATH = os.path.join(BASE_DIR, u"data")
    
    #get DATASET LIST 
    file_list = os.listdir(DATASET_PATH)
    
    #set DATAFRAME
    allFiles = glob.glob(DATASET_PATH + "/*.csv")
    allFiles.sort()
    frame = pd.DataFrame()
    list_ = []
    for file_ in allFiles:
        df = pd.read_csv(file_,index_col=None, header=0)
        list_.append(df)
    frame = pd.concat(list_)
    del frame['time']
    return frame

In [4]:
import re

def doFiltering(inputStr):
    filtering = re.sub(r"(\(.?끝.?\))|(.?안방에서 만나는 가장.*)|(\(.*?=.?연합뉴스.?\)(.*(기자|특파원).*=.?)?)|(\[.{0,5}(edaily|이데일리).{0,20}(특파원|기자|증권부|채권외환팀|국제부|.?럼니스트|경제부장|보도제작부|시장부)?.?\].?)|(.{0,4}(기자|.{0,5}?특파원).?().{0,10}@\))|(\((.{0,2}(각 기관별|전문가별|이 인터뷰는|이 기사는|더 자세한|보다).+)?이데일리 유료.+다.{0,2}\))|(당사의 기사를 사전 동의.*)|(자신만만 재테크.+)|(＜?저작권자.*)",'',str(inputStr))

    chkStr = re.compile(r'(\<span class\=.*)')
    if chkStr.search(filtering):
        filtering = filtering.split(chkStr.search(filtering).group())[0].strip()
    return filtering

In [6]:
def setDataFrame(frame):
    #delete NaN column, NaN row
    frame['date'] = pd.to_numeric(frame['date'], errors='coerce')
    frame = frame.dropna()
    frame['date'] = frame['date'].astype(int)
    dateList = list(frame['date'])
    
    filteredList = []
    cnt = 0
    for i in list(frame['content']):
        filteredList.append(doFiltering(i))

        cnt+=1
        if cnt%50000 == 0:
            print("{}개".format(cnt))

    print("contentList = {}개".format(len(filteredList)))
    print("dateList = {}개".format(len(dateList)))
    
    return filteredList, dateList

In [12]:
from threading import Thread
import time
def myThread(contList, idx):
    cnt=0
    ngramList = []
    tokenList = []
    now = time.localtime()
    print("%d번 쓰레드 시작, %04d/%02d/%02d %02d:%02d:%02d" % (idx, now.tm_year, now.tm_mon, now.tm_mday, now.tm_hour, now.tm_min, now.tm_sec))
            
    for val in contList:
        ngramList.append(text2ngram(val))
        tokenList.append(text2tokens(val))
       
        cnt+=1
        if cnt==100:
            now = time.localtime()
            print("%d번 쓰레드 %d개, %04d/%02d/%02d %02d:%02d:%02d" % (idx, cnt, now.tm_year, now.tm_mon, now.tm_mday, now.tm_hour, now.tm_min, now.tm_sec))
            
        if cnt%10000 == 0:
            now = time.localtime()
            print("%d번 쓰레드 %d개, %04d/%02d/%02d %02d:%02d:%02d" % (idx, cnt, now.tm_year, now.tm_mon, now.tm_mday, now.tm_hour, now.tm_min, now.tm_sec))
            
    return ngramList, tokenList


In [8]:
import time
import queue

def getTokenNgramDF(contList, dateList):
    if not len(contList) == len(dateList): return None
    cnt = 0
    ngramList = []
    tokenList = []
    
    
    que = queue.Queue()
    threads_list = list()
    #244495
    #0~49999
    #50000~99999
    #100000~149999
    #150000~199999
    #200000~244494
    
    t1 = Thread(target=lambda q, arg1: q.put(myThread(arg1,1)), args=(que, contList[:50000]))
    t1.start()
    threads_list.append(t1)
    
    t2 = Thread(target=lambda q, arg1: q.put(myThread(arg1,2)), args=(que, contList[50000:100000]))
    t2.start()
    threads_list.append(t2)
    
    t3 = Thread(target=lambda q, arg1: q.put(myThread(arg1,3)), args=(que, contList[100000:150000]))
    t3.start()
    threads_list.append(t3)
    
    t4 = Thread(target=lambda q, arg1: q.put(myThread(arg1,4)), args=(que, contList[150000:200000]))
    t4.start()
    threads_list.append(t4)

    t5 = Thread(target=lambda q, arg1: q.put(myThread(arg1,5)), args=(que, contList[200000:]))
    t5.start()
    threads_list.append(t5)
    now = time.localtime()
    print("1~5쓰레드 시작, %04d/%02d/%02d %02d:%02d:%02d" % (now.tm_year, now.tm_mon, now.tm_mday, now.tm_hour, now.tm_min, now.tm_sec))

    
    for t in threads_list:
        t.join()
    
    now = time.localtime()
    print ("1~5쓰레드 병합, %04d/%02d/%02d %02d:%02d:%02d" % (now.tm_year, now.tm_mon, now.tm_mday, now.tm_hour, now.tm_min, now.tm_sec))


    while not que.empty():
        result = que.get()
        ngramList.extend(result[0])
        tokenList.extend(result[1])
        
    resultDf = pd.DataFrame({  
                            'date' : dateList,
                            'ngrams' : ngramList,
                            'tokens' : tokenList
                        })
    
    now = time.localtime()
    print ("DF 생성 완료, %04d/%02d/%02d %02d:%02d:%02d" % (now.tm_year, now.tm_mon, now.tm_mday, now.tm_hour, now.tm_min, now.tm_sec))


    if len(ngramList) == len(tokenList):
        print("{}개의 기사에 대한 Tokens, Ngrams 추출".format(len(ngramList)))
    else: 
        print("실패")
        
    return resultDf

In [9]:
rawDF = getReadCSV()
rawDF.head(5)

Unnamed: 0,content,date,href,title
0,(서울=연합뉴스) 김문성기자= 국고채 발행 물량 부담에 따른 채권 금리의 급등세가...,20050104.0,https://news.naver.com/main/read.nhn?mode=LSD&...,<채권> 금리 주춤..물량 충격 다소 진정
1,[edaily 이학선기자] 채권수익률이 4일 국고채 10년물 등 장기물 중심의 약세...,20050104.0,https://news.naver.com/main/read.nhn?mode=LSD&...,장기채 금리 또 상승..`3년물로 갈아타자`(마감)
2,[edaily 하정민기자] 미국 주식시장이 새해 첫 날 큰 폭 하락하며 불안한 출발...,20050104.0,https://news.naver.com/main/read.nhn?mode=LSD&...,(뉴욕프리뷰)조정을 두려워말라
3,[edaily 오상용기자] 2005년 세계 경제와 금융시장은 어떤 행보를 그릴 것인...,20050104.0,https://news.naver.com/main/read.nhn?mode=LSD&...,`2005년 세계경제 10대 서프라이즈`
4,(서울=연합뉴스) 최태용기자= 중소기업청은 올해 3조원 규모의 중소기업 정책자금 지...,20050109.0,https://news.naver.com/main/read.nhn?mode=LSD&...,중기청 3조원 규모 정책자금 지원


In [10]:
contentList, dateList = setDataFrame(rawDF)
print(contentList[3], dateList[3])

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """


50000개
100000개
150000개
200000개
contentList = 244495개
dateList = 244495개
2005년 세계 경제와 금융시장은 어떤 행보를 그릴 것인가. 4일 모건스탠리의 유명 이코노미스트 바이런 위엔은 `미국 투자전략` 보고서를 통해 올 한해 세계경제와 금융시장을 엄습할 10대 충격을 예언했다. 위엔은 10가지 서프라이즈가 현실화될 가능성이 33%로 예상됐지만, 자신은 현실화 가능성이 50%에 달할 것으로 본다고 단언했다.위엔은 "유가는 배럴당 30달러~60달러대를 넘나들며 불안한 모습을 지속하고, 중국은 환율제도 변경을 거부할 것"으로 내다봤다. 또 일본 경제는 다시 침체의 늪으로 빠지고, 러시아의 블라디미르 푸틴 대통령은 제2의 러시아 혁명으로 권좌에서 물러날 것으로 예측했다.다음은 위엔이 예언한 2005년 금융시장을 강타할 10대 충격이다.위엔은 지난해에도 오사마 빈 라덴의 생포,도널드 럼스펠드 국방장관및 딕 체니 부통령 사임 등 10가지를 예측했으나 이중 2-3가지만 적중했다.◇유가 변동성 지속..배럴당 30달러~60달러국제유가는 올 한해 가장 변동성이 큰 상품이 될 것이다. 유가(서부텍사스산중질유 기준)는 배럴당 30달러까지 떨어진 후, 수급 불균형과 수송차질로 60달러선까지 치솟을 것이다. 미국의 전략비축유 감축 가능성은 전혀 없다. 다만, 알래스카 야생보호구역의 유전발굴 계획은 미 의회를 통과할 것이다.◇달러 급락할 것..달러/엔 85엔까지 하락달러는 하락세를 지속한다. 하락 속도는 시장의 기대와는 반대로 급락세가 불가피하다. 부시 행정부는 표면적으로 강달러 정책을 지지하겠지만, 환율은 외환시장의 결정에 맡겨둘 것이다. 결국 달러/엔 환율은 85엔까지 하락(달러 약세)하고, 유로/달러 환율도 1.5달러에 달할 것이다. 유럽과 일본은 엔과 유로화 급등을 제어하기 위해 `제2의 루브르협정`을 미국에 요구할 가능성이 크다. 루브르협정은 지난 87년 플라자협정 후 달러가치가 급락하자, 선진 5개국이 파리 모여 달러가치

In [11]:
len(contentList)

244495

In [None]:
resultDF = getTokenNgramDF(contentList, dateList)

1번 쓰레드 시작, 2019/07/25 16:36:12
2번 쓰레드 시작, 2019/07/25 16:36:12
3번 쓰레드 시작, 2019/07/25 16:36:12
4번 쓰레드 시작, 2019/07/25 16:36:12
5번 쓰레드 시작, 2019/07/25 16:36:12
1~5쓰레드 시작, 2019/07/25 16:36:12
2번 쓰레드 100개, 2019/07/25 16:40:17
5번 쓰레드 100개, 2019/07/25 16:40:20
3번 쓰레드 100개, 2019/07/25 16:40:22
1번 쓰레드 100개, 2019/07/25 16:40:23
4번 쓰레드 100개, 2019/07/25 16:40:25


In [None]:
resultDF.to_csv("news_[2005-2017]_cp949.csv", index = None, encoding="cp949")
resultDF.to_csv("news_[2005-2017].csv", index = None)