# Import

In [9]:
import os
from functools import reduce
from collections import OrderedDict, defaultdict

import requests
from requests.exceptions import ConnectionError, ReadTimeout
from requests.exceptions import ContentDecodingError, TooManyRedirects
import pandas as pd

from db.mongo import MyMongo

pd.set_option('display.max_colwidth', -1)

# Load DB

In [10]:
with MyMongo() as db:
    quote = db.get_df_from_table('audit_quote', 'a1_all')

<--Mongo Connected.
Mongo Connection Closed.-->


# All Columns

In [11]:
quote.columns

Index(['_id', 'url', '국회의원', '뉴스 식별자', '분석제외 여부', '사건/사고 분류1', '사건/사고 분류2',
       '사건/사고 분류3', '언론사', '인용문', '일자', '정보원', '정보원_추출', '키워드', '통합 분류1',
       '통합 분류2', '통합 분류3', '특성추출'],
      dtype='object')

# Index & Cols

In [12]:
idx_백승주 = quote['국회의원']=='백승주'
idx_임이자 = quote['국회의원']=='임이자'
idx_이채익 = quote['국회의원']=='이채익'
idx_민경욱 = quote['국회의원']=='민경욱'
idx_정세균 = quote['국회의원']=='정세균'

# 이날 특별우수위원으로는 이채익, 백승주, 민경욱, 임이자 의원이 선정됐다.
특별우수위원 = ['민경욱', '이채익', '백승주', '임이자']

top7 = ['박용진', '김병욱', '민경욱', '이채익', '황희', '소병훈', '장제원',]
tosee = top7

cols = ['일자', '언론사', '국회의원', '인용문', 'url']

# head()

In [13]:
quote.loc[::,cols].head()

Unnamed: 0,일자,언론사,국회의원,인용문,url
0,20181030,헤럴드경제,이상헌,"현재 외국인 관광객의 80% 정도는 서울 및 수도권에 몰리는 반면, 타 지방을 방문하는 외국인 관광객은 미미한 수준이라며, 실질적 규제혁신과 제도개선을 통해 지방에 제대로 된 관광인프라가 확충되어야 한다",https://www.bigkinds.or.kr/news/detailView.do?docId=02100701.20181030084120001&returnCnt=1&sectionDiv=1000&indexName=
1,20181030,헤럴드경제,김병욱,청년실업 등으로 신용등급이 낮고 형편이 어려운 20대가 은행권에서 대출을 받지 못하고 금리가 높은 대부업체로 내몰린 뒤 상환능력이 떨어져 연체율이 증가하고 있는 것,https://www.bigkinds.or.kr/news/detailView.do?docId=02100701.20181030081315001&returnCnt=1&sectionDiv=1000&indexName=
2,20181030,영남일보,강효상,지난 6월29일 물산업클러스터 위탁운영기관으로 한국환경공단이 한국수자원공사를 제치고 선정된 배경에는 환경부의 밀어주기 의혹이 있다,https://www.bigkinds.or.kr/news/detailView.do?docId=01500801.20181030072457002&returnCnt=1&sectionDiv=1000&indexName=
3,20181030,MBC,김재경,하나는 비준 동의를 해야 하고 하나는 안 해야 하는 차별성이 있는 것이냐,https://www.bigkinds.or.kr/news/detailView.do?docId=08100201.20181030064343002&returnCnt=1&sectionDiv=1000&indexName=
4,20181030,세계일보,전혜숙,"가정의학과 의사의 경우 선한 의지로 응급진료를 도운 것뿐인데, 오히려 가해자가 된 셈 이처럼 선한 사마리아인들에게 면책을 주지 않으면 아무도 응급상황에서 환자를 돕지 않을 것",https://www.bigkinds.or.kr/news/detailView.do?docId=01100701.20181030060258001&returnCnt=1&sectionDiv=1000&indexName=


# Groupby

## Groupby '국회의원'

In [14]:
grp_member = quote.groupby(['국회의원']).agg({'인용문': 'count'}).sort_values('인용문', ascending=False); grp_member

Unnamed: 0_level_0,인용문
국회의원,Unnamed: 1_level_1
박용진,156
김병욱,101
민경욱,84
이채익,83
황희,77
소병훈,77
장제원,73
윤관석,67
권미혁,65
손혜원,65


In [15]:
# len(quote.loc[idx_민경욱])
# 이날 특별우수위원으로는 이채익, 백승주, 민경욱, 임이자 의원이 선정됐다.
grp_member.loc[특별우수위원, ::]

Unnamed: 0_level_0,인용문
국회의원,Unnamed: 1_level_1
민경욱,84
이채익,83
백승주,35
임이자,20


## Groupby '일자' & '국회의원'

In [16]:
pd.set_option('display.max_row', None)

def get_shortest(series):
    hankyung = quote.loc[quote['언론사']=='한국경제']['인용문'].tolist()
    
    def get_hankyung_or_shortest(x, y):
        result = ''
        if x in hankyung:
            result = x
        elif y in hankyung:
            result = y
        else:
            result = x if len(x) <= len(y) else y
        
        return result
    
    return reduce(get_hankyung_or_shortest, series)
#     return reduce(lambda x, y: x if len(x) >= len(y) else y, series)

# def get_shortest(series):
#     return reduce(lambda x, y: x if len(x) <= len(y) else y, series)


grp_date = quote.groupby(['일자', '국회의원']).agg({'인용문': ['count', get_shortest],}); grp_date
grp_date['날짜'] = grp_date.index.get_level_values(0); grp_date
# grp_date.sort_values(['date', ('인용문', 'count')], ascending=[True, False])

Unnamed: 0_level_0,Unnamed: 1_level_0,인용문,인용문,날짜
Unnamed: 0_level_1,Unnamed: 1_level_1,count,get_shortest,Unnamed: 4_level_1
일자,국회의원,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
20181010,강길부,3,울산 온산ㆍ미포국가산단은 40여년 가까이 운영돼 배관 및 시설 노후도가 높고 사고 위험도 크다 첨단기술을 활용한 안전관리 시스템의 신속한 구축 및 합동방재센터의 지휘체계 정립이 필요하다 주력산업의 쇠퇴로 경기침체가 지속되고 있는 울산 등에 경제자유구역 추가 지정을 검토할 필요가 있다,20181010
20181010,강병원,3,"뇌물, 소득세법상 '기타소득' 국세청 철저히 추징해야",20181010
20181010,강훈식,6,수사 중인 사건을 조사하는 건 아니라고 본다,20181010
20181010,경대수,4,(정부안인) 19만4000원은 (물가상승) 비율로 봤을때 터무니없다 너무 박한 것 아닌가 하는 생각이 든다,20181010
20181010,고용진,3,민간인이 참여해 연설 등 각종 심의에 기여해 자문료를 받는 건 위법이 아닌 정당한 절차 민간인 연설 보좌를 받았다고 나아가 국정농단이란 사실은 전혀 어울리지 않는 용어,20181010
20181010,곽대훈,2,전문기관 집적화를 이루기 위해서는 에너지기술평가원이 반드시 대구로 이전해 대구를 산업기술 전문 R＆D 분야 메카로 만들어야 한다,20181010
20181010,권미혁,4,특수교사 충원에 따른 교사 1인당 장애학생수와 원거리 통학학생수도 감소했다 일반학교 특수학급이 증가하면서 장애학생들을 학교에 보낼 수 있는 환경이 개선됐다,20181010
20181010,권성동,1,법무법인 율촌은 (세무법인) ‘더택스’라는 위장계열사를 세워 공직자윤리법을 피해가고 있다,20181010
20181010,권은희,2,유해발굴단이 적군으로 분류된 유해는 DNA 감식조차 하지 않았다,20181010
20181010,권칠승,1,지난 5년(2013년~2017년)간 국가 R&D가 투입된 연구과제 중 연구수행기관이 아닌 개인이 부적법하게 취득한 특허는 2389건 중 1066건으로 45%에 달한다 이 중 환원 조치 통보에도 불구하고 환원되지 않은 특허도 138건이나 됐다,20181010


In [17]:
hankyung = quote.loc[quote['언론사']=='한국경제']['인용문'].tolist(); hankyung
# quote.loc[quote['인용문']=='정부가 고용지표 개선을 위해 25개 출연연구기관에 할당 방식으로 두 달짜리 단기 아르바이트를 채용토록 하기에 이르렀다 정부의 비정상적인 국정 운영을 보면 어처구니가 없다'
#          , ['언론사']]=='한국경제'

['수사를 받은 판사들에게 재판을 맡기지 않겠다는 것이 국민의 뜻',
 '공사 직원들이 최장 5년간 휴직을 한 후 매년 260~280명씩 해외연수를 가고 있다 무임수송, 낮은 요금 등을 탓하기 전에 방만한 경영을 고쳐 재정건전성부터 확보해야 한다',
 '(평양 남북 정상회담 당시) 옥류관 행사에서 대기업 총수들이 냉면을 먹는 자리에서 이 위원장이 불쑥 나타나 정색하고 ‘아니, 냉면이 목구멍으로 넘어갑니까’라고 했다',
 '부동산 전자계약 제도가 중개업자 반발로 전국적으로 도입하는 것은 쉽지 않아 보인다 이런 상황이 계속된다면 투기과열지구 등에서 일정 기간 전자계약 시스템을 의무화할 필요가 있다',
 '올해 단기일자리 확대 계획이 없다 단기 인력이 필요 없다는 공문을 보냈던 공단이 하루 만에 비공식적인 통로인 이메일을 통해 계획을 제출했다 공단이 눈치 없이 단기일자리가 필요 없다고 곧이곧대로 보고했다가 기재부의 질타를 받았을 것 갑자기 하루 만에 일손이 1136명이나 필요해질 정도로 급박한 상황이 발생하지는 않았을 것',
 '정치인 출신인 김 장관이 내일 국무회의에서 단기일자리 대책에 대한 문제 제기라도 해보라',
 '대북 반출 제한 품목이 많아서 그러느냐 연락사무소와 관련해선 제재 대상이 아니라는 입장이며 시설 성격상 남쪽에서 공사했더라도 같은 식으로 대처했을 것',
 '일반적으로 건물을 신축하는 데 평당 250만원에서 300만원 정도 드는데 개보수에 이렇게 큰 비용이 들어가는지 납득할 수 없다',
 '철도 연결사업이 지연되는 이유가 무엇이냐',
 '새만금 개발이 졸속, 깜짝쇼가 돼서는 안 된다',
 '국세수입 월별 진도율을 감안하면 올해 국세수입은 300조원 안팎이 될 것 작년 8월 진도율(71.4%)을 감안한 올해 국세수입은 298조6000억원이 된다 최근 3년간(2015~2017년) 8월 평균 진도율 70.7%를 감안했을 땐 301조6000억원에 이를 것 민생경제는 하루하루가 어려운데 정부만 나홀로 호황을 맞고 있는 셈 세수가 전망을 훨씬 초과한다면 정부

In [18]:
grp_date

Unnamed: 0_level_0,Unnamed: 1_level_0,인용문,인용문,날짜
Unnamed: 0_level_1,Unnamed: 1_level_1,count,get_shortest,Unnamed: 4_level_1
일자,국회의원,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
20181010,강길부,3,울산 온산ㆍ미포국가산단은 40여년 가까이 운영돼 배관 및 시설 노후도가 높고 사고 위험도 크다 첨단기술을 활용한 안전관리 시스템의 신속한 구축 및 합동방재센터의 지휘체계 정립이 필요하다 주력산업의 쇠퇴로 경기침체가 지속되고 있는 울산 등에 경제자유구역 추가 지정을 검토할 필요가 있다,20181010
20181010,강병원,3,"뇌물, 소득세법상 '기타소득' 국세청 철저히 추징해야",20181010
20181010,강훈식,6,수사 중인 사건을 조사하는 건 아니라고 본다,20181010
20181010,경대수,4,(정부안인) 19만4000원은 (물가상승) 비율로 봤을때 터무니없다 너무 박한 것 아닌가 하는 생각이 든다,20181010
20181010,고용진,3,민간인이 참여해 연설 등 각종 심의에 기여해 자문료를 받는 건 위법이 아닌 정당한 절차 민간인 연설 보좌를 받았다고 나아가 국정농단이란 사실은 전혀 어울리지 않는 용어,20181010
20181010,곽대훈,2,전문기관 집적화를 이루기 위해서는 에너지기술평가원이 반드시 대구로 이전해 대구를 산업기술 전문 R＆D 분야 메카로 만들어야 한다,20181010
20181010,권미혁,4,특수교사 충원에 따른 교사 1인당 장애학생수와 원거리 통학학생수도 감소했다 일반학교 특수학급이 증가하면서 장애학생들을 학교에 보낼 수 있는 환경이 개선됐다,20181010
20181010,권성동,1,법무법인 율촌은 (세무법인) ‘더택스’라는 위장계열사를 세워 공직자윤리법을 피해가고 있다,20181010
20181010,권은희,2,유해발굴단이 적군으로 분류된 유해는 DNA 감식조차 하지 않았다,20181010
20181010,권칠승,1,지난 5년(2013년~2017년)간 국가 R&D가 투입된 연구과제 중 연구수행기관이 아닌 개인이 부적법하게 취득한 특허는 2389건 중 1066건으로 45%에 달한다 이 중 환원 조치 통보에도 불구하고 환원되지 않은 특허도 138건이나 됐다,20181010


# Transform

## Select Top 5

In [20]:
top = 5
grp_top5 = grp_date.groupby(level=0).apply(lambda df: df.sort_values(by=('인용문', 'count'), ascending=False)[:top]); grp_top5
grp_top5.index = grp_top5.index.droplevel(0).droplevel(0); grp_top5
grp_top5 = grp_top5.reset_index(); grp_top5
grp_top5.columns = [' '.join(col).strip() for col in grp_top5.columns.values]; grp_top5
grp_top5 = grp_top5.rename(columns={'인용문 count': '인용 횟수', '인용문 get_shortest': '인용문'}); grp_top5
grp_top5 = grp_top5[['날짜', '국회의원', '인용 횟수', '인용문']]; grp_top5

# grp_top5.columns = grp_top5.columns.droplevel(0); grp_top5

Unnamed: 0,날짜,국회의원,인용 횟수,인용문
0,20181010,민경욱,29,"2013년부터 2017년까지 수도권에서 그린벨트를 해제한 19개 지역 가운데 작년 말 해제된 경기 부천, 서울 강동, 인천 남동구를 제외한 16개 지역에서 주택 매매가격이 평균 5% 상승했다"
1,20181010,박덕흠,19,국민은행의 30년간 서울 아파트 매매가격지수를 보면 민주당이 집권할 때마다 집값이 폭등한다
2,20181010,김경진,18,구글은 세계 각국의 조세법을 어겨가며 수치스러운 장사를 하고 있다
3,20181010,정진석,17,강 장관의 발언은 5 24 조치 해제를 기정사실화하는 발언을 한 것 발언 자체에 대해 사과해야 옳다 남북 정상회담 후 폼페이오 장관이 전화 통화에서 남북 군사합의에 강한 불만을 제기했느냐
4,20181010,김진태,17,대전동물원에서 탈출했다가 사살된 퓨마와 비슷하게 생긴 동물을 가져왔다
5,20181011,손혜원,20,"선수 선발 과정에 청탁이 있지 않았냐 소신에 따른 현장의 결정이었다 사과하시든지, 사퇴하시든지 하라 선 감독 때문에 프로야구 관객이 20%나 줄었다 선 감독이 이렇게 끝까지 버티고 우기면 2020년까지 야구대표팀 감독을 하기 힘들다 장관이나 차관도 마찬가지 생각을 하고 있을 것"
6,20181011,김무성,18,5 24 조치의 원인이 된 천안함 관련 조치가 있어야 할 것 미국과 보조를 맞춰야 하는데 문재인 정부가 이를 외면하듯이 북한 뜻대로 너무 가속페달을 밟고 있다
7,20181011,김진태,15,이슈 메이킹을 위한 ‘정치 동물쇼’
8,20181011,권미혁,15,조 전 청장의 불출석 통보는 안타까운 일
9,20181011,황희,14,"유 부총리 인사청문회 과정에서 총 19개 의혹이 제기됐는데, 그중 3개 의혹은 범법 행위 아니냐는 의문을 갖고 있다 이 같은 문제가 해결된 뒤에 교육부 장관으로 증인 선서를 하는 것이 옳다"


## Merge URL

In [21]:
df_top5 = grp_top5.merge(quote.loc[::, ['인용문', '언론사', '뉴스 식별자', 'url']], how='left', on='인용문'); df_top5

Unnamed: 0,날짜,국회의원,인용 횟수,인용문,언론사,뉴스 식별자,url
0,20181010,민경욱,29,"2013년부터 2017년까지 수도권에서 그린벨트를 해제한 19개 지역 가운데 작년 말 해제된 경기 부천, 서울 강동, 인천 남동구를 제외한 16개 지역에서 주택 매매가격이 평균 5% 상승했다",한국경제,2100601.201810101,https://www.bigkinds.or.kr/news/detailView.do?docId=02100601.20181010181510002&returnCnt=1&sectionDiv=1000&indexName=
1,20181010,박덕흠,19,국민은행의 30년간 서울 아파트 매매가격지수를 보면 민주당이 집권할 때마다 집값이 폭등한다,머니투데이,2100201.201810101,https://www.bigkinds.or.kr/news/detailView.do?docId=02100201.20181010184534001&returnCnt=1&sectionDiv=1000&indexName=
2,20181010,김경진,18,구글은 세계 각국의 조세법을 어겨가며 수치스러운 장사를 하고 있다,한국경제,2100601.201810101,https://www.bigkinds.or.kr/news/detailView.do?docId=02100601.20181010174513002&returnCnt=1&sectionDiv=1000&indexName=
3,20181010,정진석,17,강 장관의 발언은 5 24 조치 해제를 기정사실화하는 발언을 한 것 발언 자체에 대해 사과해야 옳다 남북 정상회담 후 폼페이오 장관이 전화 통화에서 남북 군사합의에 강한 불만을 제기했느냐,한국경제,2100601.201810101,https://www.bigkinds.or.kr/news/detailView.do?docId=02100601.20181010174508002&returnCnt=1&sectionDiv=1000&indexName=
4,20181010,김진태,17,대전동물원에서 탈출했다가 사살된 퓨마와 비슷하게 생긴 동물을 가져왔다,서울경제,2100311.201810101,https://www.bigkinds.or.kr/news/detailView.do?docId=02100311.20181010173045001&returnCnt=1&sectionDiv=1000&indexName=
5,20181011,손혜원,20,"선수 선발 과정에 청탁이 있지 않았냐 소신에 따른 현장의 결정이었다 사과하시든지, 사퇴하시든지 하라 선 감독 때문에 프로야구 관객이 20%나 줄었다 선 감독이 이렇게 끝까지 버티고 우기면 2020년까지 야구대표팀 감독을 하기 힘들다 장관이나 차관도 마찬가지 생각을 하고 있을 것",한국경제,2100601.20181011,https://www.bigkinds.or.kr/news/detailView.do?docId=02100601.20181011094503001&returnCnt=1&sectionDiv=1000&indexName=
6,20181011,김무성,18,5 24 조치의 원인이 된 천안함 관련 조치가 있어야 할 것 미국과 보조를 맞춰야 하는데 문재인 정부가 이를 외면하듯이 북한 뜻대로 너무 가속페달을 밟고 있다,한국경제,2100601.201810111,https://www.bigkinds.or.kr/news/detailView.do?docId=02100601.20181011174526001&returnCnt=1&sectionDiv=1000&indexName=
7,20181011,김진태,15,이슈 메이킹을 위한 ‘정치 동물쇼’,경향신문,1100101.201810112,https://www.bigkinds.or.kr/news/detailView.do?docId=01100101.20181011215653001&returnCnt=1&sectionDiv=1000&indexName=
8,20181011,권미혁,15,조 전 청장의 불출석 통보는 안타까운 일,아시아경제,2100801.201810111,https://www.bigkinds.or.kr/news/detailView.do?docId=02100801.20181011111423001&returnCnt=1&sectionDiv=1000&indexName=
9,20181011,황희,14,"유 부총리 인사청문회 과정에서 총 19개 의혹이 제기됐는데, 그중 3개 의혹은 범법 행위 아니냐는 의문을 갖고 있다 이 같은 문제가 해결된 뒤에 교육부 장관으로 증인 선서를 하는 것이 옳다",한국경제,2100601.201810111,https://www.bigkinds.or.kr/news/detailView.do?docId=02100601.20181011184511001&returnCnt=1&sectionDiv=1000&indexName=


In [22]:
df_top5.drop_duplicates(['날짜', '인용문'], inplace=True); df_top5

Unnamed: 0,날짜,국회의원,인용 횟수,인용문,언론사,뉴스 식별자,url
0,20181010,민경욱,29,"2013년부터 2017년까지 수도권에서 그린벨트를 해제한 19개 지역 가운데 작년 말 해제된 경기 부천, 서울 강동, 인천 남동구를 제외한 16개 지역에서 주택 매매가격이 평균 5% 상승했다",한국경제,2100601.201810101,https://www.bigkinds.or.kr/news/detailView.do?docId=02100601.20181010181510002&returnCnt=1&sectionDiv=1000&indexName=
1,20181010,박덕흠,19,국민은행의 30년간 서울 아파트 매매가격지수를 보면 민주당이 집권할 때마다 집값이 폭등한다,머니투데이,2100201.201810101,https://www.bigkinds.or.kr/news/detailView.do?docId=02100201.20181010184534001&returnCnt=1&sectionDiv=1000&indexName=
2,20181010,김경진,18,구글은 세계 각국의 조세법을 어겨가며 수치스러운 장사를 하고 있다,한국경제,2100601.201810101,https://www.bigkinds.or.kr/news/detailView.do?docId=02100601.20181010174513002&returnCnt=1&sectionDiv=1000&indexName=
3,20181010,정진석,17,강 장관의 발언은 5 24 조치 해제를 기정사실화하는 발언을 한 것 발언 자체에 대해 사과해야 옳다 남북 정상회담 후 폼페이오 장관이 전화 통화에서 남북 군사합의에 강한 불만을 제기했느냐,한국경제,2100601.201810101,https://www.bigkinds.or.kr/news/detailView.do?docId=02100601.20181010174508002&returnCnt=1&sectionDiv=1000&indexName=
4,20181010,김진태,17,대전동물원에서 탈출했다가 사살된 퓨마와 비슷하게 생긴 동물을 가져왔다,서울경제,2100311.201810101,https://www.bigkinds.or.kr/news/detailView.do?docId=02100311.20181010173045001&returnCnt=1&sectionDiv=1000&indexName=
5,20181011,손혜원,20,"선수 선발 과정에 청탁이 있지 않았냐 소신에 따른 현장의 결정이었다 사과하시든지, 사퇴하시든지 하라 선 감독 때문에 프로야구 관객이 20%나 줄었다 선 감독이 이렇게 끝까지 버티고 우기면 2020년까지 야구대표팀 감독을 하기 힘들다 장관이나 차관도 마찬가지 생각을 하고 있을 것",한국경제,2100601.20181011,https://www.bigkinds.or.kr/news/detailView.do?docId=02100601.20181011094503001&returnCnt=1&sectionDiv=1000&indexName=
6,20181011,김무성,18,5 24 조치의 원인이 된 천안함 관련 조치가 있어야 할 것 미국과 보조를 맞춰야 하는데 문재인 정부가 이를 외면하듯이 북한 뜻대로 너무 가속페달을 밟고 있다,한국경제,2100601.201810111,https://www.bigkinds.or.kr/news/detailView.do?docId=02100601.20181011174526001&returnCnt=1&sectionDiv=1000&indexName=
7,20181011,김진태,15,이슈 메이킹을 위한 ‘정치 동물쇼’,경향신문,1100101.201810112,https://www.bigkinds.or.kr/news/detailView.do?docId=01100101.20181011215653001&returnCnt=1&sectionDiv=1000&indexName=
8,20181011,권미혁,15,조 전 청장의 불출석 통보는 안타까운 일,아시아경제,2100801.201810111,https://www.bigkinds.or.kr/news/detailView.do?docId=02100801.20181011111423001&returnCnt=1&sectionDiv=1000&indexName=
9,20181011,황희,14,"유 부총리 인사청문회 과정에서 총 19개 의혹이 제기됐는데, 그중 3개 의혹은 범법 행위 아니냐는 의문을 갖고 있다 이 같은 문제가 해결된 뒤에 교육부 장관으로 증인 선서를 하는 것이 옳다",한국경제,2100601.201810111,https://www.bigkinds.or.kr/news/detailView.do?docId=02100601.20181011184511001&returnCnt=1&sectionDiv=1000&indexName=


In [23]:
len(df_top5)

105

## Fetch hankyung URL

In [24]:

requests_error = []
status_error = []

for i, row in df_top5.iterrows():
#     if i == 2:
#         break

    if row['url']:
        url = row['url']
        
        try:
            response = requests.get(url, timeout=3, verify=False)

        except ReadTimeout:
            requests_error.append(i)
            continue
        except ContentDecodingError:
            requests_error.append(i)
            continue
        except TooManyRedirects:
            requests_error.append(i)
            continue

        if str(response.status_code)[0] == '4':
            status_error.append(i)

        hankyung_url = response.json()['detail']['PROVIDER_LINK_PAGE']
        df_top5.at[i, 'url_hankyung'] = hankyung_url

df_top5









Unnamed: 0,날짜,국회의원,인용 횟수,인용문,언론사,뉴스 식별자,url,url_hankyung
0,20181010,민경욱,29,"2013년부터 2017년까지 수도권에서 그린벨트를 해제한 19개 지역 가운데 작년 말 해제된 경기 부천, 서울 강동, 인천 남동구를 제외한 16개 지역에서 주택 매매가격이 평균 5% 상승했다",한국경제,2100601.201810101,https://www.bigkinds.or.kr/news/detailView.do?docId=02100601.20181010181510002&returnCnt=1&sectionDiv=1000&indexName=,http://news.hankyung.com/article/2018101003711
1,20181010,박덕흠,19,국민은행의 30년간 서울 아파트 매매가격지수를 보면 민주당이 집권할 때마다 집값이 폭등한다,머니투데이,2100201.201810101,https://www.bigkinds.or.kr/news/detailView.do?docId=02100201.20181010184534001&returnCnt=1&sectionDiv=1000&indexName=,http://news.moneytoday.co.kr/view/mtview.php?no=2018101018393189613&type=2
2,20181010,김경진,18,구글은 세계 각국의 조세법을 어겨가며 수치스러운 장사를 하고 있다,한국경제,2100601.201810101,https://www.bigkinds.or.kr/news/detailView.do?docId=02100601.20181010174513002&returnCnt=1&sectionDiv=1000&indexName=,http://news.hankyung.com/article/2018101003481
3,20181010,정진석,17,강 장관의 발언은 5 24 조치 해제를 기정사실화하는 발언을 한 것 발언 자체에 대해 사과해야 옳다 남북 정상회담 후 폼페이오 장관이 전화 통화에서 남북 군사합의에 강한 불만을 제기했느냐,한국경제,2100601.201810101,https://www.bigkinds.or.kr/news/detailView.do?docId=02100601.20181010174508002&returnCnt=1&sectionDiv=1000&indexName=,http://news.hankyung.com/article/2018101003191
4,20181010,김진태,17,대전동물원에서 탈출했다가 사살된 퓨마와 비슷하게 생긴 동물을 가져왔다,서울경제,2100311.201810101,https://www.bigkinds.or.kr/news/detailView.do?docId=02100311.20181010173045001&returnCnt=1&sectionDiv=1000&indexName=,http://www.sedaily.com/NewsView/1S5UYMBY01
5,20181011,손혜원,20,"선수 선발 과정에 청탁이 있지 않았냐 소신에 따른 현장의 결정이었다 사과하시든지, 사퇴하시든지 하라 선 감독 때문에 프로야구 관객이 20%나 줄었다 선 감독이 이렇게 끝까지 버티고 우기면 2020년까지 야구대표팀 감독을 하기 힘들다 장관이나 차관도 마찬가지 생각을 하고 있을 것",한국경제,2100601.20181011,https://www.bigkinds.or.kr/news/detailView.do?docId=02100601.20181011094503001&returnCnt=1&sectionDiv=1000&indexName=,http://news.hankyung.com/article/2018101119727
6,20181011,김무성,18,5 24 조치의 원인이 된 천안함 관련 조치가 있어야 할 것 미국과 보조를 맞춰야 하는데 문재인 정부가 이를 외면하듯이 북한 뜻대로 너무 가속페달을 밟고 있다,한국경제,2100601.201810111,https://www.bigkinds.or.kr/news/detailView.do?docId=02100601.20181011174526001&returnCnt=1&sectionDiv=1000&indexName=,http://news.hankyung.com/article/2018101152311
7,20181011,김진태,15,이슈 메이킹을 위한 ‘정치 동물쇼’,경향신문,1100101.201810112,https://www.bigkinds.or.kr/news/detailView.do?docId=01100101.20181011215653001&returnCnt=1&sectionDiv=1000&indexName=,http://news.khan.co.kr/kh_news/khan_art_view.html?artid=201810112149005&code=910100
8,20181011,권미혁,15,조 전 청장의 불출석 통보는 안타까운 일,아시아경제,2100801.201810111,https://www.bigkinds.or.kr/news/detailView.do?docId=02100801.20181011111423001&returnCnt=1&sectionDiv=1000&indexName=,http:www.asiae.co.kr/news/view.htm?idxno=2018101111114572250
9,20181011,황희,14,"유 부총리 인사청문회 과정에서 총 19개 의혹이 제기됐는데, 그중 3개 의혹은 범법 행위 아니냐는 의문을 갖고 있다 이 같은 문제가 해결된 뒤에 교육부 장관으로 증인 선서를 하는 것이 옳다",한국경제,2100601.201810111,https://www.bigkinds.or.kr/news/detailView.do?docId=02100601.20181011184511001&returnCnt=1&sectionDiv=1000&indexName=,http://news.hankyung.com/article/2018101151891


In [25]:
df_top5.fillna('', inplace=True); df_top5

Unnamed: 0,날짜,국회의원,인용 횟수,인용문,언론사,뉴스 식별자,url,url_hankyung
0,20181010,민경욱,29,"2013년부터 2017년까지 수도권에서 그린벨트를 해제한 19개 지역 가운데 작년 말 해제된 경기 부천, 서울 강동, 인천 남동구를 제외한 16개 지역에서 주택 매매가격이 평균 5% 상승했다",한국경제,2100601.201810101,https://www.bigkinds.or.kr/news/detailView.do?docId=02100601.20181010181510002&returnCnt=1&sectionDiv=1000&indexName=,http://news.hankyung.com/article/2018101003711
1,20181010,박덕흠,19,국민은행의 30년간 서울 아파트 매매가격지수를 보면 민주당이 집권할 때마다 집값이 폭등한다,머니투데이,2100201.201810101,https://www.bigkinds.or.kr/news/detailView.do?docId=02100201.20181010184534001&returnCnt=1&sectionDiv=1000&indexName=,http://news.moneytoday.co.kr/view/mtview.php?no=2018101018393189613&type=2
2,20181010,김경진,18,구글은 세계 각국의 조세법을 어겨가며 수치스러운 장사를 하고 있다,한국경제,2100601.201810101,https://www.bigkinds.or.kr/news/detailView.do?docId=02100601.20181010174513002&returnCnt=1&sectionDiv=1000&indexName=,http://news.hankyung.com/article/2018101003481
3,20181010,정진석,17,강 장관의 발언은 5 24 조치 해제를 기정사실화하는 발언을 한 것 발언 자체에 대해 사과해야 옳다 남북 정상회담 후 폼페이오 장관이 전화 통화에서 남북 군사합의에 강한 불만을 제기했느냐,한국경제,2100601.201810101,https://www.bigkinds.or.kr/news/detailView.do?docId=02100601.20181010174508002&returnCnt=1&sectionDiv=1000&indexName=,http://news.hankyung.com/article/2018101003191
4,20181010,김진태,17,대전동물원에서 탈출했다가 사살된 퓨마와 비슷하게 생긴 동물을 가져왔다,서울경제,2100311.201810101,https://www.bigkinds.or.kr/news/detailView.do?docId=02100311.20181010173045001&returnCnt=1&sectionDiv=1000&indexName=,http://www.sedaily.com/NewsView/1S5UYMBY01
5,20181011,손혜원,20,"선수 선발 과정에 청탁이 있지 않았냐 소신에 따른 현장의 결정이었다 사과하시든지, 사퇴하시든지 하라 선 감독 때문에 프로야구 관객이 20%나 줄었다 선 감독이 이렇게 끝까지 버티고 우기면 2020년까지 야구대표팀 감독을 하기 힘들다 장관이나 차관도 마찬가지 생각을 하고 있을 것",한국경제,2100601.20181011,https://www.bigkinds.or.kr/news/detailView.do?docId=02100601.20181011094503001&returnCnt=1&sectionDiv=1000&indexName=,http://news.hankyung.com/article/2018101119727
6,20181011,김무성,18,5 24 조치의 원인이 된 천안함 관련 조치가 있어야 할 것 미국과 보조를 맞춰야 하는데 문재인 정부가 이를 외면하듯이 북한 뜻대로 너무 가속페달을 밟고 있다,한국경제,2100601.201810111,https://www.bigkinds.or.kr/news/detailView.do?docId=02100601.20181011174526001&returnCnt=1&sectionDiv=1000&indexName=,http://news.hankyung.com/article/2018101152311
7,20181011,김진태,15,이슈 메이킹을 위한 ‘정치 동물쇼’,경향신문,1100101.201810112,https://www.bigkinds.or.kr/news/detailView.do?docId=01100101.20181011215653001&returnCnt=1&sectionDiv=1000&indexName=,http://news.khan.co.kr/kh_news/khan_art_view.html?artid=201810112149005&code=910100
8,20181011,권미혁,15,조 전 청장의 불출석 통보는 안타까운 일,아시아경제,2100801.201810111,https://www.bigkinds.or.kr/news/detailView.do?docId=02100801.20181011111423001&returnCnt=1&sectionDiv=1000&indexName=,http:www.asiae.co.kr/news/view.htm?idxno=2018101111114572250
9,20181011,황희,14,"유 부총리 인사청문회 과정에서 총 19개 의혹이 제기됐는데, 그중 3개 의혹은 범법 행위 아니냐는 의문을 갖고 있다 이 같은 문제가 해결된 뒤에 교육부 장관으로 증인 선서를 하는 것이 옳다",한국경제,2100601.201810111,https://www.bigkinds.or.kr/news/detailView.do?docId=02100601.20181011184511001&returnCnt=1&sectionDiv=1000&indexName=,http://news.hankyung.com/article/2018101151891


In [26]:
def div_center(s):
    return f'<div style="text-align:center">{s}</div>'

def br_n(n):
    return '<br>'*n

def a_link(s, href):
    return f'<a href={href}>{s}</a>'

def span_underline(s):
    return f'<u>{s}</u>'

def parse_date(date):
    return date[:4] + '\t' + date[4:6] + '\t' + date[6:8].lstrip('0') + '\t\t'

def display_date(date):
    date = date[:4] + '년 ' + date[4:6] + '월 ' + date[6:8].lstrip('0') + '일'
    return div_center(date) + '\t\t'

def quote_count(n):
    return f' ({n}회)'

def quote_source(c):
    return f' ({c})'

In [27]:
'''
2018	10	8		2018	10	8		<div style='text-align:center;'>2018년 10월 8일</div>	
<div style='text-align: center'>이상헌<br>현재 외국인 관광객의 80% 정도는 서울 및 수도권에 몰리는 반면, 타 지방을 방문하는 외국인 관광객은 미미한 수준이라며, 실질적 규제혁신과 제도개선을 통해 지방에 제대로 된 관광인프라가 확충되어야 한다
<br><br>
김병욱<br>청년실업 등으로 신용등급이 낮고 형편이 어려운 20대가 은행권에서 대출을 받지 못하고 금리가 높은 대부업체로 내몰린 뒤 상환능력이 떨어져 연체율이 증가하고 있는 것
<br><br>
강효상<br>지난 6월29일 물산업클러스터 위탁운영기관으로 한국환경공단이 한국수자원공사를 제치고 선정된 배경에는 환경부의 밀어주기 의혹이 있다
<br><br>
강효상<br>지난 6월29일 물산업클러스터 위탁운영기관으로 한국환경공단이 한국수자원공사를 제치고 선정된 배경에는 환경부의 밀어주기 의혹이 있다
<br><br>
강효상<br>지난 6월29일 물산업클러스터 위탁운영기관으로 한국환경공단이 한국수자원공사를 제치고 선정된 배경에는 환경부의 밀어주기 의혹이 있다
<br><br>
강효상<br>지난 6월29일 물산업클러스터 위탁운영기관으로 한국환경공단이 한국수자원공사를 제치고 선정된 배경에는 환경부의 밀어주기 의혹이 있다
<br><br>
<a href='http://newslabit.hankyung.com/article/201806076914G#foo' target='_parent'>10월 8일 전체보기</a></div>

날짜	국회의원	인용 횟수	인용문	언론사	뉴스 식별자	url	url_hankhyung
'''

"\n2018\t10\t8\t\t2018\t10\t8\t\t<div style='text-align:center;'>2018년 10월 8일</div>\t\n<div style='text-align: center'>이상헌<br>현재 외국인 관광객의 80% 정도는 서울 및 수도권에 몰리는 반면, 타 지방을 방문하는 외국인 관광객은 미미한 수준이라며, 실질적 규제혁신과 제도개선을 통해 지방에 제대로 된 관광인프라가 확충되어야 한다\n<br><br>\n김병욱<br>청년실업 등으로 신용등급이 낮고 형편이 어려운 20대가 은행권에서 대출을 받지 못하고 금리가 높은 대부업체로 내몰린 뒤 상환능력이 떨어져 연체율이 증가하고 있는 것\n<br><br>\n강효상<br>지난 6월29일 물산업클러스터 위탁운영기관으로 한국환경공단이 한국수자원공사를 제치고 선정된 배경에는 환경부의 밀어주기 의혹이 있다\n<br><br>\n강효상<br>지난 6월29일 물산업클러스터 위탁운영기관으로 한국환경공단이 한국수자원공사를 제치고 선정된 배경에는 환경부의 밀어주기 의혹이 있다\n<br><br>\n강효상<br>지난 6월29일 물산업클러스터 위탁운영기관으로 한국환경공단이 한국수자원공사를 제치고 선정된 배경에는 환경부의 밀어주기 의혹이 있다\n<br><br>\n강효상<br>지난 6월29일 물산업클러스터 위탁운영기관으로 한국환경공단이 한국수자원공사를 제치고 선정된 배경에는 환경부의 밀어주기 의혹이 있다\n<br><br>\n<a href='http://newslabit.hankyung.com/article/201806076914G#foo' target='_parent'>10월 8일 전체보기</a></div>\n\n날짜\t국회의원\t인용 횟수\t인용문\t언론사\t뉴스 식별자\turl\turl_hankhyung\n"

In [28]:
d = defaultdict(list)
for i, row in df_top5.iterrows():
    date = row['날짜']
    d[date].append(row)
result = ''

for date, row_list in d.items():
    result += parse_date(date)
    result += parse_date(date)
    result += br_n(1) + display_date(date)
    body = ''
    for row in row_list:
        name = row['국회의원']
        said = row['인용문']
        company = row['언론사']
        href = row['url_hankyung']
        cnt = quote_count(row['인용 횟수'])
        source = quote_source(company)
        if company == '한국경제':
            said = span_underline(a_link(said, href))
        body += name + cnt + br_n(1) + said + source + br_n(2)
    result += body
    result += '\n'

result

# data_dir = '/Users/jake/OneDrive - leverage innovative users/Documents/News_Item/Audit_quote/'
# file = 'result.tsv'

# with open(os.path.join(data_dir, file), 'w') as f:
#     f.write(result)

# result.to_csv(os.path.join(data_dir, file), sep='\t', index=False)

'2018\t10\t10\t\t2018\t10\t10\t\t<br><div style="text-align:center">2018년 10월 10일</div>\t\t민경욱 (29회)<br><u><a href=http://news.hankyung.com/article/2018101003711>2013년부터 2017년까지 수도권에서 그린벨트를 해제한 19개 지역 가운데 작년 말 해제된 경기 부천, 서울 강동, 인천 남동구를 제외한 16개 지역에서 주택 매매가격이 평균 5% 상승했다</a></u> (한국경제)<br><br>박덕흠 (19회)<br>국민은행의 30년간 서울 아파트 매매가격지수를 보면 민주당이 집권할 때마다 집값이 폭등한다 (머니투데이)<br><br>김경진 (18회)<br><u><a href=http://news.hankyung.com/article/2018101003481>구글은 세계 각국의 조세법을 어겨가며 수치스러운 장사를 하고 있다</a></u> (한국경제)<br><br>정진석 (17회)<br><u><a href=http://news.hankyung.com/article/2018101003191>강 장관의 발언은 5 24 조치 해제를 기정사실화하는 발언을 한 것 발언 자체에 대해 사과해야 옳다 남북 정상회담 후 폼페이오 장관이 전화 통화에서 남북 군사합의에 강한 불만을 제기했느냐</a></u> (한국경제)<br><br>김진태 (17회)<br>대전동물원에서 탈출했다가 사살된 퓨마와 비슷하게 생긴 동물을 가져왔다 (서울경제)<br><br>\n2018\t10\t11\t\t2018\t10\t11\t\t<br><div style="text-align:center">2018년 10월 11일</div>\t\t손혜원 (20회)<br><u><a href=http://news.hankyung.com/article/2018101119727>선수 선발 과정에 청탁이 있지 않았냐 소신에 따른 현장의 결정이었다 사과하시든지, 사퇴하시든지 하라 선 감독 때문에 프로야구 관객이

# Insert to DB

In [32]:
with MyMongo() as db:
    db.delete_and_insert_df('audit_quote', 'top_5_quote_per_day', df_top5)

<--Mongo Connected.
{}
Deleted rows: 105
Inserted rows: 105
Mongo Connection Closed.-->


# Export tsv

In [30]:
# data_dir = '/Users/jake/OneDrive - leverage innovative users/Documents/News_Item/Audit_quote/'
# file = 'top_5_quote_per_day.tsv'

# df_top5.to_csv(os.path.join(data_dir, file), sep='\t', index=False)

In [31]:
# data_dir = '/Users/jake/OneDrive - leverage innovative users/Documents/News_Item/Audit_quote/'
# file = 'quote_all.tsv'

# quote.loc[::, cols].to_csv(os.path.join(data_dir, file), sep='\t', index=False)