# Week 10 - Website Crawling

## BeautifleSoup4 를 이용한 웹페이지 크롤링

### BeautifulSoup 모듈을 로딩한다.

In [4]:
from bs4 import BeautifulSoup

아래의 텍스트 라인은 샘플 HTML 문서이다. 실제로는 저장된 HTML파일을 불러오거나 웹에서 바로 HTML문서를 다운로드 받아 데이터 처리를 한다.

In [1]:
html_doc = "<html><body><h1>Mr. Belvedere Fan Club</h1><div id='nav'>navigation bar</div><div class='nav'>navigation class</div><div class='header'><a href='twitter_anywhere'>my twitter</a></div></body></html>"

In [3]:
html_doc # 문자열로 만들었으므로 그냥 출력이 됨

"<html><body><h1>Mr. Belvedere Fan Club</h1><div id='nav'>navigation bar</div><div class='nav'>navigation class</div><div class='header'><a href='twitter_anywhere'>my twitter</a></div></body></html>"

BeautifulSoup의 "html.parser"를 이용하여 문서를 parsing한다. "html.parser" 외에 "xml", "html5lib" 등의 parser를 제공한다.
https://www.crummy.com/software/BeautifulSoup/bs4/doc/

In [8]:
soup = BeautifulSoup(html_doc, "html.parser")
soup # HTML DOM이 만들어짐. 똑같이 보여도, object화된 것 

<html><body><h1>Mr. Belvedere Fan Club</h1><div id="nav">navigation bar</div><div class="nav">navigation class</div><div class="header"><a href="twitter_anywhere">my twitter</a></div></body></html>

In [9]:
print(type(soup)) # soup을 이용한 dom element가 만들어짐

<class 'bs4.BeautifulSoup'>


parsing된 HTML 문서를 보기 좋게 보여준다.

range를 사용하여 원하는 만큼만 볼 수 있다. `soup.prettify()[0:100]`

In [10]:
print(soup.prettify())

<html>
 <body>
  <h1>
   Mr. Belvedere Fan Club
  </h1>
  <div id="nav">
   navigation bar
  </div>
  <div class="nav">
   navigation class
  </div>
  <div class="header">
   <a href="twitter_anywhere">
    my twitter
   </a>
  </div>
 </body>
</html>


전체 문서에서 ```<h1>``` 인 요소들만 찾아 list로 반환한다.

In [11]:
heading = soup.find_all("h1")
heading

[<h1>Mr. Belvedere Fan Club</h1>]

요소의 내용(text)를 반환하기 위해서 `get_text()`를 사용한다. 

In [12]:
heading[0].get_text() 

'Mr. Belvedere Fan Club'

<질문> ```heading.get_text()``` 는 에러가 나는 이유는?

In [13]:
divs = soup.find_all("div")
divs

[<div id="nav">navigation bar</div>,
 <div class="nav">navigation class</div>,
 <div class="header"><a href="twitter_anywhere">my twitter</a></div>]

여러 요소 중, class와 id 등으로 filtering 하기 위해서 두번째 패러미터를 사용한다.

In [17]:
divs = soup.find_all("div", class_="nav") # class는 예약어기 때문에 _ 필요
divs

[<div class="nav">navigation class</div>]

In [18]:
divs = soup.find_all("div", id="nav")
divs

[<div id="nav">navigation bar</div>]

In [20]:
id_list = []
divs = soup.find_all("div", class_="header") 
# divs
for div in divs:
    if div.a["href"] == "twitter_anywhere":
        id_list.append(div.a.text) # text 는 get_text()와 동일하게 사용됨.
id_list

['my twitter']

## twitter 아이디와 사용자 이름 수집

twtkr_example.html 파일을 읽어 트위터 아이디와 사용자 이름을 수집해 보자. 수집된 id 에서 @ 기호를 삭제하여 출력한다.
* 예: u_simin, 유시민

In [23]:
from bs4 import BeautifulSoup

html_doc = ""
with open("data/twtkr_example.html", encoding="utf-8") as file: # encoding은 mac에서 빼도 됨
    html_doc = file.read()
# html_doc
soup = BeautifulSoup(html_doc, "html.parser")
soup

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.1//EN" "http://www.w3.org/TR/xhtml11/DTD/xhtml11.dtd">

<html xml:lang="en" xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta content="application/xhtml+xml; charset=utf-8" http-equiv="Content-Type"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<link href="/css/tweets.css?ver=20100312" rel="stylesheet" type="text/css"/>
<!-- 토론 만들기 -->
<link href="/css/default.css" rel="stylesheet" type="text/css"/>
<!-- jquery 달력 -->
<link href="/css/jquery-ui-1.7.3.custom.css" rel="stylesheet" type="text/css"/><link href="http://i.dreamwiz.com/img/twtkr/img/favicon.ico" rel="shortcut icon" type="image/x-icon"/>
<title>twtkr 디렉토리</title>
<script src="http://www.google.com/jsapi" type="text/javascript"></script>
<script src="/js/prototype-1.6.0.2.js" type="text/javascript"></script>
<script src="/js/twitter.js?20110615_1" type="text/javascript"></script>
<script src="/js/lists.js?20110615" type="text/javascript"></script>
<script src="/js/service.j

In [33]:
divs = soup.find_all("div", class_="header")
# divs
for div in divs:
    print(div.cite.a["href"].replace("/", ""))
    # print(div.cite.a.text)
    # print(div)
    print("---")
    # print(div.cite.a["href"].replace("/", ""), div.cite.a.text)

u_simin
---
BBK_Sniper
---
funronga
---
actormoon
---
heenews
---
GH_PARK
---
HanMyeongSook
---
moonriver365
---
sangjungsim
---
your_rights
---
kangkumsil
---
mentshin
---
kanggigap
---
Nakw
---
Jungwook_Hong
---
cheolsoo0919
---
jwp615
---
hcroh
---
gihos1
---
hongshenx
---


## URL 가져와서 데이터 수집

In [5]:
import urllib.request
with urllib.request.urlopen("https://media.daum.net/ranking/bestreply/") as url:
    doc = url.read()
    soup = BeautifulSoup(doc, "html.parser")
    strongs = soup.find_all("strong", class_="tit_thumb")

    for strong in strongs:
#         print(strong)
#         print(strong.a.text)
        print(strong.a["href"])
        break

http://v.media.daum.net/v/20191106110455140


## 실습 1: 데이터 수집을 위한 리스트 작성

위의 주소에서 수집하고자 하는 URL의 리스트를 작성해보자.

In [40]:
import urllib.request

url_list = []
with urllib.request.urlopen("https://media.daum.net/ranking/bestreply/") as url:
    doc = url.read()
    soup = BeautifulSoup(doc, "html.parser")
    strongs = soup.find_all("strong", class_="tit_thumb")
    for strong in strongs:
        url_list.append(strong.a["href"])
        
url_list

['http://v.media.daum.net/v/20191104124132330',
 'http://v.media.daum.net/v/20191103160634408',
 'http://v.media.daum.net/v/20191103213603813',
 'http://v.media.daum.net/v/20191103203615362',
 'http://v.media.daum.net/v/20191103152229524',
 'http://v.media.daum.net/v/20191104103618431',
 'http://v.media.daum.net/v/20191104053006720',
 'http://v.media.daum.net/v/20191104081014525',
 'http://v.media.daum.net/v/20191103173435117',
 'http://v.media.daum.net/v/20191103185243296',
 'http://v.media.daum.net/v/20191104102409857',
 'http://v.media.daum.net/v/20191104031128946',
 'http://v.media.daum.net/v/20191104060013922',
 'http://v.media.daum.net/v/20191104114527165',
 'http://v.media.daum.net/v/20191104122011846',
 'http://v.media.daum.net/v/20191104091802220',
 'http://v.media.daum.net/v/20191103211813669',
 'http://v.media.daum.net/v/20191104121419650',
 'http://v.media.daum.net/v/20191104120201106',
 'http://v.media.daum.net/v/20191104044342420',
 'http://v.media.daum.net/v/201911040407

## 실습 2: 기사 수집 1

#### 주어진 URL의 기사의 타이틀을 수집해보자.

In [42]:
from bs4 import BeautifulSoup
import urllib.request

base_url = "http://v.media.daum.net/v/20181103172202580"

with urllib.request.urlopen(base_url) as url:
    doc = url.read()
    soup = BeautifulSoup(doc, "html.parser")
    title = soup.find("h3", class_="tit_view").text # .[0].text로 해줘야 함 # find_all을 했나?

title
    

'나경원 "역사 부인하는 아베 발언 치졸..사과부터 하라"'

#### 주어진 기사의 본문을 수집해 보자.

이 기사에는 figurecaption 부분이 있는데, 다음과 같은 코드로 제외한다. 

`unwanted = div.find("p", class_="link_figure")
unwanted.extract()`

In [46]:
from bs4 import BeautifulSoup
import urllib.request

base_url = "http://v.media.daum.net/v/20181103172202580"

with urllib.request.urlopen(base_url) as url:
    doc = url.read()
    soup = BeautifulSoup(doc, "html.parser")
    body = soup.find("div", class_="news_view") # [0].text 또는 .text
    unwanted = body.find("figure") # 기사 사진 삭제
    unwanted.extract()
    print(body.text.strip()) # strip: 빈 공간 삭제



【서울=뉴시스】유자비 기자 = 나경원 자유한국당 의원은 3일 아베 신조 일본 총리가 강제징용 사실을 부인하는 것과 관련, "역사적 사실을 부인하는 아베 총리의 발언은 치졸하기 짝이 없다"며 "사과부터 해야 할 것"이라고 비판했다. 
나 의원은 이날 자신의 페이스북을 통해 "한일협정의 국제법적 효력과 배상청구권에 대한 법적 논란을 차치하고 강제징용이란 역사적 사실을 부인하는 아베 총리의 발언은 치졸하기 짝이 없다"며 이같이 밝혔다.
그는 "아무리 국내정치와 국제재판에서 유리한 지위를 점유하기 위함이라고 해도 역사의 기본적인 내용을 바꿔 자발적 계약에 의한 모집 노동자라고 하는 것은 그들의 침략을 정당화하는 것과 다름없다"며 "아베 총리는 사과부터 해야 할 것"이라고 촉구했다. 
앞서 우리 대법원이 지난달 30일 일제 강제징용 배상 승소 판결을 내린 데 대해 아베 총리는 징용공이 아닌 '한반도 출신 노동자'라는 표현을 사용하는 등 강제징용 사실을 부인하려는 시도를 하고 있다. 
jabiu@newsis.com


#### 기자이름과 입력 날짜를 수집해보자.

In [54]:
from bs4 import BeautifulSoup
import urllib.request
from datetime import datetime as dt

base_url = "http://v.media.daum.net/v/20181103172202580"

with urllib.request.urlopen(base_url) as url:
    doc = url.read()
    soup = BeautifulSoup(doc, "html.parser")
    # reporter = soup.find_all("span", class_="txt_info").text
    # 기자 이름이 있는 경우도, 없는 경우도 있음
    info_span = soup.find_all("span", class_="txt_info")
    jounalist_name = info_span[0].text.strip()
    article_date = info_span[1].text.replace("입력", "").strip()
    article_date_conv = dt.strptime(article_date, "%Y.%m.%d. %H:%M")
    print(jounalist_name, article_date_conv)


유자비 2018-11-03 17:22:00


#### 언론사 이름을 수집해보자.

In [57]:
from bs4 import BeautifulSoup
import urllib.request

base_url = "http://v.media.daum.net/v/20181103172202580"

with urllib.request.urlopen(base_url) as url:
    doc = url.read()
    soup = BeautifulSoup(doc, "html.parser")
    cp = soup.find_all("em", class_="info_cp")[0]
    press = cp.img["alt"]
#     print(cp)
    print(press)

뉴시스


## 실습 3: 기사 수집 2

#### 위의 내용을 바탕으로 댓글 많은 뉴스 전체 기사를 수집해서 JSON으로 저장해 보자.
1. 위의 코드를 합쳐서
    - 기사의 리스트 수집
    - 각 기사 내용 수집
2. JSON 저장

In [65]:
# 기사 리스트에서 for문 돌려서 url을 일일히 입력하지 않아도 되게끔

#### JSON 파일 만들기

```
import json
from collections import OrderedDict
 
# Ready for data
group_data = OrderedDict()
items = OrderedDict()
 
group_data["url"] = "http://......"
group_data["title"] = "article_title"
 
items["item1"] = "item_name1"
items["item2"] = "item_name2"
items["item3"] = "item_name3"
 
group_data["items"] = items
 
# Print JSON
print(json.dumps(group_data, ensure_ascii=False, indent="\t") )
```

In [69]:
import urllib.request
import json # key-value 값을 가진 dict 형태로 저장하기 때문에, key값을 정해주는 일부 코드 추가
from collections import OrderedDict 

url_list = []
with urllib.request.urlopen("https://media.daum.net/ranking/bestreply/") as url:
    doc = url.read()
    soup = BeautifulSoup(doc, "html.parser")
    strongs = soup.find_all("strong", class_="tit_thumb")
    for strong in strongs:
        url_list.append(strong.a["href"])

article_list = []
for url_each in url_list:
    with urllib.request.urlopen(url_each) as url:
        doc = url.read()
        soup = BeautifulSoup(doc, "html.parser")
        
        # 기사 타이틀 수집
        title = soup.find_all("h3", class_="", )
        
        # 기사 본문 수집
        body = soup.find("div", class_="news_view") 
        unwanted = body.find("figure")
        if unwanted:
            unwanted.extract()
        unwanted = body.find("strong", class_="summary_view")
        if unwanted:
            unwanted.extract()
        print(body.text.strip())
        
        # 기사 이름, 날짜
        info_span = soup.find_all("span", class_="txt_info")
        if len(info_span) == 1:
            jounalist_name = ""
            article_date = info_span[0].tex.strip()
        else:
            jounalist_name = info_span[0].text.strip()
            article_date = info_span[1].text.strip()
            
        print(jounalist_name, article_date)
        
        # 신문사 이름
        cp = soup.find_all("em", class_="info_cp")[0]
        press = cp.img["alt"]
        print(press)
        
        print("\n\n====================\n\n")
#         body_section = soup.find_all("section")[0]
#         body = body_section.find_all("p", "dmcf-ptype" = "general")
        print(body)
    
print(json.dumps(group_data, ensure_ascii=False, indent="\t") )

# Write JSON
# with open~ (solution code를 확인하세요) 

【서울=뉴시스】이승주 기자 = '황교안표 1호 인사'로 언급됐던 박찬주 전 육군대장이 4일 한국당이 원한다면 출마하겠다며, 한다면 비례대표가 아닌 '충남 천안을'로 나간다는 의지를 분명히 했다. 그러나 '공관병 갑질'을 해명하던 중 군인권센터 소장을 향해 "삼청교육대 교육을 받아야 한다"고 말하는 등 물의를 일으킬 소지가 있는 발언을 쏟아내 파문이 일 것으로 보인다.
박 전 대장은 4일 오전 63빌딩 별관3층 사이플러스룸에서 기자회견이 끝난 뒤 기자들에게 "(한국당) 인재영입에 포함됐었다고 비례대표 (출마에) 목숨 건다고 생각하는 것 같은데 비례대표에 전혀 생각없다"고 단호히 밝혔다. 
그는 "(비례대표 출마는) 저 아니어도 누구라도 하는 것 아니냐"라며 "제 고향 천안을로 가든지, 떠나지 말고 (출마)하자는 사람 많다. 오해하지 말았으면 한다"라고 강조했다.
앞서 기자회견에서 '원치 않는다면 나서지 않겠다'고 한 말은 총선 불출마를 의미하는지 묻자 "조크로 말한건데 받아주질 않네"라고 답했다. 
이어 "반어법으로 당에서 결정하는 대로 따르겠다는 것이다. 당이 원하면 물불 가리지 않고 하겠다는 뜻"이라며 "하지만 당에서 원치 않는데 제가 뭘 하겠다는 것인가"라고 말했다. 이에 당에서 받아준다면 충남 천안을로 나가겠다는 의지가 명확한지 묻자 "네"라고 답했다. 
영입 관련 조경태 최고위원을 비롯 당내 반대가 있었던 것에 대해 "최고위원들이 의견을 제시할 수 있다고는 생각하지만, 기분이 좋을리 없다. 그렇게까지 생각한다면"이라며 "황교안 대표에게 전화드려 (저를) 생각하지 마시고 부담없이 결정하라고 했다. 이번에 포함되지 않아도 된다고 (했다)"라고 전했다.
이어 "2030세대가 (저에 대해) 반감을 가진다고 하는데, 그것은 '공관병 갑질' 논란의 성격에 대해 앞으로 설명드리고 해소해야 할 일이다"라며 "(하지만) 2030세대에게 많은 응원을 받고 있다. 그런 분위기도 굉장히 많다는 것도 참고해줬음 좋겠다"고 덧붙였다.
이번 기자회견이 당 지도부와 오해를 풀기 위

세월호 참사 당일 맥박이 있었는데도 제때 병원으로 옮겨지지 못하고 숨진 희생자가 있었다는 조사 결과가 5년여 만에 추가로 나오면서, 세월호 참사 전면 재수사·책임자 처벌을 요구하는 목소리가 다시 커지고 있다. 세월호 참사 유가족과 시민들은 박근혜 전 대통령 등을 비롯한 ‘참사 책임자’ 122명을 고소·고발하기로 했다. 
4·16세월호참사 가족협의회(세월호가족협의회)는 2일 오후 5시 서울 종로구 광화문광장에서 시민들과 함께 세월호 참사 책임자들에 대한 처벌을 요구하는 ‘국민 고소·고발인 대회’를 열어 세월호 참사 책임자 122명을 고소·고발하겠다고 밝혔다. 앞서 9월26일 세월호가족협의회가 발표한 참사 책임자 122명은 박 전 대통령과 황교안 전 국무총리 등 정부 책임자 9명과 김석균 전 해양경찰청장 등 참사 현장 구조·지휘 세력 29명, 조대환 세월호특별조사위원회 부위원장 등 ‘조사 방해세력’ 29명, 국회의원 김진태 등 ‘희생자 모욕·왜곡·망언 정치인’ 26명, 길환영 전 <한국방송>(KBS) 사장 등 ‘보도 참사 언론인’ 18명, 심인섭 어버이연합 회장 등 ‘비방·모욕 극우 보수세력’ 11명 등이다. 
고소·고발의 법률대리인인 오민애 민주사회를위한변호사모임(민변) 변호사는 이날 “참사 당시 아무것도 하지 않은 것으로 가장 큰 범죄를 저지른 데 대해 박근혜, 김기춘(전 대통령 비서실장) 등을 ‘미필적 고의에 의한 살인죄’로 고발한다. 공소시효가 남은 건 검찰이 정확하고 신속하게 수사해야 한다. 이번 대회를 시작으로 책임자들을 더 밝혀내 고소·고발하겠다”고 강조했다. 대회 주최 쪽의 말을 종합하면 이날을 기준으로 세월호가족협의회 등 320명이 고소인으로, 국내외 시민 등 3만9793명이 고발인으로 함께한다는 뜻을 밝혔다. 
세월호 참사 유가족들은 책임자들을 고소·고발하기까지 5년의 세월을 기다려왔다. 장훈 세월호가족협의회 운영위원장은 <한겨레>에 “1·2기 세월호참사특조위의 조사를 위해 그동안 따로 고소·고발을 하지 않았다. 특조위가 어느 정도 조사할 시간을

[박찬주 / 前 육군대장] 
장기간 동안 뒷조사를 했고 일찍 떠난 병사들을 접촉을 해서 나타난 현상들은 지금 침소봉대하고 왜곡해서 언론에다가 무차별적으로 뿌려댔습니다. 
나를 보좌하던 부관이 협조 안 하니까 이런 문자가 왔어요. 육사 폐지는 우리의 신명이다. 아니, 육사 폐지하고 공관병 갑질하고 무슨 상관관계가 있는 겁니까? 
여러분, 지금 기억하실지 모르겠지만 언론에서 그동안 줄기차게 나왔던 냉장고를 절도를 했다, 전자팔찌를 채워서 인신을 구속했다, 제 아내를 여단장으로 대우하라고 그랬다, 공관병을 GOP로 유배 보냈다. 뭐 하나 제대로 확실하게 혐의가 나온 게 뭡니까? 
GOP 유배 보냈다는 건 제가 공관병들을 보니까 공관병들이 매일 공관에서만 있고 저희 가족은 서울에서 왔다 갔다 이중살림하지만. 제가 출근하고 없으면 사실 지루할 수도 있지 않습니까? 그리고 그 공관병들이 나중에 전역을 해서 친구들 만나면 군대 얘기하면 도대체 우리 공관병들은 무슨 얘기를 하려나, 그런 생각도 들고. 
그래서 저는 아주 좋은 생각으로 야, 앞으로 전위 보는 공관병들은 일주일 정도 전방에 가서 전선을 바라보고 북한군도 쳐다보고 분단의 현실을 한번 느껴보도록 하는 게 좋지 않느냐. 그래야 나중에 전역해서도 좀 떳떳하지 않겠느냐 해서 보낸 겁니다. 그게 GOP에 유배 보낸 거면 그럼 지금 GOP에서 수고하는 우리 장병들은 다 유배 가 있는 겁니까? 
그리고 사실이라고 나온 감을 따라고 했다, 무슨 골프공을 주우라고 했다는 것은 사실 공관장이 상사입니다. 여러분, 상사가 낮은 계급입니까? 많은 분들은 왜 남의 자식을 데려다 부려먹느냐 그러시는데 그거는 오해하시는 겁니다. 제가 부려먹는 게 아니고 편제표에 나온 대로 임무를 수행하는 겁니다. 취사병은 총 대신 국자를 드는 것이고 군악대는 총 대신 나팔을 부는 겁니다. 
공관병은 공관에 편제표가 있기 때문에 와서 근무를 하는 것이고 편제표에 명시된 대로 과업을 수행하는 겁니다. 그러면 그게 잘못됐다? 편제표를 수정해야 됩니다. 그것은 

(서울=뉴스1) 김민석 기자 = 자유한국당은 3일 강기정 청와대 정무수석이 지난 1일 국회운영위원회의 청와대 국정감사에서 한국당 원내대표에게 "'우기다'가 뭐냐"고 소리친 이후 국감이 파행된 것과 관련해 "폭력과 행패를 일삼던 강 수석이 아직도 제 버릇을 개 주지 못했다"고 비판했다.
김정재 한국당 원내대변인은 이날 논평을 내고 "지난 1일 국회 운영위 국정감사 중 강 수석의 행패로 감사가 중지되는 사태가 벌어졌다"면서 이렇게 밝혔다.
김 원내대변인은 "감사가 진행되는 와중 피감기관 증인이 국민의 대표, 공당의 원내대표를 향해 고성과 반말, 삿대질을 퍼부은 것"이라며 "있어서도, 있을 수도 없는 일"이라고 말했다.
김 원내대변인은 "강 수석의 행패는 하루 이틀 된 얘기가 아니다"며 "국회의원 시절에도 회의석상에서의 폭언과 폭행은 다반사요, 동료의원의 얼굴을 향해 주먹을 날리고, 국회 경위의 뺨을 때리고, 청와대 직원의 얼굴에 박치기를 일삼던 자"라고 주장했다.
그는 그러면서 "정무수석 수준이 정치깡패나 다름없다"며 "그러니 청와대와 국회, 청와대와 야당의 관계가 제대로 돌아갈 리 만무하다. 제 버릇 개 주지 못한 강 수석이 있어야 할 곳은 더 이상 청와대가 아니다. 즉각 자리에서 물러나기 바란다"고 촉구했다.
ideaed@news1.kr
김민석 기자 입력 2019.11.03. 17:34
뉴스1




<div class="news_view" style="font-size:17px">

<div class="article_view" data-translation-body="" id="harmonyContainer">
<section dmcf-sid="NGoYJ8ozx0">

<p dmcf-pid="NOD9PPb0P6" dmcf-ptype="general">(서울=뉴스1) 김민석 기자 = 자유한국당은 3일 강기정 청와대 정무수석이 지난 1일 국회운영위원회의 청와대 국정감사에서 한국당 원내대표에게 "'우기다'가 뭐냐"고 소리친 이후 국감이 파행된 것과 관련해 "폭력

황교안 자유한국당 대표가 박찬주 전 제2작전사령관(예비역 육군 대장)의 영입을 재추진하겠다는 의사를 밝히면서 당내 반발이 커지고 있다. 이번 논란이 대표의 리더십 문제로까지 확대되자 황 대표는 "내부 총질은 하지 말아야 한다"며 공개 경고장을 날렸다. 박 전 사령관도 4일 기자회견을 자청해 '공관병 갑질 의혹'을 소명하겠다고 나섰다. 당내에선 "황 대표가 '마이웨이'식으로 갈 경우 총선 전에 당이 흔들릴 수 있다"는 말이 나온다.
◇黃 "박찬주 귀한 분… 내부 총질 말아야"
황 대표는 지난 2일 경남 창원 마산합포구청 대회의실에서 열린 '공수처법 보고대회'에 참석해서 "이길 때만 박수 치고, 실수한다고 뒤에서 총질할 것인가"라고 했다. 그러면서 "우리가 똘똘 뭉쳐서 싸워야 할 적(敵)은 경선하는 동지가 아니라 문재인 정권"이라고 했다.

한국당은 '조국 사태' 이후 당 지지율이 반등했지만 표창장 수여·인재 영입 논란 등이 불거지면서 하락세로 돌아섰다. 이렇다 할 인적 쇄신안도 제시하지 못하고 있다. 앞선 6월 청년·여성 후보자에게 30% 공천 가산점을 부여하는 혁신안이 지도부에 보고됐지만, 최종 공천안 발표는 계속 미뤄지고 있다. 한국당 고위 당직자는 "보수 통합, 패스트트랙(신속처리안건) 투쟁이 동시에 진행 중인 상황에서 공천 물갈이를 조기(早期)에 추진하기는 부담이 크다"고 했다.
황 대표는 일단 '인재 영입'을 통해 돌파구를 찾겠다는 생각이다. 당내 반발로 보류했던 박 전 사령관 영입을 재추진하고, 2차 영입 발표 시기도 앞당길 것으로 알려졌다. 황 대표는 지난달 31일 1차 '영입 인재 환영식'에서 "(박 전 사령관은) 배제된 것이 아니다. 정말 귀한 분"이라면서 "오늘은 경제에 주력한 첫 번째 (영입) 행사로, 향후 안보 부문 인재들에 대해 말할 기회가 있을 것"이라고 했다. 안보 분야 영입 인물로는 한 차례 발표가 보류됐던 박 전 사령관과 윤주경 전 독립기념관장 등이 포함될 것으로 알려졌다. 한국당 핵심 관계자는 "박 전 사령관은 영입 취소가 아니라

(방콕=연합뉴스) 이상헌 박경준 기자 = 문재인 대통령이 4일 아베 신조(安倍晋三) 일본 총리와 별도의 단독 환담을 가졌다. 

아세안 관련 정상회의 참석차 태국 방콕을 방문 중인 문 대통령은 이날 오전(현지시간) 아세안+3 정상회의가 열린 노보텔 방콕 임팩트의 정상 대기장에서 아베 총리와 단독 환담을 했다고 고민정 청와대 대변인이 서면 브리핑에서 전했다.
환담은 오전 8시 35분부터 46분까지 11분간 이뤄졌다.
고 대변인은 "양 정상은 한일관계가 중요하다는 데 의견을 같이하며 한일 양국 관계의 현안은 대화를 통해 해결해야 한다는 원칙을 재확인했다"고 밝혔다.
양 정상은 또 최근 양국 외교부의 공식 채널로 진행되고 있는 협의를 통해 실질적인 관계 진전 방안이 도출되기를 희망했다.
이와 관련, 문 대통령은 "필요하다면 보다 고위급 협의를 갖는 방안도 검토해 보자"고 제의했고, 아베 총리는 "모든 가능한 방법을 통해 해결 방안을 모색하도록 노력하자"고 화답했다.



비록 약식이긴 하지만 문 대통령과 아베 총리가 별도 만남을 가진 것은 작년 9월 미국 뉴욕에서 열린 유엔총회 계기의 정상회담 이후 13개월여 만이다. 
문 대통령과 아베 총리는 전날 갈라 만찬에서 단체 기념촬영을 하면서 가볍게 인사를 나눴지만 대화를 하지는 않았다. 지난 6월 오사카 주요 20개국(G20) 정상회의에서 역시 두 정상은 악수를 하는 데 그쳤다.
한일 정상 간 대화는 지난달 24일 이낙연 국무총리가 일왕 즉위식 계기 방일 당시 아베 총리와 회담하며 문 대통령의 친서를 전달한 지 11일 만이며, 이달 23일 한일군사정보보호협정(GSOMIA·지소미아) 종료 시한을 19일 앞둔 시점에서 이뤄졌다.



           대화하는 문 대통령과 아베 총리 (방콕=연합뉴스) 문재인 대통령과 아베 신조 일본 총리가 4일 오전(현지시간) 방콕 임팩트포럼에서 아세안+3 정상회의 전 환담을 하고 있다. [청와대 제공, 재판매 및 DB금지] photo@yna.co.kr
          

두 정상 간 

<앵커>
지난달 더불어민주당 이철희 의원이 내년 총선에 나가지 않겠다고 선언을 했죠. 그 후로 당 쇄신의 필요성을 주장하고 쇄신이 지지부진하면 의원직까지 던지겠다고 말했습니다.
취재원과의 조용한 대화 '취조'에서 김현우 앵커가 더 자세한 얘기 나눠봤습니다.
<기자>
총선에 나가지 않겠다 그러면서 멀쩡한 정신을 유지하기조차 버겁다 라고 하셨는데 뭐가 그렇게 힘드십니까?
<이철희 의원>
서로 각자 입장만 짧게 얘기하면 끝날 문젠데 계속 싸우는 거예요. 그럼 저도 같은 고함지르거나 이른바 삿대질하거나 이런 부류가 되기 때문에, 아 이런 데는 정말 멀쩡한 정신을 지키려고 무지 애를 써야 되는구나. 그게 온전하게 제정신 유지하는 게 쉽지 않다고 표현한 겁니다
<기자>
이 정도일 줄은 몰랐던 건가요?
<이철희 의원>
그렇죠. 너 바보 아냐? 이런 얘긴데 국회의원이 아니면 모르는 세상이 있더라고요. 과거 제가 스텝으로 지켜봤던 국회보다 지금이 훨씬 더 나빠진 것 같아요 (더 나빠졌다?) 서로 적대시하는 것도 심하고 막말이라는 걸 막 하게 되고 이게 기사가 되고 그게 당에서 칭찬받고 이런 풍토. 20대 국회가 그런 점에서는 최악입니다
갈등을 사회로 불러내서 토론을 통해 풀어주는 게 정치인데 불러다 내놓고 서로 험하게 해서 증폭시켜 가지고 그것 때문에 국민들이 분열하게 만들고 갈등하게 만드는 거면 정치 거꾸로 가는 거죠. 정치가 아니죠. 역치죠 이건 역치.
<기자>
그럼 국회에 남아서 국회에서 그걸 고쳐야 되는 거 아닙니까?
<이철희 의원>
그 얘긴 제가 제일 아프게 듣는 말인데 '내가 현재 수준으로서 감당할 수 없다. 현재 이 심리적 상태로는'
<기자>
당 안에서 지금 '그럼 나도 뒤를 따르겠다' 불출마 선언을 하겠다는 의원분들이 좀 있습니까?
<이철희 의원>
있죠. 제가 볼 때요. 15명에서 20명 사이 됩니다. (20분 정도가?) 저는 뭐 상당히 이어질 거라고 봅니다.
<기자>
이해찬 대표가, 아마 처음이죠. 조국 사태 이후에. 송구하다는 말로 이제 사과를 했는데 기자회

오보를 낸 언론사의 검찰청 출입을 제한한다는 내용의 ‘형사사건 공개금지 규칙’을 둘러싼 논란 이후 ‘조국 대전’의 유일한 성과물인 ‘검찰개혁’ 방안에 대한 비판이 높아지고 있다. ‘개혁을 하고 있다’는 이미지를 강조하려다 보니 무리수를 두고 있다는 것이다. 한 번 수정된 법령 등은 되돌리기 어려운 만큼 신중해야 한다는 지적이다.
3일 법조계에 따르면 조국 전 법무부 장관 사퇴 이후로도 문재인 대통령이 김오수 법무차관을 불러 직접 ‘검찰개혁’을 언급함에 따라 법무부가 지나치게 속도전에 몰입했다는 비판이 쏟아지고 있다. 
9월 9일 임명된 조 전 장관은 취임 한 달인 지난달 8일 검찰개혁 대국민보고를 하면서 △특수부 축소 △인권보호수사규칙 제정 △형사사건 공개금지 등에 관한 규정 제정 등 세 가지를 10월 중 추진하겠다고 공언했다. 실제 지난달 말까지 이 세가지 문제 관련된 조항 등에 대해서는 개정 등의 작업이 마무리됐다. 하지만 잡음이 떨어지질 않는다.
형사사건 공개금지 규칙을 둘러싼 논란은 아직도 현재 진행형이다. 오보 낸 언론사의 출입을 정지시킬 수 있는 권한을 검찰총장이나 검사장에 부여한 내용을 두고 “국가기관이 오보 여부를 결정하는 건 사실상 언론 통제”라는 지적이 쏟아지자 법무부는 일단 한 발 뒤로 물러섰다. ‘인권을 심각하게 침해하는 보도에 대해, 의무가 아니라 재량적으로 할 수 있다’고 한 것이다
그럼에도 불씨는 여전하다. ‘인권 침해 보도’ 또한 여전히 모호한 표현이다. 심지어 조 전 장관이 출범시킨 법무부 산하 법무ㆍ검찰 개혁위원회조차 반대하는 분위기다. 개혁위 관계자는 “해당 규칙에 대해 개혁위가 의견을 내야 한다고 주장하는 위원들도 있어서 정식으로 논의하고 권고해야 할지 등을 조율하고 있다”고 말했다.
특수부 축소도 그렇다. 전국 7개 검찰청에 있던 특수부를 서울, 대구, 광주 등 세 개 거점청에만 남기는 등의 내용을 담은 ‘검찰청 사무기구에 관한 규정’은 대검 측에서 제안한 지 2주만에 국무회의를 통과했다.



           지난달 

(청주=연합뉴스) 이승민 기자 = 청주의 한 아파트 주차장에 세워진 일본차가 화학 물질로 인해 손상됐다는 신고가 접수돼 경찰이 수사에 나섰다.

4일 청주 상당경찰서에 따르면 지난 2일 오후 10시께 상당구의 한 아파트 주차장에 닛산 알티마 승용차 트렁크와 뒤 범퍼에 염산으로 추정되는 물질이 뿌려졌다는 내용의 112신고가 접수됐다.
경찰은 알티마 승용차에서 화학물질 시료를 채취한 뒤 국립과학수사연구원에 성분 분석을 의뢰했다.
차주는 "차를 타려고 주차장에 갔더니 차 뒤쪽에 염산 같은 것이 뿌려져 손상돼 있었다"고 말했다.
경찰은 인근 폐쇄회로(CC)TV를 분석하는 등 화학 물질을 뿌린 사람을 쫓고 있다.



           손상된 차량 [독자 제공. 재판매 및 DB 금지]
          

경찰 관계자는 "재물손괴 혐의가 있다고 보고 범인을 쫓고 있다"며 "범행 동기는 조사를 해봐야 알 수 있다"고 말했다.
logos@yna.co.kr


AttributeError: 'NoneType' object has no attribute 'strip'

In [None]:
import json # 내부적으로 dict을 만든 후 저장
from collections import OrderedDict

# Ready for data
group_data = OrderedDict()
items = OrderedDict()

group_data["url"] = "http://......"
group_data["title"] = "article_title"

items["item1"] = "item_name1"
items["item2"] = "item_name2"
items["item3"] = "item_name3"

group_data["items"] = items

# Print JSON
print(json.dumps(group_data, ensure_ascii=False, indent="\t") ) # dump = 저장!