# Read http://docs.python-requests.org/en/master/ for using Request Python Package
## It is also a great tutorial for various ways of internet access

## Web Scraping the President's lies in 16 lines of Python
### http://www.dataschool.io/python-web-scraping-of-president-trumps-lies/

In [55]:
import requests
r = requests.get('https://www.nytimes.com/interactive/2017/06/23/opinion/trumps-lies.html')

from bs4 import BeautifulSoup
soup = BeautifulSoup(r.text, 'html.parser')
results = soup.find_all('span', attrs={'class':'short-desc'})

records = []
for result in results:
    date = result.find('strong').text[0:-1] + ', 2017'
    lie = result.contents[1][1:-2]
    explanation = result.find('a').text[1:-1]
    url = result.find('a')['href']
    records.append((date, lie, explanation, url))

import pandas as pd
df = pd.DataFrame(records, columns=['date', 'lie', 'explanation', 'url'])
df['date'] = pd.to_datetime(df['date'])
df.to_csv('trump_lies.csv', index=False, encoding='utf-8')

In [56]:
df

Unnamed: 0,date,lie,explanation,url
0,2017-01-21,I wasn't a fan of Iraq. I didn't want to go in...,He was for an invasion before he was against it.,https://www.buzzfeed.com/andrewkaczynski/in-20...
1,2017-01-21,A reporter for Time magazine — and I have been...,Trump was on the cover 11 times and Nixon appe...,http://nation.time.com/2013/11/06/10-things-yo...
2,2017-01-23,Between 3 million and 5 million illegal votes ...,There's no evidence of illegal voting.,https://www.nytimes.com/2017/01/23/us/politics...
3,2017-01-25,"Now, the audience was the biggest ever. But th...",Official aerial photos show Obama's 2009 inaug...,https://www.nytimes.com/2017/01/21/us/politics...
4,2017-01-25,Take a look at the Pew reports (which show vot...,The report never mentioned voter fraud.,https://www.nytimes.com/2017/01/24/us/politics...
5,2017-01-25,You had millions of people that now aren't ins...,"The real number is less than 1 million, accord...",https://www.nytimes.com/2017/03/13/us/politics...
6,2017-01-25,"So, look, when President Obama was there two w...",There were no gun homicide victims in Chicago ...,https://www.dnainfo.com/chicago/2017-chicago-m...
7,2017-01-26,We've taken in tens of thousands of people. We...,Vetting lasts up to two years.,https://www.nytimes.com/interactive/2017/01/29...
8,2017-01-26,I cut off hundreds of millions of dollars off ...,Most of the cuts were already planned.,https://www.washingtonpost.com/news/fact-check...
9,2017-01-28,The coverage about me in the @nytimes and the ...,It never apologized.,https://www.nytimes.com/2016/11/13/us/election...


## 파이선으로 특정 키워드를 포함하는 신문기사 웹크롤링
### http://yoonpunk.tistory.com/4

In [65]:
"""네이버 뉴스 기사 웹 크롤러 모듈"""
 
from bs4 import BeautifulSoup
import urllib.request
 
# 출력 파일 명
OUTPUT_FILE_NAME = 'output.txt'
# 긁어 올 URL
URL = 'http://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=103&oid=055'\
      '&aid=0000445667'
 
 
# 크롤링 함수
def get_text(URL):
    source_code_from_URL = urllib.request.urlopen(URL)
    soup = BeautifulSoup(source_code_from_URL, 'lxml', from_encoding='utf-8')
    text = ''
    for item in soup.find_all('div', id='articleBodyContents'):
        text = text + str(item.find_all(text=True))
    return text

# 메인 함수
def main():
    open_output_file = open(OUTPUT_FILE_NAME, 'w')
    result_text = get_text(URL)
    open_output_file.write(result_text)
    open_output_file.close()
    
 
if __name__ == '__main__':
    main()


#출처: http://yoonpunk.tistory.com/4 [윤빵꾸의 공부노트]

In [79]:
result_text = get_text(URL)
result_text

"['\\n', ' 본문 내용 ', '\\n', ' TV플레이어 ', '\\n', '\\n', '\\n', '\\n', ' // TV플레이어 ', '\\n', '\\n// flash 오류를 우회하기 위한 함수 추가\\nfunction _flash_removeCallback() {}\\n', '\\n\\t\\n\\t네, 바람이 한결 선선해졌습니다.', '그동안 힘들었던 폭염이 물러갔는데요, 시원한 단비가 내린 데다가 찬 공기가 내려왔기 때문입니다.', '폭염이 물러가고 열대야도 대부분 해소됐습니다.', '이제 큰 더위 걱정은 안 하셔도 되겠는데요, 오늘(26일) 서울의 낮 기온 28도로 정말 모처럼 30도 아래로 내려왔습니다.', '또 내일과 모레 주말 동안 30도 안팎에 머물겠지만, 그동안처럼 혹독한 폭염은 없겠습니다.', '지금 비는 대부분 그쳤는데요, 주로 충청과 경북 지방을 중심으로 비가 내리고 있습니다.', '이 비도 낮에는 대부분 그치겠고요, 동해안은 동풍의 영향으로 오후까지 비가 조금 내리겠습니다.', '남부 지방은 대기 불안정으로 밤까지 요란한 소나기가 지나겠습니다.', '오늘 낮 기온은 서울, 대전, 전주 28도, 대구 25도로 어제보다 기온이 많게는 10도나 뚝 떨어지겠습니다.', '주말인 내일 중부 지방은 구름만 많겠지만, 영동과 남부 지방은 비 소식이 있는데요, 내일 밤 비가 시작돼 모레까지 이어지겠습니다.', '또 그리고 당분간 늦더위는 계속될 전망입니다.', '(이나영 기상캐스터)\\xa0', '※ ⓒ SBS & SBS콘텐츠허브 : 무단복제 및 재배포 금지', '☞ SBS뉴스에 영상 제보하고 상품권 받기!', '\\n', ' // 본문 내용 ', '\\n']"

In [83]:
txtlist = result_text.split()
print (txtlist)
print (type(result_text))

["['\\n',", "'", '본문', '내용', "',", "'\\n',", "'", 'TV플레이어', "',", "'\\n',", "'\\n',", "'\\n',", "'\\n',", "'", '//', 'TV플레이어', "',", "'\\n',", "'\\n//", 'flash', '오류를', '우회하기', '위한', '함수', '추가\\nfunction', '_flash_removeCallback()', "{}\\n',", "'\\n\\t\\n\\t네,", '바람이', '한결', "선선해졌습니다.',", "'그동안", '힘들었던', '폭염이', '물러갔는데요,', '시원한', '단비가', '내린', '데다가', '찬', '공기가', '내려왔기', "때문입니다.',", "'폭염이", '물러가고', '열대야도', '대부분', "해소됐습니다.',", "'이제", '큰', '더위', '걱정은', '안', '하셔도', '되겠는데요,', '오늘(26일)', '서울의', '낮', '기온', '28도로', '정말', '모처럼', '30도', '아래로', "내려왔습니다.',", "'또", '내일과', '모레', '주말', '동안', '30도', '안팎에', '머물겠지만,', '그동안처럼', '혹독한', '폭염은', "없겠습니다.',", "'지금", '비는', '대부분', '그쳤는데요,', '주로', '충청과', '경북', '지방을', '중심으로', '비가', '내리고', "있습니다.',", "'이", '비도', '낮에는', '대부분', '그치겠고요,', '동해안은', '동풍의', '영향으로', '오후까지', '비가', '조금', "내리겠습니다.',", "'남부", '지방은', '대기', '불안정으로', '밤까지', '요란한', '소나기가', "지나겠습니다.',", "'오늘", '낮', '기온은', '서울,', '대전,', '전주', '28도,', '대구', '25도로', '어제보다', '기온이', '많게는', '10도나', '뚝', "떨어지겠습니다.',", "'주말인

In [84]:
for i, v in enumerate(txtlist):
    print (i, '>> ', v)


0 >>  ['\n',
1 >>  '
2 >>  본문
3 >>  내용
4 >>  ',
5 >>  '\n',
6 >>  '
7 >>  TV플레이어
8 >>  ',
9 >>  '\n',
10 >>  '\n',
11 >>  '\n',
12 >>  '\n',
13 >>  '
14 >>  //
15 >>  TV플레이어
16 >>  ',
17 >>  '\n',
18 >>  '\n//
19 >>  flash
20 >>  오류를
21 >>  우회하기
22 >>  위한
23 >>  함수
24 >>  추가\nfunction
25 >>  _flash_removeCallback()
26 >>  {}\n',
27 >>  '\n\t\n\t네,
28 >>  바람이
29 >>  한결
30 >>  선선해졌습니다.',
31 >>  '그동안
32 >>  힘들었던
33 >>  폭염이
34 >>  물러갔는데요,
35 >>  시원한
36 >>  단비가
37 >>  내린
38 >>  데다가
39 >>  찬
40 >>  공기가
41 >>  내려왔기
42 >>  때문입니다.',
43 >>  '폭염이
44 >>  물러가고
45 >>  열대야도
46 >>  대부분
47 >>  해소됐습니다.',
48 >>  '이제
49 >>  큰
50 >>  더위
51 >>  걱정은
52 >>  안
53 >>  하셔도
54 >>  되겠는데요,
55 >>  오늘(26일)
56 >>  서울의
57 >>  낮
58 >>  기온
59 >>  28도로
60 >>  정말
61 >>  모처럼
62 >>  30도
63 >>  아래로
64 >>  내려왔습니다.',
65 >>  '또
66 >>  내일과
67 >>  모레
68 >>  주말
69 >>  동안
70 >>  30도
71 >>  안팎에
72 >>  머물겠지만,
73 >>  그동안처럼
74 >>  혹독한
75 >>  폭염은
76 >>  없겠습니다.',
77 >>  '지금
78 >>  비는
79 >>  대부분
80 >>  그쳤는데요,
81 >>  주로
82 >>  충청과
83 >>  경북

In [85]:
import re # regular expression

### 영어철자 및 특수 문자 제거

In [90]:
txt_wo_eng = re.sub( '[a-zA-Z]', '', result_text) # 영어 알파벳 제거

In [95]:
txt_clean = re.sub ('[\{\}\[\]\/?.,;:|\)*~`!^\-_+<>@\#$%&\\\=\(\'\"]','', txt_wo_eng)

In [96]:
txt_clean

'  본문 내용    플레이어        플레이어     오류를 우회하기 위한 함수 추가   네 바람이 한결 선선해졌습니다 그동안 힘들었던 폭염이 물러갔는데요 시원한 단비가 내린 데다가 찬 공기가 내려왔기 때문입니다 폭염이 물러가고 열대야도 대부분 해소됐습니다 이제 큰 더위 걱정은 안 하셔도 되겠는데요 오늘26일 서울의 낮 기온 28도로 정말 모처럼 30도 아래로 내려왔습니다 또 내일과 모레 주말 동안 30도 안팎에 머물겠지만 그동안처럼 혹독한 폭염은 없겠습니다 지금 비는 대부분 그쳤는데요 주로 충청과 경북 지방을 중심으로 비가 내리고 있습니다 이 비도 낮에는 대부분 그치겠고요 동해안은 동풍의 영향으로 오후까지 비가 조금 내리겠습니다 남부 지방은 대기 불안정으로 밤까지 요란한 소나기가 지나겠습니다 오늘 낮 기온은 서울 대전 전주 28도 대구 25도로 어제보다 기온이 많게는 10도나 뚝 떨어지겠습니다 주말인 내일 중부 지방은 구름만 많겠지만 영동과 남부 지방은 비 소식이 있는데요 내일 밤 비가 시작돼 모레까지 이어지겠습니다 또 그리고 당분간 늦더위는 계속될 전망입니다 이나영 기상캐스터0 ※ ⓒ   콘텐츠허브  무단복제 및 재배포 금지 ☞ 뉴스에 영상 제보하고 상품권 받기    본문 내용  '

### 영어 알파벳 제거하지 않은 경우

In [98]:
txt_1 = re.sub ('[\{\}\[\]\/?.,;:|\)*~`!^\-_+<>@\#$%&\\\=\(\'\"]','', result_text)
txt_1

'n  본문 내용  n  TV플레이어  n n n n   TV플레이어  n n flash 오류를 우회하기 위한 함수 추가nfunction flashremoveCallback n ntnt네 바람이 한결 선선해졌습니다 그동안 힘들었던 폭염이 물러갔는데요 시원한 단비가 내린 데다가 찬 공기가 내려왔기 때문입니다 폭염이 물러가고 열대야도 대부분 해소됐습니다 이제 큰 더위 걱정은 안 하셔도 되겠는데요 오늘26일 서울의 낮 기온 28도로 정말 모처럼 30도 아래로 내려왔습니다 또 내일과 모레 주말 동안 30도 안팎에 머물겠지만 그동안처럼 혹독한 폭염은 없겠습니다 지금 비는 대부분 그쳤는데요 주로 충청과 경북 지방을 중심으로 비가 내리고 있습니다 이 비도 낮에는 대부분 그치겠고요 동해안은 동풍의 영향으로 오후까지 비가 조금 내리겠습니다 남부 지방은 대기 불안정으로 밤까지 요란한 소나기가 지나겠습니다 오늘 낮 기온은 서울 대전 전주 28도 대구 25도로 어제보다 기온이 많게는 10도나 뚝 떨어지겠습니다 주말인 내일 중부 지방은 구름만 많겠지만 영동과 남부 지방은 비 소식이 있는데요 내일 밤 비가 시작돼 모레까지 이어지겠습니다 또 그리고 당분간 늦더위는 계속될 전망입니다 이나영 기상캐스터xa0 ※ ⓒ SBS  SBS콘텐츠허브  무단복제 및 재배포 금지 ☞ SBS뉴스에 영상 제보하고 상품권 받기 n   본문 내용  n'

### New line character & tab character 제거 ('\n', '\t')

In [104]:
txt_2 = re.sub ('\\\\n|\\\\t', '', result_text)
txt_2

"['', ' 본문 내용 ', '', ' TV플레이어 ', '', '', '', '', ' // TV플레이어 ', '', '// flash 오류를 우회하기 위한 함수 추가function _flash_removeCallback() {}', '네, 바람이 한결 선선해졌습니다.', '그동안 힘들었던 폭염이 물러갔는데요, 시원한 단비가 내린 데다가 찬 공기가 내려왔기 때문입니다.', '폭염이 물러가고 열대야도 대부분 해소됐습니다.', '이제 큰 더위 걱정은 안 하셔도 되겠는데요, 오늘(26일) 서울의 낮 기온 28도로 정말 모처럼 30도 아래로 내려왔습니다.', '또 내일과 모레 주말 동안 30도 안팎에 머물겠지만, 그동안처럼 혹독한 폭염은 없겠습니다.', '지금 비는 대부분 그쳤는데요, 주로 충청과 경북 지방을 중심으로 비가 내리고 있습니다.', '이 비도 낮에는 대부분 그치겠고요, 동해안은 동풍의 영향으로 오후까지 비가 조금 내리겠습니다.', '남부 지방은 대기 불안정으로 밤까지 요란한 소나기가 지나겠습니다.', '오늘 낮 기온은 서울, 대전, 전주 28도, 대구 25도로 어제보다 기온이 많게는 10도나 뚝 떨어지겠습니다.', '주말인 내일 중부 지방은 구름만 많겠지만, 영동과 남부 지방은 비 소식이 있는데요, 내일 밤 비가 시작돼 모레까지 이어지겠습니다.', '또 그리고 당분간 늦더위는 계속될 전망입니다.', '(이나영 기상캐스터)\\xa0', '※ ⓒ SBS & SBS콘텐츠허브 : 무단복제 및 재배포 금지', '☞ SBS뉴스에 영상 제보하고 상품권 받기!', '', ' // 본문 내용 ', '']"

In [109]:
txt2list = txt_2.split('\'')
print(txt2list[10])
txt2list

, 


['[',
 '',
 ', ',
 ' 본문 내용 ',
 ', ',
 '',
 ', ',
 ' TV플레이어 ',
 ', ',
 '',
 ', ',
 '',
 ', ',
 '',
 ', ',
 '',
 ', ',
 ' // TV플레이어 ',
 ', ',
 '',
 ', ',
 '// flash 오류를 우회하기 위한 함수 추가function _flash_removeCallback() {}',
 ', ',
 '네, 바람이 한결 선선해졌습니다.',
 ', ',
 '그동안 힘들었던 폭염이 물러갔는데요, 시원한 단비가 내린 데다가 찬 공기가 내려왔기 때문입니다.',
 ', ',
 '폭염이 물러가고 열대야도 대부분 해소됐습니다.',
 ', ',
 '이제 큰 더위 걱정은 안 하셔도 되겠는데요, 오늘(26일) 서울의 낮 기온 28도로 정말 모처럼 30도 아래로 내려왔습니다.',
 ', ',
 '또 내일과 모레 주말 동안 30도 안팎에 머물겠지만, 그동안처럼 혹독한 폭염은 없겠습니다.',
 ', ',
 '지금 비는 대부분 그쳤는데요, 주로 충청과 경북 지방을 중심으로 비가 내리고 있습니다.',
 ', ',
 '이 비도 낮에는 대부분 그치겠고요, 동해안은 동풍의 영향으로 오후까지 비가 조금 내리겠습니다.',
 ', ',
 '남부 지방은 대기 불안정으로 밤까지 요란한 소나기가 지나겠습니다.',
 ', ',
 '오늘 낮 기온은 서울, 대전, 전주 28도, 대구 25도로 어제보다 기온이 많게는 10도나 뚝 떨어지겠습니다.',
 ', ',
 '주말인 내일 중부 지방은 구름만 많겠지만, 영동과 남부 지방은 비 소식이 있는데요, 내일 밤 비가 시작돼 모레까지 이어지겠습니다.',
 ', ',
 '또 그리고 당분간 늦더위는 계속될 전망입니다.',
 ', ',
 '(이나영 기상캐스터)\\xa0',
 ', ',
 '※ ⓒ SBS & SBS콘텐츠허브 : 무단복제 및 재배포 금지',
 ', ',
 '☞ SBS뉴스에 영상 제보하고 상품권 받기!',
 ', ',
 '',
 ', ',
 ' // 본문 내용 

## 크롤링할 때 soup 데이터에서 찾아주는 문장을 list 타입으로 바로 받을 수 있다.

In [119]:
# 크롤링 함수 2
source_code_from_URL = urllib.request.urlopen(URL)

In [120]:
soup = BeautifulSoup(source_code_from_URL, 'lxml', from_encoding='utf-8')

In [121]:
soup

<!DOCTYPE HTML>
<html lang="ko">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="width=1023" name="viewport"/>
<title>[날씨] 한결 선선해진 바람…주말 30도 안팎 : 네이버 뉴스</title>
<meta content="SBS 뉴스 : 네이버뉴스" property="me2:post_tag"/>
<meta content="SBS 뉴스" property="me2:category1"/>
<meta content="생활/문화" property="me2:category2"/>
<meta content="http://imgnews.naver.net/image/origin/055/2016/08/26/445667.jpg" property="me2:image"/>
<meta content="[날씨] 한결 선선해진 바람…주말 30도 안팎" property="og:title"/>
<meta content="article" property="og:type"/>
<meta content="http://news.naver.com/main/read.nhn?mode=LSD&amp;mid=sec&amp;oid=055&amp;aid=0000445667&amp;sid1=001" property="og:url"/>
<meta content="http://imgnews.naver.net/image/origin/055/2016/08/26/445667.jpg" property="og:image"/>
<meta content="네, 바람이 한결 선선해졌습니다.그동안 힘들었던 폭염이 물러갔는데요, 시원한 단비가 내린 데다가 찬 공기가 내려왔기 때문입니다.폭염이 물러가고 열대야도 대부분 해소됐습니다.이제 큰 ..." property="og:description"/>
<meta content="SBS 뉴스 | 네이버 뉴스

In [134]:
text = ''
txtlist = []
count = 1;
for item in soup.find_all('div', id='articleBodyContents'):
    print (item, '@@ item type is ', type(item))
    itfnd = item.find_all(text=True)
    txtlist += list(itfnd) # list() type casting 없어도 그냥 리스트로 합쳐지더라.
    print (count, itfnd, type(itfnd))
    count += 1
    text = text + str(item.find_all(text=True))
#    return text

<div id="articleBodyContents">
<!-- 본문 내용 -->
<!-- TV플레이어 -->
<div class="vod_area">
<iframe _src="/main/readVod.nhn?oid=055&amp;aid=0000445667&amp;foreignPlayVod=true" allowfullscreen="" frameborder="0" height="342" marginheight="0" marginwidth="0" title="영상 플레이어" width="544"></iframe>
</div>
<!-- // TV플레이어 -->
<script type="text/javascript">
// flash 오류를 우회하기 위한 함수 추가
function _flash_removeCallback() {}
</script>
	
	네, 바람이 한결 선선해졌습니다.<br/><br/>그동안 힘들었던 폭염이 물러갔는데요, 시원한 단비가 내린 데다가 찬 공기가 내려왔기 때문입니다.<br/><br/>폭염이 물러가고 열대야도 대부분 해소됐습니다.<br/><br/>이제 큰 더위 걱정은 안 하셔도 되겠는데요, 오늘(26일) 서울의 낮 기온 28도로 정말 모처럼 30도 아래로 내려왔습니다.<br/><br/>또 내일과 모레 주말 동안 30도 안팎에 머물겠지만, 그동안처럼 혹독한 폭염은 없겠습니다.<br/><br/>지금 비는 대부분 그쳤는데요, 주로 충청과 경북 지방을 중심으로 비가 내리고 있습니다.<br/><br/>이 비도 낮에는 대부분 그치겠고요, 동해안은 동풍의 영향으로 오후까지 비가 조금 내리겠습니다.<br/><br/>남부 지방은 대기 불안정으로 밤까지 요란한 소나기가 지나겠습니다.<br/><br/>오늘 낮 기온은 서울, 대전, 전주 28도, 대구 25도로 어제보다 기온이 많게는 10도나 뚝 떨어지겠습니다.<br/><br/>주말인 내일 중부 지방은 구름만 많겠지만, 영동과 남부 지방은 비 소식이 있는데요, 내일 밤 비가 시작돼 모레까지 이어지겠습니다.<br/

In [126]:
itfnd

['\n',
 ' 본문 내용 ',
 '\n',
 ' TV플레이어 ',
 '\n',
 '\n',
 '\n',
 '\n',
 ' // TV플레이어 ',
 '\n',
 '\n// flash 오류를 우회하기 위한 함수 추가\nfunction _flash_removeCallback() {}\n',
 '\n\t\n\t네, 바람이 한결 선선해졌습니다.',
 '그동안 힘들었던 폭염이 물러갔는데요, 시원한 단비가 내린 데다가 찬 공기가 내려왔기 때문입니다.',
 '폭염이 물러가고 열대야도 대부분 해소됐습니다.',
 '이제 큰 더위 걱정은 안 하셔도 되겠는데요, 오늘(26일) 서울의 낮 기온 28도로 정말 모처럼 30도 아래로 내려왔습니다.',
 '또 내일과 모레 주말 동안 30도 안팎에 머물겠지만, 그동안처럼 혹독한 폭염은 없겠습니다.',
 '지금 비는 대부분 그쳤는데요, 주로 충청과 경북 지방을 중심으로 비가 내리고 있습니다.',
 '이 비도 낮에는 대부분 그치겠고요, 동해안은 동풍의 영향으로 오후까지 비가 조금 내리겠습니다.',
 '남부 지방은 대기 불안정으로 밤까지 요란한 소나기가 지나겠습니다.',
 '오늘 낮 기온은 서울, 대전, 전주 28도, 대구 25도로 어제보다 기온이 많게는 10도나 뚝 떨어지겠습니다.',
 '주말인 내일 중부 지방은 구름만 많겠지만, 영동과 남부 지방은 비 소식이 있는데요, 내일 밤 비가 시작돼 모레까지 이어지겠습니다.',
 '또 그리고 당분간 늦더위는 계속될 전망입니다.',
 '(이나영 기상캐스터)\xa0',
 '※ ⓒ SBS & SBS콘텐츠허브 : 무단복제 및 재배포 금지',
 '☞ SBS뉴스에 영상 제보하고 상품권 받기!',
 '\n',
 ' // 본문 내용 ',
 '\n']

In [128]:
txtlist

['\n',
 ' 본문 내용 ',
 '\n',
 ' TV플레이어 ',
 '\n',
 '\n',
 '\n',
 '\n',
 ' // TV플레이어 ',
 '\n',
 '\n// flash 오류를 우회하기 위한 함수 추가\nfunction _flash_removeCallback() {}\n',
 '\n\t\n\t네, 바람이 한결 선선해졌습니다.',
 '그동안 힘들었던 폭염이 물러갔는데요, 시원한 단비가 내린 데다가 찬 공기가 내려왔기 때문입니다.',
 '폭염이 물러가고 열대야도 대부분 해소됐습니다.',
 '이제 큰 더위 걱정은 안 하셔도 되겠는데요, 오늘(26일) 서울의 낮 기온 28도로 정말 모처럼 30도 아래로 내려왔습니다.',
 '또 내일과 모레 주말 동안 30도 안팎에 머물겠지만, 그동안처럼 혹독한 폭염은 없겠습니다.',
 '지금 비는 대부분 그쳤는데요, 주로 충청과 경북 지방을 중심으로 비가 내리고 있습니다.',
 '이 비도 낮에는 대부분 그치겠고요, 동해안은 동풍의 영향으로 오후까지 비가 조금 내리겠습니다.',
 '남부 지방은 대기 불안정으로 밤까지 요란한 소나기가 지나겠습니다.',
 '오늘 낮 기온은 서울, 대전, 전주 28도, 대구 25도로 어제보다 기온이 많게는 10도나 뚝 떨어지겠습니다.',
 '주말인 내일 중부 지방은 구름만 많겠지만, 영동과 남부 지방은 비 소식이 있는데요, 내일 밤 비가 시작돼 모레까지 이어지겠습니다.',
 '또 그리고 당분간 늦더위는 계속될 전망입니다.',
 '(이나영 기상캐스터)\xa0',
 '※ ⓒ SBS & SBS콘텐츠허브 : 무단복제 및 재배포 금지',
 '☞ SBS뉴스에 영상 제보하고 상품권 받기!',
 '\n',
 ' // 본문 내용 ',
 '\n']

In [139]:
txtlist[0] == '\n'

True

In [140]:
type (txtlist[0])

bs4.element.NavigableString

In [143]:
len(txtlist[0])

1

In [144]:
txtlist[0][0] is '\n'

True

In [148]:
txtlist[1][1] == '본'

True

## 파이선 > 3.5 에서 사용하는 한글 인코딩 시스템을 이해해야한다.

### Python3는 모든 문자열을 유니코드(unicode)로 처리하기 때문에 str과 unicode가 완전히 동일하다.
https://financedata.github.io/posts/faq_crawling_data_encoding.html

In [152]:
s = "한글 eng"
print (type(s), len(s))

<class 'str'> 6


In [153]:
import chardet

In [154]:
euc_data = '한글'.encode('euc-kr')
print (chardet.detect(euc_data))

{'encoding': 'ISO-8859-1', 'confidence': 0.73, 'language': ''}


In [156]:
utf8_data = '한글'.encode('utf-8') # default is unicode-8
print (chardet.detect(utf8_data))

{'encoding': 'utf-8', 'confidence': 0.7525, 'language': ''}


### 네이버 실시간 검색어 순위 JSON 데이터를 가져오기
https://financedata.github.io/posts/naver_realtime_search_json.html

In [159]:
import json, requests
from pandas.io.json import json_normalize

r = requests.get('http://rank.search.naver.com/rank.js')
jn = json_normalize(json.loads(r.text), ['data', 'data'])
ts = json.loads (r.text)['ts']
print ('time stamp = ', ts)
print ('실시간 순위', jn)

time stamp =  2018-01-09T22:25:00+0900
실시간 순위    change  cvalue  delta        keyword  rank ratio  score    tvalue
0       +    1736      0            투깝스     1     .     84  28.44082
1       +     422      0             염력     2     .    138  27.97407
2       +     715      0         뭉쳐야 뜬다     3     .    132  33.58800
3       +    1021      0         의문의 일승     4     .     99  21.25690
4       +     362      0           오마이걸     5     .    120  19.86568
5       +    3090      0            강식당     6     .     42  19.51452
6       +    2055      1           저글러스     7     +     54  17.92747
7       +      78      1            모네로     8     -    198   7.91751
8       +    1094      1  막돼먹은 영애씨 시즌16     9     +    117  16.40265
9       +      92      1            애간장    10     -    195   5.09282
10      +      90      0            정유미    11     .     93   4.55405
11      +     159      0         kbs온에어    12     .     69   4.18898
12      +      61      0        렉스턴 스포츠    13     .     6

In [161]:
r.text

'{"ts":"2018-01-09T22:25:00+0900","st":"2018-01-09T22:01:00+0900","et":"2018-01-09T22:11:00+0900","data":[{"category":"general","data":[{"rank":1,"keyword":"투깝스","change":"+","score":84,"tvalue":28.44082,"cvalue":1736,"ratio":".","delta":0},{"rank":2,"keyword":"염력","change":"+","score":138,"tvalue":27.97407,"cvalue":422,"ratio":".","delta":0},{"rank":3,"keyword":"뭉쳐야 뜬다","change":"+","score":132,"tvalue":33.588,"cvalue":715,"ratio":".","delta":0},{"rank":4,"keyword":"의문의 일승","change":"+","score":99,"tvalue":21.2569,"cvalue":1021,"ratio":".","delta":0},{"rank":5,"keyword":"오마이걸","change":"+","score":120,"tvalue":19.86568,"cvalue":362,"ratio":".","delta":0},{"rank":6,"keyword":"강식당","change":"+","score":42,"tvalue":19.51452,"cvalue":3090,"ratio":".","delta":0},{"rank":7,"keyword":"저글러스","change":"+","score":54,"tvalue":17.92747,"cvalue":2055,"ratio":"+","delta":1},{"rank":8,"keyword":"모네로","change":"+","score":198,"tvalue":7.91751,"cvalue":78,"ratio":"-","delta":1},{"rank":9,"keyword":"막

In [164]:
r.status_code

200

In [167]:
r.headers

{'Server': 'nginx', 'Date': 'Tue, 09 Jan 2018 13:25:05 GMT', 'Content-Length': '2404', 'Connection': 'keep-alive', 'Via': '1.0 csh60559 (SAS.kvfarm)', 'Access-Control-Allow-Origin': '*', 'Content-Type': 'application/json'}

In [168]:
r.encoding

In [176]:
jsonout = r.json()
jsonout

{'data': [{'category': 'general',
   'data': [{'change': '+',
     'cvalue': 1736,
     'delta': 0,
     'keyword': '투깝스',
     'rank': 1,
     'ratio': '.',
     'score': 84,
     'tvalue': 28.44082},
    {'change': '+',
     'cvalue': 422,
     'delta': 0,
     'keyword': '염력',
     'rank': 2,
     'ratio': '.',
     'score': 138,
     'tvalue': 27.97407},
    {'change': '+',
     'cvalue': 715,
     'delta': 0,
     'keyword': '뭉쳐야 뜬다',
     'rank': 3,
     'ratio': '.',
     'score': 132,
     'tvalue': 33.588},
    {'change': '+',
     'cvalue': 1021,
     'delta': 0,
     'keyword': '의문의 일승',
     'rank': 4,
     'ratio': '.',
     'score': 99,
     'tvalue': 21.2569},
    {'change': '+',
     'cvalue': 362,
     'delta': 0,
     'keyword': '오마이걸',
     'rank': 5,
     'ratio': '.',
     'score': 120,
     'tvalue': 19.86568},
    {'change': '+',
     'cvalue': 3090,
     'delta': 0,
     'keyword': '강식당',
     'rank': 6,
     'ratio': '.',
     'score': 42,
     'tvalue': 19.514

In [175]:
jsonout.keys()

dict_keys(['ts', 'st', 'et', 'data'])

In [179]:
jsonout['data']

[{'category': 'general',
  'data': [{'change': '+',
    'cvalue': 1736,
    'delta': 0,
    'keyword': '투깝스',
    'rank': 1,
    'ratio': '.',
    'score': 84,
    'tvalue': 28.44082},
   {'change': '+',
    'cvalue': 422,
    'delta': 0,
    'keyword': '염력',
    'rank': 2,
    'ratio': '.',
    'score': 138,
    'tvalue': 27.97407},
   {'change': '+',
    'cvalue': 715,
    'delta': 0,
    'keyword': '뭉쳐야 뜬다',
    'rank': 3,
    'ratio': '.',
    'score': 132,
    'tvalue': 33.588},
   {'change': '+',
    'cvalue': 1021,
    'delta': 0,
    'keyword': '의문의 일승',
    'rank': 4,
    'ratio': '.',
    'score': 99,
    'tvalue': 21.2569},
   {'change': '+',
    'cvalue': 362,
    'delta': 0,
    'keyword': '오마이걸',
    'rank': 5,
    'ratio': '.',
    'score': 120,
    'tvalue': 19.86568},
   {'change': '+',
    'cvalue': 3090,
    'delta': 0,
    'keyword': '강식당',
    'rank': 6,
    'ratio': '.',
    'score': 42,
    'tvalue': 19.51452},
   {'change': '+',
    'cvalue': 2055,
    'delta': 

In [180]:
len(jsonout['data'])

1

In [181]:
jsonout['data'][0]  # this is a dictionary

{'category': 'general',
 'data': [{'change': '+',
   'cvalue': 1736,
   'delta': 0,
   'keyword': '투깝스',
   'rank': 1,
   'ratio': '.',
   'score': 84,
   'tvalue': 28.44082},
  {'change': '+',
   'cvalue': 422,
   'delta': 0,
   'keyword': '염력',
   'rank': 2,
   'ratio': '.',
   'score': 138,
   'tvalue': 27.97407},
  {'change': '+',
   'cvalue': 715,
   'delta': 0,
   'keyword': '뭉쳐야 뜬다',
   'rank': 3,
   'ratio': '.',
   'score': 132,
   'tvalue': 33.588},
  {'change': '+',
   'cvalue': 1021,
   'delta': 0,
   'keyword': '의문의 일승',
   'rank': 4,
   'ratio': '.',
   'score': 99,
   'tvalue': 21.2569},
  {'change': '+',
   'cvalue': 362,
   'delta': 0,
   'keyword': '오마이걸',
   'rank': 5,
   'ratio': '.',
   'score': 120,
   'tvalue': 19.86568},
  {'change': '+',
   'cvalue': 3090,
   'delta': 0,
   'keyword': '강식당',
   'rank': 6,
   'ratio': '.',
   'score': 42,
   'tvalue': 19.51452},
  {'change': '+',
   'cvalue': 2055,
   'delta': 1,
   'keyword': '저글러스',
   'rank': 7,
   'ratio': '

In [182]:
jsonout['data'][0].keys()

dict_keys(['category', 'data'])

In [185]:
ldic = jsonout['data'][0]['data'] # this is a list of dictionaries

In [187]:
ldic[0]

{'change': '+',
 'cvalue': 1736,
 'delta': 0,
 'keyword': '투깝스',
 'rank': 1,
 'ratio': '.',
 'score': 84,
 'tvalue': 28.44082}

In [188]:
ldic[0]['keyword']

'투깝스'

In [192]:
'투깝스' in ldic[0].values()

True

In [191]:
'keyword' in ldic[0]

True

In [193]:
import re
import requests

re.findall('<span class="ah_k">(.*?)</span>', requests.get('http://naver.com').text)[:20]

['투깝스',
 '공유',
 '뭉쳐야 뜬다',
 '오마이걸',
 '저글러스',
 '막돼먹은 영애씨 시즌16',
 '강식당',
 '염력',
 '애간장',
 '렉스턴 스포츠',
 '정유미',
 'tvn',
 '티빙',
 'LH주택공사홈페이지',
 '브이앱',
 'vms',
 '국세청홈택스',
 '윤식당',
 '리그오브레전드',
 '김향기']