# 1. Requests: HTTP for Humans


* HTTP와 Request 개론에 대한 부분입니다. 본격적으로 크롤링을 하기 전에 요청이 성공했는지, 즉 크롤링이 가능한 페이지인지 확인해봐야 합니다.

In [7]:
import json
import requests

In [8]:
google_url = "http://google.co.kr"

# google_url에 requests를 이용해 HTTP GET 요청(Request)을 보냅니다.
# 결과(Response)를 response라는 변수에 저장합니다.
response = requests.get(google_url)

In [9]:
# requests를 보냈을 때 요청이 성공했는지 실패했는지를 response 객체를 통해 알 수 있습니다.

# requests를 통해 보낸 요청이 성공했다면 True, 실패했다면 False가 반환됩니다.
print("Is Request Success: {}".format(response.ok))

# requests를 통해 보낸 요청에 대한 상태 코드가 반환됩니다. 
print("Status Code: {}".format(response.status_code))

# 아래의 raise_for_status() 메소드는 status_code가 400 ~ 600 사이에 속할 때 예외를 발생시킵니다.
response.raise_for_status()

Is Request Success: True
Status Code: 200


In [10]:
# 이 외에도 response 객체에는 편의를 위한 다양한 기능이 있습니다.
# 아래에 자주 쓰이는 함수의 기능을 간단히 명시해두겠습니다.
# 요청을 보낸 url, 요청 종류에 따라 지금 실행하면 오류가 발생하는 것들도 있기 때문에
# 간단한 설명과 함께 주석을 달아두겠습니다.

# 요청에 사용한 request의 url 정보
# print("요청에 사용한 request의 url: {}".format(response.request.url))

# Response의 Encoding 정보
# print("Response Encoding: {}".format(response.encoding))

# 요청을 통해 결과로 받은 컨텐츠
# response.content

# 요청을 통해 결과로 받은 컨텐츠를 문자열 형태로
# response.text

# 요청을 통해 결과로 받은 컨텐츠를 json으로
# response.json()


# 2. requests & BeautifulSoup (1)

* 이제 실제 웹페이지에 요청을 보내고 그것을 파싱해 보도록 하겠습니다. 먼저 간단하게 구글 홈페이지를 가져옵니다.

In [11]:
import json
import requests

from bs4 import BeautifulSoup

In [12]:
google_url = "http://google.co.kr"

# google_url에 requests를 이용해 HTTP GET 요청(Request)을 보냅니다.
# 결과(Response)를 response라는 변수에 저장합니다.
response = requests.get(google_url)

In [13]:
# response 변수를 통해 요청이 성공했는지의 여부를 확인합니다.
if response.ok:
    print("response is ok. parse it with BeautifulSoup")
    
    # BeautifulSoup 객체를 이용해 response.text 라는 문자열을 
    # `lxml` 이란 html parser를 이용해 파싱한 뒤 그 결과를 bs라는 변수에 담습니다.
    
    bs = BeautifulSoup(response.text, "lxml") 
else:
    print("response is not ok. response content: {}".format(response.content))    

response is ok. parse it with BeautifulSoup


In [14]:
# .tag_name 을 이용해 HTML 태그에 접근할 수 있습니다.

print(bs.head.title)

<title>Google</title>


In [15]:
# find() 라는 메소드를 이용해 마찬가지로 HTML 태그에 접근할 수 있습니다.

print(bs.head.find("title"))

<title>Google</title>


In [16]:
# find_all() 라는 메소드를 이용해 HTML 태그에 접근할 수 있습니다.
# 결과가 리스트에 담겨 반환됨에 유의합니다.

print(bs.head.find_all("title"))

[<title>Google</title>]


In [17]:
print(bs.find("link")) 

<link href="/images/branding/product/ico/googleg_lodp.ico" rel="shortcut icon"/>


In [18]:
# 접근한 태그의 href 속성을 가져옵니다.
print(bs.find("link").get("href"))

/images/branding/product/ico/googleg_lodp.ico


# 3. requests & BeautifulSoup (2)

* 네이버 홈페이지에서 실시간 검색어 1-20위 목록을 가져와 보도록 하겠습니다

In [19]:
import json
import requests

from bs4 import BeautifulSoup

In [20]:
naver_url = "https://www.naver.com/"
response = requests.get(naver_url)

In [21]:
if response.ok:
    print("response is ok. parse it with BeautifulSoup")
    bs = BeautifulSoup(response.text, "lxml")
else:
    print("response is not ok. response content: {}".format(response.content))        

response is ok. parse it with BeautifulSoup


In [22]:
ah_keyword = []
# find_all 메소드를 이용해 `div` 태그 중 class의 값이 `ah_roll PM_CL_realtimeKeyword_rolling_base` 인 tag를 모두 찾습니다.
rolling_base = bs.find_all("div", {"class" : "ah_roll PM_CL_realtimeKeyword_rolling_base"})

In [23]:
print(rolling_base)

[<div aria-hidden="false" class="ah_roll PM_CL_realtimeKeyword_rolling_base">
<h3 class="blind">실시간 급상승 검색어</h3>
<div class="ah_roll_area PM_CL_realtimeKeyword_rolling">
<ul class="ah_l">
<li class="ah_item">
<a class="ah_a" data-clk="lve.keyword" href="#">
<span class="ah_r">1</span>
<span class="ah_k">구구단</span>
</a>
</li>
<li class="ah_item">
<a class="ah_a" data-clk="lve.keyword" href="#">
<span class="ah_r">2</span>
<span class="ah_k">신촌세브란스병원</span>
</a>
</li>
<li class="ah_item">
<a class="ah_a" data-clk="lve.keyword" href="#">
<span class="ah_r">3</span>
<span class="ah_k">모모랜드</span>
</a>
</li>
<li class="ah_item">
<a class="ah_a" data-clk="lve.keyword" href="#">
<span class="ah_r">4</span>
<span class="ah_k">태양</span>
</a>
</li>
<li class="ah_item">
<a class="ah_a" data-clk="lve.keyword" href="#">
<span class="ah_r">5</span>
<span class="ah_k">민효린</span>
</a>
</li>
<li class="ah_item">
<a class="ah_a" data-clk="lve.keyword" href="#">
<span class="ah_r">6</span>
<span class="a

In [24]:
for words in rolling_base:
    # 이 리스트에 있는 값을 순회하며 원하는 값을 찾습니다. `span` 태그 중 class의 값이 `ah_k`인 값을 찾습니다.
    for word in words.find_all("span", {"class" : "ah_k"}):
        ah_keyword.append(word.get_text())

In [25]:
ah_keyword

['구구단',
 '신촌세브란스병원',
 '모모랜드',
 '태양',
 '민효린',
 '음악중심',
 '착하게 살자',
 '미스티',
 '한국사능력검정시험 38회',
 '지진',
 '포항지진',
 '버블파이터',
 '영화',
 '갤럭시s9',
 '무한도전',
 '이마트',
 '메가박스',
 '영화순위',
 '롯데시네마',
 '메이플']

# * 실습 1 - 네이버 웹소설 크롤링 

크롤링할 페이지 : http://novel.naver.com/best/detail.nhn?novelId=583617&volumeNo=4    
여기에 들어가서 소설 내용을 크롤링해오고, content라는 변수에 저장합시다.

In [26]:
import requests
import os

from bs4 import BeautifulSoup

### a. 웹페이지에 요청 보내기

In [27]:
url = "http://novel.naver.com/best/detail.nhn"
params = {
    'novelId': 583617,
    'volumeNo' : 4
}

response = requests.get(url, params=params)

In [28]:
print(response.url)

http://novel.naver.com/best/detail.nhn?novelId=583617&volumeNo=4


In [29]:
if response.ok:
    print("response is ok. parse it with BeautifulSoup")
    bs = BeautifulSoup(response.text, "lxml")
else:
    print("response is not ok. response content: {}".format(response.content)) 

response is ok. parse it with BeautifulSoup


### b. 소설의 내용만 가져와서 저장

In [30]:
content = '' # 내용을 저장할 변수
content = bs.find("div", {"class": "detail_view_content ft15"}).p.get_text()

In [31]:
print(content)

◆ 01 ◆
01. 오랜만이야 선배




‘사랑해, 선배.’


처음으로 고백을 받은 건 대학교 2학년 때. 그것도 한 살 어린 연하에게서였다. 그는 어딜가나 사람들의 주목을 받는 스타일로, 재인은 그런 녀석이 불편했다.


‘까불지 마라.’


그게 끝이다. 끝이라고 생각했다.


*  *  *


[ 너 정말 이번에도 안 갈 거야? ]


“글쎄, 안 간다니까?”


[ 일 년에 한 번 있는 동창회인데? ]


모니터에서 시선을 뗀 재인은 한숨을 내쉬었다. 시력보호를 위해 쓰고 있던 안경을 벗어놓고, 늘어지듯 의자에 기댔다.


슬쩍 시간을 확인하니 어느새 오후 8시. 퇴근 시간이 훌쩍 지났지만 한창 마감 때라 그런지 편집부의 불은 꺼질 생각을 안 했다.


밝은 사무실 안에는 빈자리에 얼마 없고, 여기저기에서는 자판을 두드리는 소리가 한가득. 각자 매서운 눈으로 모니터와 싸우고 있는데 하나같이 죽을상이다.


[ 유재인! 내 말 듣고 있어? ]


“미안, 내가 아직 마감이 안 끝나서…….”


[ 또 그 핑계지, 이번에는 안 통하거든?! ]


예지의 재촉에 재인이 재빨리 답했다. ‘그러니까 못 갈 거 같다.’라는 말은 일부러 생략했다. 몇 년째 계속 거절을 했는데 이번에도 칼 같이 자르기에는 왠지 좀 미안해서.


사실 마감은 진작에 끝냈지만, 이 핑계가 아니고서는 동창회를 빠져나갈 방법이 마땅히 떠오르지 않았다. 편집부의 몇 없는 장점 중 하나가 바로 마감이라는 핑곗거리가 아니던가.


“하아아…….”


하지만 이제는 이것조차 별 효과가 없는 듯했다.


국내에서 가장 영향력 있는 패션 매거진 <Ellen>. 그녀가 이곳의 편집부 에디터로 입사한지도 벌써 5년이 훌쩍 지나고 있었다.


이곳에서의 시간은 밖과는 다르게 흘러서, 머리를 쥐어짜 내며 컨셉 회의를 하고 인터뷰 섭외와 미팅. 본격적인 기사 작성과 교정 교열까지 끝내고 나면 한 달이 금방 갔다.


분명 입사 당시에는 파릇파릇한 20대 초반이었는데, 어느새 후반 라인을 넘어서더니 깨닫고 

### c. 텍스트 파일로 저장

In [32]:
# content를 text 파일로 저장하는 코드입니다.

download_directory = './downloaded_txt/'
file_name = "novel.txt"

directory = os.path.dirname(download_directory)
if not os.path.exists(directory):  # downloaded 폴더 없으면 만들어준다.
    os.makedirs(directory)

with open(download_directory + file_name, "w") as f:
    f.write(content)

# 4. JSON Response

In [33]:
import requests

from bs4 import BeautifulSoup

In [34]:
news_url = "http://sports.news.naver.com/volleyball/news/index.nhn?date=20180130&page=5"
params = {
    'date': 20180130,
    'page': 5
}
response = requests.get(news_url, params=params)

In [35]:
if response.ok:
    print("response is ok. parse it with BeautifulSoup")
    bs = BeautifulSoup(response.text, "lxml")
else:
    print("response is not ok. response content: {}".format(response.content))

response is ok. parse it with BeautifulSoup


In [36]:
bs.find("div", {"class" : "news_list"})

<div class="news_list" id="_newsList"></div>

In [41]:
#기사의 정보가 담겨 있는 json 파일의 url을 요청합니다.
news_url = "http://sports.news.naver.com/volleyball/news/list.nhn"
params = {
    'date': 20180129,
    'page': 5
}

response = requests.get(news_url, params=params)

In [42]:
print(response.text)

{"list":[{"oid":"003","aid":"0008417549","officeName":"뉴시스","title":"김연경 소속팀은 곧 우승팀, 4개국 리그 우승 주역 대기록","subContent":"【서울=뉴시스】 황보현 기자 = '배구 여제' 김연경(30·상하이)이 네 나라에서 우승을 경험하는 대기록을 달성했다. 상하이는 27일 중국 상하이 루완 스타...","thumbnail":"http://imgnews.naver.net/image/thumb154/003/2018/01/29/8417549.jpg","datetime":"2018.01.29 09:31","url":null,"type":"PHOTO","totalCount":0},{"oid":"382","aid":"0000622596","officeName":"스포츠동아","title":"‘배구여제’ 김연경, 한국허벌라이프와 스폰서 협약 체결","subContent":"[동아닷컴]뉴트리션 전문기업 한국허벌라이프가 ‘배구여제’ 김연경의 공식 뉴트리션 스폰서(Official Nutrition Sponsor) 협약을 체결했다고 ...","thumbnail":"http://imgnews.naver.net/image/thumb154/382/2018/01/29/622596.jpg","datetime":"2018.01.29 09:24","url":null,"type":"PHOTO","totalCount":0},{"oid":"530","aid":"0000002592","officeName":"더 스파이크","title":"KGC인삼공사 서남원 감독, “알레나와 호흡이 우선”","subContent":"[더스파이크=장충/이현지 기자] 서남원 감독이 세터에 대한 아쉬움을 드러냈다.KGC인삼공사는 28일 장충체육관에서 열린 2017~2018 도드람　V-리그 G...","thumbnail":"http://imgnews.naver.net/image/thumb154/530/2018/01/29/2592.jpg","datetim

In [39]:
if response.ok:
    print("response is ok")
    news_list = response.json()['list']
else:
    print("response is not ok. response content: {}".format(response.content))

response is ok


In [40]:
for news in news_list:
    print(news['title'])

대한배구협회, 29일 정기총회 및 배구인의 밤 행사 성황리 마쳐
'배구인의 밤' 성료...장소연 해설위원 1천만원 기탁
<현대건설배구단 모바일 배경화면>
<현대건설배구단 모바일 배경화면>
올스타전 끝낸 이동근 아나운서 "저희도 다시 출격이죠"
中언론 "김연경, 21R 최고 공격수…풍부한 경험 보여줬다"
[KOVO-이슈&포커스] : 집중분석_GS칼텍스편 ①
배구팬 "우리카드, KB손해보험에 승리 예상"
[이슈체크] 5라운드 돌입! 한 주를 돌아보는 V-리그 이슈체크
[배구토토] 팬 71% “우리카드, KB손해보험에 승리”
"우리카드, KB손해보험에 승리"… 배구토토 스페셜 15회차
[KB손해보험] KB Weekly Top3
코트가 반가운 이소영 "소휘가 엄청 늘었던데요?"
국내 최초 프로배구 마케팅 서적 '스포츠마케팅 프로배구편' 출간
프로배구 마케팅 서적 '스포츠마케팅 프로배구편' 출간
[배구토토]배구팬 "우리카드, KB손해보험에 승리"
[배구토토] 스페셜 15회차, "우리카드, KB손해보험에 승리 예상"
KB손해보험 챌린저의 '알.쓸.케.사' 20180125 vs OK저축은행
[삼성화재블루팡스] 블루팡스 아이돌 만들기 대작전
[경기 일정] 1월 30일 도드람 2017~2018 V-리그 5라운드


# 5. Crawling Media File

In [43]:
import os
import requests

from bs4 import BeautifulSoup

In [44]:
img_url = "https://www.google.co.kr/search?dcr=0&source=lnms&tbm=isch&sa=X&ved=0ahUKEwjbp8r-y4bZAhXFfbwKHSYHDAsQ_AUICigB&biw=1224&bih=949#imgrc=_"

params = {
    'q': "박지훈"
}

response = requests.get(img_url, params=params)

In [45]:
if response.ok:
    print("response is ok")
    bs = BeautifulSoup(response.text, "lxml")
else:
    print("response is not ok. response content: {}".format(response.content))

response is ok


In [46]:
item_list = {}
raw_item_list = bs.find_all("img", {"alt" : "박지훈에 대한 이미지 검색결과"})

In [47]:
raw_item_list

[<img alt="박지훈에 대한 이미지 검색결과" height="135" src="https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcQGCD3LFO_dXu3Gu_vmZ4dToxAJ-DeISh-fIWbIkz4I9w0JvKI5LPNcUB8E" width="90"/>,
 <img alt="박지훈에 대한 이미지 검색결과" height="150" src="https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcStLYsqv4DV5dp4yAa6_JXLrquSQpKPF4EAcmB1kMize6qcvO83DiAXAMk" width="100"/>,
 <img alt="박지훈에 대한 이미지 검색결과" height="121" src="https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcSA5q5um3E4VwVIRm53vFtu7i5wPrwpwTzGN4g4TjfqqgNDWrnPUbkxTwc" width="83"/>,
 <img alt="박지훈에 대한 이미지 검색결과" height="146" src="https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcSFO2-IGNlrEBsS3MltX2P8qex88aisMM4QJRmpf9Irh4OQcGZjMiD4Aqg" width="90"/>,
 <img alt="박지훈에 대한 이미지 검색결과" height="116" src="https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcRfr8oPA7ZsUeys6dxWF-OMCGpp1JvxD-F1bA4P3MjhrsrFGcURFM2NcOEi" width="131"/>,
 <img alt="박지훈에 대한 이미지 검색결과" height="150" src="https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcTICfBvkiikcjBzENMFZoqlYR8

In [48]:
count = 1
for src in raw_item_list:
    item_list[str(count)] = src.get("src")
    count += 1

In [49]:
img_name_format = '{}{}.jpg'
download_directory = './downloaded/'

directory = os.path.dirname(download_directory)       
if not os.path.exists(directory):  # downloaded 폴더 없으면 만들어줌
    os.makedirs(directory)

In [50]:
# PIL은 파이썬 이미지 프로세싱 라이브러리입니다
# Anaconda에서 지원하지 않기 때문에 설치가 안되어 있을 경우 '!pip install Pillow'를 입력해 설치합니다.
from io import BytesIO
from PIL import Image

In [52]:
for item_name, item_url in item_list.items() :
    img_name = img_name_format.format(download_directory, str(item_name))
    #img_name = "./downloaded/3.jpg"
    response = requests.get(item_url)
    
    if response.ok:
        # 이미지를 저장하는 과정
        with Image.open(BytesIO(response.content)).convert('RGB') as image:
            image.save(img_name)
    else:
        print("This image url({}) has some problems".format(image_url))

# * 실습 2 - 쇼핑몰 이미지 크롤링

크롤링할 페이지 : http://www.laurenhi.com/product/list.html?cate_no=35     
이 페이지의 모든 상품 이미지를 크롤링하여, item_list에 저장할 파일 이름, 이미지 소스 url을 <key, value> 의 형태로 저장합시다.         
* 대략적인 과정    
    1. 크롤링할 페이지를 파싱해서 각 이미지의 url을 list에 저장한다.
    2. 저장한 list의 url을 for문으로 돌면서 하나씩 저장한다.

In [53]:
import os
import requests

from bs4 import BeautifulSoup
from io import BytesIO
from PIL import Image

### a. 웹페이지에 요청 보내기

In [54]:
url = "http://www.laurenhi.com/product/list.html"

params = {
    'cate_no': 35
}

response = requests.get(url, params = params)

if response.ok:
    print("response is ok")
    bs = BeautifulSoup(response.text, "lxml")
else:
    print("response is not ok. response content: {}".format(response.content))

print(bs)

response is ok
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html lang="ko" xml:lang="ko" xmlns="http://www.w3.org/1999/xhtml"><head><meta content="text/html; charset=utf-8" http-equiv="Content-Type"/><meta content="IE=edge" http-equiv="X-UA-Compatible"/><!--PG크로스브라우징필수내용 시작--><meta content="no-cache" http-equiv="Cache-Control"/><meta content="0" http-equiv="Expires"/><meta content="no-cache" http-equiv="Pragma"/><!--PG크로스브라우징필수내용 끝--><!--해당 CSS는 쇼핑몰 전체 페이지에 영향을 줍니다. 삭제와 수정에 주의해주세요.--><!-- 스마트디자인에서는 JQuery 1.4.4 버전이 내장되어있습니다. 추가로 호출하면 충돌이 생길 수 있습니다. --><script src="/design102Apps/js/jquery.1.4.4.min.js" type="text/javascript"></script><script src="/ec-js/common.js" type="text/javascript"></script><!-- 해당 JS는 플래시를 사용하기 위한 스크립트입니다. --><link href="http://fonts.googleapis.com/css?family=Lato:100,300,400,500,700,900,100italic,300italic,400italic,700italic,900italic" rel="stylesheet" type="text/css"/><!--[if lte IE 

### b. 각 이미지의 url을 list에 저장

In [55]:
item_list = {} # {상품 이름 : url}을 저장할 딕셔너리

# 각 상품의 raw_url을 가져오자 (추가적인 파싱 필요)
raw_item_list = bs.findAll("li", {"class" : "item xans-record-"})

# raw_item_list를 돌면서 각 상품의 이름과 img url을 가져옴
for raw_item in raw_item_list:
    # 상품 이름
    item_name = raw_item.find("p", {"class" : "name"}).a.get_text()[6:]
    # 이미지 url
    item_img = "http://" +raw_item.img.get("src")[2:]
    
    # 딕셔너리에 추가
    item_list[item_name] = item_img

print(item_list)

{'[기획특가] 퍼지 숏패딩-점퍼(웰론솜100%) (43000 → 29900)': 'http://www.laurenhi.com/web/product/medium/201711/17198_shop1_954911.jpg', '베이직 A라인 스판 (Mini sk)': 'http://www.laurenhi.com/web/product/medium/201709/16862_shop1_346506.gif', '스티치 더블 스트랩-코트(울50%)(주문폭주!/2월 5일 이후 출고예정!)': 'http://www.laurenhi.com/web/product/medium/201801/17411_shop1_539885.gif', '블랙 스웨이드-앵클부츠(주문폭주!/2월 5일 이후 순차적발송!)': 'http://www.laurenhi.com/web/product/medium/201712/17262_shop1_644820.jpg', '플레어 니트 롱 (skirt)': 'http://www.laurenhi.com/web/product/medium/201711/17053_shop1_983493.jpg', '사선 브이넥 미니-원피스': 'http://www.laurenhi.com/web/product/medium/201801/17509_shop1_609332.gif', '꽈배기 배색 브이넥-니트': 'http://www.laurenhi.com/web/product/medium/201801/17520_shop1_512080.gif', '피치 폴라-티셔츠(기모)': 'http://www.laurenhi.com/web/product/medium/201712/17272_shop1_529450.jpg', '[기획특가]롱 데이 숏패딩-점퍼(웰론솜100%) (53000 → 39900)': 'http://www.laurenhi.com/web/product/medium/201712/17214_shop1_938912.gif', '러빈 잔주름 플리츠 롱-스커트': 'http://www.laurenhi.com/

### c. list를 돌면서 각각의 상품 이미지를 저장

In [56]:
# 이미지를 저장하기 위한 코드입니다.

from io import BytesIO
from PIL import Image

In [57]:
img_name_format = '{}{}.jpg'
download_directory = './downloaded_img/'

directory = os.path.dirname(download_directory)
if not os.path.exists(directory):  # downloaded 폴더 없으면 만들어준다.
    os.makedirs(directory)

item_name_count = 1

for item_name, item_url in item_list.items() :
    img_name = img_name_format.format(download_directory, item_name_count) # 이미지 이름을 1.jpg와 같이 만들어줌
    response = requests.get(item_url)

    if response.ok:
        # 이미지를 저장하는 과정
        with Image.open(BytesIO(response.content)).convert('RGB') as image:
            image.save(img_name)
            item_name_count = item_name_count + 1 
    else:
        print("This image url({}) has some problems".format(image_url))

# 6. Using API

In [74]:
# ACCESS_TOKEN 발급 받기
# 1. https://developers.facebook.com/tools/explorer
# 2. 토큰 받기 -> 사용자 엑세스 토큰 받기 -> 권한 선택에서 아무것도 선택하지 않고 액세스 토큰 받기 클릭
# * 이 방식을 통해 발급 받은 ACCESS_TOKEN은 임시 토큰이라 일정 시간이 지나면 expire됩니다.

ACCESS_TOKEN = 'EAACEdEose0cBAFc0jTPZBQBu5fRbwvF3wzgm1kqBo1ErqYP0J4DDhx4AHZAuta3S7ZBbxWfHz10dKlJKfgKn8azFfiQCcukxc6gAPZBBJptZBsF59AXCSE93sLOij4ay6g5kS93M9iaa3ILDeSwu2m4IvtQY3gJR8mOZAmY2KTjk88XZCmEAyZBkIizNOkSGxlKTWhPPU7H7DwZDZD'   

In [69]:
# YBIGTA 페이스북 페이지 게시물을 가져오겠습니다.
url = 'https://graph.facebook.com/v2.10/{PAGE_NAME}'.format(PAGE_NAME='yonseibigdata')

In [75]:
url = 'https://graph.facebook.com/v2.10/yonseibigdata'.format(PAGE_NAME='yonseibigdata')

In [76]:
params = {
    'access_token' : ACCESS_TOKEN
}

#페이스북 페이지를 가져오기 위해서는 해당 페이지의 id가  필요합니다.
#id 가져오기!
response = requests.get(url, params=params).json()
page_id = response['id']

In [77]:
# 미리 설정한 정보를 바탕으로 아래 facebook graph api 호출에 이용할 url을 만들어준다.
URL_FORMAT = 'https://graph.facebook.com/{API_VERSION}/{NODE_ID}/{EDGE_NAME}'


base_url = URL_FORMAT.format(API_VERSION='v2.10', NODE_ID=page_id, EDGE_NAME='feed') # feed는 포스팅을 가져 오겠다는 뜻
# 페이스북 graph-api 중 우리가 이용할 feed에 관한 자세한 정보는 아래에서 참고할 수 있음.
# https://developers.facebook.com/docs/graph-api/reference/v2.10/page/feed

print(base_url)

https://graph.facebook.com/v2.10/669725426396444/feed


In [69]:
# 미리 설정한 정보를 바탕으로 아래 facebook graph api 호출에 이용할 url을 만들어준다.
URL_FORMAT = 'https://graph.facebook.com/{API_VERSION}/{NODE_ID}/{EDGE_NAME}'


base_url = URL_FORMAT.format(API_VERSION='v2.10', NODE_ID=page_id, EDGE_NAME='feed') # feed는 포스팅을 가져 오겠다는 뜻
# 페이스북 graph-api 중 우리가 이용할 feed에 관한 자세한 정보는 아래에서 참고할 수 있음.
# https://developers.facebook.com/docs/graph-api/reference/v2.10/page/feed

print(base_url)

https://graph.facebook.com/v2.10/669725426396444/feed


In [82]:
result = list()

# 기본 설정을 한 뒤 facebook graph api를 이용해 정보를 가져온다.

params = {
    'fields' : 'message,created_time,name,likes.limit(1).summary(true)',
    'access_token' : ACCESS_TOKEN,
    'limit' : 100
}

response = requests.get(base_url, params=params).json()
print(json.dumps(response, indent=4, ensure_ascii=False, sort_keys=True))

# 주요 정보 필드

# created_time: 글 쓴 시간
# id: 글의 id
# likes: 좋아요 누른 사람 정보, 여기서 likes 필드는 likes.limit(1)을 통해 1개만 가져왔다.
# 그 이유는 우리가 필요한 값이 likes.limit(1).summary(true) 을 통해 가져오는 like의 total_count이기 때문이다.
# summary->total_count: 좋아요 전체 count
# message: 글 내용

{
    "data": [
        {
            "created_time": "2018-01-05T01:34:17+0000",
            "id": "669725426396444_1517932781575700",
            "likes": {
                "data": [
                    {
                        "id": "277907546072263",
                        "name": "김철"
                    }
                ],
                "paging": {
                    "cursors": {
                        "after": "Mjc3OTA3NTQ2MDcyMjYz",
                        "before": "Mjc3OTA3NTQ2MDcyMjYz"
                    },
                    "next": "https://graph.facebook.com/v2.10/669725426396444_1517932781575700/likes?access_token=EAACEdEose0cBAFc0jTPZBQBu5fRbwvF3wzgm1kqBo1ErqYP0J4DDhx4AHZAuta3S7ZBbxWfHz10dKlJKfgKn8azFfiQCcukxc6gAPZBBJptZBsF59AXCSE93sLOij4ay6g5kS93M9iaa3ILDeSwu2m4IvtQY3gJR8mOZAmY2KTjk88XZCmEAyZBkIizNOkSGxlKTWhPPU7H7DwZDZD&summary=true&limit=1&after=Mjc3OTA3NTQ2MDcyMjYz"
                },
                "summary": {
                    "can_like": true,
       

In [83]:
response.keys()

dict_keys(['data', 'paging'])

In [84]:
# 결과 리스트에 최초 호출시 받아온 데이터를 저장해줍니다.
response_data = response['data']
len(response_data)

82

In [85]:
messages = []
for rsp in response_data:
    try:
        msg = rsp['message']
        like = rsp['likes']['summary']['total_count']
        print('message {}\nlikes : {}\n'.format(msg, like))
        messages.append(msg)
    except:
        continue

message ※ 최종 합격자 발표 공지 

벌써 2018년 한해가 밝았네요. 
이와 함께 YBIGTA 12기 선발도 완료되었습니다. 

지원자 한분 한분의 능력과 가능성을 소중히 생각하며 선발하다보니 사전에 안내드린 합격자 발표 시간보다 다소 지연되게 되었습니다. 
많이 기다리셨을 지원자분들께 사과의 말씀 드립니다. 

최종 합격자 발표는 늦어도 오늘(5일) 오후 1시 전으로 개별 문자 메시지를 통해 안내드리겠습니다.  

합격 여부와는 관계없이, 지원해주신 한분 한분의 YBIGTA에 대한 관심과 열정에 대해 정말 감사드린다는 말씀 전해드리고 싶습니다. 귀하의 밝은 미래를 항상 응원합니다. 

새해 복 많이 받으세요^^
likes : 8

message ★★공지★★

YBIGTA 12기 모집이 마감되었습니다. 
관심을 갖고 지원해주신 분들께 감사드립니다. 
우선적으로 서류 평가를 거친뒤, 12월 31일(일) 늦은 밤 서류 합격자에 한하여 정확한 면접 일자 및 장소와 시간을 문자로 알려드리겠습니다.

아울러, 오늘 컨퍼런스에 와주신 많은 분들께 감사인사드립니다.
한해 잘 마무리하시고 풍성한 새해 맞이하시길 기원합니다.
감사합니다.
likes : 15

message ★★12기 지원서 마감임박★★

YBIGTA 12기 지원서를 12월 30일 토요일 11:59PM 에 마감합니다.
지원을 희망하시는 분들은 첨부된 링크로 지원서를 작성하신 후 서둘러 제출해주시기 바랍니다. 
아울러, 내일 오후 2시 제 2공학관 B039에서 예정된 [2017 YONSEI BIGDATA CONFERENCE]에도 많은 관심과 참여 부탁드립니다. 

첨부: 지원서 링크 관련
 http://ybigta.com/ 에서 우측 상단 “지원하기” 버튼 클릭!
likes : 12

message [2017 YONSEI BIGDATA CONFERENCE 공지]

본 행사가 이틀 앞으로 다가왔습니다.
예상보다 많은 분들이 신청해주시어 온오프믹스를 통한 신청이 조기마감되었습니다.
현장 접수에 대해 많은 분

# 7. Manipulating Header (선택)

접속 시 로그인 정보가 필요한 다음 카페에서 헤더를 조작하여 게시글 가져오기

In [62]:
img_url = "https://search.naver.com/search.naver"
params = {
    "query" : "박지훈",
    "where" : "image",
    "sm" : "tab_jum"
}

response = requests.get(img_url, params = params)

In [63]:
if response.ok:
    print("response is ok")
    bs = BeautifulSoup(response.text, "lxml")
else:
    print("response is not ok.", response.status_code)


response is not ok. 403


In [64]:
headers = {
    
                "authority" : "search.naver.com",
                "method" : "GET",
                "path" : "/search.naver?where=image&sm=tab_jum&query=%EB%B0%95%EC%A7%80%ED%9B%88",
                "scheme" : "https",
                "accept" : "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
                "accept-encoding" : "gzip, deflate, br",
                "accept-language" : "ko-KR,ko;q=0.9,en-US;q=0.8,en;q=0.7",
                "cache-control" : "max-age=0",
                "cookie" : "nx_ssl=2; NNB=YQKGIVKGPFYVU; npic=eAUTziZ3jqZ1EuBiFbNruXZ29DOMnpilGFVTtosn/oKEw1+MQRPt1XezzvHOGtmoCA==; ASID=7dbc7e4b000001614b4203dd0000004e; nid_iplevel=1; nsr_acl=1; _naver_usersession_=vARbro86n9yb7f1Piz5+hQ==; page_uid=TFf8SwpySDVssbvv25sssssstmw-258941",
                "referer" : "https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=1&ie=utf8&query=%EB%B0%95%EC%A7%80%ED%9B%88",
                "upgrade-insecure-requests" : "1",
                "user-agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
    
          }

In [65]:
response = requests.get(img_url, headers= headers, params = params)

In [66]:
response

<Response [200]>

In [40]:
if response.ok:
    print("response is ok")
    bs = BeautifulSoup(response.text, "lxml")
else:
    print("response is not ok. response content: {}".format(response.content))

response is ok


# 부록 1 - Selenium 사용법

In [67]:
# webdriver 설치하기 : https://chromedriver.storage.googleapis.com/index.html?path=2.32/
# 압축 후 chromedriver.exe 파일의 경로 알아두기
from selenium import webdriver

In [68]:
driver = webdriver.Chrome('chromedriver') #chromedriver의 경로 작성

In [69]:
# 네이버 영화 페이지 접속
base_url = 'http://movie.naver.com/'
driver.get(base_url)

In [70]:
# 검색어 입력창에 검색하고 싶은 영화이름 넣기
search_input_id = 'ipt_tx_srch'
movie_name = '킹스맨: 골드서클'
driver.find_element_by_id(search_input_id).send_keys(movie_name)

In [71]:
# 검색버튼 클릭
search_button_selector = '#jSearchArea > div > button'
driver.find_element_by_css_selector(search_button_selector).click()

In [72]:
# 영화 선택
movie_location_selector = '#old_content > ul:nth-child(4) > li > dl > dt > a'
driver.find_element_by_css_selector(movie_location_selector).click()

In [73]:
# 평점 탭 선택
movie_rating_selector = '#movieEndTabMenu > li:nth-child(5) > a'
driver.find_element_by_css_selector(movie_rating_selector).click()

In [74]:
# 개봉전 페이지 선택
before_open_selector = '#beforePointTab > a'
driver.find_element_by_css_selector(before_open_selector).click()

In [75]:
# 개봉전 평점 페이지 클릭
movie_star_selector = '#beforePointArea > div.sc_area.b_star > div > em'
star_list = driver.find_elements_by_css_selector(movie_star_selector)

In [76]:
star_list

[<selenium.webdriver.remote.webelement.WebElement (session="bd6dad9b827961d0218dd9b82cd95baa", element="0.4427040616348332-2")>,
 <selenium.webdriver.remote.webelement.WebElement (session="bd6dad9b827961d0218dd9b82cd95baa", element="0.4427040616348332-3")>,
 <selenium.webdriver.remote.webelement.WebElement (session="bd6dad9b827961d0218dd9b82cd95baa", element="0.4427040616348332-4")>,
 <selenium.webdriver.remote.webelement.WebElement (session="bd6dad9b827961d0218dd9b82cd95baa", element="0.4427040616348332-5")>]

In [77]:
print([[content.text for content in star_list]])

[['8', '.', '9', '9']]


In [78]:
star = ''.join([content.text for content in star_list])
star

'8.99'

In [79]:
# webdriver 끄기
driver.quit()

# 부록 2 - 네이버 웹소설 크롤링 심화

크롤링할 페이지 : http://novel.naver.com/best/list.nhn?novelId=583617    
여기에 들어가서 '작품 회차'에 있는 모든 소설을 크롤링해오자         
* 대략적인 과정    
    1. 크롤링할 페이지를 파싱해서 각각 소설의 url을 가져와서 list로 저장한다
    2. 저장한 list의 url을 for문으로 돌면서 하나씩 요청
    3. 각 소설의 url에서 내용만 찾아서 저장
    4. 모든 소설의 내용을 하나의 텍스트로 합쳐서 저장

In [33]:
import requests
import os

from bs4 import BeautifulSoup

### a. 웹페이지에 요청 보내기

In [34]:
url = "http://novel.naver.com/best/list.nhn"
params = {
    'novelId': 583617
}
response = requests.get(url, params=params)

if response.ok:
    print("response is ok. parse it with BeautifulSoup")
    bs = BeautifulSoup(response.text, "lxml")
else:
    print("response is not ok. response content: {}".format(response.content))    

response is ok. parse it with BeautifulSoup


### b. 각 소설의 url 가져와서 리스트에 저장

In [35]:
base_url = "http://novel.naver.com/" # 가져온 url 앞에 붙여줄 base_url
novel_url_list = [] # 각 회차의 실제 url이 담길 list

# 각 회차의 url을 가져오자 (추가적인 파싱 필요)
raw_novel_url_list = bs.find("ul", {"class": "list_type2 v3 league_num NE=a:lst"}).findAll("li")

# raw_url_list를 돌면서 실제 url을 가져옴
for raw_novel_url in raw_novel_url_list :
    novel_url = base_url + raw_novel_url.a.get("href")
    novel_url_list.append(novel_url)
    
print(novel_url_list)

['http://novel.naver.com//best/detail.nhn?novelId=583617&volumeNo=62', 'http://novel.naver.com//best/detail.nhn?novelId=583617&volumeNo=61', 'http://novel.naver.com//best/detail.nhn?novelId=583617&volumeNo=60', 'http://novel.naver.com//best/detail.nhn?novelId=583617&volumeNo=59', 'http://novel.naver.com//best/detail.nhn?novelId=583617&volumeNo=58', 'http://novel.naver.com//best/detail.nhn?novelId=583617&volumeNo=57', 'http://novel.naver.com//best/detail.nhn?novelId=583617&volumeNo=56', 'http://novel.naver.com//best/detail.nhn?novelId=583617&volumeNo=55', 'http://novel.naver.com//best/detail.nhn?novelId=583617&volumeNo=54', 'http://novel.naver.com//best/detail.nhn?novelId=583617&volumeNo=53']


### c. 리스트를 돌면서 각 소설 url로 들어가서 내용만 가져옴

In [36]:
total_text = '' # 전체 text

for novel_url in novel_url_list :
    response = requests.get(novel_url)
    
    if response.ok:
        print("response is ok for novel_url({}). parse it with BeautifulSoup".format(novel_url))
        crawler = BeautifulSoup(response.text, "lxml")
        content = crawler.find("div", {"class": "detail_view_content ft15"}).p.get_text() # 파싱해서 소설 내용만 가져옴
        total_text = total_text + content # 전체 text에 더해줌
    else:
        print("response is not ok. skip this request. response content: {}".format(response.content))   
        continue

        
print(total_text)

response is ok for novel_url(http://novel.naver.com//best/detail.nhn?novelId=583617&volumeNo=62). parse it with BeautifulSoup
response is ok for novel_url(http://novel.naver.com//best/detail.nhn?novelId=583617&volumeNo=61). parse it with BeautifulSoup
response is ok for novel_url(http://novel.naver.com//best/detail.nhn?novelId=583617&volumeNo=60). parse it with BeautifulSoup
response is ok for novel_url(http://novel.naver.com//best/detail.nhn?novelId=583617&volumeNo=59). parse it with BeautifulSoup
response is ok for novel_url(http://novel.naver.com//best/detail.nhn?novelId=583617&volumeNo=58). parse it with BeautifulSoup
response is ok for novel_url(http://novel.naver.com//best/detail.nhn?novelId=583617&volumeNo=57). parse it with BeautifulSoup
response is ok for novel_url(http://novel.naver.com//best/detail.nhn?novelId=583617&volumeNo=56). parse it with BeautifulSoup
response is ok for novel_url(http://novel.naver.com//best/detail.nhn?novelId=583617&volumeNo=55). parse it with Beauti

### c. txt 파일로 저장

In [42]:
download_directory = './downloaded_txt/'
file_name = "total_novel.txt"

directory = os.path.dirname(download_directory)
if not os.path.exists(directory):  # downloaded 폴더 없으면 만들어준다.
    os.makedirs(directory)

with open(download_directory + file_name, "w") as f:
    f.write(total_text)