### 1. HTTP(HyperText Transport Protocol)
**1.1 프로토콜: 네트워크 통신 규약**
 - 인터넷 프로토콜: TCP 및 IP 프로토콜이 핵심, TCP/IP 프로토콜
 - 이더넷: 네트워크 모듈
 - IP 프로토콜: 컴퓨터 주소를 찾는 프로토콜
 - TCP 프로토콜: 컴퓨터간 신뢰성 있는 데이터 전송을 지원하는 프로토콜
 <img src="00_Images/protocol_stack.png" />


**- 웹 전체 시나리오 **
1. 사용자는 브라우저를 사용하여서 www.funcoding.xyz 같은 URL 입력을 통해서 웹페이지를 요청한다.
2. 사용자의 요청은 **TCP 패킷**으로 만들어지게 된다.
3. **TCP 패킷**은 **IP 패킷**으로 다시 만들어 지고
   **IP 패킷**에는 자신의 IP 주소와, 도착해야될 상대방의 IP 주소 정보가 넣어진다.
4. **IP 패킷**은 **이더넷 카드**로 보내어져서 Internet 으로 전송된다.
5. **이더넷 패킷**은 도착지의 컴퓨터 **이더넷 카드**로 전달된다.
<br><br>
6. **이더넷 카드**는 해당 데이터를 **IP 프로토콜 계층**에 보낸다.
7. **IP 프로토콜 계층**은 다시 **TCP 프로토콜 계층**으로 데이터를 보낸다.
8. **TCP 프로토콜 계층**은 누락된 데이터가 없는지 확인하고, 수신받은 데이터를 재조합핸 후 이 데이터를 **Application Layer**에 보낸다.
9. **Application Layer**에서 해당 데이터가 **HTTP 프로토콜**로 작성되어 있으면, **HTTP 프로토콜 규칙**에 준하여, 사용자가 요청한 웹페이지를 웹서버가 제공한다.
10. 웹서버가 제공한 웹페이지는 다시 **TCP 프로토콜 계층**으로 전송되어, **TCP 패킷**으로 바뀌고, 결국 **IP 패킷**으로 만들어지고, **이더넷 카드**에 보내진다.
<br><br>
11. 웹페이지는 요청된 컴퓨터에 수신되고, **이더넷 카드, IP 패킷, TCP 패킷, HTTP 패킷**으로 분석되어, 웹브라우저에 웹페이지가 전달된다.
12. 웹브라우저는 웹페이지 파일에 있는 HTML,CSS,javascript등을 **파싱(parsing)**하여, **렌더링** 작업을 거쳐 화면에 뿌려준다.

 <img src="00_Images/protocol_transferation.png" />

**참고1(TCP/IP 프로토콜): https://www.joinc.co.kr/w/Site/Network_Programing/Documents/IntroTCPIP**   
**참고2(렌더링이란): http://wit.nts-corp.com/2014/03/18/1116**


**- HTTP 프로토콜: WWW(웹)상에서 문서 전송을 위한 프로토콜 **
 - request(요청) / response(응답) 으로 구성
   - browser(클라이언트)가 요청하면 web server(서버)가 HTML 파일이나 다른 자원(이미지, 텍스트, 동영상 등)을 응답으로 전송
   - request의 형태에는 대표적으로 GET / POST 가 있음
   <br><br>
     - <font color="blue">GET 방식</font>  : 데이터 전달을 URL 내에서 함
       - https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=1&ie=utf8&query=%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0
       - 네이버 검색, 구글 검색 등
   <br><br>
     - <font color="blue">POST 방식</font> : 데이터 전송을 <form> 태그를 통해서 함(사용자에게 직접적으로 노출되지 않음)
       - 예) ID, 비밀번호 전달의 경우
       - [참고 - FORM을 통해 데이터를 전달하는 POST 방식 기본 설명](http://cloudstudying.kr/lectures/72)
   <br><br>
 - browser는 응답을 렌더링하여 인간이 보기 쉬운 형태로 출력
 - [참고: HTTP 프로토콜 위키 페이지](https://en.wikipedia.org/wiki/Hypertext_Transfer_Protocol)

### 2. Crawling 이란?
  - Web상에 존재하는 Contents를 수집하는 작업 (프로그래밍으로 자동화 가능)
      1. HTML 페이지를 **가져와서**, HTML/CSS등을 **파싱**하고, 필요한 데이터만 추출하는 기법
      2. **Open API(Rest API)**를 제공하는 서비스에 Open API를 호출해서, 받은 데이터 중 필요한 데이터만 추출하는 기법
      3. **Selenium**등 브라우저를 프로그래밍으로 조작해서, 필요한 데이터만 추출하는 기법

### 3. Crawling 예제

**3.1. BeautifulSoup 라이브러리를 활용한 초간단 예제**
  - HTML의 태그를 파싱해서 필요한 데이터만 추출하는 함수를 제공하는 라이브러리
  - [BeautifulSoup 라이브러리 페이지](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)
  - 설치 방법
    - pip install bs4
  - [참고: BeautifulSoup 4 API Guide](http://omz-software.com/pythonista/docs/ios/beautifulsoup_guide.html)

In [2]:
import requests
from bs4 import BeautifulSoup

# 1) reqeusts 라이브러리를 활용한 HTML 페이지 요청 
# 1-1) res 객체에 HTML 데이터가 저장되고, res.content로 데이터를 추출할 수 있음
res = requests.get('http://v.media.daum.net/v/20170615203441266')

# print(res.content)
# 2) HTML 페이지 파싱 BeautifulSoup(HTML데이터, 파싱방법)
# 2-1) BeautifulSoup 파싱방법
soup = BeautifulSoup(res.content, 'html.parser')

# 3) 필요한 데이터 검색
title = soup.find('title')

# 4) 필요한 데이터 추출
print(title.get_text())

잔금대출에도 DTI 규제 적용 검토 | Daum 뉴스


**3.2. BeautifulSoup 라이브러리 활용 주요 예제**
  - find() 와 find_all() 메서드 사용법 이해하기
  - find() : 가장 먼저 검색되는 태그 반환
  - find_all() : 전체 태그 반환

In [86]:
from bs4 import BeautifulSoup

html = "<html> \
            <body> \
                <h1 id='title'>[1]크롤링이란?</h1> \
                <p class='cssstyle'>웹페이지에서 필요한 데이터를 추출하는 것</p> \
                <p id='body' align='center'>파이썬을 중심으로 다양한 웹크롤링 기술 발달</p> \
            </body> \
        </html>"

soup = BeautifulSoup(html, "html.parser")

# 태그로 검색 방법
title_data = soup.find('h1')

print(title_data)
print(title_data.string)
print(title_data.get_text())

<h1 id="title">[1]크롤링이란?</h1>
[1]크롤링이란?
[1]크롤링이란?


In [87]:
# 가장 먼저 검색되는 태그를 반환
paragraph_data = soup.find('p')

print(paragraph_data)
print(paragraph_data.string)
print(paragraph_data.get_text())

<p class="cssstyle">웹페이지에서 필요한 데이터를 추출하는 것</p>
웹페이지에서 필요한 데이터를 추출하는 것
웹페이지에서 필요한 데이터를 추출하는 것


In [88]:
# 태그에 있는 id로 검색 (javascript 예를 상기!)
title_data = soup.find(id='title')

print(title_data)
print(title_data.string)
print(title_data.get_text())

<h1 id="title">[1]크롤링이란?</h1>
[1]크롤링이란?
[1]크롤링이란?


In [89]:
# HTML 태그와 CSS class를 활용해서 필요한 데이터를 추출하는 방법1
paragraph_data = soup.find('p', class_='cssstyle')

print(paragraph_data)
print(paragraph_data.string)
print(paragraph_data.get_text())

<p class="cssstyle">웹페이지에서 필요한 데이터를 추출하는 것</p>
웹페이지에서 필요한 데이터를 추출하는 것
웹페이지에서 필요한 데이터를 추출하는 것


In [90]:
# HTML 태그와 CSS class를 활용해서 필요한 데이터를 추출하는 방법2
paragraph_data = soup.find('p', 'cssstyle')

print(paragraph_data)
print(paragraph_data.string)
print(paragraph_data.get_text())

<p class="cssstyle">웹페이지에서 필요한 데이터를 추출하는 것</p>
웹페이지에서 필요한 데이터를 추출하는 것
웹페이지에서 필요한 데이터를 추출하는 것


In [95]:
# HTML 태그와 태그에 있는 속성:속성값을 활용해서 필요한 데이터를 추출하는 방법
paragraph_data = soup.find('p', attrs = {'align': 'center'})
print(paragraph_data)
print(paragraph_data.string)
print(paragraph_data.get_text())

<p align="center" id="body">파이썬을 중심으로 다양한 웹크롤링 기술 발달</p>
파이썬을 중심으로 다양한 웹크롤링 기술 발달
파이썬을 중심으로 다양한 웹크롤링 기술 발달


In [33]:
# find_all() 관련된 모든 데이터를 리스트 형태로 추출하는 함수
paragraph_data = soup.find_all('p')

print(paragraph_data)
print(paragraph_data[0].get_text())
print(paragraph_data[1].get_text())

[<p>웹페이지에서 필요한 데이터를 추출하는 것</p>, <p id="body">파이썬을 중심으로 다양한 웹크롤링 기술 발달</p>]
웹페이지에서 필요한 데이터를 추출하는 것
파이썬을 중심으로 다양한 웹크롤링 기술 발달


* **string 검색**
 - 태그가 아닌 문자열 자체로 검색
 - 문자열, 정규표현식 등등으로 검색 가능
   - 문자열 검색의 경우 한 태그내의 문자열과 exact matching인 것만 추출
   - 이것이 의도한 경우가 아니라면 정규표현식 사용

In [190]:
res = requests.get('http://v.media.daum.net/v/20170518153405933')
soup = BeautifulSoup(res.content, 'html5lib')

print (soup.find_all(string='오대석'))
print (soup.find_all(string=['[이주의해시태그-#네이버-클로바]쑥쑥 크는 네이버 AI', '오대석']))
print (soup.find_all(string='AI'))
print (soup.find_all(string=re.compile('AI'))[0])
# print (soup.find_all(string=re.compile('AI')))

['오대석']
['[이주의해시태그-#네이버-클로바]쑥쑥 크는 네이버 AI', '오대석']
[]
[이주의해시태그-#네이버-클로바]쑥쑥 크는 네이버 AI | Daum 뉴스


<div class="alert alert-block alert-warning">
**<font color="blue" size="4em">연습문제1</font>**
 1. 다음 사이트에서 링크가 되어 있는 모든 제목을 가져와서 출력합니다.
    http://media.daum.net/digital/
 
    X 참고코드: git 저장소에서 02_examples/crawling_seeko_title.py 를 참고 
    - 프로그래밍은 스스로 작성을 해야 합니다. 정 이해하기 어려울 때만 참고코드를 보시면 좋을 것 같습니다.
 

In [9]:
import requests
from bs4 import BeautifulSoup


res = requests.get('http://media.daum.net/digital/')
soup = BeautifulSoup(res.content, 'html.parser')

# find_all() 메서드를 사용해서 태그와 클래스이름으로 링크가 걸려있는 기사 타이틀을 가져오기
[------------------------------------------------------]

for num in range(len(link_title)):
    print(link_title[num].get_text().strip())

SyntaxError: invalid syntax (<ipython-input-9-d1735dd44598>, line 9)

**3.2. Open API(Rest API)를 활용한 초간단 크롤링 실습**
#### Open API(Rest API)란?
 - **API:** Application Programming Interface의 약자로, 특정 프로그램을 만들기 위해 제공되는 모듈(함수 등)을 의미
 - **Open API:** 공개 API라고도 불리우며, 누구나 사용할 수 있도록 공개된 API (주로 Rest API 기술을 많이 사용함)
 - **Rest API:** Representational State Transfer API의 약자로, HTTP프로토콜을 통해 서버 제공 기능을 사용할 수 있는 함수를 의미
   - 일반적으로 XML, JSON의 형태로 응답을 전달(원하는 데이터 추출이 수월)
   - [참고 - RestAPI란](http://hyunalee.tistory.com/1)

**JSON 이란?**
 - JavaScript Object Notation 줄임말
 - 웹환경에서 서버와 클라이언트 사이에 데이터를 주고 받을때 많이 사용
   - Rest API가 주요한 예제
 - JSON 포멧 예 <br>
 { "id":"01", "language": "Java", "edition": "third", "author": "Herbert Schildt" }
 <br>
 <br>
 
 - 참고 (https://books.google.co.kr/books?id=euSiAwAAQBAJ&pg=PT1755&lpg=PT1755&dq=json+%EC%9E%A5%EC%A0%90&source=bl&ots=VjTIoOjbTK&sig=3t7MXA7g2CvEi8SyD0-GQVywzw0&hl=ko&sa=X&ved=0ahUKEwiwo8OvxJfWAhXDsJQKHYaBDpI4ChDoAQhVMAg#v=onepage&q=json%20%EC%9E%A5%EC%A0%90&f=false)

 출처: http://dpug.tistory.com/67#.WbycWshJaUk [퍼그의 전초기지]

**3.2.1. 네이버 검색 Open API를 이용한 크롤링 초간단 실습**
 - https://developers.naver.com/main/
 - [블로그 검색 가이드 문서](https://developers.naver.com/docs/search/blog/)
   - 네이버 Open API 이용신청 [참고](http://hnark.tistory.com/135)


   - postman 설치 
     - (상세 가이드: http://www.a-mean-blog.com/ko/blog/Node-JS-API/_/API-%ED%85%8C%EC%8A%A4%ED%8A%B8-%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%A8-Postman-%EC%84%A4%EC%B9%98%EB%B0%8F-%EA%B0%84%EB%8B%A8-%EC%82%AC%EC%9A%A9%EB%B2%95)
   
   1. Chrome -> Postman 실행 (https://chrome.google.com/webstore/detail/postman/fhbjgbiflinjbdggehcddcbncdddomop/related)
   2. Sign Up in Postman
   3. Insert https://openapi.naver.com/v1/search/news.json?query=스마트 into GET
   4. Add X-Naver-Client-Id(key), <font color="blue">CsODwdUTyG9vOI1uIeIf</font>(value) into Headers
   5. Add X-Naver-Client-Secret(key), <font color="blue">YmIx0GW8JG</font>(value) into Headers
   6. Send
   ![postman.png](attachment:postman.png)

**3.2.1.1. urllib 라이브러리를 활용한 크롤링 코드**

- 인터넷에 다양한 예제들이 urllib 또는 urllib2를 사용한 예제들이 많으므로, 익혀둘 필요가 있음

In [79]:
import urllib.request
import json

client_key = 'CsODwdUTyG9vOI1uIeIf'
client_secret = 'YmIx0GW8JG'

# 한글등 non-ASCII text를 URL에 넣을 수 있도록 "%" followed by hexadecimal digits 로 변경
# URL은 ASCII 인코딩셋만 지원하기 때문임
encText = urllib.parse.quote_plus("스마트폰")
# print(encText)

naver_url = 'https://openapi.naver.com/v1/search/news.json?query=' + encText

# urllib.request.Request()는 HTTP Header 변경시에 사용함
# 네이버에서도 다음 HTTP Header 키를 변경해야하기 때문에 사용함
# HTTP Header 변경이 필요없다면, 바로 urllib.request.urlopen()함수만 사용해도 됩
request = urllib.request.Request(naver_url)
request.add_header("X-Naver-Client-Id",client_key)
request.add_header("X-Naver-Client-Secret",client_secret)

# urllib.request.urlopen 메세드로 크롤링할 웹페이지를 가져옴
response = urllib.request.urlopen(request)


# getcode() 메서드로 HTTP 응답 상태 코드를 가져올 수 있음
rescode = response.getcode()

# HTTP 요청 응답이 정상적일 경우, 해당 HTML 데이터를 수신되었기 때문에 필요한 데이터 추출이 가능함
# HTTP 요청에 대한 정상응답일 경우, HTTP 응답 상태 코드 값이 200이 됩니다.
if(rescode == 200):
    # response.read() 메서드로 수신된 HTML 데이터를 가져올 수 있음
    response_body = response.read()
    # 네이버 Open API를 통해서 수신된 데이터가 JSON 포멧이기 때문에, 
    # JSON 포멧 데이터를 파싱해서 사전데이터로 만들어주는 json 라이브러라를 사용
    data = json.loads(response_body)
    # json.loads() 메서드를 사용해서 data 에 수신된 데이터를 사전 데이터로 분석해서 자동으로 만들어줌
    print (data['items'][0]['title'])
    print (data['items'][0]['description'])
else:
    print("Error Code:" + rescode)

갤럭시노트8을 사고나서 제일 먼저 할일은?
지문인식센서 제스쳐 기능이란 <b>스마트폰</b> 화면이 켜진 상태에서 지문인식센서에 손가락을 갖다대면 화면을 끈다거나 상단의 알림트레이를 손가락으로 스와이프 하는 동작을 대신할 수 있다. 특히 갤럭시노트8은 화면이... 


- [참고: 네이버 Open API HTTP 응답 상태 에러 코드 목록1](https://developers.naver.com/docs/common/openapiguide/#/errorcode.md)
- [참고: 일반적인 HTTP 응답 상태 코드](http://ooz.co.kr/260) 

**3.2.1.2. requests 라이브러리를 활용한 크롤링 코드 (간결함, 권장)**
  - [참고: 기본적인 requests 라이브러리 활용 방법](http://dgkim5360.tistory.com/entry/python-requests)
  
  - reqeusts 라이브러리 개발자 Keneeth Reitz 의 커멘트
  > 파이썬 표준 urllib2 모듈은 필요한 HTTP 기능을 거의 제공하지만, 이제 너무 뒤떨어져 있습니다. 이 API는 과거에, 과거의 웹을 위해 만들어졌습니다. urllib2를 사용하려면 정말 단순한 일 하나만 하려 해도 할 일이 너무 많고, 심지어 메서드 오버라이드까지 필요할 때도 있습니다.

In [78]:
import requests

client_key = 'CsODwdUTyG9vOI1uIeIf'
client_secret = 'YmIx0GW8JG'
# 별도 quote_plus() 메서드등 처리할 필요 없음. requests 객체가 알아서 해줌
naver_url = 'https://openapi.naver.com/v1/search/news.json?query=스마트폰'

header_params = {"X-Naver-Client-Id":client_key, "X-Naver-Client-Secret":client_secret}
# headers= header_params 는 header 변경시에만 필요하고, 그렇지 않으면, requests.get(원하는 URL) 만 해도 됨
response = requests.get(naver_url, headers = header_params)
# 별도 json.loads() 라이브러리 메서드 사용하지 않아도, reqeusts 라이브러리에 있는 json() 메서드로 간단히 처리 가능함
# print(response.json())
# print(response.text)

# HTTP 응답 코드는 status_code 에 저장됨
if(response.status_code == 200):
    data = response.json()
    print(data['items'][0]['title'])
    print(data['items'][0]['description'])
else:
    print("Error Code:" + response.status_code)

아이폰X는 전세계에 얼마나 팔릴까?
출처=애플 애플이 하반기 프리미엄 <b>스마트폰</b> 아이폰X를 공개한 가운데, 판매 성적에도 비상한 관심이 쏠리고 있다. 일각에서는 연내 최대 5000만대가 팔려 4분기 기준으로 세계 <b>스마트폰</b> 판매량 1위에 오를 것이라는... 


<div class="alert alert-block alert-warning">
**<font color="blue" size="4em">연습문제2</font>**
 1. 네이버 개발자 사이트 가입하고, X-Naver-Client-Id, X-Naver-Client-Secret 키 값을 할당받습니다.
 2. 위 두 가지 키로 네이버 검색 Open API를 사용해서 부동산 키워드로 검색 결과 중 상위 10개의 타이틀을 출력합니다.
    (참고코드는 3.2.1.1 절, 3.2.1.2 절을 보시면 되고, 해당 코드에서 일부만 수정하시면 됩니다.)
    
     - [네이버 개발자 사이트](https://developers.naver.com/main/)
     - [블로그 검색 가이드 문서](https://developers.naver.com/docs/search/blog/)
     - 네이버 Open API 이용신청 [참고](http://hnark.tistory.com/135)

* **css select**
 - CSS 선택 문법을 이용하여 태그 검색
 - select 함수 사용
 - [CSS 선택 문법 참고](https://saucelabs.com/resources/articles/selenium-tips-css-selectors)

In [96]:
import requests
from bs4 import BeautifulSoup

res = requests.get('http://v.media.daum.net/v/20170615203441266')
soup = BeautifulSoup(res.content, 'html.parser')

In [102]:
# 태그 검색
soup.find('title')

# select 함수는 리스트 형태로 전체 반환
title = soup.select('title')[0]
print (title)
print (title.get_text())

<title>잔금대출에도 DTI 규제 적용 검토 | Daum 뉴스</title>
잔금대출에도 DTI 규제 적용 검토 | Daum 뉴스


In [103]:
# 띄어쓰기가 있다면 하위 태그를 검색
title = soup.select('html head title')[0]
print (title.get_text())

잔금대출에도 DTI 규제 적용 검토 | Daum 뉴스


In [104]:
# 띄어쓰기가 있다면 하위 태그를 검색
# 이때 바로 직계의 자식이 아니여도 관계없음
title = soup.select('html title')[0]
print (title.get_text())

잔금대출에도 DTI 규제 적용 검토 | Daum 뉴스


In [105]:
# > 를 사용하는 경우 바로 아래의 자식만 검색
# 바로 아래 자식이 아니기 때문에 에러 발생
title = soup.select('html > title')[0]
print (title.get_text())

IndexError: list index out of range

In [106]:
# 바로 아래 자식을 검색
title = soup.select('head > title')[0]
print (title.get_text())

잔금대출에도 DTI 규제 적용 검토 | Daum 뉴스


In [107]:
# .은 태그의 클래스를 검색
# class가 article_view인 태그 탐색
body = soup.select('.article_view')[0]
print (type(body), len(body))
for p in body.find_all('p'):
    print (p.get_text())

<class 'bs4.element.Tag'> 3
내주 부동산 종합대책 발표
집값 상승 노린 투기 분양 차단
LTVㆍDTI 규제 다시 강화할 듯
저소득 실수요자 피해 우려도

금융당국이 급증하는 가계부채 증가세를 막기 위해 아파트 잔금대출에도 소득을 따져 대출한도를 정하는 총부채상환비율(DTI)을 적용하는 방안을 유력하게 검토하고 있다. 지금은 집값을 기준으로 대출한도를 매기는 주택담보인정비율(LTV) 규제만 적용돼 소득이 없어도 집값의 70%를 빌려 잔금을 치르는 게 가능하다. 앞으로 잔금대출에 DTI가 적용되면 소득 없는 사람이 입주 뒤 집값 상승을 노리고 분양시장에 뛰어드는 게 사실상 불가능해진다. 
금융당국 고위관계자는 15일 “잔금대출에도 DTI를 적용하는 방안을 검토 중”이라며 “다만 아직 최종 결론이 난 건 아니다”고 말했다. 정부는 내주 이 같은 내용을 포함한 부동산 종합 대책을 발표할 예정이다. 
정부가 잔금대출 DTI 적용 카드를 꺼내는 건, 집단대출을 잡지 않고선 과열된 주택시장을 진정시키기 어렵다는 판단에서다. 실제 정부는 지난해 잔금대출도 대출 초기부터 원리금을 함께 갚도록 하는 여신심사 가이드라인을 도입했지만 이렇다 할 효과를 거두지 못했다. 오히려 정부 대책에도 불구, 집단대출 증가액은 매달 늘어나는 추세인데 지난달엔 2조원으로 올 들어 최고치를 기록했다. 
아파트 분양 집단대출은 중도금과 잔금대출로 구분된다. 계약금 10%를 내면 입주 전까지 집값의 60%를 중도금 대출로 받을 수 있다. 중도금 대출은 건설사 보증으로 이뤄져 소득심사를 안 거친다. 잔금대출은 건설사가 아닌 집을 담보로 이뤄지는 대출이다. LTV 규제만 적용돼 소득이 없어도 집값의 70%까지 대출이 가능하다. 때문에 지금은 잔금대출로 집값의 70%를 대출받아 기존 중도금 대출을 갚고 나머지 20%만 본인 돈으로 충당하면 집을 살 수 있다.
앞으로 잔금대출에 DTI가 적용되면 소득이 없는 사람은 집값의 70% 대출 받는 게 어려워진다. 입주 뒤 집값 상승을 노리는 투기

In [108]:
# div태그 중 class가 article_view인 태그 탐색
body = soup.select('div.article_view')[0]
print (type(body), len(body))
for p in body.find_all('p'):
    print (p.get_text())

<class 'bs4.element.Tag'> 3
내주 부동산 종합대책 발표
집값 상승 노린 투기 분양 차단
LTVㆍDTI 규제 다시 강화할 듯
저소득 실수요자 피해 우려도

금융당국이 급증하는 가계부채 증가세를 막기 위해 아파트 잔금대출에도 소득을 따져 대출한도를 정하는 총부채상환비율(DTI)을 적용하는 방안을 유력하게 검토하고 있다. 지금은 집값을 기준으로 대출한도를 매기는 주택담보인정비율(LTV) 규제만 적용돼 소득이 없어도 집값의 70%를 빌려 잔금을 치르는 게 가능하다. 앞으로 잔금대출에 DTI가 적용되면 소득 없는 사람이 입주 뒤 집값 상승을 노리고 분양시장에 뛰어드는 게 사실상 불가능해진다. 
금융당국 고위관계자는 15일 “잔금대출에도 DTI를 적용하는 방안을 검토 중”이라며 “다만 아직 최종 결론이 난 건 아니다”고 말했다. 정부는 내주 이 같은 내용을 포함한 부동산 종합 대책을 발표할 예정이다. 
정부가 잔금대출 DTI 적용 카드를 꺼내는 건, 집단대출을 잡지 않고선 과열된 주택시장을 진정시키기 어렵다는 판단에서다. 실제 정부는 지난해 잔금대출도 대출 초기부터 원리금을 함께 갚도록 하는 여신심사 가이드라인을 도입했지만 이렇다 할 효과를 거두지 못했다. 오히려 정부 대책에도 불구, 집단대출 증가액은 매달 늘어나는 추세인데 지난달엔 2조원으로 올 들어 최고치를 기록했다. 
아파트 분양 집단대출은 중도금과 잔금대출로 구분된다. 계약금 10%를 내면 입주 전까지 집값의 60%를 중도금 대출로 받을 수 있다. 중도금 대출은 건설사 보증으로 이뤄져 소득심사를 안 거친다. 잔금대출은 건설사가 아닌 집을 담보로 이뤄지는 대출이다. LTV 규제만 적용돼 소득이 없어도 집값의 70%까지 대출이 가능하다. 때문에 지금은 잔금대출로 집값의 70%를 대출받아 기존 중도금 대출을 갚고 나머지 20%만 본인 돈으로 충당하면 집을 살 수 있다.
앞으로 잔금대출에 DTI가 적용되면 소득이 없는 사람은 집값의 70% 대출 받는 게 어려워진다. 입주 뒤 집값 상승을 노리는 투기

In [131]:
# div 태그 중 id가 harmonyContainer인 태그 탐색
container = soup.select('#harmonyContainer')
print (container)

[<div class="article_view" id="harmonyContainer">
<section dmcf-sid="LkDx6tL1qA">
<p dmcf-pid="L87lbwLTl1" dmcf-ptype="general">"대화하겠지만 정부 지켜야 할 선 있어"</p>
<figure class="figure_frm origin_fig" dmcf-pid="LebrjM7CEC" dmcf-ptype="figure">
<p class="link_figure"><img alt="【서울=뉴시스】고범준 기자 = 박춘란 교육부 차관이 16일 오후 서울 종로구 정부서울청사에서 한국유치원총연합회(한유총)의 불법 집단휴원과 관련해 브리핑을 하고 있다.한편 한국유치원총연합회(한유총)는 오는 18일 전국 사립유치원의 집단 휴업을 강행한다고 발표했다. 2017.09.16. bjko@newsis.com" class="thumb_g" dmcf-mid="L1aKI2hH9D" dmcf-mtype="image" height="254" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/201709/16/newsis/20170916154441854drre.jpg" width="499"/></p>
<figcaption class="txt_caption default_figure">
           【서울=뉴시스】고범준 기자 = 박춘란 교육부 차관이 16일 오후 서울 종로구 정부서울청사에서 한국유치원총연합회(한유총)의 불법 집단휴원과 관련해 브리핑을 하고 있다.한편 한국유치원총연합회(한유총)는 오는 18일 전국 사립유치원의 집단 휴업을 강행한다고 발표했다. 2017.09.16. bjko@newsis.com
          </figcaption>
</figure>
<p dmcf-pid="LYsxfJn62U" dmcf-ptype="general">【서울=뉴시스】임재희 기자 = 정부가 집단 휴업 

In [110]:
# div태그 중 id가 mArticle 인 태그의 하위 태그 중 아이디가 article_title인 태그
title = soup.select('div#mArticle  div#harmonyContainer')[0]
print (title.get_text())



내주 부동산 종합대책 발표
집값 상승 노린 투기 분양 차단
LTVㆍDTI 규제 다시 강화할 듯
저소득 실수요자 피해 우려도



금융당국이 급증하는 가계부채 증가세를 막기 위해 아파트 잔금대출에도 소득을 따져 대출한도를 정하는 총부채상환비율(DTI)을 적용하는 방안을 유력하게 검토하고 있다. 지금은 집값을 기준으로 대출한도를 매기는 주택담보인정비율(LTV) 규제만 적용돼 소득이 없어도 집값의 70%를 빌려 잔금을 치르는 게 가능하다. 앞으로 잔금대출에 DTI가 적용되면 소득 없는 사람이 입주 뒤 집값 상승을 노리고 분양시장에 뛰어드는 게 사실상 불가능해진다. 
금융당국 고위관계자는 15일 “잔금대출에도 DTI를 적용하는 방안을 검토 중”이라며 “다만 아직 최종 결론이 난 건 아니다”고 말했다. 정부는 내주 이 같은 내용을 포함한 부동산 종합 대책을 발표할 예정이다. 
정부가 잔금대출 DTI 적용 카드를 꺼내는 건, 집단대출을 잡지 않고선 과열된 주택시장을 진정시키기 어렵다는 판단에서다. 실제 정부는 지난해 잔금대출도 대출 초기부터 원리금을 함께 갚도록 하는 여신심사 가이드라인을 도입했지만 이렇다 할 효과를 거두지 못했다. 오히려 정부 대책에도 불구, 집단대출 증가액은 매달 늘어나는 추세인데 지난달엔 2조원으로 올 들어 최고치를 기록했다. 
아파트 분양 집단대출은 중도금과 잔금대출로 구분된다. 계약금 10%를 내면 입주 전까지 집값의 60%를 중도금 대출로 받을 수 있다. 중도금 대출은 건설사 보증으로 이뤄져 소득심사를 안 거친다. 잔금대출은 건설사가 아닌 집을 담보로 이뤄지는 대출이다. LTV 규제만 적용돼 소득이 없어도 집값의 70%까지 대출이 가능하다. 때문에 지금은 잔금대출로 집값의 70%를 대출받아 기존 중도금 대출을 갚고 나머지 20%만 본인 돈으로 충당하면 집을 살 수 있다.
앞으로 잔금대출에 DTI가 적용되면 소득이 없는 사람은 집값의 70% 대출 받는 게 어려워진다. 입주 뒤 집값 상승을 노리는 투기수요를 확실히 걸러낼 초강력 대책이 될 수 

In [118]:
import re

res = requests.get('http://media.daum.net/economic/')

soup = BeautifulSoup(res.content, 'html.parser')

# a태그이면서 href 속성을 갖는 경우 탐색, 리스트 타입으로 links 변수에 저장됨
links = soup.select('a[href]')
   
for link in links:
    # print (link) # <a class="link_services link_services2" href="http://sports.media.daum.net/sports">스포츠</a>
    # print (link['href']) # http://sports.media.daum.net/sports
    if re.search('http://\w+', link['href']):  # http:// 문자열 이후에 숫자 또는 문자[a-zA-Z0-9_]가 한 개 이상 있는 데이터와 매치됨 
        print (link['href'])

http://sports.media.daum.net/sports
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=서울특별시날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=수원시 권선구날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=인천광역시날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=대구광역시날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=대전광역시날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=광주광역시날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=부산광역시날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=울산광역시날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=울릉군날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=춘천시날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=강릉시날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=백령면날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=청주시 상당구날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=전주시 완산구날씨
http://search.daum.net/searc

 - [참고: 정규표현식 재확인](http://devanix.tistory.com/296)

<div class="alert alert-block alert-warning">
**<font color="blue" size="4em">연습문제3</font>**
 1. 다음 뉴스 경제란 뉴스 타이틀 추출하기
    - http://media.daum.net/economic/ 로 크롤링된 데이터 중 http:// 로 시작하는 링크를 다시 들어가서, title 태그 정보만 출력해보기
    
    X 참고코드: git 저장소에서 02_examples/crawling_daum_news_title.py 를 참고 
    - 프로그래밍은 스스로 작성을 해야 합니다. 정 이해하기 어려울 때만 참고코드를 보시면 좋을 것 같습니다.
 

In [155]:
import re
import requests
from bs4 import BeautifulSoup

res = requests.get('http://media.daum.net/economic/')
[-------------------------------------------------]

# a태그이면서 href 속성을 갖는 경우 탐색, 리스트 타입으로 links 변수에 저장됨
links = soup.select('a[href]')
for link in links:
    if re.search('http://\w+', link['href']):  # 이 부분도 개선의 여지가 있어보입니다만...(고급)
    [-------------------------------------------------]
    [-------------------------------------------------]
    [-------------------------------------------------]    

http://v.media.daum.net/v/20170916130602430 北 축전에 조롱거리 된 싱가포르 첫 여성대통령 | Daum 뉴스
http://v.media.daum.net/v/20170916143016107 교육부 "집단 휴업 사립유치원, 감사 등 책임 묻겠다" | Daum 뉴스
http://v.media.daum.net/v/20170916011416365 G70 고급 세단 시장 도전장 .. 벤츠·BMW와 럭셔리 대결 | Daum 뉴스
http://v.media.daum.net/v/20170916080026736 [WEEKLY BIZ] 파산 직전의 철강회사는 어떻게 1년 만에 2조 흑자를 냈나 | Daum 뉴스
http://v.media.daum.net/v/20170916143005105 "일본 공짜 커피를 보고 발상을 전환하라" | Daum 뉴스
http://v.media.daum.net/v/20170916063044959 [토요정담]6년째 '으르렁' 대는 文·安의 악연..'되게 하는 힘'과 '안 되게 하는 힘' | Daum 뉴스
http://v.media.daum.net/v/20170909140103098 [장은석 기자의 호갱 탈출] 물 차고 시간 안 맞는 고급 손목시계, 환불·보상받을 수 있는 방법 있나요 | Daum 뉴스
http://v.media.daum.net/v/20170916140103841 [장은석 기자의 호갱 탈출] 게임 아이템 날아갔는데 환불되나요 | Daum 뉴스
http://v.media.daum.net/v/20170916134540719 [사진현장] 초조함, 기다림, 부르튼 발. 취업문 앞 청년들 | Daum 뉴스
http://v.media.daum.net/v/20170916033622124 사라지는 '뉴스테이'.. 힘 받는 '행복주택' | Daum 뉴스
http://v.media.daum.net/v/20170915185902464 연임 앞둔 윤종규 KB금융 회장 "행장 분리, 이사회와 논의" | Daum 뉴스
http:

* **CSS Selector 를 활용하는 팁**
 2. 네이버 부동산 매매 아파트 이름과 가격만 찾아보기
    - CSS Selector 를 활용하는 팁: Chrome F12(WINDOW) or Alt + Command + i(MAC) --> Copy Selector 참고
    - Copy Selector 시 일부 태그에 붙는 :nth-child(#) 은 동일한 태그로 리스트가 있을 경우, 리스트 중 특정한 값만 가리킴
      . 전체 리스트를 가져오는 경우에는 :nth-child(#) 은 삭제할 필요가 있음

In [28]:
import re
import requests
from bs4 import BeautifulSoup

res = requests.get('http://land.naver.com/article/divisionInfo.nhn?rletTypeCd=A01&tradeTypeCd=A1&hscpTypeCd=A01%3AA03%3AA04&cortarNo=1168000000&articleOrderCode=&cpId=&minPrc=&maxPrc=&minWrrnt=&maxWrrnt=&minLease=&maxLease=&minSpc=&maxSpc=&subDist=&mviDate=&hsehCnt=&rltrId=&mnex=&siteOrderCode=&cmplYn=')

soup = BeautifulSoup(res.content, 'html.parser')

# a 태그이면서 href 속성 값이 특정한 값을 갖는 경우 탐색
link_title = soup.select("#depth4Tab0Content > div > table > tbody > tr > td.align_l.name > div > a.sale_title")
link_price = soup.select("#depth4Tab0Content > div > table > tbody > tr > td.num.align_r > div > strong")

for num in range(len(link_price)):
    print(link_title[num].get_text(), link_price[num].get_text())

청담자이 190,000
청담린든그로브 176,000
청담자이 190,000
청담자이 190,000
개포우성2차 180,000
청담자이 240,000
청담자이 188,000
청담자이 190,000
선경1,2차 225,000
삼성힐스테이트1단지 80,000
청담자이 170,000
대치SK뷰 183,000
아이파크삼성 340,000
대치SK뷰 183,000
논현동양파라곤 250,000
청담자이 121,000
대치SK뷰 165,000
청담자이 120,000
역삼자이(개나리6차재건축) 170,000
개포주공7단지 130,000
역삼래미안 130,000
청담래미안로이뷰 175,000
래미안대치팰리스1단지 180,000
청담자이 170,000
논현동양파라곤 250,000
은마 120,000
청담자이 239,000
청담자이 190,000
청담자이 163,000
삼성힐스테이트2단지 128,000
은마 125,000
래미안강남힐즈 115,000
래미안그레이튼(진달래3차) 175,000
도곡렉슬 190,000
청담자이 125,000
은마 190,000
청담자이 127,000
청담자이 120,000
청담자이 120,000
청담자이 125,000
아카데미스위트 195,000
신현대(현대9,11,12차) 127,000
청담자이 127,000
청담자이 190,000
청담자이 51,000
청담휴먼스타빌 110,000
역삼래미안 108,000
래미안강남힐즈 128,000


<div class="alert alert-block alert-warning">
**<font color="blue" size="4em">연습문제4</font>**
 1. 네이버 실시간검색어 20개 추출하기
    - Chrome 의 Copy Selector를 활용
    
    X 참고코드: git 저장소에서 02_examples/crawling_naver_realtime_keyword.py 를 참고 
    - 프로그래밍은 스스로 작성을 해야 합니다. 정 이해하기 어려울 때만 참고코드를 보시면 좋을 것 같습니다.

In [188]:
import requests
from bs4 import BeautifulSoup

res = requests.get('https://www.naver.com/')
soup = BeautifulSoup(res.content, 'html.parser')

# a 태그이면서 href 속성 값이 특정한 값을 갖는 경우 탐색
link_title = soup.select([------------------------------------------])
for num in range(len(link_title)):
    [------------------------------------------]
    [------------------------------------------]


1 서현진
2 이건희
3 무한도전
4 태풍 독수리
5 황금빛내인생
6 청년경찰
7 보그맘
8 그것이 알고싶다
9 아는형님
10 소사이어티 게임 2
11 롤챔스 승강전
12 롯데시네마
13 메가박스
14 편성표
15 프로야구중계
16 태풍경로
17 스팀
18 테일즈런너
19 cj채용
20 아프리카티비


<div class="alert alert-block alert-success">
**<font color="blue" size="4em">흥미로운 예제</font>**
 1. slack 메세지로 만들어보는 부동산 뉴스 (과제로 해당 코드를 설명해서 공유드리겠습니다.)

In [46]:
from bs4 import BeautifulSoup
import datetime
import json

random_url = 'https://hooks.slack.com/services/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'
res = requests.get('http://www.drapt.com/e_sale/index.htm?page_name=esale_news&menu_key=34')
soup = BeautifulSoup(res.content, 'html.parser')

link_titles = soup.find_all('a', class_='c0000000')
link_dates = soup.find_all('span', class_='ffth fs11 c807f7f')
today_date = datetime.date.today()
today_message = '오늘의 부동산 뉴스 [%s]' % str(today_date)
payload = {'text': today_message}
estate_info_message = json.dumps(payload)
requests.post(random_url, data=estate_info_message)

for num, link_title in enumerate(link_titles):
    if str(today_date) == link_dates[num].get_text():
        # estate_info = '<a herf=\"http://www.drapt.com/e_sale/%s\">%s</a>' % (link_title['href'], link_title.get_text())
        # Reference for creating a link: https://api.slack.com/incoming-webhooks
        estate_info = '%d] <http://www.drapt.com/e_sale/%s|%s>' % (num + 1, link_title['href'], link_title.get_text())
        payload = {'text': estate_info}
        estate_info_message = json.dumps(payload)
        requests.post(random_url, data=estate_info_message)

# Crawling

## 학습목표
 1. 쿠키(Cookie)와 세션(Session) 이해
 2. 로그인이 필요한 웹페이지 크롤링 이해 및 실습
 3. Selenium 과 PhantomJS를 활용한 크롤링 이해 및 실습

### 1. 쿠키(Cookie)와 세션(Session)
 - HTTP Request 를 전송하면, 서버는 HTML 파일을 전달하고, 해당 요청은 완료된다.
 - HTTP 프로토콜은 연결을 유지하기 어려운 구조로 되어 있음<br>
   . 요청-응답 후 연결이 끊기는 구조(사용자 입력 정보등 상태 정보 활용이 어려운 구조임)
 - 상태 관리 정보를 저장하는 방식으로 쿠키(cookie)와 세션(session) 기법이 나옴
 
#### 1.1 쿠키(cookie): 상태 정보를 클라이언트에 저장하는 방식
 1. HTML 페이지를 웹 서버에 요청
 2. 웹 서버에서 쿠키(cookie) 생성
 3. 웹 서버 응답(HTML 페이지를 돌려줄 때) HTTP 헤더에 쿠키를 포함해서 전송 
``` 
Set−Cookie: id=korea123
``` 
 4. 전달받은 쿠키는 웹브라우저에서 관리하고 있다가, 다음 요청 때 쿠키를 함께 전송
```
Cookie: id=korea123
```
 5. 서버에서는 쿠키 정보를 읽어 이전 상태 정보를 확인
 6. 필요시 서버가 쿠키 정보를 변경해서 응답시 변경된 쿠키와 함께 응답

 <img src="00_Images/cookie.png" />


#### 1.2 세션(session): 상태 정보를 웹 서버에 저장하는 방식
1. 웹브라우저가 웹 서버에 요청하게 되면, 웹 서버가 해당 웹브라우저(클라이언트)에 유일한 ID(세션 ID)를 부여함
2. 해당 세션 ID는 응답(HTML 페이지를 돌려줄 때) HTTP 헤더에 넣어져 전달된다.
``` 
Set−Cookie: PHPSESSID=pi0fo9v2kdi5nuha3bcgiu8fq2
``` 
3. 웹브라우저는 이후 웹브라우저를 닫기 까지 해당 웹 서버 요청할 때 부여된 세션 ID를 HTTP 헤더에 넣어서 전달한다.
``` 
Cookie: PHPSESSID=pi0fo9v2kdi5nuha3bcgiu8fq2
``` 
4. 웹 서버는 세션 ID를 확인하고, 해당 세션에 관련된 정보를 확인한 후, HTML 페이지를 돌려준다.

 <img src="00_Images/session.png" />


<div class="alert alert-block alert-success">
**<font color="blue" size="4em">실습 (세션에 대한 기본 이해)</font>**
 1. [한빛미디어 회원가입](http://www.hanbit.co.kr/member/member_agree.html)
 2. 크롬(Chrome) 브라우저로 www.hanbit.co.kr 페이지 오픈 후
    - alt + command + i (맥북), F12 (윈도우) 누르고 Application -> Cookies -> http://www.hanbit.co.kr 이동
    - PHPSESSID 확인
 3. 한빛미디어 로그인 후
    - PHPSESSID 값을 임의 값으로 수정
 4. 마이한빛 메뉴 클릭 
 
 X PHPSESSID 값을 임의 값으로 수정했기 때문에, 로그인 정보가 필요한 마이한빛 페이지 오픈시, 서버측에서 해당 로그인 정보가 없으므로
 로그인을 하라는 페이지로 이동함
 

### 2. 로그인이 필요한 웹페이지 크롤링 이해 및 실습
 - 로그인이 필요한 웹페이지는 쿠키 또는 세션을 사용하는 경우가 일반적입니다.

#### 2.1 한빛미디어 홈페이지(http://www.hanbit.co.kr) 마일리지 크롤링 
   - 마일리지를 확인하기 위해 로그인 정보가 필요함
   - 세션으로 관리되고 있음을 코드를 통해 확인
   - 세션 정보를 획득하고, 이를 사용해서 마일리지 페이지에 접근하여 마일리지 점수 확인

#### 2.1.1 로그인 페이지 분석
 - http://www.hanbit.co.kr/member/login.html
 - form 태그를 이해할 필요가 있음 (http://pythonscraping.com/pages/files/form.html)
 - form 태그를 통해 ID/PW가 전달되는 것이 일반적이므로 해당 코드 확인 (웹브라우저에서 해당 웹페이지 소스보기로 확인)
 - 다음 두 태그가 코드를 이해하는데 핵심
``` 
<form name="frm"  id="frm"  action="#" method="post">
<input  type="button" name="login_btn"  id="login_btn" value="로그인" class="btn_login" >					
``` 

 - javascript를 간결하게 만들기 위한 라이브러리인 jQuery 코드를 확인할 필요가 있음

 - id가 login_btn 인 태그(input type="button")가 click 되었을 때 login_proc() 함수를 호출하게 되어 있음

 - id가 frm 인 태그(form 태그)에 action 속성을 login_proc.php 로 바꿔주고, 전송하게 되어 있음

 - 즉, 버튼을 누르면 login_proc.php 웹페이지에 m_id 값과 m_passwd 값을 넣어 전송해줌
 - 마일리지는 http://www.hanbit.co.kr/myhanbit/myhanbit.html 페이지에서 CSS Selector로 확인

- 유추하는데 도움이 되는 툴 
  - Chrome 개발자 도구 -> Network -> Check 'Preserver log' and Select 'Doc'
    1. Go www.hanbit.co.kr/index.html
    2. Add ID/PW and click 로그인
  - login.html -> login_proc.php -> index.html 로 호출됨을 확인할 수 있음
  - login_proc.php Request Method가 POST 이고, FORM 데이터에서 m_id, m_passwd 를 확인할 수 있음

In [4]:
import requests
from bs4 import BeautifulSoup

login_url = 'http://www.hanbit.co.kr/member/login_proc.php'

user = 'tenial'
password = ''

# requests.session 메서드는 해당 reqeusts를 사용하는 동안 cookie를 header에 유지하도록 하여
# 세션이 필요한 HTTP 요청에 사용됩니다.
session = requests.session()

params = dict()
params['m_id'] = user
params['m_passwd'] = password

# javascrit(jQuery) 코드를 분석해보니, 결국 login_proc.php 를 m_id 와 m_passwd 값과 함께
# POST로 호출하기 때문에 다음과 같이 requests.session.post() 메서드를 활용하였습니다.
# 실제코드: <form name="frm"  id="frm"  action="#" method="post">
res = session.post(login_url, data = params) 

# 응답코드가 200 즉, OK가 아닌 경우 에러를 발생시키는 메서드입니다.
res.raise_for_status() 

# 'Set-Cookie'로 PHPSESSID 라는 세션 ID 값이 넘어옴을 알 수 있다.
# print(res.headers)

# cookie로 세션을 로그인 상태를 관리하는 상태를 확인해보기 위한 코드입니다.
# print(session.cookies.get_dict()) 

# 여기서부터는 로그인이 된 세션이 유지됩니다. session 에 header에는 Cookie에 PHPSESSID가 들어갑니다.
mypage_url = 'http://www.hanbit.co.kr/myhanbit/myhanbit.html'
res = session.get(mypage_url)

# 응답코드가 200 즉, OK가 아닌 경우 에러를 발생시키는 메서드입니다.
res.raise_for_status() 

soup = BeautifulSoup(res.text, 'html.parser')

# Chrome 개발자 도구에서 CSS SELECTOR를 통해 간단히 가져온 CSS SELECTOR 표현식을 사용
he_coin = soup.select_one('#container > div > div.sm_mymileage > dl.mileage_section2 > dd > span')

# 다음과 같이 class를 .mileage_section2 로 그리고 그 하부 태그중에 span이 있다는 식으로 표현도 가능함
# he_coin = soup.select_one('.mileage_section2 span')

print ('mileage is', he_coin.get_text())

mileage is 5,650


<div class="alert alert-block alert-warning">
**<font color="blue" size="4em">연습문제1</font>**
 1. 한빛미디어 마이한빛에서 회원등급 가져와서 출력하기 (기본)
 2. 한빛미디어 이름, 회원등급, 마일리지 가져와서 출력하기 (중급)

### 3. Selenium 과 PhantomJS를 활용한 크롤링 이해 및 실습
 - 브라우저를 제어해서 크롤링을 하는 방법

#### 2.1 Selenium & PhantomJS

##### 2.1.1 Selenium 
   - Selenium: 웹을 테스트하기 위한 프레임워크
   - 공식 홈페이지(http://www.seleniumhq.org/)
   - Selenium with Python : http://selenium-python.readthedocs.io/index.html
   

<div class="alert alert-block alert-success">
**<font color="blue" size="4em">사전준비 (Selenium 설치)</font>**
 1. Selenium 인스톨: pip install selenium
 2. 웹드라이버 인스톨: 웹 테스트 자동화를 위해 제공되는 툴(각 browser및 os 별로 존재)
 - selenium - 테스트 코드를 사용하여 브라우져에서의 액션을 테스트할 수 있게 해주는 툴
 - Firefox, chromedriver 등 각 브라우져마다 웹드라이버 다운로드 가능
     + https://sites.google.com/a/chromium.org/chromedriver/  (Chrome 브라우저용)
     + https://github.com/mozilla/geckodriver/releases  (Firefox 브라우저용)
     
 X 설치 디렉토리를 알아두어야 함

In [1]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

# 드라이버 생성
# chromedriver 설치된 경로를 정확히 기재해야 함
# chromedriver = 'C:/dev_python/Webdriver/chromedriver.exe' # 윈도우 
chromedriver = '/usr/local/Cellar/chromedriver/chromedriver' # 맥
driver = webdriver.Chrome(chromedriver)

# 크롤링할 사이트 호출
driver.get("http://www.python.org")

# Selenium은 웹테스트를 위한 프레임워크로 다음과 같은 방식으로 웹테스트를 자동으로 진행함 (참고)
assert "Python" in driver.title

# <input id="id-search-field" name="q" 검색창 name으로 검색하기
# 태그 name으로 특정한 태그를 찾을 수 있음
elem = driver.find_element_by_name("q")

# input 텍스트 초기화 
# elem.clear()

# 키 이벤트 전송가능함
# 태그가 input 태그이므로 입력창에 키이벤트가 전달되면, 입력값이 자동으로 작성됨
elem.send_keys("pycon")

# 태그가 input 태그이므로 엔터 입력시 form action이 진행됨
elem.send_keys(Keys.RETURN)

# Selenium은 웹테스트를 위한 프레임워크로 다음과 같은 방식으로 웹테스트를 자동으로 진행함 (참고)
assert "No results found." not in driver.page_source

# 명시적으로 일정시간을 기다릴 수 있음 (10초 기다림)
time.sleep(10)

# 크롬 브라우저 닫기 가능함
driver.quit()

##### 2.1.2 PhantomJS
 - WebTesting을 위해 나온 화면이 존재하지 않는 브라우저
 - 터미널환경에서 동작하는 크롤러의 경우 PhantomJS 브라우저 사용 권장

<div class="alert alert-block alert-success">
**<font color="blue" size="4em">사전준비 (PhantomJS 설치)</font>**
 1. 윈도우: PhantomJS 다운로드 후 절적한 디렉토리에 압축을 품 (http://phantomjs.org/download.html)
 2. 맥: brew install phantomjs 또는 윈도우에서 사용한 웹사이트를 활용
 3. 리눅스: suto apt-get install phantomjs (한글폰트가 없다면, 추가로 sudo apt-get install -y fonts-nanum* )
 
 X 설치 디렉토리를 알아둬야 함

 **<font color="blue" size="4em">확인 사항</font>**
 <br><br>
 
 <font color="red">
 다음 코드부터는 Selenium을 사용할지, PhantomJS를 사용할지를 정해서<br>
 드라이버를 생성하는 코드를 자신의 로컬 환경에 맞게 넣어주신 후에<br>
 실행을 하셔야 합니다.
 </font>
 

In [7]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys

# 드라이버 생성 방법1 (selenium)
# chromedriver = 'C:/dev_python/Webdriver/chromedriver.exe' # 윈도우 
# chromedriver = '/usr/local/Cellar/chromedriver/chromedriver' # 맥
# driver = webdriver.Chrome(chromedriver)

# 드라이버 생성 방법2 (phantomJS)
# driver = webdriver.PhantomJS('C:/dev_python/phantomjs-2.1.1-windows/bin/phantomjs.exe') # 윈도우
driver = webdriver.PhantomJS('/usr/local/Cellar/phantomjs/2.1.1/bin/phantomjs') # 맥

driver.get("http://www.python.org")

print (driver.current_url)
print (driver.title)

elem = driver.find_element_by_name("q")

# input 텍스트 초기화 
elem.clear()

# 키 이벤트 전송
elem.send_keys("python")

# 엔터 입력
elem.send_keys(Keys.RETURN)

# 스크린샷도 찍을 수 있습니다.
driver.set_window_size(1400, 1000)
elem.screenshot("pycon_event.png")
assert "No results found." not in driver.page_source

driver.quit()

https://www.python.org/
Welcome to Python.org


#### 2.2 Selenium & PhantomJS 태그 검색 주요 함수

* 주요 함수 - find_element_by_tag_name(), find_elements_by_tag_name()
  - find_element_by_tag_name(): 최초 발견한 태그만 가져오기
  - find_elements_by_tag_name(): 모든 태그 리스트로 가져오기

In [19]:
from selenium import webdriver

# driver = webdriver.PhantomJS('C:/dev_python/phantomjs-2.1.1-windows/bin/phantomjs.exe') # 윈도우
driver = webdriver.PhantomJS('/usr/local/Cellar/phantomjs/2.1.1/bin/phantomjs') # 맥
driver.get('http://v.media.daum.net/v/20170202185812986')

# 최초 발견한 태그만 검색
title = driver.find_element_by_tag_name('h3')
print (title.text)

# 모든 태그 검색
h3s = driver.find_elements_by_tag_name('h3')

for h3 in h3s:
    print (h3.text)
    
driver.quit()

'포켓몬고' 상륙 1주일.. 대한민국 곳곳이 들썩
'포켓몬고' 상륙 1주일.. 대한민국 곳곳이 들썩
많이본 뉴스
포토&TV
실시간 이슈
이 시각 추천뉴스
실시간 주요이슈


 **<font color="blue" size="4em">실습 (함께 작성해보는 코드)</font>**

* 주요 함수 - find_element_by_id(), find_elements_by_id()
  - find_element_by_id(): 최초 발견한 아이디를 가진 태그만 가져오기
  - find_elements_by_id(): 아이디를 가진 모든 태그 리스트로 가져오기

In [20]:
from selenium import webdriver

# driver = webdriver.PhantomJS('C:/dev_python/phantomjs-2.1.1-windows/bin/phantomjs.exe') # 윈도우
driver = webdriver.PhantomJS('/usr/local/Cellar/phantomjs/2.1.1/bin/phantomjs') # 맥
driver.get('http://v.media.daum.net/v/20170202185812986')

body = driver.find_element_by_id('harmonyContainer')
print (body.text)
    
driver.quit()

지난달 24일 출시된 모바일게임 '포켓몬고'가 출시 1주일여만에 우리나라 거리 풍경을 크게 바꿔놨다. 번화가나 공원 등 거리 곳곳에서 손에 스마트폰을 들고 '포켓몬'을 사냥하는 모습을 손쉽게 찾아볼 수 있게 된 것이다.다른 국가에 비해 반년 가량 늦게 출시됐음에도 불구, 이용자 수가 700만명에 육박한 것으로 알려졌다. 우리나라 국민 10명 중 1명은 지난 1주일 사이에 한번은 포켓몬고 게임을 해봤다는 얘기다.

지역경제 활성화에도 도움이 되고 있다. 포켓몬이 자주 출몰하는 지역으로 입소문을 탄 지역 편의점 매출이 급증하는 현상도 나타났다. 지난해 여름, 강원도 속초가 '포켓몬고' 특수를 톡톡히 누린 것과 비슷한 현상이 전국 곳곳에서 나타나고 있는 것이다.

■우리 국민 10명 중 1명은 '포켓몬고' 게이머

애플리케이션(앱) 분석업체 와이즈앱은 2일 전국 2만3000명의 안드로이드 스마트폰 사용자 표본조사를 바탕으로 추정한 지난 1주일간 '포켓몬고' 이용자는 698만명이라고 발표했다. 특히 10대와 20대 이용자들이 '포켓몬고'에 열광하고 있는 것으로 나타났다. 전체 이용자의 65% 이상이 10대와 20대다.

이 게임 개발사인 나이언틱랩스가 설 연휴 직전에 출시한 전략도 제대로 맞아 떨어졌다. 지난 설 연휴, 고향에서 가족과 친지들이 모여 '포켓몬고'를 즐기는 모습이 곳곳에서 눈에 띄였다. 고속도로 휴게소 등에서도 포켓몬고 이용자들도 많았다.

전국 번화가와 공원 등 게임 내 주요 장소인 '포켓스톱'으로 지정된 곳이 많은 지역은 '포켓몬고' 게이머들로 붐볐다. 서울 노원역, 이수역, 강남역, 잠실역 등 번화가와 부산 시민공원, 대전 오월드, 제천 의림지 등 전국 주요 장소로 '포켓몬'을 찾는 이들이 몰려들었다.

지역 명소를 찾는 이들도 부쩍 늘었다. 주로 교회나 절, 조형물 등이 '포켓스톱'으로 지정돼 있기 때문에 평소에는 그냥 지나쳤던 명소를 다시 한번 돌아보게 되는 계기가 됐다는 게이머들도 많다.

업계 관계자는 "포켓스톱은 포켓몬고를 즐기기 위해 반

* 주요 함수 - find_element_by_name(), find_elements_by_name()
  - find_element_by_name(): 최초 발견한 태그 안에 name 값이 같은 태그 가져오기
  - find_elements_by_name(): 태그 안에 name 값이 같은 태그 모두 리스트로 가져오기

#### 2.3 CSS selector 이용하기 (BeautifulSoup 과 동일)

 - docs : http://saucelabs.com/resources/articles/selenium-tips-css-selectors
 - 아이디의 경우 앞에 #
 - 클래스의 경우 앞에 .
 - 하위 태그는 >

* 클래스로 찾기

In [22]:
from selenium import webdriver

# driver = webdriver.PhantomJS('C:/dev_python/phantomjs-2.1.1-windows/bin/phantomjs.exe') # 윈도우
driver = webdriver.PhantomJS('/usr/local/Cellar/phantomjs/2.1.1/bin/phantomjs') # 맥
driver.get('http://v.media.daum.net/v/20170202180355822')

# 클래스가 tit_view인 h3태그
title = driver.find_element_by_css_selector("h3.tit_view")
print (title.text)
driver.quit()

포커 정복한 AI, 어디까지 진화할까


<div class="alert alert-block alert-warning">
* 아이디로 찾기
  **<font color="blue" size="4em">연습문제2 (다음 코드 문제점 확인하고 수정하기)</font>**
  
  - 팁: 이전 시간에 설명한 CSS Selector 내용 상기
  1. 에러 메세지를 읽고, 어떤 라인에서 문제가 있는지를 확인한 후
  2. 해당 라인의 코드에 어떤 문제가 있는지를 CSS Selector 문법과 해당 웹페이지 소스를 비교해가며 확인

In [1]:
from selenium import webdriver

driver = webdriver.PhantomJS('C:/dev_python/phantomjs-2.1.1-windows/bin/phantomjs.exe') # 윈도우
# driver = webdriver.PhantomJS('/usr/local/Cellar/phantomjs/2.1.1/bin/phantomjs') # 맥
driver.get('http://v.media.daum.net/v/20170202180355822')

title_data = driver.find_element_by_css_selector('html head title')
print(title_data.get_attribute('text'))

title_data = driver.find_element_by_css_selector('html > title')
# head 태그 안에 있는 title 정보는 get_attribute('text') 메서드로 추출할 수 있습니다. 
print(title_data.get_attribute('text'))

contents = driver.find_element_by_css_selector("div#harmonyContainer")
# body 안에 있는 태그 요소는 .text 로 추출할 수 있습니다. (출력이 잘 안되면, 둘다 써보셔도 좋습니다.)
print(contents.text)

for p in contents.find_elements_by_tag_name('p'):
    print (p.text)
driver.quit()

포커 정복한 AI, 어디까지 진화할까 | Daum 뉴스


NoSuchElementException: Message: {"errorMessage":"Unable to find element with css selector 'html > title'","request":{"headers":{"Accept":"application/json","Accept-Encoding":"identity","Connection":"close","Content-Length":"103","Content-Type":"application/json;charset=UTF-8","Host":"127.0.0.1:4589","User-Agent":"Python http auth"},"httpVersion":"1.1","method":"POST","post":"{\"using\": \"css selector\", \"value\": \"html > title\", \"sessionId\": \"7a719140-a4d2-11e7-85f1-2d818984f2a9\"}","url":"/element","urlParsed":{"anchor":"","query":"","file":"element","directory":"/","path":"/element","relative":"/element","port":"","host":"","password":"","user":"","userInfo":"","authority":"","protocol":"","source":"/element","queryKey":{},"chunks":["element"]},"urlOriginal":"/session/7a719140-a4d2-11e7-85f1-2d818984f2a9/element"}}
Screenshot: available via screen


* 속성으로 찾기

In [25]:
from selenium import webdriver

# driver = webdriver.PhantomJS('C:/dev_python/phantomjs-2.1.1-windows/bin/phantomjs.exe') # 윈도우
driver = webdriver.PhantomJS('/usr/local/Cellar/phantomjs/2.1.1/bin/phantomjs') # 맥
driver.get('http://v.media.daum.net/v/20170202180355822')

# role attribute가 navigation인 div태그
nav = driver.find_element_by_css_selector("div[role='navigation']")
print(nav.text)
driver.quit()

홈
사회
정치
경제
국제
문화
IT
랭킹
연재
포토
TV
1boon
스토리펀딩
서울
서울 23 ℃


#### 2.4 XPATH를 이용하여 가져오기
 - 마크업에서 요소를 정의하기 위해 path 경로를 사용하는 방법
 - find_element_by_xpath(), find_elements_by_xpath() 메서드로 검색 가능
 - [XPATH 문법 상세 참고](https://wkdtjsgur100.github.io/selenium-xpath/)
 


   - / : 절대경로를 나타냄
   - // : 문서내에서 검색
   - //@href : href 속성이 있는 모든 태그 선택
   - //a[@href='http://google.com'] : a 태그의 href 속성에 http://google.com 속성값을 가진 모든 태그 선택 
   - (//a)[3] : 문서의 세 번째 링크 선택
   - (//table)[last()] : 문서의 마지막 테이블 선택
   - (//a)[position() < 3] : 문서의 처음 두 링크 선택
   - //table/tr/* 모든 테이블에서 모든 자식 tr 태그 선택
   - //div[@*] 속성이 하나라도 있는 div 태그 선택

In [9]:
from selenium import webdriver

# driver = webdriver.PhantomJS('C:/dev_python/phantomjs-2.1.1-windows/bin/phantomjs.exe') # 윈도우
driver = webdriver.PhantomJS('/usr/local/Cellar/phantomjs/2.1.1/bin/phantomjs') # 맥
driver.get('http://v.media.daum.net/v/20170922175202762')

title = driver.find_element_by_xpath("//title") # 문서내의 어떤 태그든지 가능

# head 태그 안에 있는 title 정보는 get_attribute('text') 메서드로 추출할 수 있습니다.
print (title.get_attribute('text'))
driver.quit()

아이폰8 출시..예전같은 열기는 없었다 | Daum 뉴스


 **<font color="blue" size="4em">실습 (함께 작성해보는 코드)</font>**

In [62]:
from selenium import webdriver

# driver = webdriver.PhantomJS('C:/dev_python/phantomjs-2.1.1-windows/bin/phantomjs.exe') # 윈도우
driver = webdriver.PhantomJS('/usr/local/Cellar/phantomjs/2.1.1/bin/phantomjs') # 맥
driver.get('http://v.media.daum.net/v/20170922182449443')

title = driver.find_element_by_xpath("/html/head/title") # 절대경로

# head 태그 안에 있는 title 정보는 get_attribute('text') 메서드로 추출할 수 있습니다.
print (title.get_attribute('text'))
driver.quit()

'포켓몬고' 상륙 1주일.. 대한민국 곳곳이 들썩 | Daum 뉴스


In [70]:
from selenium import webdriver

# driver = webdriver.PhantomJS('C:/dev_python/phantomjs-2.1.1-windows/bin/phantomjs.exe') # 윈도우
driver = webdriver.PhantomJS('/usr/local/Cellar/phantomjs/2.1.1/bin/phantomjs') # 맥
driver.get('http://v.media.daum.net/v/20170202185812986')

title = driver.find_element_by_xpath("/html//title") # html 태그 내에서 다시 검색

# head 태그 안에 있는 title 정보는 get_attribute('text') 메서드로 추출할 수 있습니다.
print (title.get_attribute('text'))
driver.quit()


'포켓몬고' 상륙 1주일.. 대한민국 곳곳이 들썩 | Daum 뉴스


- 속성으로 검색하는 XPATH 문법: 태그[@속성=속성값] 

In [71]:
from selenium import webdriver

# driver = webdriver.PhantomJS('C:/dev_python/phantomjs-2.1.1-windows/bin/phantomjs.exe') # 윈도우
driver = webdriver.PhantomJS('/usr/local/Cellar/phantomjs/2.1.1/bin/phantomjs') # 맥
driver.get('http://v.media.daum.net/v/20170202185812986')

#soup.find('h3', attrs = {'class' : 'tit_s'})
title_content = driver.find_element_by_xpath("//h3[@class='tit_view']")

# body 안에 있는 태그 요소는 .text 로 추출할 수 있습니다. (출력이 잘 안되면, 둘다 써보셔도 좋습니다.)
print (title_content.text)
driver.quit()

'포켓몬고' 상륙 1주일.. 대한민국 곳곳이 들썩


In [72]:
from selenium import webdriver

# driver = webdriver.PhantomJS('C:/dev_python/phantomjs-2.1.1-windows/bin/phantomjs.exe') # 윈도우
driver = webdriver.PhantomJS('/usr/local/Cellar/phantomjs/2.1.1/bin/phantomjs') # 맥
driver.get('http://v.media.daum.net/v/20170202180355822')

body = driver.find_element_by_xpath("//div[@id='harmonyContainer']")
for p in body.find_elements_by_tag_name('p'):
    print (p.text)
driver.quit()

(지디넷코리아=김익현 기자)한 때 ‘마이너리티 리포트’란 영화가 인기를 끈 적 있다. 최첨단 치안시스템을 통해 범죄를 미리 예측한 뒤 특수 경찰을 보내 미래의 범죄자들을 체포하는 얘기다.
하지만 그 영화를 보면서 “그럴듯하다”고 생각했던 사람은 거의 없었다. ‘무서운 미래’이긴 했지만 ‘있음직한 미래상’은 아니었단 얘기다.
최근 인공지능(AI)이 포커 시합에서 최고수 프로 선수를 꺾었단 소식을 접하면서 ‘마이너리티 리포트’가 황당한 얘기만은 아닐 수도 있다는 생각을 하게 됐다.

일단 팩트부터 챙겨보자.
프로 포커 선수 네 명을 꺾은 화제의 주인공은 리브라투스(Libratus)란 AI 프로그램이다. 미국 카네기멜론대학 연구팀이 개발한 이 프로그램은 지난 달 11일부터 30일까지 20일 동안 계속된 포커 대결에서 승리했다.
자세한 얘기는 생략한다. 궁금한 분은 지디넷코리아에 게재된 기사를 확인해보시라.
[관련기사1] AI는 어떻게 심리싸움 '뻥카'까지 알았을까
[관련기사2] 카네기멜론대학의 공식 자료
■ 바둑과는 또 다른 포커 정복
이번 결과에 대해 카네기멜론대학 뿐 아니라 세계 주요 외신들도 흥분을 감추지 못하고 있다.
당연히 궁금증이 제기되지 않을 수 없다. 이미 AI는 퀴즈쇼, 체스에 이어 난공불락의 영역이라 일컬어지던 바둑까지 정복했기 때문이다.
세계 최강 이세돌 9단에 이어 중국의 커제 9단까지 알파고에 완패한 마당에 포커 시합에서 진 게 뭐 그리 대단한 일이냐고 생각할 수도 있다.
하지만 포커와 바둑은 조금 다르다.
물론 바둑 경기에서 고려해야 할 수는 무한 대에 가깝다. 한 수를 둘 때 가능한 수가 250개 정도에 이른다.한 경기에 150수 이상 둔다고 가정하면 '250의 150승’이란 경우의 수가 만들어진다. 이게 유기적으로 연결돼야 한다. 중간에 수 하나만 삐끗해도 시합을 망치게 된다.

그 동안 ‘바둑은 인간의 영역’이라고 했던 건 인공지능은 직관적으로 문제를 해결하긴 쉽지 않을 것으로 생각했기 때문이다.
이처럼 방대하긴 하지만 바둑 경기는 ‘

<div class="alert alert-block alert-warning">
**<font color="blue" size="4em">연습문제3</font>**

  http://v.media.daum.net/v/20170202180355822 페이지에서<br>
  <br>
  [김익현의 미디어 읽기] '마이너리티 리포트'와 AI
  <br><br>
  를 XPATH로 크롤링해서 출력하세요<br>

#### 2.5 페이지 로딩 시간을 기다린 후, 검색하는 방법
 - 몇몇 페이지의 경우, 페이지 로딩 지연이 발생하여(여러 요청이 병합하여 페이지 결과를 생성) tag를 못읽어오는 경우가 발생할 수 있음
 - 이때, 아래의 코드를 이용하여 해결 가능
 - e.g) 10초내에 해당 tag를 찾으면 반환, 그렇지 않으면 timeout 발생!
 - http://selenium-python.readthedocs.io/waits.html


* WebDriverWait() 메서드
 - 명시적인 페이지 로드 대기에 사용됨
 - 주로 다음 코드와 같이 사용됨
 
```
try:
    element = WebDriverWait(driver, 몇초).until(
        # By.ID 는 ID로 검색, By.CSS_SELECTOR 는 CSS Selector 로 검색
        EC.presence_of_element_located((By.ID, "cMain"))
    )
except TimeoutException:
    print("타임아웃")
finally:
    driver.quit()
```

* from selenium.webdriver.common.by import By 검색 지원 방법
``` 
 By.ID - 태그에 있는 ID 로 검색
 By.CSS_SELECTOR - CSS Selector 로 검색
 By.NAME - 태그에 있는 name 으로 검색
 By.TAG_NAME - 태그 이름으로 검색
```

In [68]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC


driver = webdriver.PhantomJS('C:/dev_python/phantomjs-2.1.1-windows/bin/phantomjs.exe')
# driver = webdriver.PhantomJS('/usr/local/Cellar/phantomjs/2.1.1/bin/phantomjs')
driver.get('http://v.media.daum.net/v/20170202180355822')
try:
    # id가 cMain인 tag를 10초 내에 검색, 그렇지 않으면 timeoutexception 발생
    element = WebDriverWait(driver, 10).until(
        # By.ID 는 ID로 검색, By.CSS_SELECTOR 는 CSS Selector 로 검색
        EC.presence_of_element_located((By.ID, "cMain"))
    )
    print(element.text)

except TimeoutException:
    print("해당 페이지에 cMain 을 ID 로 가진 태그가 존재하지 않거나, 해당 페이지가 10초 안에 열리지 않았습니다.")
    
finally:
    driver.quit()

[김익현의 미디어 읽기] '마이너리티 리포트'와 AI
(지디넷코리아=김익현 기자)한 때 ‘마이너리티 리포트’란 영화가 인기를 끈 적 있다. 최첨단 치안시스템을 통해 범죄를 미리 예측한 뒤 특수 경찰을 보내 미래의 범죄자들을 체포하는 얘기다.
하지만 그 영화를 보면서 “그럴듯하다”고 생각했던 사람은 거의 없었다. ‘무서운 미래’이긴 했지만 ‘있음직한 미래상’은 아니었단 얘기다.
최근 인공지능(AI)이 포커 시합에서 최고수 프로 선수를 꺾었단 소식을 접하면서 ‘마이너리티 리포트’가 황당한 얘기만은 아닐 수도 있다는 생각을 하게 됐다.
영화 '마이너리티 리포트'는 범죄자를 사전에 알아내는 지나치게 똑똑한 인조인간 얘기로 많은 충격을 안겨줬다.
일단 팩트부터 챙겨보자.
프로 포커 선수 네 명을 꺾은 화제의 주인공은 리브라투스(Libratus)란 AI 프로그램이다. 미국 카네기멜론대학 연구팀이 개발한 이 프로그램은 지난 달 11일부터 30일까지 20일 동안 계속된 포커 대결에서 승리했다.
자세한 얘기는 생략한다. 궁금한 분은 지디넷코리아에 게재된 기사를 확인해보시라.
[관련기사1] AI는 어떻게 심리싸움 '뻥카'까지 알았을까
[관련기사2] 카네기멜론대학의 공식 자료
■ 바둑과는 또 다른 포커 정복
이번 결과에 대해 카네기멜론대학 뿐 아니라 세계 주요 외신들도 흥분을 감추지 못하고 있다.
당연히 궁금증이 제기되지 않을 수 없다. 이미 AI는 퀴즈쇼, 체스에 이어 난공불락의 영역이라 일컬어지던 바둑까지 정복했기 때문이다.
세계 최강 이세돌 9단에 이어 중국의 커제 9단까지 알파고에 완패한 마당에 포커 시합에서 진 게 뭐 그리 대단한 일이냐고 생각할 수도 있다.
하지만 포커와 바둑은 조금 다르다.
물론 바둑 경기에서 고려해야 할 수는 무한 대에 가깝다. 한 수를 둘 때 가능한 수가 250개 정도에 이른다.한 경기에 150수 이상 둔다고 가정하면 '250의 150승’이란 경우의 수가 만들어진다. 이게 유기적으로 연결돼야 한다. 중간에 수 하나만 삐끗해도 시합을 망치게 된다.


#### 2.6 웹사이트 자동 조작하는 방법

  - element 클릭: element.click()
  - element 더블 클릭: element.double_click()
  - element 키보드 입력 전송: element.send_keys()
  - element 로 마우스 이동: element.move_to_element()

In [20]:
from selenium import webdriver
from selenium.webdriver.remote.webelement import WebElement
from selenium.webdriver.common.keys import Keys
from selenium.webdriver import ActionChains

driver = webdriver.PhantomJS('C:/dev_python/phantomjs-2.1.1-windows/bin/phantomjs.exe')
# driver = webdriver.PhantomJS('/usr/local/Cellar/phantomjs/2.1.1/bin/phantomjs')
driver.get("http://pythonscraping.com/pages/files/form.html")

firstnameField = driver.find_element_by_name("firstname")
lastnameField = driver.find_element_by_name("lastname")
submitButton = driver.find_element_by_id("submit")

firstnameField.send_keys("Doky")
lastnameField.send_keys("Kim")
submitButton.click()

print(driver.find_element_by_tag_name("body").text)

driver.close()

Hello there, Doky Kim!


- ActionChains(): 행동 여러 개를 체인 으로 묶어서 저장하고 원하는 만큼 실행
- perform() 메서드 실행시 전체 행동을 실행함

In [19]:
from selenium import webdriver
from selenium.webdriver.remote.webelement import WebElement
from selenium.webdriver.common.keys import Keys
from selenium.webdriver import ActionChains

driver = webdriver.PhantomJS('C:/dev_python/phantomjs-2.1.1-windows/bin/phantomjs.exe')
# driver = webdriver.PhantomJS('/usr/local/Cellar/phantomjs/2.1.1/bin/phantomjs')
driver.get("http://pythonscraping.com/pages/files/form.html")

firstnameField = driver.find_element_by_name("firstname")
lastnameField = driver.find_element_by_name("lastname")
submitButton = driver.find_element_by_id("submit")

actions = ActionChains(driver).click(firstnameField).send_keys("Doky").click(lastnameField).send_keys("Kim").send_keys(Keys.RETURN)
actions.perform()

print(driver.find_element_by_tag_name("body").text)

driver.close()

Hello there, Doky Kim!


 **<font color="blue" size="4em">실습 (함께 작성해보는 코드)</font>**

<div class="alert alert-block alert-warning">
**<font color="blue" size="4em">연습문제4</font>** 
 - 다음 코드를 기반으로, 코드를 추가하여 해당 다음 뉴스 댓글을 모두 출력하는 프로그램 작성하기

In [12]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException

# 드라이버 생성
# 1. PhantomJS 웹브라우저 설치 및 파이썬 사용법
# - Installation of PhantomJS: MAC - pip install phantomjs, Window - http://phantomjs.org
# - Add the location of phantomjs to webdriver.PhantomJS('this')
chromedriver = 'C:/dev_python/Webdriver/chromedriver.exe'
driver = webdriver.Chrome(chromedriver)
driver.get("http://v.media.daum.net/v/20170922175202762")

print(driver.current_url)
try:
    element = WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.ID, "alex-area"))
    )
finally:
    loop = True
    while loop:
        try:
            element = WebDriverWait(driver, 3).until(
                [------------------------------------]
            )
            [------------------------------------]
            webdriver.ActionChains(driver).move_to_element(more_button).click(more_button).perform()
        except:
            loop = False


SyntaxError: invalid syntax (<ipython-input-12-ae5687809e4e>, line 25)

### 3 저장하기 

 + csv 모듈을 활용한 CSV 파일 만들기

In [7]:
import csv

csv_file = open("test.csv", "w+")
try:
    writer = csv.writer(csv_file)
    writer.writerow(('number', 'number plus 2', 'number times 2'))
    for num in range(10):
        writer.writerow((num, num+2, num*2))
finally:
    csv_file.close()

 + xlsxwriter 모듈을 활용한 엑셀 파일 만들기

In [13]:
import xlsxwriter

title_list = ["웹기술", "빅데이터기술", "IoT", "DataScience", "adfdf", "dfadfadf", "ddd"]
hit_count_list = [2000, 10000, 2000, 2000, 4000, 5000, 6000, 4040]

report_excel = xlsxwriter.Workbook('report.xlsx')
report_sheet1 = report_excel.add_worksheet('report1')
report_sheet2 = report_excel.add_worksheet('report2')

report_sheet1.set_column(0, 0, 5)
report_sheet1.set_column(1, 1, 80)

report_sheet2.set_column(0, 0, 5)
report_sheet2.set_column(1, 1, 80)

cell_format = report_excel.add_format({'bold': True, 'align': 'center', 'fg_color': '#FFC107', 'color': 'blue', 'border': 10})
report_sheet1.write(1, 1, '타이틀', cell_format)
report_sheet1.write(1, 2, '클릭수', cell_format)

report_sheet2.write(1, 1, '타이틀', cell_format)
report_sheet2.write(1, 2, '클릭수', cell_format)

cell_format_gray = report_excel.add_format({'fg_color': '#ECEFF1', 'border': 1})
cell_format_white = report_excel.add_format({'fg_color': 'white', 'border': 1})

for num in range(len(title_list)):
    report_sheet1.write(num + 2, 1, title_list[num], cell_format_gray)
    report_sheet1.write(num + 2, 2, hit_count_list[num], cell_format_white)

for num in range(len(title_list)):
    report_sheet2.write(num + 2, 1, title_list[num], cell_format_gray)
    report_sheet2.write(num + 2, 2, hit_count_list[num], cell_format_white)
    
report_excel.close()