# Fundamental 28. 웹 크롤링

## 파이썬 크롤링 라이브러리
웹을 크롤링하는 가장 기본 작업입니다. 우선 2가지 작업에 대해 자주 사용되는 파이썬 라이브러리 기능을 살펴보자.  
- 1단계: 웹페이지 다운로드하기
- 2단계: 웹페이지 분석하기

## 파이썬 표준 라이브러리 urllib 사용하기

### 1. 웹페이지 다운로드

In [1]:
import urllib
def download(url):
    return urllib.request.urlopen(url)

In [2]:
from urllib.error import URLError, HTTPError, ContentTooShortError

def download(url):
    try:
        html = urllib.request.urlopen(url)
    except (URLError, HTTPError, ContentTooShortError) as e:
        print('Download error', e.reason)
        html = None
    return html

download('https://www.google.com')

<http.client.HTTPResponse at 0x7f5df0c8aa10>

### 2. 웹페이지 분석하기

In [3]:
def download(url):
    try:
        html = urllib.request.urlopen(url).read()
    except (URLError, HTTPError, ContentTooShortError) as e:
        print('Download error', e.reason)
        html = None
    return html

In [4]:
download('https://www.google.com')

b'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="en"><head><meta content="Search the world\'s information, including webpages, images, videos and more. Google has many special features to help you find exactly what you\'re looking for." name="description"><meta content="noodp" name="robots"><meta content="text/html; charset=UTF-8" http-equiv="Content-Type"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"><title>Google</title><script nonce="ltDUVnFdVudtJ834889sdA==">(function(){window.google={kEI:\'S5I6YbbbOanfz7sPw9OywA8\',kEXPI:\'0,772215,1,530320,56873,954,5104,207,4804,2316,383,246,5,1354,4936,314,1122516,1197788,495,118,328866,51224,16114,17444,1953,9285,1114,16460,4858,1362,9291,3022,17586,4020,978,13228,3847,10622,1142,6290,7331,4281,2778,919,5081,1593,1279,2212,241,289,149,1103,840,1983,214,4100,108,3406,606,2024,2296,6343,8327,3227,1989,856,7,12354,5096,7539,6857,1924,908,2,941,2614,3784,8926,432,3,1590,

## 파이썬 라이브러리 BeautifulSoup, Requests 사용하기

### 1. 웹페이지 다운로드

In [5]:
import requests
url = 'http://www.google.com'
response = requests.get(url)
response

<Response [200]>

In [7]:
def download2(url):
    try:
        response = requests.get(url)
        html = response.text
    except requests.ConnectionError:
        print('Connection error')
        html = None
    return html

download2('https://www.google.com')

'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="en"><head><meta content="Search the world\'s information, including webpages, images, videos and more. Google has many special features to help you find exactly what you\'re looking for." name="description"><meta content="noodp" name="robots"><meta content="text/html; charset=UTF-8" http-equiv="Content-Type"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"><title>Google</title><script nonce="m+8CTAgoFPj+Mc6DnpK++Q==">(function(){window.google={kEI:\'hZI6YZ7OG_eW4-EPvKK6mAY\',kEXPI:\'0,772215,1,530320,56873,954,5105,206,4804,2316,383,246,5,1354,4936,315,1122515,1197719,563,119,328866,51224,16114,28684,17572,4859,1361,9290,3030,2814,14765,4020,978,13228,3847,4192,6434,1138,17903,2777,919,5966,708,1279,2212,530,149,1943,1983,4314,3514,606,2025,1775,520,14670,604,2623,2845,7,12354,5096,14396,1924,908,2,3555,12710,432,3,346,1244,1,5445,148,11323,2652,4,1528,2304,1236,58

### 2. 웹페이지 분석하기

#### 태그에 쉽게 접근

In [8]:
import requests
from bs4 import BeautifulSoup
html = requests.get('http://www.google.com')
soup = BeautifulSoup(html.text, 'html.parser')

In [9]:
soup.html.body

<body bgcolor="#fff"><script nonce="ykp4iZQkePjWC+NmVKyz9A==">(function(){var src='/images/nav_logo229.png';var iesg=false;document.body.onload = function(){window.n && window.n();if (document.images){new Image().src=src;}
if (!iesg){document.f&&document.f.q.focus();document.gbqf&&document.gbqf.q.focus();}
}
})();</script><div id="mngb"><div id="gbar"><nobr><b class="gb1">Search</b> <a class="gb1" href="http://www.google.com/imghp?hl=en&amp;tab=wi">Images</a> <a class="gb1" href="http://maps.google.com/maps?hl=en&amp;tab=wl">Maps</a> <a class="gb1" href="https://play.google.com/?hl=en&amp;tab=w8">Play</a> <a class="gb1" href="http://www.youtube.com/?gl=US&amp;tab=w1">YouTube</a> <a class="gb1" href="https://news.google.com/?tab=wn">News</a> <a class="gb1" href="https://mail.google.com/mail/?tab=wm">Gmail</a> <a class="gb1" href="https://drive.google.com/?tab=wo">Drive</a> <a class="gb1" href="https://www.google.com/intl/en/about/products?tab=wh" style="text-decoration:none"><u>More</u>

html이 태그 내용이 다음과 같다고 하자.
```html
<span>Wow it's so good!!</span>
```

In [10]:
soup = BeautifulSoup("<span>Wow it's so good!!</span>", 'html.parser')
soup.span

<span>Wow it's so good!!</span>

#### find(), findAll()

아래 와 같은 html이 있다고 하자.
```html
<title>Fundamental</title> 
        <body>
          <p id='programming'>python</p>
          <p id='programming'>java</p>
          <p id='algorithm'>algorithm</p>
          <p id='fundamental'>math</p>
          <p id='programming'>C++</p>     
         </body>
```

BeautifulSoup객체로 만든 뒤 \<p> 태그 항목을 찾는 코드는 다음과 같다.

In [11]:
# ''', """ 는 여러줄의 문자열을 입력할 때 사용
html='''<title>Fundamental</title> 
         <body>
          <p id='programming'>python</p> 
          <p id='programming'>java</p> 
          <p id='algorithm'>algorithm</p> 
          <p id='fundamental'>math</p> 
          <p id='programming'>C++</p> 
          </body>'''
soup = BeautifulSoup(html, 'html.parser')
soup.findAll({'p'})

[<p id="programming">python</p>,
 <p id="programming">java</p>,
 <p id="algorithm">algorithm</p>,
 <p id="fundamental">math</p>,
 <p id="programming">C++</p>]

\<p> 태그에서 속성값이 programming인 태그를 찾고 싶을때는 다음과 같이 해주면 된다.

In [12]:
soup.findAll('p', id='programming')

[<p id="programming">python</p>,
 <p id="programming">java</p>,
 <p id="programming">C++</p>]

----
## 네이버 환율 정보 크롤링
- 크롤링 사이트: https://m.stock.naver.com/marketindex/index.nhn
- 국가와 환율 데이터를 크롤링
- 크롤링한 데이터를 pandas의 Series객체로 저장

In [13]:
from bs4 import BeautifulSoup
import requests
import pandas as pd

#URL 가져오기
url = 'https://m.stock.naver.com/marketindex/index.nhn'
response = requests.get(url)

#Soup 객체 생성
soup = BeautifulSoup(response.text, 'html.parser')

#원하는 데이터 추출 - 국가
country = []
stock_items = soup.findAll('span', {'class':'stock_item'})
for s in stock_items:
    country.append(s.text)

# print(country)

country.remove('달러인덱스')

#원하는 데이터 추출 - 환율정보
price = []
price_0 = soup.findAll('span', {"class":"stock_price"})
for p in price_0:
    price.append(p.text)

#데이터 정렬, (pandas)
data = {}
for i in range(len(country)):
    data[country[i]] = price[i+7]

pd.Series(data)

남아프리카 ZAR        82.70
노르웨이 NOK        134.67
뉴질랜드 NZD        831.99
대만 TWD           42.27
덴마크 DKK         186.13
러시아 RUB          16.02
말레이시아 MYR       282.06
멕시코 MXN          58.78
몽골 MNT            0.41
미국 USD        1,170.00
바레인 BHD       3,104.02
방글라데시 BDT        13.73
베트남 VND           5.14
브라질 BRL         219.83
브루나이 BND        870.57
사우디 SAR         311.95
스웨덴 SEK         135.89
스위스 CHF       1,272.36
싱가포르 SGD        870.57
아랍에미리트 AED      318.53
영국 GBP        1,615.89
오만 OMR        3,038.96
요르단 JOD       1,650.21
유럽 EUR        1,384.11
이스라엘 ILS        365.29
이집트 EGP          74.34
인도 INR           15.91
인도네시아 IDR         8.23
일본 JPY        1,064.41
중국 CNY          181.31
체코 CZK           54.49
칠레 CLP            1.49
카자흐스탄 KZT         2.74
카타르 QAR         321.25
캐나다 CAD         921.77
쿠웨이트 KWD      3,890.79
태국 THB           35.79
터키 TRY          138.21
파키스탄 PKR          6.96
폴란드 PLN         305.37
필리핀 PHP          23.44
헝가리 HUF           3.94
호주 AUD          862.00
홍콩 HKD     

URL을 이용해 웹페이지를 Soup객체를 생성하면 손쉽게 HTML을 파싱할 수 있다. 파싱한 데이터를 리스트나 딕셔너리 형태로 저장하고 마지막엔 pandas의 Series를 이용해 나타내니 깔끔하게 정리할 수 있다.

## 로그인하기

In [14]:
#세션 생성하기
session = requests.session()

#로그인하기
log_info = {'id':'', #여러분의 ID와 PW를 입력해 주세요
            'pw':''}
url = 'https://nid.naver.com/nidlogin.login'
response = session.post(url, data=log_info)

#마이페이지 접근하기
url_mypage = 'https://nid.naver.com/user2/help/myInfo.nhn?lang=ko_KR'
response = session.get(url_mypage)

#Soup객체 생성
soup = BeautifulSoup(response.text, 'html.parser')

#마이페이지에 별명 가져 오기
soup.find('span')

<span class="menu_text"><span class="text">ID 로그인</span></span>

로그인은 개인정보인데 이렇게 크롤링으로 로그인 할 수 있다면 보안에 매우 취약할 것이다.  

사실 위 크롤링은 PHP 서버로 로그인을 할 때 사용할 수 있는 코드이다. 로그인 요청 메소드로 Request URL을 보낼 때 "xxxxxx.php"형식으로 된 웹 페이지에서만 가능한 방식이다.

요즘 대부분의 사이트들은 보안상의 이유로 이렇게 로그인 관리를 하지 않는다. 로그인 하기 위해선 직접 브라우저를 제어하고 인증에 대한 개념도 필요하다.

## 브라우저 제어를 통한 크롤링
### Selenium
셀레니움은 웹앱을 테스트하는 웹 프레임워크이다. webdriver의 API를 통해 브라우저를 제어하기 때문에 자바스크립트에 의해 동적으로 생성되는 사이트 데이터도 크롤링 할 수 있다.

### 공공데이터 크롤링 - 셀레니움 이용

#### 1. URL 다운로드

In [15]:
crawling_urls = {
"산과공원": "https://data.seoul.go.kr/dataList/OA-12962/S/1/datasetView.do",
}

In [16]:
import requests
from selenium import webdriver
import time
import pandas as pd
import os
import os.path
import glob

#### 2. 셀레니움을 이용하여 브라우저 제어

In [17]:
import os

chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')
driver = webdriver.Chrome('chromedriver', options=chrome_options)

# 웹드라이버 실행 및 페이지 이동
driver.get(crawling_urls['산과공원'])      # 우리가 원하는 URL로 이동합니다.
time.sleep(5)       # 해당 화면이 다 로딩할 때까지 5초간 충분히 기다려 줍니다. 
    
#csv파일 다운로드 버튼 클릭하기
driver.find_element_by_css_selector("#btnCsv").click()   # 사람이 누른 것처럼 다운로드 버튼을 클릭한 후
time.sleep(3)     # 다운로드가 완료될 때까지 3초간 기다려 줍니다. 

driver.quit()      # 브라우저를 닫습니다.

WebDriverException: Message: 'chromedriver' executable needs to be in PATH. Please see https://sites.google.com/a/chromium.org/chromedriver/home


#### 3. 다운받은 csv파일 확인

In [18]:
_dir = os.getenv('HOME')

# 로컬, 클라우드 모두에게 해당되는 코드입니다
files = glob.glob('{}/서울시*.csv'.format(_dir))
print(files)

[]


#### 4. csv파일 dataframe으로 변환

In [19]:
#csv파일을 dataframe으로 변환하기
#인코딩 에러 발생시에 encoding옵션 추가
f_M_park = pd.read_csv(files[0], encoding='CP949')   #CP949: windows에서 사용하는 인코딩 방식
f_M_park.head(3)

IndexError: list index out of range

셀레니움을 이용하니 브라우저를 직접 조작이 가능하고 브라우저 조작을 통해 버튼을 눌러 다운로드를 쉽게 받을 수 있다.  
 
브라우저를 직접 제어한다는 것은 버튼을 클릭하고 로그인을 위해 ID/PW 등을 입력하는 등 JavaScript로 구현된 동적인 웹 페이지도 크롤링 할 수 있다는 것을 의미 한다.