### Web Crawling (웹 크롤링)

1) 정의 : 웹 사이트에서 원하는 정보를 자동으로 수집하는 것

2) 어디서 크롤링을 사용할까?

- Google - 수 많은 웹사이트를 크롤링하여 검색 서비스 제공
- 쿠차 - 각종 소셜커머스 사이트를 크롤링하여 최저가 정보 제공

3) 크롤링 하는 방법

1. API 이용
2. html코드 이용
3. Selenium - web browser 직접 띄워서 이용

일반적으로 1 > 2 > 3 순서로 실행하는게 좋음. 그 이유는 속도의 차이 때문 (API가 가장 빠름)

### Requests

- HTTP 요청을 보내는 모듈
- http://docs.python-requests.org/en/master/

### 1. API

#### 1) 네이버 주식 데이터 가져오기

- API 사용 : json 파싱을 함 (jason은 딕셔너리 형태, xml은 html형태)
- 네이버 주식 페이지에서 주식 데이터를 가져와 데이터 프레임으로 만들기
- http://m.stock.naver.com

In [1]:
# Setting
import requests
import time

In [2]:
# 주식데이터를 가져오는 url을 생성 (json이용)
def make_url(pageSize=100, page=4):
    return "http://m.stock.naver.com/api/json/sise/siseListJson.nhn?menu=market_sum&sosok=0&pageSize=" + str(pageSize) + "&page=" + str(page)

In [3]:
# 데이터를 가져와서 프레임 형태로 정의
def get_data(url):
    response = requests.get(url)
    json_info = response.json()
    companys = json_info["result"]["itemList"]
    df = pd.DataFrame(columns=["종목", "시세", "전일비", "등락율", "시가총액", "거래량"])
    for company in companys:
        df.loc[len(df)] = {
            "종목":company["nm"],
            "시세":company["nv"],
            "전일비":company["cv"],
            "등락율":company["cr"],
            "시가총액":company["mks"],
            "거래량":company["aq"],
        }
    return df

In [4]:
url = make_url(10,7)
df = get_data(url)
df.head(10)

Unnamed: 0,종목,시세,전일비,등락율,시가총액,거래량
0,CJ,165000,2500,1.54,48142,79152
1,롯데지주,63200,800,1.28,46568,191016
2,효성,128500,5500,4.47,45126,161383
3,한국금융지주,80200,900,1.13,44692,143710
4,오리온,113000,6500,6.1,44673,146949
5,현대건설,40050,-1100,-2.67,44598,522247
6,CJ제일제당,334500,9500,2.92,44076,77458
7,한국가스공사,47100,-100,-0.21,43479,146711
8,삼성카드,37200,250,0.68,43100,93591
9,아이엔지생명,52100,500,0.97,42722,54830


#### 2) Dark Sky API

- 날씨 정보를 알려주는 api
- https://darksky.net/dev
- pip3 install python-forecastio

In [5]:
import requests
import forecastio
FORECAST_TOKEN = "c259d4aeb593bc5e83d0c3f7ed916f5d"

In [6]:
def forecast(lat,lng):
    url = "https://api.darksky.net/forecast/{}/{},{}".format(FORECAST_TOKEN, lat, lng)
    response = requests.get(url)
    json_info = response.json()
    return json_info["hourly"]["summary"]

In [7]:
lat = 37.5124413 # 위도
lng = 126.9540519 # 경도
forecast(lat,lng)

'Breezy tomorrow afternoon and light rain tomorrow evening.'

In [8]:
def forecast(lat,lng):
    forecast = forecastio.load_forecast(FORECAST_TOKEN, lat, lng)
    byHour = forecast.hourly()
    return byHour.summary

In [9]:
lat = 37.5124413
lng = 126.9540519
forecast(lat,lng)

'Breezy tomorrow afternoon and light rain tomorrow evening.'