# 5주차 데이터 수집 (크롤링)

데이터를 수집하는 방법은 여러가지가 있습니다. csv(comma seperated values)나 엑셀과 같이 이미 정리된 [파일 형식으로 데이터](http://datalab.naver.com/)를 얻을 수도 있고, Database나 [API](https://developers.naver.com/products/login/api)를 통해 얻을수도 있지만, 오늘은 **웹 크롤링**을 통해 데이터를 수집하는 방법에 대해서 배워보겠습니다. Web crawling은 Web scraping라고도 말하는데, 위키피디아에 따르면 **'조직적이고 자동화된 방법으로 월드 와이드 웹을 탐색하는 방법’**이라고 나와있네요. HTML 파일을 긁어서 필요한 정보들만 뽑아 csv 파일로 저장하는 방법에 대해 배워보겠습니다.

웹사이트 크롤링을 하기 위해선 **우선 웹사이트를 구성하고 있는 HTML, CSS**에 대한 기본적인 지식이 필요합니다.

## HTML과 CSS에 대한 기본 지식
- [W3School](http://www.w3schools.com/html/)
- [codeacademy](https://www.codecademy.com/learn/web)

### 1. 파이참에서 index.html파일을 만들어봅시다.
### 2. 바꿔봅시다!

```html
<!DOCTYPE html>
<html>
<head>
    <meta charset="UTF-8">
    <title>파이썬 클래스</title>
    <meta property="og:title" content="페이스북이나 카톡 미리보기에서 보이는 제목입니다." />
    <meta property="og:description" content="og 설명" />
    <meta property="og:image" content="og 이미지" />
    <style>
        body {
            background-color: #d0e4fe;
        }

        h1 {
            color: orange;
            text-align: center;
        }

        .desc-box {
            text-align: center;
        }

        #desc-important {
            color: blue;
        }
    </style>
</head>
<body>

<h1>파이썬 2016 클래스입니다.</h1>

<div class="desc-box">
    <p>오늘은 <b id="crawling">크롤링</b>에 대해 배우고 있습니다.</p>

    <div>
        <img src="http://movement-as-medicine.com/wp-content/uploads/2014/01/baby-crawling.jpg"/>
    </div>

    <span>크롤링에 대한 자세한 정의는 <a href="https://en.wikipedia.org/wiki/Web_crawler">위키피디아</a>를 참고해보세요.</span>

    <div class="desc-line first">
        <span>웹 크롤링을 하려면 html과 css에 대해 먼저 알아야 합니다.</span>
        <a href="http://www.w3schools.com/html/">w3school 페이지에서 HTML, CSS에 대해 알아볼 수 있어요</a>
    </div>
    <div class="desc-line second">
        <span><b id="desc-important">Javascript</b>는 웹페이지를 동적으로 만들어주는 역할을 합니다.</span>
    </div>
</div>

</body>
</html>
```

1. 마우스 오른쪽 버튼 -> 검사
2. 마우스 오른쪽 버튼 -> Copy -> CSS Selector
3. body > div > div.desc-line.second

### 3. style 태그 대신 style.css 파일에 정리해둘 수도 있습니다.
`<head>`에 추가해주세요.

```html
<link rel="stylesheet" href="style.css">
```



## 오늘 수업에 필요한 패키지를 설치해주세요
```
> pip install beautifulsoup4
> pip install requests
> pip install urllib3
```

개발 도중 사용법에 대해 궁금한 것들이 있으면 Document를 참고해보세요.
- [beautifulsoup4](http://coreapython.hosting.paran.com/etc/beautifulsoup4.html): HTML로 부터 데이터를 뽑아내기 위한 라이브러리입니다.
- [requests](http://docs.python-requests.org/en/master/): requests.get을 통해 HTML을 받아올 수 있습니다.
- [urllib3](https://urllib3.readthedocs.org/en/latest/): HTTP 통신을 도와주는 패키지입니다.

In [17]:
# 뷰티플수프는 HTML에서 원하는 데이터를 쉽게 뽑아낼 수 있는 파이썬 라이브러리입니다.
from bs4 import BeautifulSoup as bs

In [18]:
# 우리가 만든 index.html부터 살펴봅시다.
soup = bs(open('./index.html'))

In [19]:
# soup 객체로부터 쉽게 parsing된 데이터들을 받아올 수 있습니다.

# title 태그를 받아옵니다.
print soup.title

# 태그 이름을 받아옵니다.
print soup.title.name

# 태그 내 문자열을 가져옵니다.
print soup.title.text

# 부모 태그를 가져옵니다.
print soup.title.parent.name

# p 태그를 가져옵니다.
print soup.p

<title>파이썬 클래스</title>
title
파이썬 클래스
head
<p>오늘은 <b id="crawling">크롤링</b>에 대해 배우고 있습니다.</p>


In [20]:
# 모든 a 태그 가져오기
print soup.find_all('a')

[<a href="https://en.wikipedia.org/wiki/Web_crawler">위키피디아</a>, <a href="http://www.w3schools.com/html/">w3school 페이지에서 HTML, CSS에 대해 알아볼 수 있어요</a>]


In [21]:
# 클래스명으로 가져오기
print soup.select('.desc-box')

# id로 가져오기
print soup.select('#desc-important')

# CSS path로 가져오기
print soup.select('body > div > div.desc-line.first > span')

# 속성(attr)으로 가져오기
print soup.findAll('a', {'href': 'http://www.w3schools.com/html/'})

# 클래스명도 속성 중 하나이기 때문에 이런식으로 가져올 수 있습니다.
print soup.findAll('div', {'class': 'desc-line'})

[<div class="desc-box">
<p>오늘은 <b id="crawling">크롤링</b>에 대해 배우고 있습니다.</p>
<div>
<img src="http://movement-as-medicine.com/wp-content/uploads/2014/01/baby-crawling.jpg"/>
</div>
<span>크롤링에 대한 자세한 정의는 <a href="https://en.wikipedia.org/wiki/Web_crawler">위키피디아</a>를 참고해보세요.</span>
<div class="desc-line first">
<span>웹 크롤링을 하려면 html과 css에 대해 먼저 알아야 합니다.</span>
<a href="http://www.w3schools.com/html/">w3school 페이지에서 HTML, CSS에 대해 알아볼 수 있어요</a>
</div>
<div class="desc-line second">
<span><b id="desc-important">Javascript</b>는 웹페이지를 동적으로 만들어주는 역할을 합니다.</span>
</div>
</div>]
[<b id="desc-important">Javascript</b>]
[<span>웹 크롤링을 하려면 html과 css에 대해 먼저 알아야 합니다.</span>]
[<a href="http://www.w3schools.com/html/">w3school 페이지에서 HTML, CSS에 대해 알아볼 수 있어요</a>]
[<div class="desc-line first">
<span>웹 크롤링을 하려면 html과 css에 대해 먼저 알아야 합니다.</span>
<a href="http://www.w3schools.com/html/">w3school 페이지에서 HTML, CSS에 대해 알아볼 수 있어요</a>
</div>, <div class="desc-line second">
<span><b id="desc-important">Javascript</b>는 웹

In [22]:
# 자, 이제 필요한 HTML 태그를 뽑는 것 까지 가능합니다. 
# 태그 안에 속성(src, href 등)이나 text를 뽑아내는 방법에 대해 알아봅시다. 

# text만 뽑아내기
second_line = soup.select('.desc-line.second')
print second_line[0].text

# a 태그 href 뽑아내기
a_tag = soup.select('body > div > span > a')
print a_tag[0].attrs
print a_tag[0]['href']

# img 태그 src 뽑아내기
image_tag = soup.select('img')
print image_tag[0].attrs
print image_tag[0]['src']


Javascript는 웹페이지를 동적으로 만들어주는 역할을 합니다.

{'href': 'https://en.wikipedia.org/wiki/Web_crawler'}
https://en.wikipedia.org/wiki/Web_crawler
{'src': 'http://movement-as-medicine.com/wp-content/uploads/2014/01/baby-crawling.jpg'}
http://movement-as-medicine.com/wp-content/uploads/2014/01/baby-crawling.jpg


이제 **beautifulsoup 기본기**는 닦은 것 같습니다. **requests** 라이브러리를 사용해 월드 와이드 웹 세상의 html을 받아옵시다.

In [23]:
# pip를 통해 설치한 requests를 import합니다.
import requests

In [54]:
# 무료 이미지들을 크롤링해봅시다.
res = requests.get('https://pixabay.com/en/')

# dir()은 해당 객체의 사용 가능한 속성(attributes)를 list로 리턴해줍니다.
# print dir(res) 

# HTTP 요청을 보내면 응답으로 Status Code가 오게 됩니다.
# 200: 성공
# 404: 페이지 없음
# 500: 서버 오류
# => https://ko.wikipedia.org/wiki/HTTP_%EC%83%81%ED%83%9C_%EC%BD%94%EB%93%9C

# HTTP란 WWW에서 사용하는 약속(protocol)입니다. 
# 여러분들의 컴퓨터(클라이언트)와 네이버의 컴퓨터(서버)가 통신을 하는데 있어, 
# '어떤 메시지 형식으로 주고 받을 것이다.'하고 약속을 하고 0101..의 이진수를 주고 받는 것 이지요.
# 이러한 약속을 미리 공유하고 있어야 메시지를 올바르게 해석할 수 있습니다.

# 200번이면 성공적으로 잘 받아온겁니다.
print res.status_code
# print res.text

200


In [27]:
# bs(open('./index.html')) 했던 것 처럼, index.html 자리에 res.text를 넣어줍니다.
# python에서 open은 파일을 읽거나 쓸때 사용됩니다.
# 여기서 open 또한 index.html '파일'을 읽어오기 위해 사용된 것입니다.
# res.text는 그 자체가 html이므로 open을 사용할 필요가 없습니다.
pixabay_html = bs(res.text)

# 메인 페이지의 이미지를 받아서, 로컬 컴퓨터에 저장해보세요.
# 이미지를 로컬 컴퓨터에 다운받으려면 urllib 라이브러리를 사용하면 됩니다.
# pip install urllib3
import urllib
def download_image(img_src, filename):
    res = urllib.urlretrieve(img_src, filename)
    return res

In [33]:
# pixabay.com에서 이미지 크롤링해오기
def crawl_image():
    res = requests.get('https://pixabay.com/en/')
    
    if res.status_code == 200:
        soup = bs(res.text)
        images = soup.select('#gallery > div.flex_grid.credits > div > a > img')
        
        for image in images:
            # 속성 출력하기
            print image.attrs
            
            # 속성 중 이미지 src 가져와서 이미지 full url을 만듭니다.
            image_url = "https://pixabay.com" + image.attrs['src']
            filename = image_url.split('/')[-1]
            
            print image_url, filename
            
            # 로컬 컴퓨터에 이미지 다운로드 받기
            download_image(image_url, filename)   

crawl_image()

{'src': '/static/uploads/photo/2015/11/23/11/57/hot-chocolate-1058197__340.jpg', 'alt': '', 'srcset': '/static/uploads/photo/2015/11/23/11/57/hot-chocolate-1058197__340.jpg 1x, /static/uploads/photo/2015/11/23/11/57/hot-chocolate-1058197_640.jpg 2x'}
https://pixabay.com/static/uploads/photo/2015/11/23/11/57/hot-chocolate-1058197__340.jpg hot-chocolate-1058197__340.jpg


## imdb에서 영화 정보 크롤링해보기

타겟 URL: http://www.imdb.com/movies-coming-soon/2016-01/

이곳에 들어가면 영화 제목, 장르, 평점, 감독, 배우 등의 정보가 있습니다. URL도 2015-01, 2015-02.. 이런식으로 바꿀 수 있습니다. 우선 2016-01 영화 정보를 함께 크롤링해봅시다.

In [42]:
# 2015-01 ~ 2015-12까지 순회하며 크롤링을 할 것이므로, url 파라미터를 받는 함수를 만듭니다.
def movie_crawler(url):
    res = requests.get(url)

    # 예상치 못하게 404나 500을 받았는데, html을 파싱하려고 하면
    # 에러가 발생하므로, 200(성공)일때만 코드가 실행되도록 합니다.
    if res.status_code == 200:
        soup = bs(res.text)

        #
        # titles = soup.select('#main > div > div.list.detail > div > table > tbody > tr > td.overview-top > h4 > a')
        # images = soup.select('#img_primary > div > a > div > img')
        #
        # 이렇게 전체 html에서 titles(제목들), images(포스터 이미지들)를 가져오는 대신
        # 하나의 movie 정보를 감싸고 있는 div 태그를 가져온 다음
        # 그 안에 있는 포스터 이미지, 영화 제목, 평점 등을 가져오면
        # for문을 한번만 돌아도됩니다!

        # 이렇게 css selector를 가지고 받아올 수도 있고
        movies = soup.select('#main > div > div.list.detail > div')
        # 이렇게 속성을 가지고 받아올 수도 있습니다.
        movies = soup.findAll('div', {'itemtype': 'http://schema.org/Movie'})

        # title, image, running_time, score, genre, directors, actors 순으로 넣겠습니다.
        table = []
        for movie in movies:
            row = []

            title = movie.findAll('h4', {'itemprop': 'name'})
            image = movie.findAll('img', {'itemprop': 'image'})
            running_time = movie.findAll('time', {'itemprop': 'duration'})
            score = movie.select('div.rating_txt > div > strong')
            genres = movie.findAll('span', {'itemprop': 'genre'})
            directors = movie.findAll('span', {'itemprop': 'director'})
            actors = movie.findAll('span', {'itemprop': 'actors'})


            # strip()은 앞뒤 공백을 지워줍니다.
            # title가 빈 리스트([])인데, title[0]를 하면 index out of range 에러가 납니다.
            # 에러가 나는 것을 방지해주기 위해서 뒤에 len(title)이 0보다 클때만 title[0]를 하게 하고
            # 아니면 "" 빈 스트링을 row에 append 합니다.
            row.append(title[0].text.strip() if len(title)>0 else "")
            row.append(image[0]['src'].strip() if len(image)>0 else "")
            row.append(running_time[0].text.strip() if len(running_time)>0 else "")
            row.append(score[0].text.strip() if len(score)>0 else "")
            
            # genre, director, actor는 여러명인 경우가 있기 때문에 list로 받아옵니다.
            row.append([genre.text.strip() for genre in genres])
            row.append([director.text.strip() for director in directors])
            row.append([actor.text.strip() for actor in actors])

            # 예상대로라면
            # row <= [u'The Woman in Black 2: Angel of Death (2014)', 'http://ia.media-imdb.com/images/M/MV5BMTgxMjUyNTAxNF5BMl5BanBnXkFtZTgwNTk4MDUyMzE@._V1_UY209_CR0,0,140,209_AL_.jpg', u'98 min', u'42', [u'Drama', u'Horror', u'Thriller'], [u'Tom Harper'], [u'Helen McCrory', u'Jeremy Irvine', u'Phoebe Fox', u'Leanne Best']]
            # print row
    
            table.append(row)

        return table

jan_2015 = movie_crawler('http://www.imdb.com/movies-coming-soon/2015-01')
# print jan_2015[0]

In [43]:
# 그러면 이제 2015-01부터 2015-12까지 영화정보를 긁어봅시다.
target_url = 'http://www.imdb.com/movies-coming-soon/{0}'
movie_total = []
for i in range(1,13):
    # string.zfill(2)을 사용해보세요. zero padding이 생깁니다.
    date = "2015-" + str(i).zfill(2)
    print target_url.format(date) + " crawling.."
    movie_total += movie_crawler(target_url.format(date))

http://www.imdb.com/movies-coming-soon/2015-01 crawling..
http://www.imdb.com/movies-coming-soon/2015-02 crawling..
http://www.imdb.com/movies-coming-soon/2015-03 crawling..
http://www.imdb.com/movies-coming-soon/2015-04 crawling..
http://www.imdb.com/movies-coming-soon/2015-05 crawling..
http://www.imdb.com/movies-coming-soon/2015-06 crawling..
http://www.imdb.com/movies-coming-soon/2015-07 crawling..
http://www.imdb.com/movies-coming-soon/2015-08 crawling..
http://www.imdb.com/movies-coming-soon/2015-09 crawling..
http://www.imdb.com/movies-coming-soon/2015-10 crawling..
http://www.imdb.com/movies-coming-soon/2015-11 crawling..
http://www.imdb.com/movies-coming-soon/2015-12 crawling..


In [53]:
print "총" + str(len(movie_total)) + "개의 영화 정보를 크롤링했습니다."

# 3개만 출력해봅시다.
for i in range(0,3):
    print "========================================"
    print movie_total[i]

총389개의 영화 정보를 크롤링했습니다.
[u'The Woman in Black 2: Angel of Death (2014)', 'http://ia.media-imdb.com/images/M/MV5BMTgxMjUyNTAxNF5BMl5BanBnXkFtZTgwNTk4MDUyMzE@._V1_UY209_CR0,0,140,209_AL_.jpg', u'98 min', u'42', [u'Drama', u'Horror', u'Thriller'], [u'Tom Harper'], [u'Helen McCrory', u'Jeremy Irvine', u'Phoebe Fox', u'Leanne Best']]
[u'A Most Violent Year (2014)', 'http://ia.media-imdb.com/images/M/MV5BMjE4OTY4ODg3Ml5BMl5BanBnXkFtZTgwMTI1MTg1MzE@._V1_UY209_CR0,0,140,209_AL_.jpg', u'125 min', u'79', [u'Action', u'Crime', u'Drama', u'Thriller'], [u'J.C. Chandor'], [u'Oscar Isaac', u'Jessica Chastain', u'David Oyelowo', u'Alessandro Nivola']]
[u'Leviafan (2014)', 'http://ia.media-imdb.com/images/M/MV5BMjAwMTY3MTU0Ml5BMl5BanBnXkFtZTgwNzE0ODAwMzE@._V1_UY209_CR0,0,140,209_AL_.jpg', u'140 min', u'92', [u'Drama'], [u'Andrey Zvyagintsev'], [u'Aleksey Serebryakov', u'Elena Lyadova', u'Roman Madyanov', u'Vladimir Vdovichenkov']]


최종적인 결과물은 아래와 같이 2차원 배열 형태입니다.


```python
movie_total = [
 ['영화 제목1', '포스터 이미지1', '...'],
 ['영화 제목2', '포스터 이미지2', '...'],
 ['영화 제목3', '포스터 이미지3', '...'],
 '...'
]
```

다음 시간에는 이 데이터를 csv 파일로 export하고, Pandas, Numpy 라이브러리 활용법에 대해 알아보겠습니다.