# 데이터 수집

데이터를 수집하는 방법은 여러가지가 있습니다. csv(comma seperated values)나 엑셀과 같이 이미 정리된 파일 형식으로 데이터를 얻을 수도 있고, Database나 API를 통해 얻을수도 있지만, 오늘은 **웹 크롤링**을 통해 데이터를 수집하는 방법에 대해서 배워보겠습니다. Web crawling은 Web scraping라고도 말하는데, 위키피디아에 따르면 **'조직적이고 자동화된 방법으로 월드 와이드 웹을 탐색하는 방법’**이라고 나와있네요. HTML 파일을 긁어서 필요한 정보들만 뽑아 csv 파일로 저장하는 방법에 대해 배워보겠습니다.

웹사이트 크롤링을 하기 위해선 **우선 웹사이트를 구성하고 있는 HTML, CSS**에 대한 기본적인 지식이 필요합니다.

## 오늘 수업에 필요한 패키지를 설치해주세요
```
> pip install beautifulsoup4
> pip install requests
> pip install numpy
> pip install pandas
```

개발 도중 사용법에 대해 궁금한 것들이 있으면 Document를 참고해보세요.
- [beautifulsoup4](http://coreapython.hosting.paran.com/etc/beautifulsoup4.html): HTML로 부터 데이터를 뽑아내기 위한 라이브러리입니다.
- [requests](http://docs.python-requests.org/en/master/): requests.get을 통해 HTML을 받아올 수 있습니다.
- [numpy](http://www.numpy.org/): numpy 패키지는 ndarray라는 파워풀한 자료구조를 지원하며, 각종 수치 컴퓨팅 관련 메소드를 지원합니다.
- [pandas](http://pandas.pydata.org/): 데이터 분석 라이브러리입니다.

## HTML과 CSS에 대한 기본 지식
- [W3School](http://www.w3schools.com/html/)
- [codeacademy](https://www.codecademy.com/learn/web)

### 1. 파이참에서 index.html파일을 만들어봅시다.

```html
<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Title</title>
</head>
<body>

</body>
</html>
```

### 2. 바꿔봅시다!

```html
<!DOCTYPE html>
<html>
<head>
    <meta charset="UTF-8">
    <title>파이썬 클래스</title>
    <style>
        body {
            background-color: #d0e4fe;
        }

        h1 {
            color: orange;
            text-align: center;
        }

        .desc-box {
            text-align: center;
        }

        #desc-important {
            color: blue;
        }
    </style>
</head>
<body>

<h1>파이썬 2016 클래스입니다.</h1>

<div class="desc-box">
    <p>오늘은 <b id="crawling">크롤링</b>에 대해 배우고 있습니다.</p>

    <div>
        <img src="http://movement-as-medicine.com/wp-content/uploads/2014/01/baby-crawling.jpg"/>
    </div>

    <span>크롤링에 대한 자세한 정의는 <a href="https://en.wikipedia.org/wiki/Web_crawler">위키피디아</a>를 참고해보세요.</span>

    <div class="desc-line first">
        <span>웹 크롤링을 하려면 html과 css에 대해 먼저 알아야 합니다.</span>
        <a href="http://www.w3schools.com/html/">w3school 페이지에서 HTML, CSS에 대해 알아볼 수 있어요</a>
    </div>
    <div class="desc-line second">
        <span><b id="desc-important">Javascript</b>는 웹페이지를 동적으로 만들어주는 역할을 합니다.</span>
    </div>
</div>

</body>
</html>
```

1. 마우스 오른쪽 버튼 -> 검사
2. 마우스 오른쪽 버튼 -> Copy -> CSS Selector
3. body > div > div.desc-line.second

### 3. style 태그 대신 style.css 파일에 정리해둘 수도 있습니다.
`<head>`에 추가해주세요.

```html
<link rel="stylesheet" href="style.css">
```



In [481]:
# 뷰티플수프는 HTML에서 원하는 데이터를 쉽게 뽑아낼 수 있는 파이썬 라이브러리입니다.
from bs4 import BeautifulSoup as bs

In [482]:
# 우리가 만든 index.html부터 살펴봅시다.
soup = bs(open('./index.html'))

In [483]:
# soup 객체로부터 쉽게 parsing된 데이터들을 받아올 수 있습니다.
print soup.title
print soup.title.name
print soup.title.string
print soup.title.parent.name
print soup.p

<title>파이썬 클래스</title>
title
파이썬 클래스
head
<p>오늘은 <b id="crawling">크롤링</b>에 대해 배우고 있습니다.</p>


In [484]:
# 모든 div 태그 가져오기
print soup.find_all('div')

[<div class="desc-box">
<p>오늘은 <b id="crawling">크롤링</b>에 대해 배우고 있습니다.</p>
<div>
<img src="http://movement-as-medicine.com/wp-content/uploads/2014/01/baby-crawling.jpg"/>
</div>
<span>크롤링에 대한 자세한 정의는 <a href="https://en.wikipedia.org/wiki/Web_crawler">위키피디아</a>를 참고해보세요.</span>
<div class="desc-line first">
<span>웹 크롤링을 하려면 html과 css에 대해 먼저 알아야 합니다.</span>
<a href="http://www.w3schools.com/html/">w3school 페이지에서 HTML, CSS에 대해 알아볼 수 있어요</a>
</div>
<div class="desc-line second">
<span><b id="desc-important">Javascript</b>는 웹페이지를 동적으로 만들어주는 역할을 합니다.</span>
</div>
</div>, <div>
<img src="http://movement-as-medicine.com/wp-content/uploads/2014/01/baby-crawling.jpg"/>
</div>, <div class="desc-line first">
<span>웹 크롤링을 하려면 html과 css에 대해 먼저 알아야 합니다.</span>
<a href="http://www.w3schools.com/html/">w3school 페이지에서 HTML, CSS에 대해 알아볼 수 있어요</a>
</div>, <div class="desc-line second">
<span><b id="desc-important">Javascript</b>는 웹페이지를 동적으로 만들어주는 역할을 합니다.</span>
</div>]


In [500]:
# 클래스명으로 가져오기
print soup.select('.desc-box')

# id로 가져오기
print soup.select('#desc-important')

# CSS path로 가져오기
print soup.select('body > div > div.desc-line.first > span')

# 속성(attr)으로 가져오기
print soup.findAll('a', {'href': 'http://www.w3schools.com/html/'})

# 클래스명도 속성 중 하나이기 때문에 이런식으로 가져올 수 있습니다.
print soup.findAll('div', {'class': 'desc-line'})

[<div class="desc-box">
<p>오늘은 <b id="crawling">크롤링</b>에 대해 배우고 있습니다.</p>
<div>
<img src="http://movement-as-medicine.com/wp-content/uploads/2014/01/baby-crawling.jpg"/>
</div>
<span>크롤링에 대한 자세한 정의는 <a href="https://en.wikipedia.org/wiki/Web_crawler">위키피디아</a>를 참고해보세요.</span>
<div class="desc-line first">
<span>웹 크롤링을 하려면 html과 css에 대해 먼저 알아야 합니다.</span>
<a href="http://www.w3schools.com/html/">w3school 페이지에서 HTML, CSS에 대해 알아볼 수 있어요</a>
</div>
<div class="desc-line second">
<span><b id="desc-important">Javascript</b>는 웹페이지를 동적으로 만들어주는 역할을 합니다.</span>
</div>
</div>]
[<b id="desc-important">Javascript</b>]
[<span>웹 크롤링을 하려면 html과 css에 대해 먼저 알아야 합니다.</span>]
[<a href="http://www.w3schools.com/html/">w3school 페이지에서 HTML, CSS에 대해 알아볼 수 있어요</a>]
[<div class="desc-line first">
<span>웹 크롤링을 하려면 html과 css에 대해 먼저 알아야 합니다.</span>
<a href="http://www.w3schools.com/html/">w3school 페이지에서 HTML, CSS에 대해 알아볼 수 있어요</a>
</div>, <div class="desc-line second">
<span><b id="desc-important">Javascript</b>는 웹

In [506]:
# 자, 이제 필요한 HTML 태그를 뽑는 것 까지 가능합니다. 
# 태그 안에 속성(src, href 등)이나 text를 뽑아내는 방법에 대해 알아봅시다. 

# text만 뽑아내기
second_line = soup.select('.desc-line.second')
print second_line[0].text

# a 태그 href 뽑아내기
a_tag = soup.select('body > div > span > a')
print a_tag[0].attrs
print a_tag[0]['href']

# img 태그 src 뽑아내기
image_tag = soup.select('img')
print image_tag[0].attrs
print image_tag[0]['src']


Javascript는 웹페이지를 동적으로 만들어주는 역할을 합니다.

{'href': 'https://en.wikipedia.org/wiki/Web_crawler'}
https://en.wikipedia.org/wiki/Web_crawler
{'src': 'http://movement-as-medicine.com/wp-content/uploads/2014/01/baby-crawling.jpg'}
http://movement-as-medicine.com/wp-content/uploads/2014/01/baby-crawling.jpg


이제 **beautifulsoup 기본기**는 닦은 것 같습니다. **requests** 라이브러리를 사용해 월드 와이드 웹 세상의 html을 받아옵시다.

In [508]:
# pip를 통해 설치한 requests를 import합니다.
import requests

In [543]:
# 무료 이미지들을 크롤링해봅시다.
res = requests.get('https://pixabay.com/en/')

# dir()은 해당 객체의 사용 가능한 속성(attributes)를 list로 리턴해줍니다.
print dir(res) 

# HTTP 요청을 보내면 응답으로 Status Code가 오게 됩니다.
# 200: 성공
# 404: 페이지 없음
# 500: 서버 오류
# => https://ko.wikipedia.org/wiki/HTTP_%EC%83%81%ED%83%9C_%EC%BD%94%EB%93%9C

# 200번이면 성공적으로 잘 받아온겁니다.
print res.status_code

['__attrs__', '__bool__', '__class__', '__delattr__', '__dict__', '__doc__', '__format__', '__getattribute__', '__getstate__', '__hash__', '__init__', '__iter__', '__module__', '__new__', '__nonzero__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__setstate__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', '_content', '_content_consumed', 'apparent_encoding', 'close', 'connection', 'content', 'cookies', 'elapsed', 'encoding', 'headers', 'history', 'is_redirect', 'iter_content', 'iter_lines', 'json', 'links', 'ok', 'raise_for_status', 'raw', 'reason', 'request', 'status_code', 'text', 'url']
200


In [544]:
# bs(open('./index.html')) 했던 것 처럼, index.html 자리에 res.text를 넣어줍니다.
pixabay_html = bs(res.text)

# 메인 페이지의 이미지를 받아서, 로컬 컴퓨터에 저장해보세요.
# 이미지를 로컬 컴퓨터에 다운받으려면 urllib 라이브러리를 사용하면 됩니다.
import urllib
def download_image(img_src, filename):
    res = urllib.urlretrieve(img_src, filename)
    return res

## imdb에서 영화 정보 크롤링해보기

타겟 URL: http://www.imdb.com/movies-coming-soon/2016-01/

이곳에 들어가면 영화 제목, 장르, 평점, 감독, 배우 등의 정보가 있습니다. URL도 2015-01, 2015-02.. 이런식으로 바꿀 수 있습니다. 우선 2016-01 영화 정보를 함께 크롤링해봅시다.

In [656]:
# page를 순회하며 계속해서 사용할 코드이므로, 함수로 만들어봅시다.
def movie_crawler(url):
    res = requests.get(url)
    
    # status code를 확인하여, page가 없는 경우를 대비합니다.
    if res.status_code == 200:
        movie_html = bs(res.text)
    else:
        print 'error'
        return
        
    movies = movie_html.select('#main > div > div.list.detail > div')
    
    # title, image, running_time, score, genre, directors, actors
    # director와 actor는 여러명인 경우가 있는데 "/".join() 메소드를 사용하여, 하나로 묶어줍니다.
    table = []
    for movie in movies:
        row = []
        
        title = movie.select('table > tbody > tr > td.overview-top > h4 > a')
        image = movie.select('#img_primary > div > a > div > img')
        running_time = movie.select('table > tbody > tr:nth-of-type(1) > td.overview-top > p > time')
        score = movie.select('table > tbody > tr:nth-of-type(1) > td.overview-top > div.rating_txt > div > strong')
        genre = movie.findAll('span', {'itemprop': 'genre'})
        directors = movie.findAll('span', {'itemprop': 'director'})
        actors = movie.findAll('span', {'itemprop': 'actors'})
        
        # strip()은 앞뒤 공백을 지워줍니다.
        row.append(title[0].text.strip() if len(title)>0 else "")
        row.append(image[0]['src'].strip() if len(image)>0 else "")
        row.append(running_time[0].text.strip() if len(running_time)>0 else "")
        row.append(score[0].text.strip() if len(score)>0 else "")
        row.append(genre[0].text.strip() if len(genre)>0 else "")
#         row.append("/".join([director.text.strip() + "(" + director.select('a')[0]['href'] + ")" \
#                              for director in directors]) if len(directors)>0 else "")
#         row.append("/".join([actor.text.strip() + "(" + actor.select('a')[0]['href'] + ")" \
#                              for actor in actors]) if len(actors)>0 else "")
        
        row.append([director.text.strip() + "(" + director.select('a')[0]['href'] + ")" \
                             for director in directors] if len(directors)>0 else "")
        row.append([actor.text.strip() + "(" + actor.select('a')[0]['href'] + ")" \
                             for actor in actors] if len(actors)>0 else "")

        table.append(row)
        
    return table


In [642]:
jan_2016 = movie_crawler('http://www.imdb.com/movies-coming-soon/2016-01')

In [644]:
# 그러면 이제 2015-01부터 2015-12까지 영화정보를 긁어봅시다.
target_url = 'http://www.imdb.com/movies-coming-soon/{0}'
movie_total = []
for i in range(1,13):
    # string.zfill(2)을 사용해보세요. zero padding이 생깁니다.
    print "2015-" + str(i).zfill(2) + " crawling.."
    movie_total += movie_crawler(target_url.format("2015-" + str(i).zfill(2)))

2015-01 crawling..
2015-02 crawling..
2015-03 crawling..
2015-04 crawling..
2015-05 crawling..
2015-06 crawling..
2015-07 crawling..
2015-08 crawling..
2015-09 crawling..
2015-10 crawling..
2015-11 crawling..
2015-12 crawling..


In [645]:
# 2016-01 데이터도 추가해줍시다.
movie_total += jan_2016

In [646]:
print len(movie_total)
print movie_total[0]

421
[u'The Woman in Black 2: Angel of Death (2014)', 'http://ia.media-imdb.com/images/M/MV5BMTgxMjUyNTAxNF5BMl5BanBnXkFtZTgwNTk4MDUyMzE@._V1_UY209_CR0,0,140,209_AL_.jpg', u'98 min', u'42', u'Drama', [u'Tom Harper(/name/nm2197777/?ref_=cs_ov_nm)'], [u'Helen McCrory(/name/nm0567031/?ref_=cs_ov_nm)', u'Jeremy Irvine(/name/nm3528539/?ref_=cs_ov_nm)', u'Phoebe Fox(/name/nm4555381/?ref_=cs_ov_nm)', u'Leanne Best(/name/nm1569065/?ref_=cs_ov_nm)']]


In [647]:
# csv 파일로 바꿔봅시다. 
import csv

In [654]:
# https://docs.python.org/2/library/csv.html#csv.reader
# qoutechar, qouting 옵션이 뭔지 직접 해봅시다.
with open('movie_info.csv', 'wb') as csvfile:
    movie_writer = csv.writer(csvfile, delimiter=',',
                            quotechar='|', quoting=csv.QUOTE_MINIMAL)
    movie_writer.writerows([[item.encode('utf-8') for item in row] for row in movie_total])

AttributeError: 'list' object has no attribute 'encode'

In [621]:
# 저장된 csv 파일을 읽고, print 찍어봅시다.
with open('movie_info.csv', 'rb') as csvfile:
    movie_reader = csv.reader(csvfile, delimiter=',', quotechar='|')
    for row in movie_reader:
        print row

['The Woman in Black 2: Angel of Death (2014)', 'http://ia.media-imdb.com/images/M/MV5BMTgxMjUyNTAxNF5BMl5BanBnXkFtZTgwNTk4MDUyMzE@._V1_UY209_CR0,0,140,209_AL_.jpg', '98 min', '42', 'Drama', 'Tom Harper(/name/nm2197777/?ref_=cs_ov_nm)', 'Helen McCrory(/name/nm0567031/?ref_=cs_ov_nm)/Jeremy Irvine(/name/nm3528539/?ref_=cs_ov_nm)/Phoebe Fox(/name/nm4555381/?ref_=cs_ov_nm)/Leanne Best(/name/nm1569065/?ref_=cs_ov_nm)']
['A Most Violent Year (2014)', 'http://ia.media-imdb.com/images/M/MV5BMjE4OTY4ODg3Ml5BMl5BanBnXkFtZTgwMTI1MTg1MzE@._V1_UY209_CR0,0,140,209_AL_.jpg', '125 min', '79', 'Action', 'J.C. Chandor(/name/nm1170855/?ref_=cs_ov_nm)', 'Oscar Isaac(/name/nm1209966/?ref_=cs_ov_nm)/Jessica Chastain(/name/nm1567113/?ref_=cs_ov_nm)/David Oyelowo(/name/nm0654648/?ref_=cs_ov_nm)/Alessandro Nivola(/name/nm0005273/?ref_=cs_ov_nm)']
['Leviafan (2014)', 'http://ia.media-imdb.com/images/M/MV5BMjAwMTY3MTU0Ml5BMl5BanBnXkFtZTgwNzE0ODAwMzE@._V1_UY209_CR0,0,140,209_AL_.jpg', '140 min', '92', 'Drama', '

In [649]:
# 자, 이제 파이썬 데이터 분석툴 pandas 소개합니다.
from pandas import DataFrame

In [665]:
movie_df = DataFrame(movie_total, columns=['title', 'image', 'running time', 'score', 'genre', 'directors', 'actors'])

In [666]:
movie_df

Unnamed: 0,title,image,running time,score,genre,directors,actors
0,The Woman in Black 2: Angel of Death (2014),http://ia.media-imdb.com/images/M/MV5BMTgxMjUy...,98 min,42,Drama,[Tom Harper(/name/nm2197777/?ref_=cs_ov_nm)],[Helen McCrory(/name/nm0567031/?ref_=cs_ov_nm)...
1,A Most Violent Year (2014),http://ia.media-imdb.com/images/M/MV5BMjE4OTY4...,125 min,79,Action,[J.C. Chandor(/name/nm1170855/?ref_=cs_ov_nm)],"[Oscar Isaac(/name/nm1209966/?ref_=cs_ov_nm), ..."
2,Leviafan (2014),http://ia.media-imdb.com/images/M/MV5BMjAwMTY3...,140 min,92,Drama,[Andrey Zvyagintsev(/name/nm1168657/?ref_=cs_o...,[Aleksey Serebryakov(/name/nm0148516/?ref_=cs_...
3,[REC] 4: Apocalipsis (2014),http://ia.media-imdb.com/images/M/MV5BOTU3OTU2...,95 min,53,Action,[Jaume Balagueró(/name/nm0049371/?ref_=cs_ov_nm)],[Manuela Velasco(/name/nm0892299/?ref_=cs_ov_n...
4,The Search for General Tso (2014),http://ia.media-imdb.com/images/M/MV5BODc5MzA4...,71 min,72,Documentary,[Ian Cheney(/name/nm2782976/?ref_=cs_ov_nm)],[Ian Cheney(/name/nm2782976/?ref_=cs_ov_nm)]
5,Taken 3 (2014),http://ia.media-imdb.com/images/M/MV5BNjM5MDU3...,109 min,26,Action,[Olivier Megaton(/name/nm0576298/?ref_=cs_ov_nm)],"[Liam Neeson(/name/nm0000553/?ref_=cs_ov_nm), ..."
6,Die geliebten Schwestern (2014),http://ia.media-imdb.com/images/M/MV5BMTY2MjMx...,138 min,66,Drama,[Dominik Graf(/name/nm0333705/?ref_=cs_ov_nm)],[Hannah Herzsprung(/name/nm0381342/?ref_=cs_ov...
7,Boven is het stil (2013),http://ia.media-imdb.com/images/M/MV5BMTM4MDQ4...,93 min,72,Drama,[Nanouk Leopold(/name/nm0007066/?ref_=cs_ov_nm)],[Jeroen Willems(/name/nm0929731/?ref_=cs_ov_nm...
8,Paddington (2014),http://ia.media-imdb.com/images/M/MV5BMTAxOTMw...,95 min,77,Comedy,[Paul King(/name/nm1653753/?ref_=cs_ov_nm)],[Hugh Bonneville(/name/nm0095017/?ref_=cs_ov_n...
9,The Wedding Ringer (2015),http://ia.media-imdb.com/images/M/MV5BMTk3MjQy...,101 min,35,Comedy,[Jeremy Garelick(/name/nm1275670/?ref_=cs_ov_nm)],"[Kevin Hart(/name/nm0366389/?ref_=cs_ov_nm), J..."


In [701]:
# csv format으로 저장하기 (encoding utf-8)
movie_df.to_csv('./movie_from_df.csv', encoding='utf-8', index=False)

## 해보기

url: http://www.imdb.com/search/name?birth_monthday=1-21&ref_=nm_ov_bth_monthday&refine=birth_monthday&start=51

자신의 생일과 같은 사람들 영화관계자 200명을 DataFrame으로 옮겨보고, csv 파일로도 저장해봅시다. (row => name, image, job, major_work)