# Scrapy

#### 다룰 내용
- Scrapy 개요
- xpath
    - xpath의 기본 문법
    - scrapy shell 환경에서 xpath
    - scrapy jupyter notebook xpath
    - 네이버 실시간 검색어, 다음실시간 검색어, 지마켓 베스트 200
- scrapy 프로젝트를 만들어서 크롤링
    - 네이버 영화 사이트에서 현재 상영영화 링크를 크롤링
    - 크롤링한 링크에서 영화 제목과 누적관객수 데이터를 크롤링
    - csv 파일로 저장

## 1. Scrapy
- 웹사이트에서 데이터 추출을 하기 위한 오픈소스 프레임워크 (패키지가 아님)
- http://scrapy.org
- 설치
    - windows: `conda install -c conda-forge scrapy`
    - mac: `pip3 install scrapy`

In [1]:
import scrapy

## 2. xpath
지금까지 배웠던 css selector가 아닌 xpath를 이용해서도 웹페이지의 html element를 선택할 수 있다.

### 2.1 xpath의 기본 문법
예시 xpath: 네이버 실시간 검색어 순위에서 [copy xpath]로 복사  
`//*[@id="PM_ID_ct"]/div[1]/div[2]/div[2]/div[1]/div/ul/li[1]/a/span[2]`
- `//`: 최상위 element를 의미
- `*`: 조건에 맞는 하위 element를 모두 살펴봄 (css selector에서 하위 element 검색: 한칸 띄우기)
- `[@id="PM_ID_ct"]`: id가 PM_ID_ct 인 element를 선택
    - `[@<key>=<value>]` 형태 (css selector와 다르게 모든 속성을 `@<key>`로 표현)
- `/`: 바로 아래 element를 살펴봄 (css selector의 `>` 기호와 같은 의미)
- `[number]`: number번째 element를 선택 (0번부터가 아니라 1번부터 시작함)
- `.`: 현재 element를 의미
- `not()`: 조건이 아닌 element를 찾음
    - `not([@id=test})`

### 2.2 네이버 실시간 검색어 크롤링

#### (1) 스크래피 셸 사용
- `$ scrapy shell "<url>"`

#### (2) jupyter notebook 사용

In [2]:
import requests
from scrapy.http import TextResponse

##### 웹페이지에 연결

In [3]:
url = "http://naver.com"
rep = requests.get(url)
response = TextResponse(rep.url, body=rep.text, encoding="utf-8")

##### 네이버 실시간 검색어 1위 element 객체
- xpath로 select하면 list로 return

In [4]:
response.xpath('//*[@id="PM_ID_ct"]/div[1]/div[2]/div[2]/div[1]/div/ul/li[1]/a/span[2]')

[<Selector xpath='//*[@id="PM_ID_ct"]/div[1]/div[2]/div[2]/div[1]/div/ul/li[1]/a/span[2]' data='<span class="ah_k">우왁굳</span>'>]

##### 네이버 실시간 검색어 20개 element 객체

In [5]:
# 네이버 실시간 검색어 20개 element 객체
response.xpath('//*[@id="PM_ID_ct"]/div[1]/div[2]/div[2]/div[1]/div/ul/li/a/span[2]')

[<Selector xpath='//*[@id="PM_ID_ct"]/div[1]/div[2]/div[2]/div[1]/div/ul/li/a/span[2]' data='<span class="ah_k">우왁굳</span>'>,
 <Selector xpath='//*[@id="PM_ID_ct"]/div[1]/div[2]/div[2]/div[1]/div/ul/li/a/span[2]' data='<span class="ah_k">홍현희</span>'>,
 <Selector xpath='//*[@id="PM_ID_ct"]/div[1]/div[2]/div[2]/div[1]/div/ul/li/a/span[2]' data='<span class="ah_k">김수현</span>'>,
 <Selector xpath='//*[@id="PM_ID_ct"]/div[1]/div[2]/div[2]/div[1]/div/ul/li/a/span[2]' data='<span class="ah_k">오영택</span>'>,
 <Selector xpath='//*[@id="PM_ID_ct"]/div[1]/div[2]/div[2]/div[1]/div/ul/li/a/span[2]' data='<span class="ah_k">미세먼지</span>'>,
 <Selector xpath='//*[@id="PM_ID_ct"]/div[1]/div[2]/div[2]/div[1]/div/ul/li/a/span[2]' data='<span class="ah_k">주윤발</span>'>,
 <Selector xpath='//*[@id="PM_ID_ct"]/div[1]/div[2]/div[2]/div[1]/div/ul/li/a/span[2]' data='<span class="ah_k">박지원</span>'>,
 <Selector xpath='//*[@id="PM_ID_ct"]/div[1]/div[2]/div[2]/div[1]/div/ul/li/a/span[2]' data='<span class="ah_k">환희유치원

##### 객체의 text만 추출하기

In [6]:
response.xpath('//*[@id="PM_ID_ct"]/div[1]/div[2]/div[2]/div[1]/div/ul/li/a/span[2]/text()')

[<Selector xpath='//*[@id="PM_ID_ct"]/div[1]/div[2]/div[2]/div[1]/div/ul/li/a/span[2]/text()' data='우왁굳'>,
 <Selector xpath='//*[@id="PM_ID_ct"]/div[1]/div[2]/div[2]/div[1]/div/ul/li/a/span[2]/text()' data='홍현희'>,
 <Selector xpath='//*[@id="PM_ID_ct"]/div[1]/div[2]/div[2]/div[1]/div/ul/li/a/span[2]/text()' data='김수현'>,
 <Selector xpath='//*[@id="PM_ID_ct"]/div[1]/div[2]/div[2]/div[1]/div/ul/li/a/span[2]/text()' data='오영택'>,
 <Selector xpath='//*[@id="PM_ID_ct"]/div[1]/div[2]/div[2]/div[1]/div/ul/li/a/span[2]/text()' data='미세먼지'>,
 <Selector xpath='//*[@id="PM_ID_ct"]/div[1]/div[2]/div[2]/div[1]/div/ul/li/a/span[2]/text()' data='주윤발'>,
 <Selector xpath='//*[@id="PM_ID_ct"]/div[1]/div[2]/div[2]/div[1]/div/ul/li/a/span[2]/text()' data='박지원'>,
 <Selector xpath='//*[@id="PM_ID_ct"]/div[1]/div[2]/div[2]/div[1]/div/ul/li/a/span[2]/text()' data='환희유치원'>,
 <Selector xpath='//*[@id="PM_ID_ct"]/div[1]/div[2]/div[2]/div[1]/div/ul/li/a/span[2]/text()' data='제이쓴'>,
 <Selector xpath='//*[@id="PM_ID_c

##### 문자열만 추출하기

In [7]:
response.xpath('//*[@id="PM_ID_ct"]/div[1]/div[2]/div[2]/div[1]/div/ul/li/a/span[2]/text()')[:10].extract()

['우왁굳', '홍현희', '김수현', '오영택', '미세먼지', '주윤발', '박지원', '환희유치원', '제이쓴', '동탄 환희유치원']

##### `.`을 이용해서 가져오기

In [8]:
keywords = response.xpath('//*[@id="PM_ID_ct"]/div[1]/div[2]/div[2]/div[1]/div/ul/li')

for keyword in keywords:
    print(keyword.xpath('./a/span[2]/text()')[0].extract())

우왁굳
홍현희
김수현
오영택
미세먼지
주윤발
박지원
환희유치원
제이쓴
동탄 환희유치원
브리짓 존스의 베이비
고현정
추상미
조현민
장학영
강병규
이한샘
자이언티
오늘 미세먼지 농도
존조


### 2.3 다음 실시간 검색어 크롤링

##### 다음 실시간 검색어 리스트 출력

In [9]:
url = "http://daum.net"
rep = requests.get(url)
response = TextResponse(rep.url, body=rep.text, encoding="utf-8")
response.xpath('//*[@id="mArticle"]/div[2]/div[1]/div[2]/div[1]/ol/li/div/div[1]/span[2]/a/text()').extract()

['박지원', '추상미', '우왁굳', '강예빈', '김수현 아나운서', '장학영', '환희유치원', '미세먼지', '존조', '서유정']

### 2.4 gmarket best item 200 크롤링

##### 웹페이지에 연결

In [10]:
url = "http://corners.gmarket.co.kr/Bestsellers"
rep = requests.get(url)
response = TextResponse(rep.url, body=rep.text, encoding="utf-8")

##### 베스트 200 아이템 제목 문자열 리스트로 가져오기

In [11]:
titles = response.xpath('//*[@id="gBestWrap"]/div/div[3]/div[2]/ul/li/a/text()').extract()
print(len(titles))
titles[195:199]

200


['일본수출 초극세사이불/백화점납품/ 피톤치드가공10mm',
 '제로스킨 아이폰 갤럭시 핸드폰케이스 6 7 8 X S 노트',
 '(국산)고급 반코팅 100켤레 이중코팅 면 목장갑 작업',
 '[다이소]공식판매처/택배박스/봉투/로고인쇄/당일발송/소량']

##### 200개 아이템에서 li 클래스가 first인 데이터만 가져오기
- 클래스가 first인 아이템은 한 줄에 4개씩 나타나는 상품 중 각 줄의 첫번째 상품

In [12]:
titles = response.xpath('//*[@id="gBestWrap"]/div/div[3]/div[2]/ul/li[@class="first"]/a/text()').extract()
len(titles)

50

##### 200개 아이템에서 li 클래스가 first가 아닌 데이터만 가져오기
- `not()`을 사용

In [13]:
titles = response.xpath('//*[@id="gBestWrap"]/div/div[3]/div[2]/ul/li[not(@class="first")]/a/text()').extract()
len(titles)

150

## 3. Scrapy project
- jupyter notebook이 아닌 atom에서 작성
- 네이버 영화 페이지에서 현재 상영되고 있는 영화의 제목과 관람객수를 크롤링

### 3.1 scrapy 프로젝트 생성
- project 생성: `$ scrapy startproject <name>'

In [14]:
! scrapy startproject crawler

New Scrapy project 'crawler', using template directory '/usr/local/lib/python3.6/site-packages/scrapy/templates/project', created in:
    /Users/hyeshinoh/Workspace/Study_Web/crawler

You can start your first spider with:
    cd crawler
    scrapy genspider example example.com


### 3.2 scrapy 프로젝트 파일 설명

In [15]:
! tree crawler

crawler
├── crawler
│   ├── __init__.py
│   ├── __pycache__
│   ├── items.py
│   ├── middlewares.py
│   ├── pipelines.py
│   ├── settings.py
│   └── spiders
│       ├── __init__.py
│       └── __pycache__
└── scrapy.cfg

4 directories, 7 files


#### project 구조
- spiders directory 
    - 어떤 웹사이트를 어떻게 크롤링할 것인가를 명시하고, 각각의 웹 페이지의 어떤 부분을 스크래핑할 것인지 명시하는 클래스가 모여있는 디렉토리
    - 여러개의 spider.py 파일을 만들어 사용할 수 있음
- items.py
    - 크롤링하는 데이터에 대해 정의하는 클래스가 있는 파일(MVC → M)
- pipelines.py
    - item 객체 형태로 크롤링을 하고 출력하기 전에 item을 받아서 실행하는 파일이 정의되어 있는 파일
    - item을 자유롭게 가공하거나 다양한 파일 형태로 저장할 수 있도록 하는 클래스
- settings.py
    - spider나 item pipeline 등이 어떻게 동작하게 할지에 대한 세부적 설정이 담겨 있는 파일 
    - e.g. robots.txt 정책을 따를 것인지 안 따를 것인지, pipeline을 사용할지 안 할지

### 3.3 크롤링 코드 작성

#### ※ yield

##### iterator와 generator
- iterator: 순서가 있는 데이터의 집합
- generator: 함수가 호출될 때마다 순서대로 결과가 나오는 집합
    - `return`으로 한번에 데이터를 return하는 것보다 `yield`로 하나씩 return하면 resource를 절약할 수 있음

In [17]:
# iterator data
ls = [1, 2, 3]

In [18]:
# generator data
def number():    # generator를 만드는 함수
    yield 1
    yield 2
    yield 3

In [19]:
n = number()
n

<generator object number at 0x11052c620>

In [20]:
n.__next__()

1

In [21]:
n.__next__()

2

In [22]:
n.__next__()

3

In [23]:
n.__next__()

StopIteration: 

#### (1) items.py

In [None]:
#######################################################################################

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class CrawlerItem(scrapy.Item):
    # define the fields for your item here like:
    title = scrapy.Field()
    count = scrapy.Field()
    pass

#######################################################################################

#### (2) spider.py
- 가장 먼저 실행되는 파일
- 기본적 변수
    - name: scrapy 명령어로 spider를 실행할 때 argument로 쓰는 name
    - domain: 크롤링할 domain
    - start_urls: 가장 먼저 크롤링을 시작할 (처음에 request를 던질) url

#### 크롤링 함수 작성
먼저, jupyter notebook 상에서 네이버 영화 페이지에서 현재 상영영화 링크 리스트 크롤링해본다.  
(jupyter notebook 상에서 크롤링이 제대로 되는지 확인해보고, 파이썬 파일로 작성하기 위함)

- 상영중인 영화 리스트 받아오기

In [24]:
url = "https://movie.naver.com/movie/running/current.nhn"
rep = requests.get(url)
response = TextResponse(rep.url, body=rep.text, encoding="utf-8")

In [27]:
links = response.xpath('//*[@id="content"]/div[1]/div[1]/div[3]/ul/li/dl/dt/a/@href')[:10].extract()
for link in links:
    print(response.urljoin(link))    # domain과 연결시켜줌

https://movie.naver.com/movie/bi/mi/basic.nhn?code=167105
https://movie.naver.com/movie/bi/mi/basic.nhn?code=119428
https://movie.naver.com/movie/bi/mi/basic.nhn?code=155356
https://movie.naver.com/movie/bi/mi/basic.nhn?code=168050
https://movie.naver.com/movie/bi/mi/basic.nhn?code=163533
https://movie.naver.com/movie/bi/mi/basic.nhn?code=168023
https://movie.naver.com/movie/bi/mi/basic.nhn?code=178402
https://movie.naver.com/movie/bi/mi/basic.nhn?code=164992
https://movie.naver.com/movie/bi/mi/basic.nhn?code=172040
https://movie.naver.com/movie/bi/mi/basic.nhn?code=97612


- 영화의 제목과 누적 관객수 받아오기

In [28]:
url = "https://movie.naver.com/movie/bi/mi/basic.nhn?code=159892"
rep = requests.get(url)
response = TextResponse(rep.url, body=rep.text, encoding="utf-8")

In [29]:
def parse_page_contents(self, response):
    item = CrawlerItem()
    item["title"] = response.xpath('//*[@id="content"]/div[1]/div[2]/div[1]/h3/a[1]/text()').extract()[0]
    try:
        item["count"] = response.xpath('//*[@id="content"]/div[1]/div[2]/div[1]/dl/dd[5]/div/p[2]/text()').extract()[0]
    except:
        item["count"] = "0명"
    yield item

#### nm_spider.py 작성

In [None]:
#######################################################################################

import scrapy
from crawler.items import CrawlerItem    # 위에서 작성한 items.py를 불러옴

# start_urls -> parse -> parse_page_contents 순으로 호출
class NaverMovieSpider(scrapy.Spider):    # scrapy.Spider 클래스를 상속 받음 (크롤링에 필요한 기능이 들어가 있음)
    name = "naver_movie"   
    allow_domain = ["https://movie.naver.com"]
    start_urls = [
        "https://movie.naver.com/movie/running/current.nhn"
    ]    

    # link 리스트를 가져옴 (start url을 request로 던지고 그 response를 parse 함수가 받음)
    def parse(self, response):
        links = response.xpath('//*[@id="content"]/div[1]/div[1]/div[3]/ul/li/dl/dt/a/@href')[:10].extract()
        for link in links:
            link = response.urljoin(link)
            yield scrapy.Request(link, callback=self.parse_page_contents)  # yield가 10개 생성됨

    # 각페이지의 link로 접속하여 데이터를 가져옴
    def parse_page_contents(self, response):
        item = CrawlerItem()    # item obj.를 만들어 줌
        item["title"] = response.xpath('//*[@id="content"]/div[1]/div[2]/div[1]/h3/a[1]/text()').extract()[0]
        try:
            item["count"] = response.xpath('//*[@id="content"]/div[1]/div[2]/div[1]/dl/dd[5]/div/p[2]/text()').extract()[0]
        except:
            item["count"] = "0명"
        yield item      # 10개 만들어진 generator마다 한 번 실행됨

#######################################################################################

#### (3) settings.py
- 크롤링하려는 사이트의 robots.txt 정책에 따라 obey 여부를 조정

In [None]:
#######################################################################################

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

#######################################################################################

#### (4) spider 실행
- 실행 위치: 프로젝트 디렉토리에서 실행(item.py 파일이 있는 디렉토리)
- 명령어
    - `$ scrapy crawl naver_movie`
    - csv 파일로 결과 저장 옵션: `$ scrapy crawl naver_movie -o movie.csv`
        - 단, 이렇게 저장하면 column 순서를 지정할 수 없음 (pipeline으로 지정할 수 있음)
- 비동기 thread로 처리되기 때문에 영화 데이터가 순서대로 크롤링되지 않음

In [30]:
pd.read_csv("movie.csv")

Unnamed: 0,count,title
0,"2,833,821명",암수살인
1,"15,248명",리즈와 파랑새
2,"395,867명",곰돌이 푸 다시 만나 행복해
3,0명,다이노 어드벤처2: 육해공 공룡 대백과
4,"153,398명",스타 이즈 본
5,"18,318명",극장판 가면라이더 이그제이드: 트루 엔딩
6,"193,789명",미쓰백
7,"794,815명",그랜드 부다페스트 호텔
8,"5,352,401명",안시성
9,"3,249,358명",베놈


#### (5) pipeline.py

- pipeline을 사용해서 크롤링한 데이터를 column 순서를 지정해서 csv 파일로 저장할 수 있음
- 크롤러를 실행할 때 CrawlerPipeline 객체를 생성하고 아이템을 하나씩 크롤링할 때마다 process_item 함수를 실행

In [None]:
#######################################################################################

import csv

class CrawlerPipeline(object):

    def __init__(self):
        self.csvwriter = csv.writer(open("NaverMovie.csv","wt"))
        self.csvwriter.writerow(["title", "count"])

    def process_item(self, item, spider):
        row = []
        row.append(item["title"])
        row.append(item["count"])
        self.csvwriter.writerow(row)
        return item

#######################################################################################

settings.py 수정 (주석 해제)

In [None]:
#######################################################################################

ITEM_PIPELINES = {
    'crawler.pipelines.CrawlerPipeline':300,
}

#######################################################################################

다시 scrapy 실행시 결과 파일의 column이 title, count 순서로 만들어짐

In [31]:
pd.read_csv("NaverMovie.csv")

Unnamed: 0,title,count
0,암수살인,"2,833,821명"
1,리즈와 파랑새,"15,248명"
2,다이노 어드벤처2: 육해공 공룡 대백과,0명
3,곰돌이 푸 다시 만나 행복해,"395,867명"
4,스타 이즈 본,"153,398명"
5,극장판 가면라이더 이그제이드: 트루 엔딩,"18,318명"
6,안시성,"5,352,401명"
7,미쓰백,"193,789명"
8,그랜드 부다페스트 호텔,"794,815명"
9,베놈,"3,249,358명"


### 덧
- yield, callback 구조를 이해하면 단계를 다양하게 구성할 수 있음
- 동적페이지를 크롤링하려면 `__init__()` 함수로 driver를 만들고 driver를 사용해서 크롤링

#### 참고자료
- 패스트캠퍼스, ⟪데이터사이언스스쿨 8기⟫ 수업자료