#### scrapy

- xpath 기본문법
- xpath 실습
    - scrapy shell(ipython), jupyter notebook
    - 네이버 키워드 데이터 수집, 다음 키워드 데이터 수집, gmarket 베스트 상품 데이터 수집
- scrapy project
    - scrapy 파일 디렉토리 구조 및 각 파일에 대한 설명
    - crawler 라는 프로젝트
        - naver 현재 상영 영화 링크
        - 각각의 영화 링크에서 영화제목, 관객수를 크롤링
        - csv 파일로 저장
        - pipeline을 이용해서 csv 파일로 저장


In [1]:
import scrapy

#### xpath 문법

- 네이버 영화 제목 xpath: `//*[@id="content"]/div[1]/div[1]/div[3]/ul/li[1]/dl/dt/a`

- `//*` : 가장 상위에서 하위를 모두 검색한다는 의미

- `//` : 가장 상위 엘리먼트
- `*` : css selector 하위 엘리먼트
- `[@key=value]` : @가 attribute 속성값을 의미
    - `[@id="content]` : 속성 id가 content인 것
- `/` : css selector 에서 `>`와 같다. 1단계 아래 하위 엘리먼트를 검색
- `div` : 엘리먼트 이름
- `[number]` : number 번째의 엘리먼트를 성택 (0부터 시작이 아니라 1부터 시작한다.)
- `not` : `not(조건)`, 조건에는 @class="test" 이런 것들이 들어갈 수 있는데 class="test"가 아닌 엘리먼트를 선택한다.
- `.` : 현재 엘리먼트를 의미

##### scrapy shell 이용
- `$ scrapy shell "<url>"`
- 네이버 실시간 검색어
- 다음 실시간 검색어
- gmarket 베스트 아이템

In [5]:
# 네이버 실시간 검색어
# ipython으로 shell에 뜬다.
# cmd창에 : $ scrapy shell "https://naver.com"

# scrapy shell 실행 : 
# 네이버 실시간 검색어 1위 xpath copy : //*[@id="PM_ID_ct"]/div[1]/div[2]/div[2]/div[1]/div/ul/li[1]/a/span[2]

##### jupyter notebook에서 scrapy 사용

In [6]:
import requests
from scrapy.http import TextResponse

In [7]:
req = requests.get("http://naver.com")

In [8]:
response = TextResponse(req.url, body=req.text, encoding="utf-8") # response.

In [13]:
# 네이버 실시간 검색어 1위 객체 선택
response.xpath('//*[@id="PM_ID_ct"]/div[1]/div[2]/div[2]/div[1]/div/ul/li[1]/a/span[2]')

[<Selector xpath='//*[@id="PM_ID_ct"]/div[1]/div[2]/div[2]/div[1]/div/ul/li[1]/a/span[2]' data='<span class="ah_k">대구 수돗물</span>'>]

In [16]:
# 네이버 실시간 검색어 20개 객체 선택 li[1]에서 li로 변경하면 모두 다 나온다. > 문자열만 출력 /text()
response.xpath('//*[@id="PM_ID_ct"]/div[1]/div[2]/div[2]/div[1]/div/ul/li/a/span[2]/text()')

[<Selector xpath='//*[@id="PM_ID_ct"]/div[1]/div[2]/div[2]/div[1]/div/ul/li/a/span[2]/text()' data='대구 수돗물'>,
 <Selector xpath='//*[@id="PM_ID_ct"]/div[1]/div[2]/div[2]/div[1]/div/ul/li/a/span[2]/text()' data='조정석'>,
 <Selector xpath='//*[@id="PM_ID_ct"]/div[1]/div[2]/div[2]/div[1]/div/ul/li/a/span[2]/text()' data='거미'>,
 <Selector xpath='//*[@id="PM_ID_ct"]/div[1]/div[2]/div[2]/div[1]/div/ul/li/a/span[2]/text()' data='오나라'>,
 <Selector xpath='//*[@id="PM_ID_ct"]/div[1]/div[2]/div[2]/div[1]/div/ul/li/a/span[2]/text()' data='진서연'>,
 <Selector xpath='//*[@id="PM_ID_ct"]/div[1]/div[2]/div[2]/div[1]/div/ul/li/a/span[2]/text()' data='월드컵 조별순위'>,
 <Selector xpath='//*[@id="PM_ID_ct"]/div[1]/div[2]/div[2]/div[1]/div/ul/li/a/span[2]/text()' data='아르헨티나 크로아티아'>,
 <Selector xpath='//*[@id="PM_ID_ct"]/div[1]/div[2]/div[2]/div[1]/div/ul/li/a/span[2]/text()' data='밥블레스유'>,
 <Selector xpath='//*[@id="PM_ID_ct"]/div[1]/div[2]/div[2]/div[1]/div/ul/li/a/span[2]/text()' data='아르헨티나 크로아티아 하이라이트'>,
 <Sele

In [17]:
# 실시간 검색어 20개 객체에서 문자열만 출력
response.xpath('//*[@id="PM_ID_ct"]/div[1]/div[2]/div[2]/div[1]/div/ul/li/a/span[2]/text()').extract()

['대구 수돗물',
 '조정석',
 '거미',
 '오나라',
 '진서연',
 '월드컵 조별순위',
 '아르헨티나 크로아티아',
 '밥블레스유',
 '아르헨티나 크로아티아 하이라이트',
 '아르헨티나',
 '진에어',
 '오나라 남자친구',
 '아이디어주방도구',
 '오나라 나이',
 '독전',
 '크로아티아',
 '와일드',
 '이장희',
 '라키티치',
 'mbc 기분좋은날']

- - -

In [21]:
# 다음 실시간 검색어 10개 출력하기
req = requests.get("http://daum.net")
response = TextResponse(req.url, body=req.text, encoding="utf-8") # response.
response.xpath('//*[@id="mArticle"]/div[2]/div[2]/div[2]/div[1]/ol/li/div/div[1]/span[2]/a/text()')

[<Selector xpath='//*[@id="mArticle"]/div[2]/div[2]/div[2]/div[1]/ol/li/div/div[1]/span[2]/a/text()' data='거미'>,
 <Selector xpath='//*[@id="mArticle"]/div[2]/div[2]/div[2]/div[1]/ol/li/div/div[1]/span[2]/a/text()' data='조정석'>,
 <Selector xpath='//*[@id="mArticle"]/div[2]/div[2]/div[2]/div[1]/ol/li/div/div[1]/span[2]/a/text()' data='대구 수돗물'>,
 <Selector xpath='//*[@id="mArticle"]/div[2]/div[2]/div[2]/div[1]/ol/li/div/div[1]/span[2]/a/text()' data='진에어'>,
 <Selector xpath='//*[@id="mArticle"]/div[2]/div[2]/div[2]/div[1]/ol/li/div/div[1]/span[2]/a/text()' data='개그 아이돌'>,
 <Selector xpath='//*[@id="mArticle"]/div[2]/div[2]/div[2]/div[1]/ol/li/div/div[1]/span[2]/a/text()' data='크로아티아'>,
 <Selector xpath='//*[@id="mArticle"]/div[2]/div[2]/div[2]/div[1]/ol/li/div/div[1]/span[2]/a/text()' data='릴리'>,
 <Selector xpath='//*[@id="mArticle"]/div[2]/div[2]/div[2]/div[1]/ol/li/div/div[1]/span[2]/a/text()' data='김동철'>,
 <Selector xpath='//*[@id="mArticle"]/div[2]/div[2]/div[2]/div[1]/ol/li/div/div[1]

In [22]:
response.xpath('//*[@id="mArticle"]/div[2]/div[2]/div[2]/div[1]/ol/li/div/div[1]/span[2]/a/text()').extract()

['거미',
 '조정석',
 '대구 수돗물',
 '진에어',
 '개그 아이돌',
 '크로아티아',
 '릴리',
 '김동철',
 '아르헨티나',
 '경상남도 교육청']

In [25]:
# gmarket 베스트 아이템 셀렉트, not 사용하기, 링크 선택하기
req = requests.get("http://corners.gmarket.co.kr/Bestsellers")
response = TextResponse(req.url, body=req.text, encoding="utf-8") # response

In [29]:
# 아이디로 나올 경우 상위의 xpath 작성 한 후 아래에는 직접 마무리해서 작성하면 된다.
titles = response.xpath('//*//*[@id="gBestWrap"]/div/div[3]/div[2]/ul/li/a/text()').extract()
titles[:5]

['[빕스](빕스) 평일 런치 샐러드바1인',
 '[빕스](빕스) 평일 디너/주말 샐러드바1인',
 '모스트맘 쿨하게가즈아~ 냉감 쿨세트/원피스/파자마',
 '[크리넥스]크리넥스 마이비데리필 46매10팩/물티슈/화장지/휴지',
 '+여름 반팔티+ 빅사이즈77-99 롱/루즈핏/스트라이프']

In [33]:
# li 엘리먼트에서 class가 first인 데이터만 가지고 오기 [@ 사용해서 셀렉트 가능하다]
titles = response.xpath('//*//*[@id="gBestWrap"]/div/div[3]/div[2]/ul/li[@class="first"]/a/text()').extract()
len(titles), titles[:5]

(50,
 ['[빕스](빕스) 평일 런치 샐러드바1인',
  '+여름 반팔티+ 빅사이즈77-99 롱/루즈핏/스트라이프',
  '1+1 여름 신상품 워싱스프레드(Q)',
  '[앤디애플]아동복/상하복/반바지/원피스/치마/레깅스/반팔',
  '[홈닥터]저주파마사지기 홈닥터 HD SYK-2018 저주파안마기'])

In [34]:
# li 엘리먼트에서 class가 first인 데이터만 가지고 오기 [@ 사용해서 셀렉트 가능하다]
titles = response.xpath('//*//*[@id="gBestWrap"]/div/div[3]/div[2]/ul/li[@class="first"]/a/text()').extract()
len(titles), titles[:5]

(50,
 ['[빕스](빕스) 평일 런치 샐러드바1인',
  '+여름 반팔티+ 빅사이즈77-99 롱/루즈핏/스트라이프',
  '1+1 여름 신상품 워싱스프레드(Q)',
  '[앤디애플]아동복/상하복/반바지/원피스/치마/레깅스/반팔',
  '[홈닥터]저주파마사지기 홈닥터 HD SYK-2018 저주파안마기'])

In [36]:
# li 엘리먼트에서 class가 first인 데이터만 빼고 가지고 오기
titles = response.xpath('//*//*[@id="gBestWrap"]/div/div[3]/div[2]/ul/li[not(@class="first")]/a/text()').extract()
len(titles), titles[:5]

(150,
 ['[빕스](빕스) 평일 디너/주말 샐러드바1인',
  '모스트맘 쿨하게가즈아~ 냉감 쿨세트/원피스/파자마',
  '[크리넥스]크리넥스 마이비데리필 46매10팩/물티슈/화장지/휴지',
  '사은품 여름모자/여름가방/아동/리본햇/라탄백',
  '데일리콤마 디퓨저 본품 100ml 1+1+1+1 /신향 출시'])

##### scrapy project
- 프로젝트 생성
    - 프로젝트 만들 디렉토리로 이동 후 , `$ scrapy startproject <프로젝트명>` 
- 프로젝트 파일 설명

```
├── crawler
│   ├── __init__.py
│   ├── __pycache__
│   ├── items.py
│   ├── middlewares.py
│   ├── pipelines.py
│   ├── settings.py
│   └── spiders
│       ├── __init__.py
│       └── __pycache__
└── scrapy.cfg
```

- crawler dir :  프로젝트 디렉토리
    - spiders dir (여러개 있을 수 있다.): 우리가 만들 크롤링실행할 클래스와 함수가 모여 있는 디렉토리, URL, links 들로 직접 들어가서 아이템 형태로 object를 만든다.
    - items.py : 크롤링을 할 때 가져오는 데이터를 정의하는 클래스(MVC - Model)(관객수, 영화 이름 등) 클래스 안에 새로운 데이터를 정의하는 것을 객체로 저장 해 둔다. 
    - pipelines.py : 여러개의 링크에서 데이터를 가져올 때 실행하는 함수가 정의 되어 있는 클래스, item을 save csv 기능을 갖는다.
    - settings.py : scraping을 할때 정책과 같은 설정을 할 수 있는 파일 입니다. (예를 들어 robots.txt 정책을 따를 것 인지 안따를 것인지를 결정 할 수 있습니다.)
    
        - middlewares.py : 하드웨어 설정시 다루는 파일이고 여기서는 안다룬다.
        
        
        
spider내의 링크 하나에서 데이터 수집할 것 만든다.  item.py 클래스 내 오브젝트가 형성이 된다. 이 오브젝트를 pipeline으로 보내서 save csv를 통해 csv파일로 저장시킨다.
multithread사용해서 뭐가 먼저 수집 될 지 모른다.

- 네이버 영화에서 현재 상영중인 영화의 제목과 누적 관객수 데이터를 크롤링

In [45]:
req = requests.get("https://movie.naver.com/movie/running/current.nhn")
response = TextResponse(req.url, body=req.text, encoding="utf-8") # response


In [48]:
links = response.xpath('//*[@id="content"]/div[1]/div[1]/div[3]/ul/li/dl/dt/a/@href')[:10].extract()
for link in links:
    link = response.urljoin(link) # urljoin : 도메인이 추가된 link 가 완성이 된다.
    print(link)

https://movie.naver.com/movie/bi/mi/basic.nhn?code=159892
https://movie.naver.com/movie/bi/mi/basic.nhn?code=154285
https://movie.naver.com/movie/bi/mi/basic.nhn?code=153675
https://movie.naver.com/movie/bi/mi/basic.nhn?code=158178
https://movie.naver.com/movie/bi/mi/basic.nhn?code=168405
https://movie.naver.com/movie/bi/mi/basic.nhn?code=168017
https://movie.naver.com/movie/bi/mi/basic.nhn?code=143416
https://movie.naver.com/movie/bi/mi/basic.nhn?code=150097
https://movie.naver.com/movie/bi/mi/basic.nhn?code=172420
https://movie.naver.com/movie/bi/mi/basic.nhn?code=162854


In [50]:
# full url로 만들기

    
req = requests.get("https://movie.naver.com/movie/bi/mi/basic.nhn?code=159892")
response = TextResponse(req.url, body=req.text, encoding="utf-8") # response
response.xpath('//*[@id="content"]/div[1]/div[2]/div[1]/h3/a[1]/text()').extract()[0]

'탐정: 리턴즈'

In [55]:
req = requests.get("https://movie.naver.com/movie/bi/mi/basic.nhn?code=159892")
response = TextResponse(req.url, body=req.text, encoding="utf-8") # response
response.xpath('//*[@id="content"]/div[1]/div[2]/div[1]/dl/dd[5]/div/p[2]/text()').extract()[0]

'1,405,591명'

In [56]:
# 프로젝트 디렉토리로 이동
# scrapy crawl NaverMovie 실행
# ROBOTSTXT_OBEY = False

In [57]:
# yield
# 제너레이터 generator
# 함수 실행 순서에 따라서 return 을 바꿔준다

In [66]:
def numbers():
    yield 0
    yield 1
    yield 2 # yield 사용시 generator가 생성이 된다.

In [67]:
n = numbers()

In [68]:
n.__next__()

0

In [69]:
n.__next__()

1

In [70]:
n.__next__()

2

In [71]:
n.__next__()

StopIteration: 

In [73]:
# pipepline : item 던져서 csv로 차곡차곡 저장하는 것
import csv

In [76]:
csv.writer(open("NaverMovie.csv","w"))

<_csv.writer at 0x10e9f8678>

In [None]:
csvwriter.writerow(["title","count"])

In [None]:
cat 파일이름.csv