### Scrapy
- 파이썬 언어를 이용한 웹 데이터 수집 프레임워크
    - 프레임워크, 라이브러리 또는 패키지의 차이
    - 프레임워크: 특정 목적을 가진 기능의 코드가 미리 설정되어서 빈칸 채우기 식으로 코드를 작성하는 방식.
    - 패키지: 다른 사람이 작성해놓은 코드를 가져다가 사용하는 방법
        
- scrapy
  - pip install scrapy
    
- tree
  - sudo apt install tree


#### Index
 - xpath: css-selector 역할을 해주는 문법(셀레니움에서도 xpath가 있긴하나, 사용되는게 좀 다름.)
 - 스크래피의 구조
 - gmarket 베스트 상품 데이터 크롤링

In [1]:
import scrapy
import requests
from scrapy.http import TextResponse #xpath 연습

#### 1. xpath 사용법
- naver실시간 검색어 데이터
- 검색어 xpath

```
//*[@id="NM_RTK_ROLLING_WRAP"]/ul/li[19]/a/span[2]
```

- `//` : 가장 상위 엘리먼트
- `*` : 조건에 맞는 하위 엘리먼트를 모두 살펴봄, css selector에서는 띄어쓰기 " " 와 같음. "div .txt"
- `[@id="NM_RTK_ROLLING_WRAP"]` : 조건 : id가 PM_ID_ct인 엘리먼트
- `/`: 바로 아래 엘리먼트를 살펴봄. "div > .txt"
- `li[19]` : li 태그에서 19번째 엘리먼트를 선택
- `span[2]`: span 태그에서 2번째 엘리먼트를 선택

- ※ 참고
- `.`: 현재 엘리먼트를 선택
- `not` : not(조건)




#### nate 검색어 가져오기 예제

In [2]:
# nate 웹 페이지에 연결
req = requests.get("https://search.daum.net/nate?w=tot&DA=R02&q=%EB%AF%B8%EC%8A%A4%ED%84%B0%ED%8A%B8%EB%A1%AF&rtmaxcoll=1ET,TVP&irt=tv-program&irk=86091")

# response 객체 생성
response = TextResponse(req.url, body=req.text, encoding="utf-8")

In [3]:
# 네이트 예능 tv 검색어 순위 데이터 가져오기
#xpath: xpath selector
# data : xpath selector로 선택된 엘리먼트
response.xpath('//*[@id="ratThemeColl"]/div[2]/div/ol[1]/li[1]/div/span[2]/a/b')

[<Selector xpath='//*[@id="ratThemeColl"]/div[2]/div/ol[1]/li[1]/div/span[2]/a/b' data='<b>미스터트롯</b>'>]

In [4]:
# text를 data로 설정
response.xpath('//*[@id="ratThemeColl"]/div[2]/div/ol[1]/li[1]/div/span[2]/a/b/text()')

[<Selector xpath='//*[@id="ratThemeColl"]/div[2]/div/ol[1]/li[1]/div/span[2]/a/b/text()' data='미스터트롯'>]

In [None]:
# response 객체에서 data 변수만 가져옴

In [5]:
response.xpath('//*[@id="ratThemeColl"]/div[2]/div/ol[1]/li[1]/div/span[2]/a/b/text()').extract()

['미스터트롯']

In [6]:
# 네이버 실시간 데이터 한번에 가져오기
response.xpath('//*[@id="ratThemeColl"]/div[2]/div/ol/li/div/span[2]/a/text()').extract()[:2]

['슈퍼맨이 돌아왔다', '뭉쳐야 찬다']

### 2. Scrapy Project
- scrapy 프로젝트 생성
- scrapy 구조
- gmarket 베스트 상품 링크 수집, 링크 안에 있는 상세 정보 수집

#### 프로젝트 생성

In [7]:
!scrapy startproject crawler

Error: scrapy.cfg already exists in C:\Code\04 Web\scrapy\crawler


In [8]:
!ls

00_iterator_generator.ipynb
01_scrapy_gmarket.ipynb
03_scrapy_naver_movie.ipynb
crawler
naver_movie
run.sh


In [9]:
!tree crawler

폴더 PATH의 목록입니다.
볼륨 일련 번호는 82F2-BFE3입니다.
C:\CODE\04 WEB\SCRAPY\CRAWLER
└─crawler
    ├─spiders
    │  └─__pycache__
    └─__pycache__


#### scrapy의 구조
- spiders
    - 어떤 웹서비스를 어떻게 크롤링할 것인지에 대한 코드를 작성(.py 파일로 작성)

- items.py
    - 모델에 해당하는 코드, 저장하는 데이터의 자료구조를 설정

- pipelines.py
    - 스크래핑한 결과물을 item 형태로 구성하고 처리하는 방법에 대한 코드
    
- settings.py
    - 스크래핑 할때의 환경 설정값을 지정
    - robots.txt: 따를지, 안따를지
        

### gmarket 베스트 셀러 상품 수집
- 상품명, 상세페이지 URL, 원가, 판매가, 할인율
- xpath 확인
- items.py를 수집하려는 데이터에 맞게끔 설정
- spider.py를 작성
- 크롤러 실행

### 1. xpath 확인

In [10]:
req = requests.get("http://corners.gmarket.co.kr/Bestsellers")
response = TextResponse(req.url, body=req.text, encoding="utf-8")

In [11]:
links= response.xpath('//*[@id="gBestWrap"]/div/div[3]/div[2]/ul/li/div[1]/a/@href').extract()
len(links)

200

In [12]:
links[1]

'http://item.gmarket.co.kr/Item?goodscode=751246244&ver=637187559854100933'

In [13]:
req = requests.get(links[1])
response = TextResponse(req.url, body=req.text, encoding="utf-8")

title = response.xpath('//*[@id="itemcase_basic"]/h1/text()')[0].extract()
o_price = response.xpath('//*[@id="itemcase_basic"]/p/span/span/text()')[0].extract().replace(",","")
s_price = response.xpath('//*[@id="itemcase_basic"]/p/span/strong/text()')[0].extract().replace(",","")
discount_rate = str(round((1 - int(s_price)/int(o_price))*100,2)) + "%"

title, s_price, o_price, discount_rate

('쏭스타일 신상추가.맨투맨.루즈핏.롱티 ', '12900', '43000', '70.0%')

### 2. items.py 작성

In [14]:
!cat crawler/crawler/items.py


import scrapy

class CrawlerItem(scrapy.Item):
    title = scrapy.Field()
    o_price = scrapy.Field()
    s_price = scrapy.Field()
    discount_rate = scrapy.Field()
    link=scrapy.Field()


In [15]:
%%writefile crawler/crawler/items.py

import scrapy

class CrawlerItem(scrapy.Item):
    title = scrapy.Field()
    o_price = scrapy.Field()
    s_price = scrapy.Field()
    discount_rate = scrapy.Field()
    link=scrapy.Field()

Overwriting crawler/crawler/items.py


### 3. spider.py 작성

In [16]:
%%writefile crawler/crawler/spiders/spider.py
import scrapy
from crawler.items import CrawlerItem

class Spider(scrapy.Spider):
    name = "GmarketBestsellers"
    allow_domain = ["gmarket.co.kr"]# 이 도메인에 있는 url만 크롤링하겠다.
    start_urls = ["http://corners.gmarket.co.kr/Bestsellers"]#최초에 request해주는 url
    
    def parse(self, response):#start_urls에 작성되어있는 걸로 scrapy가 request하면 그 response 받아서 이 함수 실행시켜줌. 
    # request, response해서 함수 실행시키는거는 scrapy 프레임워크안에 이미 들어있어서, 아래만 작성해주면 됨.
        links = response.xpath('//*[@id="gBestWrap"]/div/div[3]/div[2]/ul/li/div[1]/a/@href').extract()#link 200개 가져옴
        for link in links:
            yield scrapy.Request(link, callback=self.page_content)#함수가 200번 실행되면서 순서대로 200개의 다른 링크 실행됨.
            
    def page_content(self, response):#200개 링크 실행되면서 page_content 함수 호출.(상세 페이지에 대한 response가 들어감)
        item = CrawlerItem()#상세 페이지의 데이터를 item 객체에 저장
        item["title"] = response.xpath('//*[@id="itemcase_basic"]/h1/text()')[0].extract()
        item["s_price"] = response.xpath('//*[@id="itemcase_basic"]/p/span/strong/text()')[0].extract().replace(",", "")
        try:#original price 없는 상품들 에러나서 예외 처리
            item["o_price"] = response.xpath('//*[@id="itemcase_basic"]/p/span/span/text()')[0].extract().replace(",", "")
        except:
            item["o_price"] = item["s_price"]
        item["discount_rate"] = str(round((1 - int(item["s_price"]) / int(item["o_price"]))*100, 2)) + "%"
        item["link"] = response.url
        yield item
        
#scrapy 프로젝트 실행했을 때, Spider 클래스가 객체가 되면서 start_url로 request
# response 받아와서 parse 함수 실행 -> 베스트셀러 200개 있는 페이지에서 링크 데이터 200개 가져옴. 링크 데이터로 yield로 scrapy.Request하면서 200번 싷행하고나서 결과 데이터가 link로 요청하고, call back 함수(page_content) 200번 실행.
# 상세페이지에 대한 데이터 받아와서 item 객체 만들어줌. 200번 실행되면서 item이 결과로 출력됨.

Overwriting crawler/crawler/spiders/spider.py


### 4. scrapy 실행

In [17]:
!ls crawler

crawler
GmarketBestsellers.csv
scrapy.cfg


In [18]:
%%writefile run.sh
cd crawler
scrapy crawl GmarketBestsellers

Overwriting run.sh


In [19]:
!chmod +x run.sh

In [20]:
!run.sh

In [None]:
#%load crawler/crawler/spiders/spider.py : 위의 Spider class 코드 나옴.

In [None]:
# 결과를 csv로 저장

In [21]:
%%writefile run.sh
cd crawler
scrapy crawl GmarketBestsellers -o GmarketBestsellers.csv

Overwriting run.sh


In [22]:
!run.sh

In [23]:
!ls crawler

crawler
GmarketBestsellers.csv
scrapy.cfg


In [24]:
import pandas as pd

In [25]:
!pwd

/c/Code/04 Web/scrapy


In [26]:
files= !ls crawler/
files

['crawler', 'GmarketBestsellers.csv', 'scrapy.cfg']

In [27]:
df = pd.read_csv("crawler/{}".format(files[1]))
df.head(5)

Unnamed: 0,discount_rate,link,o_price,s_price,title
0,0.0%,http://item.gmarket.co.kr/Item?goodscode=17591...,29900,29900,[아웃팅] 정전기필터 마스크 필터 50매 한박스 일회용마스크
1,9.2%,http://item.gmarket.co.kr/Item?goodscode=17231...,43500,39500,[순수식품] 남극 크릴오일1000 3박스(총 90캡슐) 인지질58%
2,22.14%,http://item.gmarket.co.kr/Item?goodscode=16594...,14000,10900,[트레비] 트레비 레몬 300ml 20pet /1박스
3,0.0%,http://item.gmarket.co.kr/Item?goodscode=16103...,17800,17800,[맥콜] 맥콜 160ml 30캔x2 (총60캔) / 탄산음료
4,68.87%,http://item.gmarket.co.kr/Item?goodscode=38431...,31800,9900,코방콕 하는 어린이를 위한 보드게임 베스트


#### 5. pipelines 설정
-item을 출력하기 전에 실행되는 코드를 정의

In [28]:
import requests
import json

def send_slack(msg):
    WEBHOOK_URL = "https://hooks.slack.com/services/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"
    payload = {
        "channel": "#test",
        "username": "LHJ",
        "text": msg,
    }
    requests.post(WEBHOOK_URL, json.dumps(payload))

In [29]:
send_slack("테스트")

In [30]:
!cat crawler/crawler/pipelines.py


class CrawlerPipeline(object):
    def process_item(self, item, spider):
        
        def send_slak(mag):
        WEBHOOK_URL="https://hooks.slack.com/services/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"
        payload={
        "channel" : "#test",
        "username": "LHJ",
        "text" : "mag",
        }
        requests.post(WEBHOOK_URL, json.dumps(payload))
        
        def process_item(self, item, spider):
            keyword = "�꽭�듃"
            print("="*100)
            print(item["title"])
            print("="*100)
            if keyword in item["title"]:
                self.__send_slack("{},{},{}".format(item["title"], item["s_price"], item["link"] ))
            
        
        return item
    


In [31]:
%%writefile crawler/crawler/pipelines.py

class CrawlerPipeline(object):
    def process_item(self, item, spider):
        
        def send_slak(mag):
        WEBHOOK_URL="https://hooks.slack.com/services/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"
        payload={
        "channel" : "#test",
        "username": "LHJ",
        "text" : "mag",
        }
        requests.post(WEBHOOK_URL, json.dumps(payload))
        
        def process_item(self, item, spider):
            keyword = "세트"
            print("="*100)
            print(item["title"])
            print("="*100)
            if keyword in item["title"]:
                self.__send_slack("{},{},{}".format(item["title"], item["s_price"], item["link"] ))
            
        
        return item
    

Overwriting crawler/crawler/pipelines.py


- Pipeline 설정: settings.py

```
ITEM_PIPELINES = {
    'crawler.pipelines.CrawlerPipeline': 300,
}
```
#파이프라인 실행되는 순서,숫자가 낮을수록 빨리 실행딤.

In [32]:
!echo "ITEM_PIPELINES = {" >> crawler/crawler/settings.py #echo 뒤에 글자 출력, >> 얘가 출력 역할
!echo "    'crawler.pipelines.CrawlerPipeline': 300,"  >> crawler/crawler/settings.py
!echo "}"  >> crawler/crawler/settings.py

In [33]:
!tail -n 3 crawler/crawler/settings.py

"}"  
"    'crawler.pipelines.CrawlerPipeline': 300,"  
"}"  


In [34]:
!run.sh

project(crawler)

- spider: crawling 절차에 대한 코드 들어있음.
- items.py : 크롤링할 데이터의 모델을 정해줌.(여기선 5가지.. title, s_price, o_price..)
 - parse라고 하는 함수 이름은 바꿀 수 없음.

- pipeline.py: 실행하기 전에 코드를 실행해줌
- settings.py: 환경 설정