### 2. 오설록 : Scrapy


- 아래의 절차로 상품데이터를 수집하세요.
    - 오설록 사이트의 전체상품 페이지에서 각 페이지 URL 크롤링
        - 오설록 전체 상품 페이지 URL : https://www.osulloc.com/kr/ko/shop/item/list?category=teashop
    - 각 상품 페이지 크롤링
    - 상품의 상세 페이지 크롤링

- 수집 데이터
    - 상품명, 상품설명, 가격정보, 별점, 이미지링크, 상품링크
    - title, desc, price, star, img, link

In [1]:
# 프로젝트 생성

In [2]:
!rm -rf osulloc/

In [3]:
!scrapy startproject osulloc

New Scrapy project 'osulloc', using template directory '/usr/local/anaconda3/lib/python3.7/site-packages/scrapy/templates/project', created in:
    /Users/rada/Documents/lecture/dss/dss_13/quiz/04_crawling/osulloc

You can start your first spider with:
    cd osulloc
    scrapy genspider example example.com


In [4]:
# 아이템 모델 코드 추가

In [5]:
%%writefile osulloc/osulloc/items.py
import scrapy


class OsullocItem(scrapy.Item):
    title = scrapy.Field()
    desc = scrapy.Field()
    price = scrapy.Field()
    star = scrapy.Field()
    img = scrapy.Field()
    link = scrapy.Field()

Overwriting osulloc/osulloc/items.py


In [6]:
# 스파이더 코드 추가

In [7]:
%%writefile osulloc/osulloc/spiders/spider.py

import scrapy
import requests

from osulloc.items import OsullocItem
from scrapy.http import TextResponse

class OsullocSpider(scrapy.Spider):
    
    name = "Osulloc"
    allow_domain = ["https://www.osulloc.com"]
    start_urls = ["https://www.osulloc.com/kr/ko/shop/item/list?category=teashop"]
    
    def parse(self, response):
        
        # 마지막 페이지 확인
        try:
            link = response.xpath('//*[@id="pagination"]/a[7]/@href')[0].extract()
            last_page = int(link.split("=")[-1])
        except:
            elements = response.xpath('//*[@id="pagination"]/a')
            last_page = len(elements)
        
        # 페이지별 링크 만들기
        for page in range(last_page + 1):
            link = response.url + "&p={}".format(page)
            yield scrapy.Request(link, callback=self.parse_page)
    
    # 각 상품별 상세 페이지 URL
    def parse_page(self, response):
        links = response.xpath('//*[@id="tag_search_item"]/div/a[1]/@href').extract()
        links = list(map(lambda data:response.urljoin(data), links))
        for link in links:
            yield scrapy.Request(link, callback=self.parse_page_contents)
          
    # 상세페이지에서 컨텐츠 가져오기            
    def parse_page_contents(self, response):
        item = OsullocItem()
        item["title"] = response.xpath('//*[@id="contents"]/div[1]/div[1]/div[2]/p[1]/text()')[0].extract()
        item["desc"] = response.xpath('//*[@id="onePointArea"]/text()')[0].extract()
        item["price"] = response.xpath('//*[@id="contents"]/div[1]/div[1]/div[2]/div[2]/div[2]/p/strong/text()')[0].extract()
        item["star"] = response.xpath('//*[@id="contents"]/div[1]/div[2]/div/div/span/text()')[0].extract()
        img = response.xpath('//*[@id="contents"]/div[1]/div[1]/div[1]/div/div[1]/img/@src')[0].extract()
        item["img"] = response.urljoin(img)
        item["link"] = response.url
        yield item

Writing osulloc/osulloc/spiders/spider.py


In [8]:
# 데이터 베이스 코드 추가

In [9]:
%%writefile osulloc/osulloc/mongodb.py
import pymongo

client = pymongo.MongoClient('mongodb://rada:radapw@15.164.104.167:27017')
db = client.osulloc
collection = db.items

Writing osulloc/osulloc/mongodb.py


In [10]:
# 파이프라인 코드 추가

In [11]:
%%writefile osulloc/osulloc/pipelines.py
from .mongodb import collection

class OsullocPipeline(object):

    def process_item(self, item, spider):

        # mongodb에 저장
        columns = ["title", "desc", "price", "star", "img", "link"]
        data = {column: item[column] for column in columns}
        collection.insert(data)

        return item

Overwriting osulloc/osulloc/pipelines.py


In [12]:
# 파이프 라인 설정

In [13]:
!echo "ITEM_PIPELINES = {" >> osulloc/osulloc/settings.py

In [14]:
!echo "   'osulloc.pipelines.OsullocPipeline': 300," >> osulloc/osulloc/settings.py

In [15]:
!echo "}" >> osulloc/osulloc/settings.py

In [16]:
!tail -n 3 osulloc/osulloc/settings.py

ITEM_PIPELINES = {
   'osulloc.pipelines.OsullocPipeline': 300,
}


In [17]:
# 코드의 실행

In [18]:
# teashop, bakery, themashop

In [19]:
%%writefile run.sh
cd osulloc
scrapy crawl Osulloc -o osulloc_teashop.csv

Overwriting run.sh


In [20]:
!rm osulloc/*.csv

rm: osulloc/*.csv: No such file or directory


In [21]:
!source run.sh

2020-07-08 08:20:29 [scrapy.utils.log] INFO: Scrapy 2.2.0 started (bot: osulloc)
2020-07-08 08:20:29 [scrapy.utils.log] INFO: Versions: lxml 4.5.0.0, libxml2 2.9.9, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 20.3.0, Python 3.7.6 (default, Jan  8 2020, 13:42:34) - [Clang 4.0.1 (tags/RELEASE_401/final)], pyOpenSSL 19.1.0 (OpenSSL 1.1.1  11 Sep 2018), cryptography 2.8, Platform Darwin-19.4.0-x86_64-i386-64bit
2020-07-08 08:20:29 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.selectreactor.SelectReactor
2020-07-08 08:20:29 [scrapy.crawler] INFO: Overridden settings:
{'BOT_NAME': 'osulloc',
 'NEWSPIDER_MODULE': 'osulloc.spiders',
 'ROBOTSTXT_OBEY': True,
 'SPIDER_MODULES': ['osulloc.spiders']}
2020-07-08 08:20:29 [scrapy.extensions.telnet] INFO: Telnet Password: c47503f8e5271536
2020-07-08 08:20:29 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.memusage.MemoryUsage',


In [22]:
# 크롤링 결과 확인

In [23]:
df = pd.read_csv("osulloc/osulloc_teashop.csv")

In [24]:
df.tail(2)

Unnamed: 0,desc,img,link,price,star,title
149,붉은 장미와 달콤한 파파야가 곁들여진 화려한 풍미의 홍차를 고급스러운 지함에 담았습...,https://www.osulloc.com/upload/kr/ko/adminImag...,https://www.osulloc.com/kr/ko/shop/item/teasho...,15000,4.9,레드파파야블랙티 10입(피라미드)
150,제주 삼나무의 그윽한 풍미에 제주영귤의 싱그러움을 더한 후발효차를 피라미드 티백으로...,https://www.osulloc.com/upload/kr/ko/adminImag...,https://www.osulloc.com/kr/ko/shop/item/teasho...,18400,4.9,삼다연제주영귤 20입(피라미드)


In [25]:
# 데이터 베이스 저장 확인

In [26]:
import pymongo

client = pymongo.MongoClient('mongodb://rada:radapw@15.164.104.167:27017')
db = client.osulloc
collection = db.items

In [27]:
datas = collection.find({}, {"_id": False})

In [28]:
pd.DataFrame(datas).tail(2)

Unnamed: 0,title,desc,price,star,img,link
149,레드파파야블랙티 10입(피라미드),붉은 장미와 달콤한 파파야가 곁들여진 화려한 풍미의 홍차를 고급스러운 지함에 담았습...,15000,4.9,https://www.osulloc.com/upload/kr/ko/adminImag...,https://www.osulloc.com/kr/ko/shop/item/teasho...
150,삼다연제주영귤 20입(피라미드),제주 삼나무의 그윽한 풍미에 제주영귤의 싱그러움을 더한 후발효차를 피라미드 티백으로...,18400,4.9,https://www.osulloc.com/upload/kr/ko/adminImag...,https://www.osulloc.com/kr/ko/shop/item/teasho...
