## 책 정보 내용 크롤링 하기

 ![00_bestseller.jpg](./Image/00_bestseller.jpg)

![01_bestseller_150.jpg](./Image/01_bestseller_150.jpg)

#### [장르별 베스트셀러 150위 전부 크롤링하기 위해서 perpage = { } parameter 조정]


### 1. scrpay로 kyobo_content 프로젝트 생성

In [None]:
!scrapy startproject kyobo_content

![02_01_book_info.jpg](./Image/02_01_book_info.jpg)

#### [장르별 페이지에서 개별 책 상세 페이지 크롤링(제목,가격, 작가, 출판사, 카테고리, 요약내용, ISBN, 바코드) ]

### 2. itmes.py 수정하기

In [None]:
import scrapy
% % writefile kyobo_content/kyobo_content/items.py


class KyoboContentItem(scrapy.Item):

    title = scrapy.Field()
    price = scrapy.Field()
    author = scrapy.Field()
    publisher = scrapy.Field()
    category = scrapy.Field()
    ISBN = scrapy.Field()
    page_count = scrapy.Field()
    size = scrapy.Field()
    summary = scrapy.Field()
    barcode = scrapy.Field()

### 3. spider.py 수정하기

In [None]:
%%writefile kyobo_content/kyobo_content/spiders/spider.py
import scrapy
from kyobo_content.items import KyoboContentItem

class Spider(scrapy.Spider):
    #교보문고에서 지정되어 있는 카테고리값을 딕셔너리 형태로 만들었습니다.
    categories = {
    "01": "소설",
    "03": "시/에세이",
    "05": "인문",
    
}
    name = "KyoboContent"
    allow_domain = ["kyobobook.co.kr"]
    #starturls 카테고리별로 시작할수 있도록 설정하였습니다.
    start_urls = ["http://www.kyobobook.co.kr/categoryRenewal/categoryMain.laf?perPage=150&mallGb=KOR&linkClass={}&menuCode=002".format(category) for category in categories]
    
    
    #해당페이지 에서 책의 고유 바코드번호만 뽑아내고 뽑아낸 바코드번호로 책의 상세페이지의 link를 만들어 주었습니다.
    def parse(self, response):
        barcodes = response.xpath('//*[@id="prd_list_type1"]/input[@name="barcode"]/@value').extract()
        category_code = response.url.split("linkClass=")[1].split("&")[0]
        for barcode in barcodes:
            link = "http://www.kyobobook.co.kr/product/detailViewKor.laf?mallGb=KOR&ejkGb=KOR&linkClass={}&barcode={}".format(category_code, barcode)
            yield scrapy.Request(link, callback=self.get_content)
            
    #상세페이지 내부에서 크롤링할 아임테을 지정하였습니다.
    #title, price, author, publisher, size, page_count, ISBN, summary, category값들을 긁어오고 있습니다.
    def get_content(self, response):
        
        item = KyoboContentItem()
        item["title"] = response.xpath('//*[@id="container"]/div[2]/form/div[@class="box_detail_point"]/h1/strong/text()').extract()[0].strip()
        item["price"] = response.xpath('//*[@id="container"]/div[2]/form/div[@class="box_detail_order"]/div[@class="box_detail_price"]/ul/li[1]/span[@class="org_price"]/text()').extract()[0].strip()
        item["author"] = response.xpath('//*[@id="container"]/div[@class="content_middle"]/form/div[@class="box_detail_point"]/div[@class="author"]/span[@class="name"]/a/text()').extract()[0]
        item["publisher"] = response.xpath('//*[@id="container"]/div[2]/form/div[@class="box_detail_point"]/div[@class="author"]/span[@title="출판사"]/a/text()').extract()[0]
        item["size"] = response.xpath('//div[@class="content_left"]/div[@class="box_detail_content"]/table/tr[3]/td/text()').extract()[0]
        item["page_count"] = response.xpath('//div[@class="content_left"]/div[@class="box_detail_content"]/table/tr[2]/td/text()').extract()[0]
        summary = response.xpath('//div[@class="box_detail_article"]/text()').extract()
        item["summary"] = "".join(summary).replace("\n", "").replace("\t", "").replace("\r", "")
        ISBN13 = response.xpath('//span[@title="ISBN-13"]/text()').extract()[0]
        ISBN10 = response.xpath('//span[@title="ISBN-10"]/text()').extract()[0]
        item["ISBN"] = ISBN13+"("+ISBN10+")"
        item["category"] = response.url.split("linkClass=")[1].split("&")[0]
        item["barcode"] = response.url.split("barcode=")[1]

        yield item
        

### 4. mogodb.py 설정

In [None]:
%%writefile kyobo_content/kyobo_content/mongodb.py 
import pymongo

client = pymongo.MongoClient('mongodb://ID:PW@PUBLIC IP:PORT NUBMER/')
db = client.kyobo
collection = db.book

### 5. piplines.py 설정
- 크롤링한 데이터 mongodb에 저장하기

In [None]:
%%writefile kyobo_content/kyobo_content/pipelines.py
from .mongodb import collection

class KyoboContentPipeline(object):

    def process_item(self, item, spider):

        # mongodb에 저장
        data = {"barcode":item["barcode"], 
                "title":item["title"], 
                "price":item["price"],
                "author":item["author"],
                "publiser":item["publisher"],
                "size":item["size"],
                "page_count":item["page_count"],
                "summary":item["summary"],
                "ISBN":item["ISBN"],
                "category":item["category"],             
                 }
        collection.insert(data)

        return item

### 6. settings.py 설정

In [None]:
!echo "ITEM_PIPELINES = {" >> kyobo_content/kyobo_content/settings.py

In [None]:
!echo "   'kyobo_content.pipelines.KyoboContentPipeline': 300," >> kyobo_content/kyobo_content/settings.py

In [None]:
!echo "}" >> kyobo_content/kyobo_content/settings.py

### 7. run.sh 설정

In [None]:
%%writefile run.sh
cd kyobo_content
scrapy crawl KyoboContent -o kyobocontent.csv

### 8. run.sh 실행

In [None]:
!./run.sh

![08_mongo_book.JPG](./Image/08_mongo_book.JPG)

#### [책정보 상세내용 MongoDB에 저장 ]

## 책 리뷰 정보내용 크롤링 하기

![04_review_info.jpg](./Image/04_review_info.jpg)

![05_review_error.jpg](./Image/05_review_error.jpg)

![06_review_network.png](./Image/06_review_network.png)

#### [책 리뷰 내용 크롤링 url 찾을 때 겪은 실행착오 ]

### 1. 프로젝트 생성

In [None]:
!scrapy startproject kyobo_review

### 2. items.py 수정

In [None]:
%%writefile kyobo_review/kyobo_review/items.py
import scrapy
class KyoboReviewItem(scrapy.Item):
    
    
    ISBN = scrapy.Field()
    ID = scrapy.Field()
    grade = scrapy.Field()
    review = scrapy.Field()

### 3. Spider.py 생성

In [None]:
%%writefile kyobo_review/kyobo_review/spiders/spiders.py
import scrapy
import requests
from kyobo_review.items import KyoboReviewItem

class Spider(scrapy.Spider):
    # 교보문에서 재정되어 있는 카테고리 값을 딕셔너리 형태로 만듦
    categories = {
    "01": "소설",
    "03": "시/에세이",
    "05": "인문",}
    
    name = "KyoboReview"
    allow_domain = ["kyobobook.co.kr"]
    # start_urls 카테고리별로 시작할 수 있도록 설정
    start_urls = ["http://www.kyobobook.co.kr/categoryRenewal/categoryMain.laf?perPage=150&mallGb=KOR&linkClass={}&menuCode=002".format(category) for category in categories]
    
    #start_url에서 바코드번호만 뽑아내고 뽑아낸 바코드 번호로 책의 리뷰 페이지 link로 만들었습니다
    def parse(self,response):
        barcodes = response.xpath('//*[@id="prd_list_type1"]/input[@name="barcode"]/@value').extract()
        
        # review page는 1페이지에서만 추출
        for barcode in barcodes:
            review_url = "http://www.kyobobook.co.kr/product/productSimpleReviewSort.laf?gb=klover&barcode={}&ejkGb=KOR&mallGb=KOR&sortType=like&pageNumber=1&orderType=order".format(barcode)
            
            yield scrapy.Request(review_url, callback=self.get_review)
        
        
            
    # 리뷰 페이지 내부에서 크롤링할 아이템 지정
    def get_review(self, response):
        for i in range(1,6):
            item = KyoboReviewItem()
            item["ISBN"] = response.url.split('=')[2][:13]
            item["ID"] = response.css(".board_list > li:nth-child({}) dt.id::text".format(i))[0].extract()
            item["grade"] = response.css(".board_list > li:nth-child({}) span::text".format(i))[0].extract()
            item["review"] = response.css(".board_list > li:nth-child({}) .txt::text".format(i))[0].extract()
    
            yield item
        

### 4. mogodb.py 설정

In [None]:
%%writefile kyobo_review/kyobo_review/mongodb.py 
import pymongo

client = pymongo.MongoClient('mongodb://ID:PW@PUBLIC IP:PORT NUMBER')
db = client.kyobo
collection = db.review

### 5. piplines.py 설정
- 크롤링한 데이터 mongodb에 저장하기

In [None]:
%%writefile kyobo_review/kyobo_review/pipelines.py
import json
import requests
from .mongodb import collection

class KyoboReviewPipeline(object):
    
    
    def process_item(self, item, spider):
        data = {
            "ID" : item["ID"],
            "ISBN" : item["ISBN"],
            "grade" : item["grade"],
            "review" : item["review"],
        }
        collection.insert(data)
        
        return item
            
        

### 6. settings.py 설정

In [None]:
! echo "ITEM_PIPELINES = {" >> kyobo_review/kyobo_review/settings.py 

In [None]:
! echo "    'kyobo_review.pipelines.KyoboReviewPipeline': 300," >> kyobo_review/kyobo_review/settings.py

In [None]:
! echo "}" >> kyobo_review/kyobo_review/settings.py

### 7. run.sh 설정

In [None]:
!./run.sh

![07_mongo_review.JPG](./Image/07_mongo_review.JPG)

#### [책 리뷰 내용 MongoDB에 저장]

## 챗봇 만들기
- 추천을 넣고 문장을 입력하면 문장에 포함된 명사들을 추천하여 책을 추천 해준다 (ex. bot 추천 ~~~~~~~)
- 재고를 넣고 바코드 번호를 넣으면 해당책에대한 전국매장의 재고를 크롤링해서 전송해준다.(ex. bot 재고 ~~~~~~~)
- 리뷰를 넣고 바코드 번호를 넣으면 해당책에대한 리뷰정보를 보여준다(ex. bot 리뷰 ~~~~~~~)



![03_book_info_2.jpg](./Image/03_book_info_2.jpg)

#### [책소개에서 문장(명사)으로 검색]

![02_02_bookInStock.jpg](./Image/02_02_bookInStock.jpg)

#### [재고정보 내용 크롤링]

![09_chatbot.JPG](./Image/09_chatbot.JPG)

#### [slack 챗봇 결과]

In [None]:
%%writefile hello/hello.py
import json
import requests
from selenium import webdriver
from pyvirtualdisplay import Display 
from flask import *
import pymongo
import konlpy
from konlpy.tag import *
import pandas as pd

app = Flask(__name__)
# 메세지 보내기 함수
def send_msg(msg, channel="#general", username="book_bot"):
    webhook_url = "https://hooks.slack.com/services/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"
    
    payload = {
        "channel": channel,
        "username": username,
        "icon_emoji": ":tennis:",
        "text": msg,
    }
    return requests.post(webhook_url, json.dumps(payload))

def stocks(barcode):
    # 셀레니움으로 크롤링하기
    # XVfb 사용
    url = "http://www.kyobobook.co.kr/product/detailViewKor.laf?mallGb=KOR&ejkGb=KOR&linkClass=01&barcode={}".format(barcode)
    display = Display(visible=0, size=(800, 600))
    display.start() 
    driver = webdriver.Chrome()
    driver.get(url)
    # 재고및 위치 보기 버튼 클릭
    driver.find_element_by_css_selector("#btnStockOpen").click()
    
    # 전국에 있는 매장의 재고 크롤링 하기
    ls = []
    for num in range(2,7,2):
        content = driver.find_elements_by_css_selector("#storeStockTable > table:nth-child({}) > tbody > tr > th".format(num))
        stock_count = driver.find_elements_by_css_selector("#storeStockTable > table:nth-child({}) > tbody > tr > td".format(num))
        for i in range(len(content)):
            if content[i].text != '':
                ls.append(content[i].text+":"+stock_count[i].text)
    # 드라이버 종료
    driver.quit()
    # 화면 끄기
    display.stop()
    # 리스트를 메세지로 보낼 텍스트 형태로 변형해주기
    new_ls = ", ".join(ls)
    return new_ls

# 책 검색 함수
def recommand_book(text):
    # okt class 호출
    okt = Okt()
    noun_ls =[]
    # 메세지로 받은 텍스트 에서 명사만 추출
    nouns = okt.nouns(text)
    # 정규표현식으로 변형
    for noun in nouns:
        noun_ls.append("(?=.*{})".format(noun))
    
    query = "".join(noun_ls)
    # mongo db
    client = pymongo.MongoClient("mongodb://ID:PW@PUBLIC IP:PORT Number")
    book_info  = client.kyobo.book
    # mongodb summary에서 해당 query에 맞는 데이터 찾기
    Query = {"summary":{"$regex": query}}
    result = book_info.find(Query)
    df = pd.DataFrame(result)
    
    # 메세지로 전송할 텍스트로 만들어 주기 
    book_ls = []
    for i in range(len(df)):
        book_ls.append(df.title[i]+":"+df.price[i]+"["+df.barcode[i]+"]")

    book_ls = "\n".join(book_ls)
    return book_ls

def review(text):
    # mongodb 들고오기 리뷰데이터에 연결
    client = pymongo.MongoClient("mongodb://ID:PW@PUBLIC IP:PORT Number")
    book_info  = client.kyobo.review
    # 일치하는 text로 받은 ISBN에 해당하는 리뷰 찾기
    Query = {"ISBN": text}
    result = book_info.find(Query)
    review_df = pd.DataFrame(result)
    # 메세지로 전송할 텍스트 만들어 주기
    review_ls = []
    for i in range(len(review_df)):
        review_ls.append("grade : "+review_df.grade[i]+"\n review : "+review_df.review[i])
        

    review_ls = "\n".join(review_ls)
    return review_ls
    



@app.route("/slack", methods=["POST"])
def slack():
    text = request.form.get("text")
    # text안에 재고라는 단어가 있으면 stock함수를 실행
    if "재고" in text:
        text = text.replace("bot", "").replace("재고", "").strip()
        send_msg(stocks(text))
    # text안에 추천라는 단어가 있으면 recommand_book함수를 실행
    if "추천" in text:
        text = text.replace("bot", "").replace("추천", "").strip()
        send_msg(recommand_book(text))
    # text안에 추천라는 단어가 있으면 review함수를 실행
    if "리뷰" in text:
        text = text.replace("bot", "").replace("리뷰", "").strip()
        send_msg(review(text))
        
    return Response(), 200
app.run(debug=True) # port : 5000