# spider

In [None]:
'''
scrapy.Spider类介绍：提供了start_requests()方法的默认实现，读取并请求start_urls属性，并根据返回的结果调用parse方法解析结果
属性：
    name：爬虫行程，定义spider名字的字符串，一般被命名为网站域名，必须唯一，但是可以生成多个相同的spider实例
    allowed_domains：允许爬取的域名，可选配置，不在此范围的链接不会被跟进爬取
    start_urls：是起始URL列表，当我们没有实现start_requests()方法时，会默认从这个列表开始抓取
    custom_settings：专属于本spider的配置，次配置会覆盖项目全局的设置
    crawler：本spider类对应的crawler对象，包含很多项目组件
    settings：setting对象，可以获取项目的全局设置变量
方法：
    start_requests()：生成初始请求，必须返回一个可迭代对象，会默认使用start_urls里面的url来构造request
    parse()：当response没有指定回调函数是，该方法会默认被调用
    closed()：当spider关闭时，该方法会被调用
'''

## 创建
- 用来从网页里抓取内容，并解析抓取的结果，必须继承Scrapy提供的spider类scrapy.Spider

In [None]:
'''
会根据预定义的名字，创建一个最基本的爬虫代码
'''
cd 进入创建的爬虫项目目录
scrapy genspider 爬虫名字 网站域名

In [None]:
'''
创建后的文件内容，以scrapy genspider bd www.baidu.com为例
'''
# -*- coding: utf-8 -*-
import scrapy


class BdSpider(scrapy.Spider):
    name = 'bd' # 每个项目唯一的名字，用来区分不同的spider
    allowed_domains = ['www.baidu.com'] # 允许爬取的域名，如果初始或后续的请求链接不是这个域名下的，则这个请求链会被过滤掉
    start_urls = ['http://www.baidu.com/'] # 在启动时爬取的url列表

    '''
    被调用时，start_urls里面的链接构成的请求完成下载执行后，返回的响应就会作为唯一的参数传递给这个函数
    '''
    def parse(self, response):
        quotes = response.css('.quote')
        for quote in quotes:
            text = quote.css('.text::text').extract_first()
            author = quote.css('.author::text').extract_first()
            tags = quote.css('.tags .tag::text').extract()

## 将spider和item结合
- 将解析的结果赋值给item的字段

In [None]:
import scrapy
from tutorial.items import QuoteItem
class QuotesSpider(scrapy.Spider):
    name = "quites"
    allowed_domains = ["quotes.toscrape.com"]
    start_urls = ['http://quotes.toscrape.com/']
    
    def parse(self,response):
        quotes = response.css('.quote')
        for quote in quotes:
            item = QuoteItem()
            item['text'] = quote.css('.text::text').extract_first()
            item['author'] = quote.css('.author::text').extract_first()
            item['tags'] = quote.css('.tags .tag::text').extract()
            yield item
        # 下一页
        next = response.css('.pager .next a::attr("href")').extract_first()
        # 将相对URL转变成绝对URL
        url = response.urljoin(next)
        # 重新执行parse方法
        yield scrapy.Request(url=url,callback=self.parse)