<img src='1.png' width=800px>
### Scrapy核心组件:
1. **引擎(Scrapy engine)**: 用来处理整个系统的数据流处理, 触发事务(框架核心)
2. **调度器(Scheduler)**: 用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址
3. **下载器(Downloader)**: 用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的)
4. **爬虫(Spiders)**: 爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面
5. **项目管道(Pipeline)**: 负责处理爬虫从网页中抽取的实体，主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后，将被发送到项目管道，并经过几个特定的次序处理数据。
6. **下载器中间件(Downloader Middlewares)**: 位于Scrapy引擎和下载器之间的框架，主要是处理Scrapy引擎与下载器之间的请求及响应。
7. **爬虫中间件(Spider Middlewares)**: 介于Scrapy引擎和爬虫之间的框架，主要工作是处理蜘蛛的响应输入和请求输出。


### Crawler
1. Crawler(爬虫):是Scrapy API的主要入口点,这个对象提供了对所有Scrapy核心组件的访问
2. Crawler是跟Scrapy的settings挂钩起来的,一般的组件类中都有from_crawler()这个方法
3. **from_crawler**用于实例化某个对象（中间件，模块），常常出现在对象的初始化，负责提供crawler.settings

##### 比如Spider类中有from_crawler(),通过绑定crawler来初始化Spider对象,也就是说Spider有了读取setting的能力
```
class Spider(object_ref):
    @classmethod
    def from_crawler(cls, crawler, *args, **kwargs):
        spider = cls(*args, **kwargs)
        spider._set_crawler(crawler)
        return spider

    def _set_crawler(self, crawler):
        self.crawler = crawler
        self.settings = crawler.settings
        crawler.signals.connect(self.close, signals.spider_closed)
```
##### 再比如PipeLine
**MediaPipeline是Pipeline的初始父类**
```
class MediaPipeline(object):
    @classmethod
    def from_crawler(cls, crawler):
        try:
            pipe = cls.from_settings(crawler.settings)
        except AttributeError:
            pipe = cls()
        pipe.crawler = crawler
        return pipe
```
**cls.from_settings(crawler.settings)就读取了crawler的配置**
##### 再比如Middleware
```
class DepthMiddleware(object):
    @classmethod
    def from_crawler(cls, crawler):
        settings = crawler.settings
        maxdepth = settings.getint('DEPTH_LIMIT')
        verbose = settings.getbool('DEPTH_STATS_VERBOSE')
        prio = settings.getint('DEPTH_PRIORITY')
        return cls(maxdepth, crawler.stats, verbose, prio)
```
**settings = crawler.settings就读取了crawler的配置**  
...


### 从上面的流程图来分析Spider类中yield()方法
```
class ZhihuSpider(scrapy.Spider):
    name = 'zhihu'
    allowed_domains = ['www.zhihu.com']
    start_urls = ['http://www.zhihu.com/']

    def parse(self, response):
        yield scrapy.Request(request_url, headers=self.headers, callback=self.parse_question)

    def parse_question(self, response):
        item_loader = ItemLoader(item=ZhihuQuestionItem(), response=response)
        item_loader.add_css("title", ".zh-question-title h2 a::text")
        question_item = item_loader.load_item()
        
        yield scrapy.Request(self.start_answer_url.format(question_id, 20, 0), headers=self.headers,
                             callback=self.parse_answer)
        yield question_item

    def parse_answer(self, response):
        for answer in ans_json["data"]:
            answer_item = ZhihuAnswerItem()
            yield answer_item

    def start_requests(self):
        return [scrapy.Request('https://www.zhihu.com/#signin', headers=self.headers, callback=self.login)]

    def login(self, response):
        return [scrapy.FormRequest()]

    def check_login(self, response):
        yield scrapy.Request(url, dont_filter=True, headers=self.headers)
```
1. Spider类只有发送request和接受response的功能,所以能看到
    * 只有**start_requests(self):**的参数中是没有response的,因为start_requests(self)负责发送request
    * 而其他方法都有response参数,他们负责接受response,对应流程图中是**⑥**
2. 关键的一步,所有方法的yield()都对应**⑦**,当Scrapy engine接受到item或者Request时会执行**⑧**
    * 可以看到def parse_question(self, response)方法产生了两个yield,也就是说在**⑧**能同时往两个方向进行,即同时发送item给PipeLine和发送Request给调度器