# Scrapy

![avatar](https://docs.scrapy.org/en/latest/_images/scrapy_architecture_02.png)





使用Scrapy抓取网站需要四个步骤：

- 创建Scrapy项目
- 定义Item容器
- 编写爬虫
- 存储内容


## 1.创建项目
~~~cmd
C:\Users\fly_dragon\Desktop>scrapy startproject Dmoz
New Scrapy project 'Dmoz', using template directory 'c:\d_disk\anaconda3\lib\site-packages\scrapy\templates\project', created in:
    C:\Users\fly_dragon\Desktop\Dmoz

You can start your first spider with:
    cd Dmoz
    scrapy genspider example example.com

C:\Users\fly_dragon\Desktop>
~~~

该命令将会创建包含下列内容的scrapyspider目录:

```yaml
scrapyspider/
    scrapy.cfg
    scrapyspider/
        __init__.py
        items.py
        pipelines.py
        settings.py
        spiders/
            __init__.py
            ...
```
这些文件分别是

 - scrapy.cfg: 项目的配置文件。

- scrapyspider/: 该项目的python模块。之后您将在此加入代码。
- scrapyspider/items.py: 项目中的item文件。
- scrapyspider/pipelines.py: 项目中的pipelines文件。
- scrapyspider/settings.py: 项目的设置文件。
- scrapyspider/spiders/: 放置spider代码的目录。

## 2.Item容器
Item是保存爬取到的数据的容器，其使用方法和py字典类似，并且提供了额外保护机制来避免拼写错误导致的未定义字段错误。

## 3.编写爬虫
编写爬虫类Spider，Spider是用户编写用于从网上爬取数据的类。
其包含了一个用于可以下载的初始URL，然后是如何跟进网页中的链接以及如何分析页面的内容，还有提取生成Item的方法。

~~~py
# dmoz_spider.py

import scrapy


class DmozSpider(scrapy.Spider):
    name = "dmoz1"   # 不能重复，是爬虫的名字
    allowed_domains = ['dmoz-odp.org']
    start_urls = [
        'https://dmoz-odp.org/Games/Puzzles/',
        'https://dmoz-odp.org/Games/Puzzles/Brain_Teasers/'
    ]

    def parse(self, response):
        fileName = response.url.split("/")[-2]
        # 保存html文件到目录下
        with open(fileName, 'wb') as f:
            f.write(response.body)
~~~

在cmd下首先进入爬虫项目文件夹，然后使用命令：

scrapy crawl dmoz，这里dmoz是爬虫类名(name)