# 数据项

## 使用数据项

### 定义数据项

- 步骤一：继承ScraPy框架中的`scrapy.Item类`
- 步骤二：使用`scrapy.Field`定义数据项字段。

- 例子代码：

```python

import scrapy


class JobscrapyItem(scrapy.Item):
    # 招聘公司
    job_company = scrapy.Field()
    # 岗位名称
    job_name = scrapy.Field()
    # 行业
    job_industry = scrapy.Field()
    # 薪水
    job_salary = scrapy.Field()
    # 工作地点
    job_location = scrapy.Field()
    # 经验年限
    job_year = scrapy.Field()
    # 学历要求
    job_education = scrapy.Field()
    # 是否上市
    job_listed = scrapy.Field()
    # 公司规模
    job_persons = scrapy.Field()
    # 发布时间
    job_time = scrapy.Field()

```

- 注意：
    - 这个类可以定义在任何类中，单一般爬虫项目创建的时候，会单独创建一个`items.py`模块。
    - 一般根据业务需求，可以创建多个模块来分类实现。

### 使用数据项

- 数据项使用，可以参考Item的API文档

1. 可以使用构造器直接传递参数构造

```python

    product = Product(name='Desktop PC', price=1000)

```

2. 数据项本质是一个可迭代的映射数据，实现了下标`[]`运算发的字典访问方式，可以按照字典的方式使用。

```python

# -*- coding: utf-8 -*-
import scrapy
from JobScraPy.items import JobscrapyItem


class JobPythonSpider(scrapy.Spider):
    name = 'python'
    page_no = 2
    allowed_domains = ['www.zhipin.com']
    start_urls = ['https://www.zhipin.com/c101010100/?query=Python&period=4&ka=sel-scale-4']

    custom_settings = {
        "DEFAULT_REQUEST_HEADERS": {
            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/12.0.1 Safari/605.1.15'
        }
    }

    def parse(self, response):
        print(len(response.text))
        # print(response.text)
        print('---------------------------')
        job_list = response.xpath('//*[@id="main"]/div/div[@class="job-list"]/ul/li')
        print(len(job_list))
        jobs = []
        print('爬取：',response.url)
        for job in job_list:
            item = JobscrapyItem()

            item['job_name'] = job.xpath('./div/div[@class="info-primary"]/h3/a/div[@class="job-title"]/text()').get()
            item['job_salary'] = job.xpath('./div/div[@class="info-primary"]/h3/a/span/text()').get()

            info_ = job.xpath('./div/div[@class="info-primary"]/p/text()')
            item['job_location'] = info_[0].get()
            item['job_year'] = info_[1].get()
            item['job_education'] = info_[2].get()

            # ---
            item['job_company'] = job.xpath('./div/div[@class="info-company"]/div/h3/a/text()').get()

            info_ = job.xpath('./div/div[@class="info-company"]/div/p/text()')
            item['job_industry'] = info_[0].get()
            # 有的岗位没有上市信息，简单做个不够严谨的处理
            if len(info_) == 3:
                item['job_listed'] = info_[1].get()
                item['job_persons'] = info_[2].get()
            else:
                item['job_listed'] = ''
                item['job_persons'] = info_[1].get()
            # job_time
            item['job_time'] = job.xpath('./div/div[@class="info-publis"]/p/text()').get()
            jobs.append(item)
        if self.page_no <= 10:
            requet = scrapy.Request(url=F'https://www.zhipin.com/c101010100/?query={"Python"}&period=4&page={self.page_no}&ka=page-next')
            self.page_no = self.page_no + 1
            jobs.append(requet)

        return jobs


```


3. 使用get获取值

```python
        print(product.get('name'))    # 直接获取，
        print(product.get('stock', '缺省值'))   # 指定获取失败的缺省值
```

4. 使用in判别字段的存在

- field判别

```python
        print('price' in product)
        print('price' in product.fields)
```
- 值判别

```python

        print(1000 in product.values())
```


- 例子代码

```python
# -*- coding: utf-8 -*-
import scrapy


class TencentCssSpider(scrapy.Spider):
    name = 'tencent_css'
    allowed_domains = ['ke.qq.com']
    start_urls = ['https://ke.qq.com/course/list?mt=1001&st=2002&tt=3019&price_min=1&page=1']

    def parse(self, response):
   
        product = Product(name='Desktop PC',
                          price=1000,
                          last_updated='2019-03-13')

        print(product['last_updated'], product['name'])
        print(product.get('name'))
        print(product.get('stock', '缺省值'))
        print('price' in product)
        print('price' in product.fields)
        print(1000 in product)   # field判别
        print(1000 in product.values())



class Product(scrapy.Item):
    name = scrapy.Field()
    price = scrapy.Field()
    stock = scrapy.Field()
    last_updated = scrapy.Field(serializer=str)

```

### 导出数据项

- 导出数据项，在执行爬虫的时候，可以使用-o选项，把item导出为csv等各种格式。 

```shell
    
    scrapy crawl python  -o python-out.csv  --nolog

```

## 数据项加载器

- ScraPy框架提供了对数据项更加集成封装的处理方式。可以直接把XPATH转换为数据项。这个由 ItemLoader类来实现。

### ItemLoader API说明

- 构造器与主要函数

```python

class ItemLoader(builtins.object)
     |  Methods defined here:
     |  
     |  __init__(self, item=None, selector=None, response=None, parent=None, **context)
     |      Initialize self.  See help(type(self)) for accurate signature.
     |  
     |  add_css(self, field_name, css, *processors, **kw)       # 通过css添加数据
     |  
     |  add_value(self, field_name, value, *processors, **kw)
     |  
     |  add_xpath(self, field_name, xpath, *processors, **kw)
     |  
     |  get_collected_values(self, field_name)     #得到数据
     |  
     |  get_css(self, css, *processors, **kw)
     |  
     |  get_input_processor(self, field_name)
     |  
     |  get_output_processor(self, field_name)
     |  
     |  get_output_value(self, field_name)
     |  
     |  get_value(self, value, *processors, **kw)
     |  
     |  get_xpath(self, xpath, *processors, **kw)
     |  
     |  load_item(self)     # 返回解析的数据

```

### 使用ItemLoader

1. 使用步骤
    - 1. 创建ItemLoader对象。构造器
    - 2. 添加数据项数据与解析XPATH与CSS。add_xpath
    - 3. 返回数据项。load_item

2. 使用的例子代码

```python

# -*- coding: utf-8 -*-
import scrapy
import scrapy.loader


class TencentItemSpider(scrapy.Spider):
    name = 'tencent_item'
    allowed_domains = ['ke.qq.com']
    start_urls = ['https://ke.qq.com/course/list?mt=1001&st=2002&tt=3019&price_min=1&page=1']

    def parse(self, response):
        # loader = scrapy.loader.ItemLoader(item=item,selector=response.selector)
        # loader = scrapy.loader.ItemLoader(item=item, response=response)

        # 测试xpath的代码
        # price = response.xpath('/html/body//section/div/div/ul/li/div/span[@class="line-cell item-price"]/text()')
        # print('self：', len(price), price.getall())
        # company_name = response.xpath('/html/body//section/div/div/ul/li/div/span/a/text()')
        # print('self：', len(company_name), company_name.getall())

        course_list = response.xpath('/html/body//section[@class="main autoM clearfix"]/div/div/ul/li')
        item = JobscrapyItem()
        for course_ in course_list:
            loader = scrapy.loader.ItemLoader(item=item, selector=course_)
            loader.add_xpath('company_name', 'div/span/a/text()')
            loader.add_xpath('course_price', 'div/span[@class="line-cell item-price"]/text()')

            re = loader.get_xpath('div/span[@class="line-cell item-price"]/text()')
            print(re)
            yield loader.load_item()


class JobscrapyItem(scrapy.Item):
    # 培训公司名
    company_name = scrapy.Field()
    # 课程价格
    course_price = scrapy.Field()

```

- 运行效果

```shell
    scrapy crawl tencent_item  --nolog  -o course.csv
```
    
![image.png](attachment:image.png)

### ItemLoader处理器

- ItemLoader处理器可以对进入加载器的数据与从加载器获取的数据做一个数据处理回调，用来对数据进入加载器前后做处理。
- 处理器调用的顺序：
    - Item Loader field-specific attributes: field_in and field_out (most precedence)
    - Field metadata (input_processor and output_processor key)
    - Item Loader defaults: ItemLoader.default_input_processor() and ItemLoader.default_output_processor() (least precedence)

#### ItemLoader的处理器field_in与field_out使用
- 例子的业务说明：
    - 现在抽取的课程价格，包含一个￥符号，去掉这个符号，并把价格转换为float类型。

1. 处理器实现

```python

    def price_processor(self, value):
        print(float(value[0][1:]))
        # print(value)
        # 删除￥符号，转换为float类型
        return float(value[0][1:])
```

2. 在ItemLoader中绑定处理器到Field

```python

    class CourseItemLoader(scrapy.loader.ItemLoader):
        course_price_in = price_processor
        # course_price_out = price_processor

```

3. 使用绑定字段处理器的ItemLoader

```python

# -*- coding: utf-8 -*-
import scrapy
import scrapy.loader


class TencentItemSpider(scrapy.Spider):
    name = 'tencent_item'
    allowed_domains = ['ke.qq.com']
    start_urls = ['https://ke.qq.com/course/list?mt=1001&st=2002&tt=3019&price_min=1&page=1']

    def parse(self, response):

        item = JobscrapyItem()

        course_list = response.xpath('/html/body//section[@class="main autoM clearfix"]/div/div/ul/li')
        print(len(course_list))
        for course_ in course_list:
            # loader = scrapy.loader.ItemLoader(item=item, selector=course_)
            # ----------------------------
            loader = CourseItemLoader(item=item, selector=course_)
            # ----------------------------
            loader.add_xpath('company_name', 'div/span/a/text()')
            loader.add_xpath('course_price', 'div/span[@class="line-cell item-price"]/text()')

            re = loader.get_xpath('div/span[@class="line-cell item-price"]/text()')
            # print(re)
            yield loader.load_item()


class JobscrapyItem(scrapy.Item):
    # 培训公司名
    company_name = scrapy.Field()
    # 课程价格
    course_price = scrapy.Field()


def price_processor(self, value):      # 这儿有一个self
    print(float(value[0][1:]))
    # print(value)
    # 删除￥符号，转换为float类型
    return float(value[0][1:])

class CourseItemLoader(scrapy.loader.ItemLoader):
    course_price_in = price_processor
    # course_price_out = price_processor

```

- 上面的price_processor参数使用了self，说明函数需要成员函数。我们为了方便，实现在类的外面，这成员函数的实现在类的外面，通过成员绑定。

4. 运行效果
    ![image.png](attachment:image.png)

#### Item的字段元数据input_processor与output_processor使用

1.  构建Item处理器（需要全局函数）

```python

def in_price_processor(value):
    print(float(value[0][1:]))
    # print(value)
    # 删除￥符号，转换为float类型
    return float(value[0][1:])


def out_price_processor(value):
    print(value)
    # 删除￥符号，转换为float类型
    return value[0] + 100
```

2. 绑定处理函数到Item的Field字段

```python

    class JobscrapyItem(scrapy.Item):
        # 培训公司名
        company_name = scrapy.Field()
        # 课程价格
        course_price = scrapy.Field(
            input_processor=in_price_processor,                # 元数据：输入与输出
            output_processor = out_price_processor
        )


```

3. 调用

```python

# -*- coding: utf-8 -*-
import scrapy
import scrapy.loader
from scrapy.loader.processors import Join, MapCompose, TakeFirst

class TencentItemSpider(scrapy.Spider):
    name = 'tencent_item'
    allowed_domains = ['ke.qq.com']
    start_urls = ['https://ke.qq.com/course/list?mt=1001&st=2002&tt=3019&price_min=1&page=1']

    def parse(self, response):
 
        item = JobscrapyItem()
        course_list = response.xpath('/html/body//section[@class="main autoM clearfix"]/div/div/ul/li')
        print(len(course_list))
        for course_ in course_list:
            loader = scrapy.loader.ItemLoader(item=item, selector=course_)
            loader.add_xpath('company_name', 'div/span/a/text()')
            loader.add_xpath('course_price', 'div/span[@class="line-cell item-price"]/text()')

            re = loader.get_xpath('div/span[@class="line-cell item-price"]/text()')
            yield loader.load_item()


def in_price_processor(value):
    print(float(value[0][1:]))
    # print(value)
    # 删除￥符号，转换为float类型
    return float(value[0][1:])


def out_price_processor(value):
    print(value)
    # 删除￥符号，转换为float类型
    return value[0] + 100


class JobscrapyItem(scrapy.Item):
    # 培训公司名
    company_name = scrapy.Field()
    # 课程价格
    course_price = scrapy.Field(
        input_processor=in_price_processor,
        output_processor = out_price_processor
    )

```

#### ItemLoade的缺省处理器default_input_processor与default_output_processor使用

- 原理与编程模式与前面一样，下面是使用代码：

```python

def default_processor(self, value):
    print(value)
    return value[0]   # 传递的参数都是用[]列表

class CourseItemLoader(scrapy.loader.ItemLoader):
    # course_price_in = price_processor
    # course_price_out = price_processor
    default_input_processor = default_processor
    default_output_processor = default_processor

```

- CourseItemLoader类就直接使用

#### ScraPy内置处理器

1. 内置处理器列表

```python
    CLASSES
        |- builtins.object
            |- Compose          # 参数是一组函数，处理的数据使用这一组函数处理，值传递给第一个函数，第一个函数的输出传递给第二个，最后一个函数的返回值作为处理结果。
            |- Identity             # 不做任何处理，直接返回原值，等于不处理。
            |- Join                 # 对传递的值进行合并 
            |- MapCompose    # 这个函数与Compose函数功能相同，区别在于在数据的处理方式上，这个函数先对值进行迭代，每个迭代值调用一次函数，每个调用的返回值组成新的迭代值，并把迭代值传递给下一个函数，
            |- SelectJmes       # 使用json查询语言获取json数据的操作。（类似XPATH，不过争对的是json数据格式）
            |- TakeFirst          # 取第一个非空的值

```

- 内置处理器都是使用类来实现函数调用。

- JSON查询语句可以参考如下资料：
    - https://github.com/jmespath/jmespath.py

2. 在Item中使用内置处理器

```python

def price_get_of_dollar(value):
    # 去掉￥符号
    print('去掉￥符号：',value)
    return value[0][1:]


def to_float(value):
    print('转换类型：', value)
    return float(value)

class JobscrapyItem(scrapy.Item):
    # 培训公司名
    company_name = scrapy.Field()
    # 课程价格
    course_price = scrapy.Field(
        # input_processor=in_price_processor,
        # output_processor = out_price_processor
        input_processor = scrapy.loader.processors.Compose(price_get_of_dollar, to_float)
    )

```

- 运行效果：
    ![image.png](attachment:image.png)

3. 在ItemLoader使用内置处理器

```python

def price_get_of_dollar(value):
    # 去掉￥符号
    print('去掉￥符号：',value)
    return value[0][1:]


def to_float(value):
    print('转换类型：', value)
    return float(value)

class CourseItemLoader(scrapy.loader.ItemLoader):
    course_price_in = scrapy.loader.processors.Compose(price_get_of_dollar,to_float)

```

- 运行效果如下（于上面一样的效果）：
    ![image.png](attachment:image.png)

### 数据处理器的上下文

- 上面使用的处理器函数Compose与MapCompose可以都传递一个上下文参数，这个上下文本质是一个scrapy.utils.datatypes.MergeDict类型，包含：response，selector与传递的参数。

#### MergeDict的API

```python

class MergeDict(builtins.object)
         |  A simple class for creating new "virtual" dictionaries that actually look
         |  up values in more than one dictionary, passed in the constructor.
         |  
         |  If a key appears in more than one of the given dictionaries, only the
         |  first occurrence will be used.
         |  
         |  Methods defined here:
         |  
         |  __contains__ = has_key(self, key)
         |  
         |  __copy__(self)
         |  
         |  __getitem__(self, key)
         |  
         |  __init__(self, *dicts)
         |      Initialize self.  See help(type(self)) for accurate signature.
         |  
         |  copy(self)
         |      Returns a copy of this object.
         |  
         |  get(self, key, default=None)
         |  
         |  getlist(self, key)
         |  
         |  has_key(self, key)
         |  
         |  items(self)


```

####  处理器函数的参数loader_context
    - 必须是：`loader_context`
```python


def price_get_of_dollar(value, loader_context):
    # 去掉￥符号
    print('去掉￥符号：', value, loader_context)
    for it_ in loader_context.items():
        print('\t|- ', it_)
    return value[0][1:]


def to_float(value, loader_context):
    print('转换类型：', value, loader_context)
    for it_ in loader_context.items():
        print('\t|- ', it_)
    return float(value)


```


- 运行效果：
    ![image.png](attachment:image.png)

- 上下文的参数传递方式有如下三种

#### 传递方式一：从Compose与Mapcompose处理器传递

- 在Item的Compose与MapCompose中传递


```python
class JobscrapyItem(scrapy.Item):
    # 培训公司名
    company_name = scrapy.Field()
    # 课程价格
    course_price = scrapy.Field(
        # input_processor=in_price_processor,
        # output_processor = out_price_processor
        input_processor = scrapy.loader.processors.Compose(price_get_of_dollar, to_float, p1=10, p2=20)
    )

```

- 在ItemLoader的Compose与MapCompose中传递

```python

class CourseItemLoader(scrapy.loader.ItemLoader):
    # course_price_in = price_processor
    # course_price_out = price_processor
    # default_input_processor = default_processor
    # default_output_processor = default_processor
    course_price_in = scrapy.loader.processors.Compose(price_get_of_dollar, to_float, p1=10, p2=20)


```

#### 传递方式二：从ItemLoader构造器传递


```python
            loader = scrapy.loader.ItemLoader(item=item, selector=course_, p5=50, p6=60)
            # loader.context={'p3': 10, 'p4': 20}
```
- 运行效果：
    ![image.png](attachment:image.png)

####  传递方式三：使用ItemLoader的context属性传递

- 使用这种方法，其中构造器与初始化的response与selector被覆盖了；只有后继的参数被传递。

```python

# -*- coding: utf-8 -*-
import scrapy
import scrapy.loader
import scrapy.loader.processors

class TencentItemSpider(scrapy.Spider):
    name = 'tencent_item'
    allowed_domains = ['ke.qq.com']
    start_urls = ['https://ke.qq.com/course/list?mt=1001&st=2002&tt=3019&price_min=1&page=1']

    def parse(self, response):
        item = JobscrapyItem()
        course_list = response.xpath('/html/body//section[@class="main autoM clearfix"]/div/div/ul/li')
        print(len(course_list))
        for course_ in course_list:
            # ------------------------------------
            loader = scrapy.loader.ItemLoader(item=item, selector=course_)
            loader.context={'p3': 10, 'p4': 20}
            # ------------------------------------
            # loader = CourseItemLoader(item=item, selector=course_)
            loader.add_xpath('company_name', 'div/span/a/text()')
            loader.add_xpath('course_price', 'div/span[@class="line-cell item-price"]/text()')

            re = loader.get_xpath('div/span[@class="line-cell item-price"]/text()')
            # print(re)
            yield loader.load_item()


def price_get_of_dollar(value, loader_context):
    # 去掉￥符号
    print('去掉￥符号：', value, loader_context)
    for it_ in loader_context.items():
        print('\t|- ', it_)
    return value[0][1:]


def to_float(value, loader_context):
    print('转换类型：', value, loader_context)
    for it_ in loader_context.items():
        print('\t|- ', it_)
    return float(value)


class JobscrapyItem(scrapy.Item):
    # 培训公司名
    company_name = scrapy.Field()
    # 课程价格
    course_price = scrapy.Field(
        # input_processor=in_price_processor,
        # output_processor = out_price_processor
        input_processor = scrapy.loader.processors.Compose(price_get_of_dollar, to_float, p1=10, p2=20)
    )

```

- 运行效果
    ![image.png](attachment:image.png)

###  嵌套ItemLoader

- 为了避免XAPTH太长，可以使用嵌套ItemLoader来解决，ItemLoader提供了nested_xpath来设置外层XPATH。

```python

loader = ItemLoader(item=Item())
# load stuff not in the footer
footer_loader = loader.nested_xpath('//footer')

```

- 例子代码

```python
# -*- coding: utf-8 -*-
import scrapy
import scrapy.loader
import scrapy.loader.processors

class TencentItemSpider(scrapy.Spider):
    name = 'tencent_item'
    allowed_domains = ['ke.qq.com']
    start_urls = ['https://ke.qq.com/course/list?mt=1001&st=2002&tt=3019&price_min=1&page=1']

    def parse(self, response):
        item = JobscrapyItem()

        course_list = response.xpath('/html/body//section[@class="main autoM clearfix"]/div/div/ul/li')
        print(len(course_list))
        for course_ in course_list:
            loader = scrapy.loader.ItemLoader(item=item, selector=course_)
            # ---------------------------------
            embeded_loader = loader.nested_xpath('div')
            embeded_loader.add_xpath('company_name', 'span/a/text()')
            embeded_loader.add_xpath('course_price', 'span[@class="line-cell item-price"]/text()')
            # ---------------------------------
            print(loader.load_item())
            yield loader.load_item()


class JobscrapyItem(scrapy.Item):
    # 培训公司名
    company_name = scrapy.Field()
    # 课程价格
    course_price = scrapy.Field()

```

- 运行效果：
    ![image.png](attachment:image.png)

## 数据项管道

- 默认的数据项都是通过scrapy的-o选项，输出到指定格式的文件，为了把数据存储到关系与非关系数据库，需要处理数据项管道。
    - **提示**：`在parse直接存储也没有问题，就无法使用框架使用的方便的数据处理功能。`
    
- 数据项管道的作用
    - cleansing HTML data
    - validating scraped data (checking that the items contain certain fields)
    - checking for duplicates (and dropping them)
    - storing the scraped item in a database

- 说明：数据项管道的作用应该是数据存储前的预处理工作
    - 数据清洗
    - 数据去重
    - 数据校验
    - 数据格式
    - ...

### 数据项管道接口

- 在创建爬虫项目的时候，数据项管道被自动创建，提供的数据处理方式默认是直接输出，代码如下：

```python

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html


class AdvSpiderPipeline(object):
    def process_item(self, item, spider):
        print(item,spider)     # 简单输出
        return item


```

- 数据管道的工作方式：
    - 每条数据输出，管道的处理函数都会被调用。（前提是管道被开启）

### 数据项管道的设置

1. 设置文件：创建爬虫项的缺省设置文件`settings.py`

2. 设置项也有默认的，只是被注释而已，取消注释就可以简单工作。

```python

ITEM_PIPELINES = {
   'Adv_Spider.pipelines.AdvSpiderPipeline': 300,
}

```

- 截图效果：
    ![image.png](attachment:image.png)

- **说明：**
    - `每个数据项管道后面的参数，决定管道的运行顺序。顺序从低到高运行，取值在0-1000之间。`

### 使用多个数据项管道

1. 实现多个数据项管道

```python

class AdvSpiderPipeline(object):
    def process_item(self, item, spider):
        print(item,spider)
        return item


class ShowPipeline(object):

    def process_item(self, item, spider):
        print('\t- show Pipeline:', item, spider)
        return item


```

2. 配置多个数据项

```python

ITEM_PIPELINES = {
   'Adv_Spider.pipelines.AdvSpiderPipeline': 300,
   'Adv_Spider.pipelines.ShowPipeline': 301,
}

```

- 可以尝试改变上面数据值，观察输出的顺序（既运行顺序）


- 在数据项管道可以考虑如下几种常见数据库的存放：
    - mysql
    - mongodb
    - redis
    - 其他文本文件

## 数据项导出

- 在命令行数据导出分成两个部分技术：
    - 存储方式
        - 本地文件
        - FTP
        - 云存储
        - .....
        
    - 存储格式
        - csv
        - json

### 存储方式

1. 存储方式的默认配置

```python

    FEED_STORAGES_BASE = {
        '': 'scrapy.extensions.feedexport.FileFeedStorage',
        'file': 'scrapy.extensions.feedexport.FileFeedStorage',
        'stdout': 'scrapy.extensions.feedexport.StdoutFeedStorage',
        's3': 'scrapy.extensions.feedexport.S3FeedStorage',
        'ftp': 'scrapy.extensions.feedexport.FTPFeedStorage',
    }

```


- 没有指定存储方式，则使用本地文件存储

    - 标准方式：

```shell
    scrapy crawl tencent_item  --nolog  -t csv -o file:///c:/data/data.csv
    scrapy crawl tencent_item  --nolog  -t csv -o ftp://user:pass@ftp.example.com/path/to/export.csv
    scrapy crawl tencent_item  --nolog  -t csv -o s3://aws_key:aws_secret@mybucket/path/to/export.csv
    scrapy crawl tencent_item  --nolog  -t csv -o stdout:
```

- 其中-t 不存在的时候，会自动根据扩展名自动确定存储格式。 没有扩展名或者扩展名格式不在默认格式，则需要使用-t 指定。

2. 取消默认配置

```python

    FEED_STORAGES = {
        'ftp': None,
    }
```

3. 使用例子：

- 输出到标准输出设备

```python
    scrapy crawl tencent_item  --nolog  -t csv -o stdout:
```
    
- 运行效果
    ![image.png](attachment:image.png)

### 存储格式

1. 默认的存储格式设置

```python

    FEED_EXPORTERS_BASE = {
        'json': 'scrapy.exporters.JsonItemExporter',
        'jsonlines': 'scrapy.exporters.JsonLinesItemExporter',
        'jl': 'scrapy.exporters.JsonLinesItemExporter',
        'csv': 'scrapy.exporters.CsvItemExporter',
        'xml': 'scrapy.exporters.XmlItemExporter',
        'marshal': 'scrapy.exporters.MarshalItemExporter',
        'pickle': 'scrapy.exporters.PickleItemExporter',
    }

```

2. 关闭自动格式设置

```python

    FEED_EXPORTERS = {
        'csv': None,
    }

```

### 数据项导出的URI参数

1. 两个默认名：
    - %(time)s         - 时间戳（导出时刻的时间）
    - %(name)s        - 爬虫名


2. 其他任何爬虫类中设置的属性
    
    - 比如：
    
```python

    class TencentItemSpider(scrapy.Spider):
        name = 'tencent_item'
        # -----------------
        my_name= 'data'
        # -----------------
        allowed_domains = ['ke.qq.com']
        start_urls = ['https://ke.qq.com/course/list?mt=1001&st=2002&tt=3019&price_min=1&page=1']

        def parse(self, response):

```

3. 例子

```python
    - scrapy crawl tencent_item  --nolog  -t csv -o "%(name)s_%(time)s_%(my_name)s.csv"
```

- 上面没有加`file:`存储方式。为了防止命令行歧义，使用引用字符`'' ''`

- 打出的文件：
    ![image.png](attachment:image.png)

### 数据项导出的其他设置

1. 与数据项导出有关的设置

    - FEED_URI (mandatory)
        - 导出的URI
    - FEED_FORMAT
        - 导出的格式
    - FEED_STORAGES
        - 导出的存储方式
    - FEED_EXPORTERS
        - 导出实现类。
    - FEED_STORE_EMPTY
        - 数据为空是否保存
    - FEED_EXPORT_ENCODING
        - 导出数据的编码，默认UTF-8
    - FEED_EXPORT_FIELDS
        - 指定导出字段
        - FEED_EXPORT_FIELDS = \["foo", "bar", "baz"\]
    - FEED_EXPORT_INDENT
        - 导出数据的缩行

2. 设置的例子

```python

# EXPORTS Setting
FEED_EXPORT_ENCODING = 'UTF-8'
FEED_URI = "%(name)s_%(time)s_%(my_name)s.csv"
FEED_FORMAT = 'csv'
FEED_EXPORT_FIELDS = ["course_price"]
FEED_STORE_EMPTY = True
FEED_EXPORT_INDENT = 2

```

- 运行

```shell

    scrapy crawl tencent_item  --nolog

```

- 运行的效果
    - 使用设置，自动生成输出文件（数据一列，缩行2格）；
    ![image.png](attachment:image.png)

---- 