 1. 随着字段越来越多或者随着爬取的网站越来越多,这样就会写大量的CSS/XPATH提取规则,后期面对大量的提取规则不易于维护
 2. Scrapy提供了ItemLoader机制,把维护工作变得更加简单
 3. ItemLoader其实提供的是一种容器,比如可以配置Item中的其中某一个字段对应的CSS/XPATH规则来解析

1. 导入ItemLoader
    * from scrapy.loader import ItemLoader
2. 通过item loader加载item
```
item_loader = ItemLoader(item=JobBoleArticleItem(), response=response)
item_loader.add_css("title", ".entry-header h1::text")
```
ItemLoader类中有三个方法
       * item_loader.add_css()
       * item_loader.add_xpath()
       * item_loader.add_value()
3. 获取生成的item
    ```
    article_item = item_loader.load_item()
    yield article_item
    ```
<img src='1.png'>
4. 返回的是一个JobBoleArticleItem对象,这里存在两个问题
    * 所有返回的值都是list类
    * 没有对返回值进行过滤操作,比如评论为0没有正常显示默认值0而是显示' 评论'(即正则操作或者自定义操作)

#### 上述问题的解决办法
1. Item字段的Field()可以传入两个参数(input_processor, output_processor)
```
# 创建时间
    create_date = scrapy.Field(
        input_processor=MapCompose(date_convert),
    )
# 封面图本地存放路径
    front_image_path = scrapy.Field(
        output_processor=MapCompose(return_value)
    )
```
    * input_processor:当该字段的值被传递进来的时候,对该值进行预处理,Scrapy提供默认的Processer=MapCompose
        * from scrapy.loader.processors import MapCompose
        * MapCompose(fun1, fun2, fun3...):可以传递任意多的函数,从左到右地对该字段进行预处理,fun1返回的值被fun2接收并处理...
        * fun1(value):value就是item里的实际值
        ```
        def fun1(value):
            value=xxxx
            return value
        def fun2(value):
            value=xxxx
            return value
        input_processor=MapCompose(fun1, fun2)
        ```
2. 解决返回的value值都是list类型
    * Scrapy提供了TakeFirst()
    * from scrapy.loader.processors import TakeFirst
    <img src='2.png'>
    * 但是如果每个字段都需要TakeFirsrt(),又会显得代码重复
    * 自定义ItemLoader专门实现TakeFirst():需要继承ItemLoader类
    ```
    class ArticleItemLoader(ItemLoader):
        # 自定义itemloader
        default_output_processor = TakeFirst()
    ```
    * 在主文件里实例化该自定义Item类
        * item_loader = ArticleItemLoader(item=JobBoleArticleItem(), response=response)
        <img src='3.png'>