### 实验目的：
1. 了解Scrapy爬虫框架；
2. 掌握Scrapy爬虫的使用步骤；
3. 了解Scrapy爬虫提取信息的方法。

### 实验要求：
1. 使用Scrapy爬取某一城市一周的天气预报；
2. 使用Scrapy爬取上交所和深交所所有股票的名称和交易信息；

### 网络爬虫之Scrapy框架

- Scrapy是一个快速、功能强大的网络爬虫框架，不是一个函数功能库；
- 爬虫框架是实现爬虫功能的一个软件结构和功能组件集合，是一个半成品，它能够帮助用户实现专业网络爬虫。

在win平台安装Scrapy，以管理员身份运行cmd，执行**pip install scrapy**；安装完成之后，执行**scrapy -h**进行测试。

#### Scrapy爬虫框架 5+2（中间件）  结构：
- Engine
    - 控制所有模块之间的数据流
    - 根据条件触发事件
    - 不需要用户修改
- Downloader
    - 根据请求下载网页
    - 不需要用户修改
- Scheduler
    - 对所有爬取请求进行调度管理
    - 不需要用户修改
- Downloader Middleware
    - 目的：实施Engine,Scheduler和Downloader之间进行用户可配置的控制
    - 功能：修改、丢弃、新增请求或相应
    - 用户可以编写配置代码
    
- Spider
    - 解析Downloader返回的响应(Response)
    - 产生爬取项（scraped item）
    - 产生额外的爬取请求(Request)
    - 需要用户编写配置代码

- Item Pipelines
    - 以流水线方式处理Spider产生的爬取项
    - 由一组操作顺序组成，类似流水线，每个操作是一个Item Pipeline类型
    - 可能操作包括：清理、检验和查重爬取项中的HTML数据、将数据存储到数据库
    - 需要用户编写配置代码
    
- Spider Middleware
    - 目的：对请求和爬取项的再处理
    - 功能：修改、丢弃、新增请求或爬取项
    - 用户可以编写配置代码

#### Scrapy常用命令

命令  | 说明  | 格式 
---|---|---|
  genspider   | 使用之前定义的模板创建一个新的爬虫  | scrapy genspider [options] <name> <domain>
  settings    | 获取爬虫配置信息 | scrapy settings [options]  
  shell      | 启动URL调试命令行 | scrapy shell [url]
  startproject  | 创建一个新工程   | scrapy startproject <name>[dir]
  crawl  | 运行一个爬虫  | scrapy crawl <spider>
  list   | 列出工程中所有爬虫 | scrapy list

#### Scrapy 爬虫的命令行逻辑
- Scrapy采用命令行创建和运行爬虫；
- 命令行（不是图形界面）更容易自动化，适合脚本控制；
- 本质上，Scrapy是给程序员用的，功能更重要。

#### Scrapy爬虫的使用步骤
1. 创建一个工程和Spider模板
2. 编写Spider
3. 编写Item Pipeline
4. 优化配置策略

#### Scrapy爬虫演示实例

- 演示HTML页面地址：http://python123.io/ws/demo.html

**步骤1**：建立一个scrapy爬虫工程
- 选取一个目录（如：C:\Users\Desktop\）,然后在该目录下执行如下命令：
**>scrapy startproject python123demo**
- 生成的项目 python123demo 里面包含一个目录 python123demo（模块） 和一个文件 scrapy.cfg（部署scrapy爬虫的配置文件）
- 内层目录python123demo里面包含以下目录和文件：
   - **\__pycache\__**:缓存目录，无需修改
   - **spiders**：Spiders代码模块目录（继承类），里面包含：
     - **\__init\__**：初始文件，无需修改
     - **\__pycache\__**:缓存目录，无需修改
   - **\__init\__**：初始化脚本
   - **items**：items代码模块（继承类）
   - **middlewares**：Middlewares代码模板（继承类）
   - **pipelines**：Pipelines代码模板（继承类）
   - **settings**：Scrapy爬虫的配置文件  

**步骤2**：在工程中产生一个Scrapy爬虫
 - 进入工程目录python123demo，然后执行如下命令：**>scrapy genspider demo python123.io**
 - 该命令作用：
   - 在工程目录下生成一个名称为demo的spider；
   - 在spiders目录下增加代码文件demo.py；

**步骤3**：配置产生的spider爬虫
- 修改spiders/demo.py文件
- 配置初始URL地址
- 配置获取页面后的解析方法

**步骤4**：运行爬虫，获取网页
- 进入工程目录，执行如下命令：**>scrapy crawl demo**

#### Scrapy爬虫的数据类型
- Request类
    - class scrapy.http.Request()
    - Request对象表示一个HTTP请求，由Spider生成，Downloader执行
- Response类
   - class scrapy.http.Response()
   - Response对象表示一个HTTP响应，由Downloader生成，由Spider处理
- Item类
   - class scrapy.item.Item()
   - Item对象表示一个从HTML页面中提取的信息内容，由Spider生成，由Item Pipeline处理
   - Item类似字典类型，可以按照字典类型操作

Request类

属性或方法 | 说明 
---|---|
.url  | Request对应的请求URL地址
.method  | 对应的请求方法，'GET','POST'等
.headers  | 字典类型风格的请求头
.body | 请求内容主体，字符串类型
.meta | 用户添加的扩展信息，在Scrapy内部模块间传递信息使用
.copy() | 复制该请求

Response类

属性或方法 | 说明 
---|---|
.url  | Response对应的URL地址
.status  | HTTP状态码，默认是200
.headers  | Response对应的头部信息
.body | Response对应的内容信息，字符串类型
.flags | 一组标记 
.request | 产生Response类型对应的Request对象
.copy() | 复制该响应

#### Scrapy 爬虫提取信息的方法

Scrapy爬虫支持多种信息提取方法
- Beautiful Soup
- lxml
- re
- 选择器(selector)
   - XPath Selector：XPath是一门在XML文档中查找信息的语言。
   - CSS Selector：CSS(Cascading Style Sheets,层叠样式表)

#### 实例1： 天气预报Scrapy爬虫

目标：获取某一城市一周天气预报，将结果保存为文本文件

候选数据网站：http://www.tianqi.com


功能描述：
- 输入：天气数据网站
- 输出：某一城市一周天气预报（日期，星期，天气，风向，最低温和最高温等）
- 技术路线：Scrapy框架，bs4

爬虫步骤

步骤1：
- \>scrapy startproject weather
- \> cd weather
- \> scrapy genspider CityWeather tianqi.com
- 进一步修改工程目录weather下面spiders目录下的CityWeather.py文件

步骤2：
- 配置stocks.py文件；
- 修改对返回页面的处理；
- 修改对新增URL爬取请求的处理。

步骤3：
- 修改工程目录weather下面的pipelines.py文件；
- 定义对爬取项（Scraped item）的处理类；
- 配置工程目录weather下面的settings.py文件，将其中的ITEM_PIPELINES的键改为pipelines.py中的处理类名。

步骤4：
- 运行爬虫，执行命令 - \>scrapy crawl CityWeather

#### 实例2： 股票数据Scrapy爬虫

目标：获取上交所和深交所所有股票的名称和交易信息

候选数据网站：
- 新浪股票：http://finance.sina.com.cn/stock/
- 东方财富网：http://quote.eastmoney.com/stocklist.html
- 股城网：https://hq.gucheng.com/gpdmylb.html

如何选择数据：
- 选取原则：股票信息静态存在于HTML页面中，非js代码生成，没有robots协议限制；
- 选取方法：浏览器F12,查看源代码等；
- 选取心态：不要纠结于某个网站，多找信息源尝试

功能描述：
- 输入：股票数据网站
- 输出：沪深股票消息（每只股票的名称，最高，最低，昨收，涨停，成交量等）
- 技术路线：Scrapy框架，re，bs4

程序的结构设计：
1. 从股城网获取股票列表
2. 根据股票列表逐个到股城网获取个股信息
3. 将结果存储到文件