
# <center>网络数据获取——综合实践</center>

## 课程内容

* 1.下载链接文件
* 2.解析网页爬取数据
* 3.动态网页数据爬取

### 1.下载链接文件

* 2019全国知识图谱与语义计算大会评测论文集 https://conference.bj.bcebos.com/ccks2019/eval/webpage/index.html
```py
# 引入所需包
import requests
import time
```
练习通过URL抓取链接文件，使用`open`存储到本地。

#### 普通下载

```py
r = requests.get(url)
f = open(file_name, 'wb')
f.write(r.content)
f.close()
```

#### 有效率的下载
直接使用f.write的话，是先把r.content全部写到内存里，在写到硬盘当中，显然这样既不效率且占用内存，因此另一种更有效率的下载方式是以文件流的形式下载
* 把get()里的stream参数设置为True
* 使用for...in的形式写文件
```py
r = requests.get(url, stream=True)
f = open(file_name, 'wb')
for a in r.iter_content(chunk_size=32):  # iter是iter
    f.write(a)
f.close()
```

In [None]:
# 小练习
# 爬取会议论文集：https://conference.bj.bcebos.com/ccks2019/eval/webpage/index.html 中文知识图谱问答


爬取静态数据可以分为两类，一类是**调用API爬取数据**，一类是**解析网页爬取数据**

### 2.解析网页爬取数据

* http://quotes.toscrape.com/

```py
# 引入所需包
import requests
from bs4 import BeautifulSoup

...
soup = BeautifulSoup(html, "html.parser")
```
练习抓取`html`静态文件，利用`BeautifulSoup`解析文件，使用`pandas`存储到本地。

#### 分析页面获取数据
```
    <div class="quote" itemscope itemtype="http://schema.org/CreativeWork">
        <span class="text" itemprop="text">“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”</span>
        <span>by <small class="author" itemprop="author">Albert Einstein</small>
        <a href="/author/Albert-Einstein">(about)</a>
        </span>
        <div class="tags">
            Tags:
            <meta class="keywords" itemprop="keywords" content="change,deep-thoughts,thinking,world" /    >             
            <a class="tag" href="/tag/change/page/1/">change</a>            
            <a class="tag" href="/tag/deep-thoughts/page/1/">deep-thoughts</a>            
            <a class="tag" href="/tag/thinking/page/1/">thinking</a>            
            <a class="tag" href="/tag/world/page/1/">world</a>            
        </div>
    </div>
```

In [None]:
# 小练习
# 爬取一个城市近7天的天气情况 http://www.weather.com.cn/weather/101010100.shtml


### 3.爬取动态数据
* http://quotes.toscrape.com/js/

```py
# 引入所需包
import requests
from bs4 import BeautifulSoup
from selenium import webdriver
import time

...
browser = webdriver.Chrome()
browser.get(url)
time.sleep(5)
browser.close()
html = browser.page_source #获取网页信息
...
soup = BeautifulSoup(html, "html.parser")
```
练习抓取`html`动态文件，利用`BeautifulSoup`解析文件，使用`pandas`存储到本地。

### 3.1 方法一
* 传统方法爬取

* 思考问题：为什么没有获取到数据？

### 3.2 方法二
* selenium模拟

In [None]:
# 小练习
# 水木社区每日十大话题 http://www.newsmth.net/nForum/#!board/ShiDa


## 总结

### 1、构造URL
如何分析网页请求构造抓取URL队列。
```
http://quotes.toscrape.com
```

### 2、数据请求
#### 2.1 静态网页
**request**
* get：一般情况使用
* post：如果向服务器提交数据，进行交互（用户名、密码）

注意事项：1、伪装请求报头headers={user-agent}；2、中文字符编码encoding=utf-8
#### 2.2 动态网页
**selenium**
* 代替request来请求数据

注意事项：浏览器驱动及版本

### 3、解析数据
数据格式：**二进制content**、**对象Json**、**文本text**

**beautifulsoup**
* 三个对象：Soup、Tag、String
* 两个方法：1) 查找标签：**find_all** ； 2) 查找样式：**select**

### 4、保存数据
pandas—>DataFrame—>to_csv

# Any Questions?