# 简易网络爬虫

网络爬虫获取数据的基本原理是:

1. 确定目标网站和需要爬取的数据 - 爬虫需要知道目标网站的URL,以及需要爬取网站上的哪些数据,比如文章、图片等内容。

2. 发送HTTP请求 - 爬虫通过HTTP请求访问目标网页,获取网站源代码。常用的HTTP请求方法有GET和POST。

3. 解析HTML - 爬虫会解析HTML源代码,通常使用解析库如Beautiful Soup,从中提取出需要的数据。

4. 存储数据 - 将爬取到的数据存储到数据库或文本文件等格式中,便于后续处理和分析。

5. 重复爬取 - 爬虫会递归爬取网站上的链接,遍历整个网站获取数据。需要设置一定的频率,避免过于频繁访问被网站屏蔽。

6. 清洗和分析数据 - 对爬取的数据进行清洗,删除无用和重复信息。然后可以进行数据分析,得出有价值的信息。

网络爬虫需要处理页面编码、会话管理、缓存、并发控制等问题,还需要遵守网站robots.txt规则,不能过度爬取避免被封IP。总体来说,爬虫通过程序化发起大规模的数据请求,自动获取网络数据,是实现数据采集的重要方式之一。

## Requests 与 Beautiful Soup

https://beautifulsoup.readthedocs.io/zh-cn/v4.4.0/#

* Requests是Python的一个非常流行的网络爬虫工具库,主要用来发送HTTP网络请求并获取响应。Requests的主要特点包括:

1. 简单易用 - Requests使用简单的Python代码就可以发送各种HTTP请求,如GET、POST等。语法简洁明了。

2. 支持HTTPS - Requests可以为HTTPS请求验证SSL证书,支持所有HTTP请求方式。

3. 连接池和持久连接 - Requests支持连接池,可以重用连接提高效率。并支持持久连接,实现HTTP keep-alive功能。

4. 自动编码 - Requests自动处理响应内容的编码,可以很方便地获取Unicode编码后的数据。

5. 自动解析JSON - Requests内置了JSON解码器,可以自动将JSON响应解析为Python字典或列表。

6. 方便的请求头设置 - Requests允许添加请求头,可以定制User-Agent等信息,伪装浏览器访问。

7. 建立在urllib3之上 - Requests内置了强大的urllib3,处理许多网络连接细节问题。

8. 身份认证 - Requests支持HTTP基本认证、摘要认证等多种认证方式。

9. 代理和流 - Requests支持设置代理,并可以获取响应内容的二进制流。

综上,Requests可以大大简化Python网络爬虫的编码难度,是Python爬虫开发的重要选择。

* Beautiful Soup是一个Python的网页解析库,主要用于从HTML或XML文档中提取数据。它的主要特点包括:

1. 解析HTML/XML - Beautiful Soup可以自动将文档转换成Unicode编码,并解析成一个方便遍历的树形结构。

2. 支持CSS选择 - 可以通过CSS选择器来提取文档中的节点,语法简洁易用。

3. 支持多种解析器 - Beautiful Soup内置多种解析器,可以解析不同格式的文档。主要的解析器有Python标准库解析器、lxml HTML解析器等。

4. 文档遍历 - 提供多种遍历文档树的方法,如遍历子节点、兄弟节点、父节点等,可以方便地定位提取数据。

5. 搜索文档 - 支持通过标签名、属性、文本内容等来搜索匹配的文档节点。

6. 修改文档树 - 可以修改文档树的节点内容、属性、标签名等,便于数据清洗。

7. 输出格式化 - 可以格式化输出文档树的内容,并对输出编码设置,打印可读性更好。

8. 异常处理 - Beautiful Soup会处理解析过程中的异常,保证代码的健壮性。

9. 文档编码转换 - Beautiful Soup可以检测和转换文档的编码,确保解析正确。

总之,Beautiful Soup是一个功能强大的网页解析库,可以大大简化网页内容提取操作,是Python网络爬虫的重要组件之一。

## 1. 爬虫基本流程的代码实现

In [2]:
import pandas as pd
import requests
from bs4 import BeautifulSoup

In [3]:
headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:74.0) Gecko/20100101 Firefox/74.0"}
url="https://movie.douban.com/top250"
response=requests.get(url,headers=headers)

In [4]:
soup = BeautifulSoup(response.text)

data0=soup.find_all("div",class_="hd")[0].find_all("span")[0].text

op=open("I:\douban.csv","w",encoding="utf-8")
op.write(data0)
op.close()

## classwork1
爬墙商学院网站并保存数据

In [28]:
url_ali="https://abs.hznu.edu.cn/portal/xwdt/index.shtml"
response_ali=requests.get(url_ali)
soup_ali = BeautifulSoup(response_ali.text)

In [29]:
data1=soup_ali.find_all("div",attrs={"class":"float-left"})[5].text

op=open("I:\shangxueyuan.csv","w",encoding="utf-8")
op.write(data1)
op.close()

## 批量获取数据

In [80]:
op=open("I:\douban.csv","w",encoding="utf-8")

for i in soup.find_all("div",attrs={"class":"item"}):
    dianym=i.find("span",attrs={"class":"title"}).text
    z1=i.find("div",attrs={"class":"star"}).find_all("span")
    pingfen=z1[1].text
    renshu=z1[3].text
    op.write(dianym+","+pingfen+","+renshu+"\n")
    
op.close()

## classwork 2

* strip():用于移除字符串头尾指定的字符（默认为空格）或字符序列。注意：该方法只能删除开头或是结尾的字符，不能删除中间部分的字符。

获取商学院网站中的新闻标题与时间并保存数据


In [31]:
soup_ali.find_all("div",attrs={"style":"width:735px;"})

[<div class="float-left" style="width:735px;">学院组织学生参加2023年世界互联网大会“互联网之光”博览会 </div>,
 <div class="float-left" style="width:735px;">段永朝教授讲座：《数字时代的新商业思想探讨》系列第三讲——效率与公平 </div>,
 <div class="float-left" style="width:735px;">奋楫力发十五载，扬帆逐梦向未来 </div>,
 <div class="float-left" style="width:735px;">喜报|我院王淑翠教授团队的案例入选全国国际商务专业学位研究生示范案例库 </div>,
 <div class="float-left" style="width:735px;">学院组织学生探展2023年杭州·云栖大会 </div>,
 <div class="float-left" style="width:735px;">阿里巴巴商学院举行2023级国际学生迎新会 </div>,
 <div class="float-left" style="width:735px;">“产业互联网发展趋势、模式及案例”——中电海康窦伟博士与我院学子交流 </div>,
 <div class="float-left" style="width:735px;">校党委副书记杨政赴商学院走访调研 </div>,
 <div class="float-left" style="width:735px;">我院与杭州网营科技股份有限公司签约实践教学基地 </div>,
 <div class="float-left" style="width:735px;">我院召开2024年度国家项目申报动员会 </div>,
 <div class="float-left" style="width:735px;">张旭昆教授讲座：论民营企业长期存在的必要性 </div>,
 <div class="float-left" style="width:735px;">阿里巴巴商学院举行2023级本科新生欢迎会 </div>,
 <div class="float-left" style="width:735px;">段永朝教授

In [35]:
soup_ali.find_all("div",attrs={"class":"float-right"})[0].find_all("div",attrs={"class":"float-right"})

[<div class="float-right">[2023-11-08]</div>,
 <div class="float-right">[2023-11-07]</div>,
 <div class="float-right">[2023-11-03]</div>,
 <div class="float-right">[2023-11-03]</div>,
 <div class="float-right">[2023-11-02]</div>,
 <div class="float-right">[2023-10-30]</div>,
 <div class="float-right">[2023-10-26]</div>,
 <div class="float-right">[2023-10-25]</div>,
 <div class="float-right">[2023-10-24]</div>,
 <div class="float-right">[2023-10-20]</div>,
 <div class="float-right">[2023-10-18]</div>,
 <div class="float-right">[2023-10-11]</div>,
 <div class="float-right">[2023-10-10]</div>,
 <div class="float-right">[2023-09-20]</div>,
 <div class="float-right">[2023-09-18]</div>]

In [49]:
op=open("I:\shangxueyuan.csv","w",encoding="utf-8")

biaoti=soup_ali.find_all("div",attrs={"style":"width:735px;"})
riqi=soup_ali.find_all("div",attrs={"class":"float-right"})[0].find_all("div",attrs={"class":"float-right"})
for i in range(15):
    #print(biaoti[i].text,riqi[i].text.strip("[]"))
    op.write(biaoti[i].text+","+riqi[i].text.strip("[]")+"\n")
op.close()

## 跨链接获取数据

* 找出链接的规律

In [44]:
url0="https://movie.douban.com/top250?start="
url_1="&filter="

soup_list_douban=[]
for i in range(0,50,25):
    url_z=url0+str(i)+url_1
    response1=requests.get(url_z,headers=headers)
    soup1 = BeautifulSoup(response1.text)
    soup_list_douban.append(soup1)

In [50]:
op=open("I:\douban.csv","w",encoding="utf-8")

for soup in soup_list_douban:
    for i in soup.find_all("div",attrs={"class":"item"}):
        dianym=i.find("span",attrs={"class":"title"}).text
        z1=i.find("div",attrs={"class":"star"}).find_all("span")
        pingfen=z1[1].text
        renshu=z1[3].text
        op.write(dianym+","+pingfen+","+renshu+"\n")

op.close()

## classwork 3

获取多页商学院的新闻标题与时间

In [64]:
url_ali0="https://abs.hznu.edu.cn/portal/xwdt/index"
url_ali1=".shtml"
response_ali=requests.get(url_ali)
soup_ali = BeautifulSoup(response_ali.text)
soup_list_ali=[soup_ali]

for i in range(2,5):
    print(url_ali0+"_"+str(i)+url_ali1)
    response_ali=requests.get(url_ali0+"_"+str(i)+url_ali1)
    soup_ali = BeautifulSoup(response_ali.text)
    soup_list_ali.append(soup_ali)

https://abs.hznu.edu.cn/portal/xwdt/index_2.shtml
https://abs.hznu.edu.cn/portal/xwdt/index_3.shtml
https://abs.hznu.edu.cn/portal/xwdt/index_4.shtml


In [65]:
op=open("I:\shangxueyuan.csv","w",encoding="utf-8")

for i in soup_list_ali:
    biaoti=i.find_all("div",attrs={"style":"width:735px;"})
    riqi=i.find_all("div",attrs={"class":"float-right"})[0].find_all("div",attrs={"class":"float-right"})
    
    for j in range(len(biaoti)):
        op.write(biaoti[j].text+","+riqi[j].text.strip("[]")+"\n")
op.close()