# 发送请求

In [10]:
# 安装 requests（ 比 urllib简洁 ）。
# pip install requests（ 高版本annaconda下不用安装 ）。

# 导入 requests 包
import requests

# 发送请求，rq为响应
rq = requests.get('https://www.runoob.com/')

# 返回网页内容, 返回的是Unicode格式的数据
# print('实体：',rq.text)     # rq.content与rq.text类似，但返回值是bytes类型

# 说明：网页返回的内容，text是经过编码，所以看到的是字符，如果提取文字用text即可
# 提取图片、文件就用content
# 当text出现乱码时，可以改用content
# 也可以重新编码

# 查看响应状态码, 200 是 OK，404 是 Not Found
print ('响应状态码：',rq.status_code) 

# 响应状态的描述, 如 "Not Found" 或 "OK"
print('响应状态描述：',rq.reason)

# 查看响应头部字符编码
print ('编码：',rq.encoding)

# 查看完整url地址
print ('地址：',rq.url)

# 查看响应
print ('响应：',rq)

# 查看响应头
print ('响应头：',rq.headers)

# 查看请求头
print ('请求头：',rq.request.headers)

响应状态码： 200
响应状态描述： OK
编码： UTF-8
地址： https://www.runoob.com/
响应： <Response [200]>
响应头： {'Server': 'JSP3/2.0.14', 'Date': 'Fri, 17 Mar 2023 02:31:42 GMT', 'Content-Type': 'text/html; charset=UTF-8', 'Transfer-Encoding': 'chunked', 'Connection': 'keep-alive', 'Content-Encoding': 'gzip', 'Age': '43435', 'Accept-Ranges': 'bytes', 'Vary': 'Accept-Encoding', 'Link': '<http://www.runoob.com/wp-json/>; rel="https://api.w.org/"', 'Timing-Allow-Origin': '*', 'Ohc-Global-Saved-Time': 'Thu, 16 Mar 2023 14:26:47 GMT', 'Ohc-Cache-HIT': 'cs2cmcache62 [2], wzix62 [2]', 'Ohc-File-Size': '197227', 'X-Cache-Status': 'HIT'}
请求头： {'User-Agent': 'python-requests/2.25.1', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}


# 爬取本地网页数据

In [11]:
#爬取本地网页数据
from lxml import etree 
with open('html_doc.html') as f:# f为文件对象
    htmldoc=f.read()
type(htmldoc)    # 字符串
htmldom=etree.HTML(htmldoc)    #解析网页
type(htmldom)    # dom

lxml.etree._Element

In [12]:
htmldom.xpath('title') #无法读出相应内容，因为 Xpath 有其语法规则

[]

In [13]:
#爬取本地网页数据
from lxml import etree

with open('html_doc.html') as f:    # 打开本地网页，如果非本地网页
    htmldoc=f.read()                      # 则需要用requests请求
htmldom=etree.HTML(htmldoc)               # 将网页中读出的字符串变为dom结构

print(htmldom.xpath('//a'))               # 输出所有a标签，结果为内存地址
print(htmldom.xpath('//a/text()'))        # 输出所有a标签内容
print(htmldom.xpath('//a[2]/text()'))     # 输出第2个a标签内容
print(htmldom.xpath('//a[@id="link3"]/text()'))  # 输出id属性为link3的a标签内容
print(htmldom.xpath('//a[@id="link3"]/@href'))   # 输出id属性为link3的a标签中href属性内容


[<Element a at 0x21342950b00>, <Element a at 0x21341f23f80>, <Element a at 0x213429541c0>]
['\n                Elsie\n            ', '\n                Lacie\n            ', '\n                Tillie\n            ']
['\n                Lacie\n            ']
['\n                Tillie\n            ']
['http://example.com/tillie']


In [14]:
# 【练习】解析http://tipdm.com/中，所有title标签的内容：

import requests     #此时需要用requests模拟http请求
from lxml import etree  

rq = requests.get('http://tipdm.com/')   # 生成http请求，获取网页数据

htmldom=etree.HTML(rq.text)              #rq.text为网页字符串，将其变为dom树
print(htmldom.xpath('/html//title/text()'))  #利用xpath在dom树中查找所需节点



['泰迪智能科技-大数据实验室建设_大数据实训平台-大数据人工智能专业建设']


In [15]:
# 【思考】如果是要获取网址中所有a标签内容，该怎么做？
# 所有a标签
lista = htmldom.xpath('/html//a/text()')
listb = [x.strip()  for x in lista if x.strip() != '']
listb

['首页',
 '产品中心',
 '大数据产品',
 '线上产品',
 '教学资源',
 '大数据挖掘建模平台',
 '实验室建设',
 '大数据实验室',
 '人工智能实验室',
 '商务数据分析实验室',
 '培训',
 '培训动态',
 '培训服务',
 '培训讲师',
 '就业培训',
 '培训平台',
 '培训足迹',
 '企业应用',
 '信访大数据',
 '数据治理',
 '环保大数据',
 '运输安全大数据',
 '广电大数据',
 '电力大数据',
 '更多解决方案',
 '校企合作',
 '协同育人',
 '实践基地',
 '创新创业',
 '项目申报',
 '合作案例',
 '新闻中心',
 '公司新闻',
 '媒体报道',
 '1+X证书',
 '成本核算',
 '关于我们',
 '公司简介',
 '泰迪杯',
 '城市合伙人',
 '大事记',
 '资质荣誉',
 '活动图集',
 '联系我们',
 '<',
 '>',
 '实验室建设',
 '了解更多',
 '产品中心',
 '商务数据分析实训管理平台',
 '业务咨询',
 '云计算资源管理平台',
 '业务咨询',
 '大数据编程实训平台',
 '业务咨询',
 '商务数据分析编程实训平台',
 '业务咨询',
 '泰迪学院',
 '直接访问',
 '大数据综合实训平台',
 '业务咨询',
 '了解更多',
 '培训',
 '了解更多',
 '成功案例',
 '更多案例',
 '更多案例',
 '更多案例',
 '新闻中心',
 '更多资讯',
 '合作伙伴',
 '产教融合服务平台',
 '大数据挖掘企业服务平台',
 '模型交易平台',
 'BdRace数睿思竞赛平台',
 '泰迪内推',
 '泰迪教育',
 '泰迪云课堂',
 '泰迪云教材',
 '粤ICP备14098620号',
 '粤公网安备44011202000980号',
 '许老师：3120701392']

In [16]:
# 【练习1】解析 https://www.hue.edu.cn/ 中，菜单中的文本：（所有 li标签下，a标签的内容）

import requests     #此时需要用requests模拟http请求
from lxml import etree  

url='https://www.hue.edu.cn/'
rq = requests.get(url)   # 生成http请求，获取网页数据

# htmldom=etree.HTML(rq.text)                 # 如果 rq.text为乱码，则说明解码不正确
# print(htmldom.xpath('/html//li/a/text()'))  # 利用xpath在dom树中查找所需节点

# 修改1：
# htmldom=etree.HTML(rq.content)                 # 如果 rq.text为乱码，则说明解码不正确
# print(htmldom.xpath('/html//li/a/text()'))  # 利用xpath在dom树中查找所需节点

# 修改2：
text = rq.content.decode('utf-8')
htmldom1 = etree.HTML(text)               # 如果 rq.text为乱码，则说明
print(htmldom1.xpath('/html//li/a/text()'))  


['学院概况', '学校简介', '历史沿革', '校史档案', '现任领导', '历任领导', '发展规划', '信息公开', '机构设置', '教学学院', '职能部门', '共管和直属单位', '人才培养', '本科生教育', '研究生教育', '继续教育', '学科科研', '重点学科', '本科专业', '科研在线', '科研平台', '校级平台', '省级以上', '学报', '人才招聘', '教师招聘', '辅导员招聘', '招生就业', '招生在线', '就业在线', '创业孵化基地', '合作交流', '国际交流', '港澳台交流', '对外合作', '文化生活', '光谷论坛', '学工在线', '青年在线', '工会活动']


# 利用BeautifulSoup解析网页

In [17]:
from bs4 import BeautifulSoup as bs     #注意大小写

with open('html_doc.html') as f:
    soup = bs(f,features='lxml')  # 用lxml解释器进行解析
    
# soup  # 显示网页源码 
# 注意：soup看起来是网页源码，但其实它是BeautifulSoup对象
type(soup)           # BeautifulSoup对象

print(soup.a)        # 返回第一个a标签本身
print(type(soup.a))  # 返回第一个a标签类型
print(soup.p)        #返回第一个p标签本身

<a class="sister" href="http://example.com/elsie" id="link1">
                Elsie
            </a>
<class 'bs4.element.Tag'>
<p class="title">
<b>
                The Dormouse's story
            </b>
</p>


In [18]:
# 【练习】1.利用BeautifulSoup爬取湖北第二师范学院主页菜单信息

import requests
from bs4 import BeautifulSoup
import numpy as np
import pandas as pd

# 生成http请求，获取网页数据，rq为一个应答

url='https://www.hue.edu.cn/'
rq = requests.get(url)
rq.encoding= "utf-8"
rq = rq.text
# 将rq.text变为bs4结构，lxml解释器进行解析
soup = BeautifulSoup(rq,features='lxml')
link1 = soup.select('.menu-item .menu-link ')
t1 = []
for i in link1:
    t1.append(i.text)
t1

['学院概况', '机构设置', '人才培养', '学科科研', '人才招聘', '招生就业', '合作交流', '文化生活']

In [19]:
# 【思考】2.继续爬取主页菜单中各个子菜单信息，将获取的信息组成数据框
link2 = soup.select('.menu-item > ul')
t2 = []
for i in link2:
    t3 = []
    link3 = i.select('a')
    for j in link3:
        t3.append(j.text)
    t2.append(t3)
t2


[['学校简介', '历史沿革', '校史档案', '现任领导', '历任领导', '发展规划', '信息公开'],
 ['教学学院', '职能部门', '共管和直属单位'],
 ['本科生教育', '研究生教育', '继续教育'],
 ['重点学科', '本科专业', '科研在线', '科研平台', '校级平台', '省级以上', '学报'],
 ['教师招聘', '辅导员招聘'],
 ['招生在线', '就业在线', '创业孵化基地'],
 ['国际交流', '港澳台交流', '对外合作'],
 ['光谷论坛', '学工在线', '青年在线', '工会活动']]

In [20]:
#构成数据框
import pandas as pd
import numpy as np
t4 = []
for i in range(len(t1)):
    s1 = pd.Series(t2[i], name=t1[i])
    t4.append(s1)
df = pd.concat(t4, axis=1)
df

Unnamed: 0,学院概况,机构设置,人才培养,学科科研,人才招聘,招生就业,合作交流,文化生活
0,学校简介,教学学院,本科生教育,重点学科,教师招聘,招生在线,国际交流,光谷论坛
1,历史沿革,职能部门,研究生教育,本科专业,辅导员招聘,就业在线,港澳台交流,学工在线
2,校史档案,共管和直属单位,继续教育,科研在线,,创业孵化基地,对外合作,青年在线
3,现任领导,,,科研平台,,,,工会活动
4,历任领导,,,校级平台,,,,
5,发展规划,,,省级以上,,,,
6,信息公开,,,学报,,,,


In [21]:
# 【练习】2.利用Xpath定位，爬取湖北第二师范学院主页菜单信息

import requests
from lxml import etree  
import numpy as np
import pandas as pd

# 生成http请求，获取网页数据，rq为一个应答

url='https://www.hue.edu.cn/'
rq = requests.get(url) 


text = rq.content.decode('utf-8')
htmldom1 = etree.HTML(text)
print(htmldom1.xpath('/html//head/title/text()'))  



['湖北第二师范学院']


In [37]:
htmldom1.xpath('//*[@id="header"]/div[2]/div/div/ul/li/a')

[<Element a at 0x21344c520c0>,
 <Element a at 0x213450b7100>,
 <Element a at 0x21344c4cc80>,
 <Element a at 0x21344c4cc00>,
 <Element a at 0x2134506f080>,
 <Element a at 0x2134506f100>,
 <Element a at 0x2134506f740>,
 <Element a at 0x2134506f4c0>]

In [34]:
t1 = htmldom1.xpath('//*[@id="header"]/div[2]/div/div/ul/li/ul')
t5 = []
for i in t1:
    t2 = i.xpath('li/a/text()')
    t5.append(t2)
t5

[['学校简介', '历史沿革', '校史档案', '现任领导', '历任领导', '发展规划', '信息公开'],
 ['教学学院', '职能部门', '共管和直属单位'],
 ['本科生教育', '研究生教育', '继续教育'],
 ['重点学科', '本科专业', '科研在线', '科研平台', '学报'],
 ['教师招聘', '辅导员招聘'],
 ['招生在线', '就业在线', '创业孵化基地'],
 ['国际交流', '港澳台交流', '对外合作'],
 ['光谷论坛', '学工在线', '青年在线', '工会活动']]