#### 使用正则表达式获取网页标题的内容

In [1]:
import requests
import re

url = 'http://www.tipdm.com/tipdm/index.html'

rqq = requests.get(url)
rqq.encoding = 'utf-8'
rqq.text

'<!DOCTYPE HTML>\n<html>\n<head>\n<meta name="viewport" content="width=device-width, initial-scale=1.0">\n<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />\n<title>泰迪科技-专注于大数据技术研发及知识传播</title>\n<meta http-equiv="keywords" content="提供包括数据挖掘工程咨询、培训服务以及商业数据挖掘软件的开发和实施，应用领域包括教学科研、实验室管理、机械工业、土木工程、生物医学、航空航天、 汽车、电子产品、虚拟仪器、金融、电信"/>\n<meta http-equiv="description" content=""/>\n<script src="/r/cms/jquery.js" type="text/javascript"></script>\n<script src="/r/cms/front.js" type="text/javascript"></script>\n<script type="text/javascript" src="/r/cms/tipdmcom/tipdmcom/js/jquery.SuperSlide.js"></script>\n<link type="text/css" rel="stylesheet" href="/r/cms/tipdmcom/tipdmcom/css/tip_home.css" />\n<link type="text/css" rel="stylesheet" href="/r/cms/tipdmcom/tipdmcom/css/tip_index.css" />\n<link type="text/css" rel="stylesheet" href="/r/cms/tipdmcom/tipdmcom/css/iconfont.css" />\n\n<!--[if lt IE 9]> \n<script src="/r/cms/tipdmcom/tipdmcom/js/html5shiv.min.js"></script>\n<script src="/

In [5]:
# + 表示匹配任意次数，()里的内容表示要输出的内容，输出的内容放进一个列表中
re.findall('<li><a href="[a-z0-9.:/]+" target="">(.+)</a></li>', rqq.text)

['产品中心', '学科建设', '培训认证', '企业应用', '校企合作', '新闻中心', '关于我们']

#### 使用XPath解析网页

In [39]:
import requests
from lxml import etree  # 使用XPath解析网页需要导入的模块
url = 'http://www.tipdm.com/tipdm/index.html'

rqq = requests.get(url)
# 将要解析的网页转换为html格式，rqq.content得到字节型的源代码，etree.HTMLParser()表示解析器
html = etree.HTML(rqq.content, etree.HTMLParser())  

<Element html at 0x219990dd508>

In [42]:
etree.tostring(html, encoding='utf-8').decode('utf-8')  # tostring解析到的html转化为字符串

'<html>\n<head>\n<meta name="viewport" content="width=device-width, initial-scale=1.0"/>\n<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>\n<title>泰迪科技-专注于大数据技术研发及知识传播</title>\n<meta http-equiv="keywords" content="提供包括数据挖掘工程咨询、培训服务以及商业数据挖掘软件的开发和实施，应用领域包括教学科研、实验室管理、机械工业、土木工程、生物医学、航空航天、 汽车、电子产品、虚拟仪器、金融、电信"/>\n<meta http-equiv="description" content=""/>\n<script src="/r/cms/jquery.js" type="text/javascript"/>\n<script src="/r/cms/front.js" type="text/javascript"/>\n<script type="text/javascript" src="/r/cms/tipdmcom/tipdmcom/js/jquery.SuperSlide.js"/>\n<link type="text/css" rel="stylesheet" href="/r/cms/tipdmcom/tipdmcom/css/tip_home.css"/>\n<link type="text/css" rel="stylesheet" href="/r/cms/tipdmcom/tipdmcom/css/tip_index.css"/>\n<link type="text/css" rel="stylesheet" href="/r/cms/tipdmcom/tipdmcom/css/iconfont.css"/>\n\n<!--[if lt IE 9]> \n<script src="/r/cms/tipdmcom/tipdmcom/js/html5shiv.min.js"></script>\n<script src="/r/cms/tipdmcom/tipdmcom/js/respond.min.js"><

In [43]:
html.xpath('/html/head/title')  # xpath用来匹配html中的内容，这里表示匹配html下的head下的title标签的内容

[<Element title at 0x21999116cc8>]

In [44]:
html.xpath('//title')  # //表示向下匹配子集目录(及向下 匹配两层目录)

[<Element title at 0x21999116cc8>]

In [48]:
# 查找具体标签的三种方法
# html.xpath('/html/body/header/div/nav/ul/li/a/text()')  # 表示提取a标签下的内容
# html.xpath('//header/div/nav/ul/li/a/text()')  # //查找子孙节点，可以直接跳过两层目录
# html.xpath('//*[@id="menu"]/li/a/text()')  # 通过id来定位到具体的部分

['首页', '产品中心', '学科建设', '培训认证', '企业应用', '校企合作', '新闻中心', '关于我们']

In [51]:
html.xpath('/html/body/header/div/nav/ul/li[last()]')  # last()表示取出li标签中的最后一个

[<Element li at 0x2199912c7c8>]

In [52]:
# 表示取出a标签下target属性为_blank的内容的值
html.xpath('/html/body/header/div/nav/ul/li/a[@target="_blank"]/text()')

[]

In [54]:
import requests
from lxml import etree

url = 'https://weixin.sogou.com/'

rqq = requests.get(url)

In [55]:
html = etree.HTML(rqq.content, etree.HTMLParser(encoding='utf-8'))

html.xpath('//*[@id="topwords"]/li/a[@title]/text()')  # *表示任意一个属性名，这里表示任意一个属性下id为topwords

['31省新增确诊22例 新疆17',
 '家属回应驾校教练车祸2学',
 '全国影院复工首日票房破百',
 '范冰冰突然发文:努力坚强',
 '的哥开车偶遇东北虎对视20',
 '汪峰开三轮摩托车撞树',
 '事业单位招聘第1名被第2举',
 '成都一小区母子跳楼坠亡',
 'AKB48成员确诊新冠肺炎',
 '美国新冠感染病例超376万']

In [57]:
# 通过谷歌定位到要访问的属性，然后右击copy xpath可以得到路径
html.xpath('//*[@id="topwords"]/li[1]/a[@title]/text()')

['31省新增确诊22例 新疆17']

In [61]:
# 循环得到各个标签的值的内容，注意网页中第一个标签的下标为1而不是0
# [html.xpath('//*[@id="topwords"]/li['+str(i)+']/a[@title]/text()') for i in range(1, 11)]  # '+str(i)+不能直接写i
html.xpath('//*[@id="topwords"]/li/a[@title]/text()')  # 表示查找所有li下的属性title中的内容

['31省新增确诊22例 新疆17',
 '家属回应驾校教练车祸2学',
 '全国影院复工首日票房破百',
 '范冰冰突然发文:努力坚强',
 '的哥开车偶遇东北虎对视20',
 '汪峰开三轮摩托车撞树',
 '事业单位招聘第1名被第2举',
 '成都一小区母子跳楼坠亡',
 'AKB48成员确诊新冠肺炎',
 '美国新冠感染病例超376万']

#### 使用Beautiful Soup解析网页

In [62]:
import requests
from bs4 import BeautifulSoup

rqq = requests.get('http://www.tipdm.com/tipdm/index.html')

soup = BeautifulSoup(rqq.content, 'lxml')  # lxml为解析器

In [66]:
# soup.head  # 提取head标签的内容，但这种方法只能查找第一个标签，不能查找所有的head标签
soup.find_all('li') # find_all方法可以查找所有的标签

[<li class="on"><a href="/">首页</a></li>,
 <li><a href="/tipdm/cpzx/" target="">产品中心</a></li>,
 <li><a href="http://www.tipdm.com:80/xkjs/index.jhtml" target="">学科建设</a></li>,
 <li><a href="http://www.tipdm.com:80/pxrz/index.jhtml" target="">培训认证</a></li>,
 <li><a href="http://www.tipdm.com:80/qyyy/index.jhtml" target="">企业应用</a></li>,
 <li><a href="http://www.tipdm.com:80/xqhz/index.jhtml" target="">校企合作</a></li>,
 <li><a href="http://www.tipdm.com:80/xwzx/index.jhtml" target="">新闻中心</a></li>,
 <li><a href="/tipdm/gywm/" target="">关于我们</a></li>,
 <li><a href="http://" target="_blank"><img src="/u/cms/tipdmcom/201907/011429548lgf.jpg"/></a></li>,
 <li class="pt"><a href="/HB/index.jhtml" target="_blank">
 <div class="img"><i class="iconfont icon-s"></i></div>
 <span>大数据建模平台</span></a></li>,
 <li class="tdb"><a href="/tdb/index.jhtml" target="_blank">
 <div class="img"><i class="iconfont icon-teddy"></i></div>
 <span>泰迪杯</span><font id="tdbNum"></font></a></li>,
 <li class="fzjx"><a href

In [68]:
a = soup.link
# a.name  # name可以查看标签的名称
a.attrs  # attrs可以查看标签下的属性
# a['href']  # 查找具体的属性值

{'type': 'text/css',
 'rel': ['stylesheet'],
 'href': '/r/cms/tipdmcom/tipdmcom/css/tip_home.css'}

In [95]:
a = soup.find_all('nav')  # find_all返回的是一个列表
a[0].find_all('li')
# for i in a[0].find_all('li'):
#     print(i.string)  # 通过string可以查看具体的属性的值

[<li class="on"><a href="/">首页</a></li>,
 <li><a href="/tipdm/cpzx/" target="">产品中心</a></li>,
 <li><a href="http://www.tipdm.com:80/xkjs/index.jhtml" target="">学科建设</a></li>,
 <li><a href="http://www.tipdm.com:80/pxrz/index.jhtml" target="">培训认证</a></li>,
 <li><a href="http://www.tipdm.com:80/qyyy/index.jhtml" target="">企业应用</a></li>,
 <li><a href="http://www.tipdm.com:80/xqhz/index.jhtml" target="">校企合作</a></li>,
 <li><a href="http://www.tipdm.com:80/xwzx/index.jhtml" target="">新闻中心</a></li>,
 <li><a href="/tipdm/gywm/" target="">关于我们</a></li>]

In [75]:
a=soup.select('html > head > title')[0]  # select方法可以通过路径进行查找，返回的是一个列表，这里的路劲用>表示而不用/表示
a.text  # 通过text来查找具体属性下的值

'泰迪科技-专注于大数据技术研发及知识传播'

In [97]:
soup.select('.menu > li')  # class，通过class查找
# soup.select('#menu > li')  # id，通过id查找
# [i.text for i in soup.select('.menu > li')]

[<li class="on"><a href="/">首页</a></li>,
 <li><a href="/tipdm/cpzx/" target="">产品中心</a></li>,
 <li><a href="http://www.tipdm.com:80/xkjs/index.jhtml" target="">学科建设</a></li>,
 <li><a href="http://www.tipdm.com:80/pxrz/index.jhtml" target="">培训认证</a></li>,
 <li><a href="http://www.tipdm.com:80/qyyy/index.jhtml" target="">企业应用</a></li>,
 <li><a href="http://www.tipdm.com:80/xqhz/index.jhtml" target="">校企合作</a></li>,
 <li><a href="http://www.tipdm.com:80/xwzx/index.jhtml" target="">新闻中心</a></li>,
 <li><a href="/tipdm/gywm/" target="">关于我们</a></li>]

In [77]:
soup.select('#menu > li > a')  # 通过谷歌开发者工具也可以复制具体的标签的select路径

[<a href="/">首页</a>,
 <a href="/tipdm/cpzx/" target="">产品中心</a>,
 <a href="http://www.tipdm.com:80/xkjs/index.jhtml" target="">学科建设</a>,
 <a href="http://www.tipdm.com:80/pxrz/index.jhtml" target="">培训认证</a>,
 <a href="http://www.tipdm.com:80/qyyy/index.jhtml" target="">企业应用</a>,
 <a href="http://www.tipdm.com:80/xqhz/index.jhtml" target="">校企合作</a>,
 <a href="http://www.tipdm.com:80/xwzx/index.jhtml" target="">新闻中心</a>,
 <a href="/tipdm/gywm/" target="">关于我们</a>]

In [81]:
from bs4 import BeautifulSoup
import requests

rqq = requests.get('https://weixin.sogou.com/')
soup = BeautifulSoup(rqq.content, 'lxml')

soup.select('#topwords')
# [i.text for i in soup.select('.hot-news > li > a')]
[i['title'] for i in soup.select('.hot-news > li > a')]  # 第二种提取具体属性的值

['31省新增确诊22例 新疆17例',
 '家属回应驾校教练车祸2学员身亡',
 '全国影院复工首日票房破百万',
 '范冰冰突然发文:努力坚强的活着',
 '的哥开车偶遇东北虎对视20分钟',
 '汪峰开三轮摩托车撞树',
 '事业单位招聘第1名被第2举报出局',
 '成都一小区母子跳楼坠亡',
 'AKB48成员确诊新冠肺炎',
 '美国新冠感染病例超376万']

In [84]:
a = soup.find_all(id='topwords')[0]
# [i.text for i in a.find_all('a')]
[i.string for i in a.find_all('a')]  # string和text都可以查找具体的值

['31省新增确诊22例 新疆17',
 '家属回应驾校教练车祸2学',
 '全国影院复工首日票房破百',
 '范冰冰突然发文:努力坚强',
 '的哥开车偶遇东北虎对视20',
 '汪峰开三轮摩托车撞树',
 '事业单位招聘第1名被第2举',
 '成都一小区母子跳楼坠亡',
 'AKB48成员确诊新冠肺炎',
 '美国新冠感染病例超376万']

#### 数据存储

In [85]:
import requests
from bs4 import BeautifulSoup

rqq = requests.get('http://www.tipdm.com/tipdm/index.html')
soup = BeautifulSoup(rqq.content, 'lxml')
dat = soup.select('.menu > li > a')

In [86]:
names = [i.text for i in dat]
href = [i['href'] for i in dat]
print(names, href)

['首页', '产品中心', '学科建设', '培训认证', '企业应用', '校企合作', '新闻中心', '关于我们'] ['/', '/tipdm/cpzx/', 'http://www.tipdm.com:80/xkjs/index.jhtml', 'http://www.tipdm.com:80/pxrz/index.jhtml', 'http://www.tipdm.com:80/qyyy/index.jhtml', 'http://www.tipdm.com:80/xqhz/index.jhtml', 'http://www.tipdm.com:80/xwzx/index.jhtml', '/tipdm/gywm/']


In [87]:
import json  # 保存数据为json格式
with open('./temp.json', 'w') as f:  # f是路径的简写
    json.dump({'names': names, 'href': href}, f, ensure_ascii=False)  # ensure_ascii=False可以保证中文可以正常显示

In [88]:
import os
os.getcwd()  # getcwd可以查看当前的工作路径

'E:\\jupyter\\schoolStudy\\day16'

In [89]:
# 将数据保存到数据库
from sqlalchemy import create_engine
con = create_engine('mysql+pymysql://root:123456@127.0.0.1:3306/test?charset=utf8mb4')

In [90]:
import pandas as pd
pd.DataFrame({'names': names, 'href': href}).to_sql('temp05', con)  # 先将数据转换为数据数据框的格式然后保存到数据库内

  result = self._query(query)
