#Request 基本用法


##1 无参数的request

In [None]:
# coding:utf-8
import requests

# 下载新浪新闻首页的内容
url = 'http://news.sina.com.cn/china/'
# 用get函数发送GET请求，获取响应
res = requests.get(url)
# 设置响应的编码格式utf-8（默认格式为ISO-8859-1），防止中文出现乱码
res.encoding = 'utf-8'

print(type(res))
print(res)
print(res.text)

# 输出：
'''
<class 'requests.models.Response'>
<Response [200]>
<!DOCTYPE html>
<!-- [ published at 2017-04-19 23:30:28 ] -->
<html>
<head>
<meta http-equiv="Content-type" content="text/html; charset=utf-8" />
<title>国内新闻_新闻中心_新浪网</title>
<meta name="keywords" content="国内时政,内地新闻">
...
'''

##1 带参数的request

In [None]:
import requests
print("a")
#dic {key:value}
para = {'id': '991161'} 
r=requests.get('http://music.163.com/#/artist',params=para)
print(r.text)
print(type(r))

#Beautifulsoup4库

##1 Beautifulsoup4 库的安装
>pip install beautifulsoup4

然后我们安装lxml，这是一个解析器，BeautifulSoup可以使用它来解析HTML，然后提取内容。
>pip install lxml

##2 Beautifulsoup4的使用

网上找到的几个官方文档：BeautifulSoup4.4.0中文官方文档，BeautifulSoup4.2.0中文官方文档。不同版本的用法差不多，几个常用的语法都一样。

首先来看BeautifulSoup的对象种类，在使用的过程中就会了解你获取到的东西接下来应该如何操作。

###2.1 自定义测试 html

In [None]:
html = '''
<html>
    <body>
        <h1 id="title">Hello World</h1>
        <a href="#link1" class="link">This is link1</a>
        <a href="#link2" class="link">This is link2</a>
    </body>
</html>
'''

###2.2 从html文本中获取soup

In [None]:
from bs4 import BeautifulSoup
# 这里指定解析器为html.parser（python默认的解析器），指定html文档编码为utf-8
soup = BeautifulSoup(html,'html.parser',from_encoding='utf-8')
print(type(soup))

# 输出：<class 'bs4.BeautifulSoup'>

###2.3 soup.select()函数用法
####(1)获取指定标签的内容

In [None]:
header = soup.select('h1')
print(type(header))
print(header)
print(header[0])
print(type(header[0]))
print(header[0].text)

# 输出：
'''
<type 'list'>
[<h1 id="title">Hello World</h1>]
<h1 id="title">Hello World</h1>
<class 'bs4.element.Tag'>
Hello World
'''

alinks = soup.select('a')
print([x.text for x in alinks])

# 输出：[u'This is link1', u'This is link2']

####(2) 获取指定id的标签的内容（用'#'）

In [None]:
title = soup.select('#title')
print(type(title))
print(title[0].text)

# 输出：
'''
<type 'list'>
Hello World
'''

####(3) 获取指定class的标签的内容（用'.'）

In [None]:
alinks = soup.select('.link')
print([x.text for x in alinks])

# 输出：[u'This is link1', u'This is link2']

####(4) 获取a标签的链接（href属性值）

In [None]:
print(alinks[0]['href'])

# 输出：#link1

####(5) 获取一个标签下的所有子标签的text

In [None]:
body = soup.select('body')[0]
print(body.text)

# 输出：
'''
Hello World
This is link1
This is link2
'''

####(6) 获取不存在的标签

In [None]:
aa = soup.select('aa')
print(aa)

# 输出：[]

####(7) 获取自定义属性值

In [None]:
html2 = '<a href="www.test.com" qoo="123" abc="456">This is a link.</a>'
soup2 = BeautifulSoup(html2,'html.parser')
alink = soup2.select('a')[0]
print(alink['qoo'])
print(alink['abc'])

# 输出：
'''
123
456
'''

###2.3 soup.find()和soup.find_all()函数用法
####(1) find()和find_all()函数原型：
find和find_all函数都可根据多个条件从html文本中查找标签对象，只不过find的返回对象类型为bs4.element.Tag，为查找到的第一个满足条件的Tag；而find_all的返回对象为bs4.element.ResultSet（实际上就是Tag列表）,这里主要介绍find函数，find_all函数类似。
 >find(name=None, attrs={}, recursive=True, text=None, \*\*kwargs)
 
注：其中name、attrs、text的值都支持正则匹配。
 >find_all(name=None, attrs={}, recursive=True, text=None, limit=None, \*\*kwargs)

注：其中name、attrs、text的值都支持正则匹配。
####(2) find函数的用法示例

In [None]:
html = '<p><a href="www.test.com" class="mylink1 mylink2">this is my link</a></p>'
soup = BeautifulSoup(html,'html.parser')
a1 = soup.find('a')
print type(a1)
# 输出：<class 'bs4.element.Tag'>

print a1.name
print a1['href']
print a1['class']
print a1.text
# 输出：
'''
a
www.test.com
[u'mylink1', u'mylink2']
this is my link
'''

In [None]:
# 多个条件的正则匹配：
import re
a2 = soup.find(name = re.compile(r'\w+'),class_ = re.compile(r'mylink\d+'),text = re.compile(r'^this.+link$'))
# 注：这里的class属性之所以写成'class_'，是为了防止和python关键字class混淆，其他属性名写正常的名就行，不用这样特殊处理
print a2

# 输出：
'''
<a class="mylink1 mylink2" href="www.test.com">this is my link</a>
'''

In [None]:
# find函数的链式调用
a3 = soup.find('p').find('a')
print a3

# 输出：
'''
<a class="mylink1 mylink2" href="www.test.com">this is my link</a>
'''

In [None]:
# attrs参数的用法
# 注：支持正则匹配属性值（包括自定义属性）
import re
html = '<div class="myclass" my-attr="123abc"></div><div class="myclass" my-attr="abc">'
soup = BeautifulSoup(html,'html.parser')
div = soup.find('div',attrs = {'class':'myclass','my-attr':re.compile(r'\d+\w+')})
print div

# 输出：
'''
<div class="myclass" my-attr="123abc"></div>
'''

##3 BeautifulSoup对象的类型
Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构，每个节点都是Python对象。所有对象可以归纳为4种类型: Tag , NavigableString , BeautifulSoup , Comment 。下面我们分别看看这四种类型都是什么东西。

这个就跟HTML或者XML（还能解析XML？是的，能！）中的标签是一样一样的。我们使用find()方法返回的类型就是这个（插一句：使用find-all()返回的是多个该对象的集合，是可以用for循环遍历的。）。返回标签之后，还可以对提取标签中的信息。

###3.1 TAG
提取标签的名字：
tag.name

提取标签的属性：
tag['attribute']
我们用一个例子来了解这个类型：

In [None]:
from bs4 import BeautifulSoup

html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""
soup = BeautifulSoup(html_doc, 'lxml')  #声明BeautifulSoup对象
find = soup.find('p')  #使用find方法查到第一个p标签
print("find's return type is ", type(find))  #输出返回值类型
print("find's content is", find)  #输出find获取的值
print("find's Tag Name is ", find.name)  #输出标签的名字
print("find's Attribute(class) is ", find['class'])  #输出标签的class属性值

###3.2 NavigableString
NavigableString就是标签中的文本内容（不包含标签）。获取方式如下：
tag.string
还是以上面那个例子，加上下面这行，然后执行：
>print('NavigableString is：', find.string)

###3.3 BeautifulSoup
BeautifulSoup对象表示一个文档的全部内容。支持遍历文档树和搜索文档树。

###3.4 Comment
这个对象其实就是HTML和XML中的注释。

In [None]:
markup = "<b><!--Hey, buddy. Want to buy a used parser?--></b>"
soup = BeautifulSoup(markup)
comment = soup.b.string
type(comment)

#有些时候，我们并不想获取HTML中的注释内容，所以用这个类型来判断是否是注释。

if type(SomeString) == bs4.element.Comment:
    print('该字符是注释')
else:
    print('该字符不是注释')



##4 BeautifulSoup遍历方法
###4.1 节点和标签名
可以使用子节点、父节点、 及标签名的方式遍历：

In [None]:
soup.head #查找head标签
soup.p #查找第一个p标签

#对标签的直接子节点进行循环
for child in title_tag.children:
    print(child)

soup.parent #父节点

# 所有父节点
for parent in link.parents:
    if parent is None:
        print(parent)
    else:
        print(parent.name)

# 兄弟节点
sibling_soup.b.next_sibling #后面的兄弟节点
sibling_soup.c.previous_sibling #前面的兄弟节点

#所有兄弟节点
for sibling in soup.a.next_siblings:
    print(repr(sibling))

for sibling in soup.find(id="link3").previous_siblings:
    print(repr(sibling))

###4.2 搜索文档树
最常用的当然是find()和find_all()啦，当然还有其他的。比如find_parent() 和 find_parents()、 find_next_sibling() 和 find_next_siblings() 、find_all_next() 和 find_next()、find_all_previous() 和 find_previous() 等等。
我们就看几个常用的，其余的如果用到就去看官方文档哦。

find_all()
搜索当前tag的所有tag子节点，并判断是否符合过滤器的条件。返回值类型是bs4.element.ResultSet。
完整的语法：
find_all( name , attrs , recursive , string , **kwargs )

这里有几个例子

>soup.find_all("title")

&#60;title>The Dormouse's story</title>

>soup.find_all("p", "title")

&#60;p class="title"><b>The Dormouse's story</b></p>
soup.find_all("a")
&#60;a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
&#60;a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>
&#60;a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

>soup.find_all(id="link2")

&#60;a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>

>import re
soup.find(string=re.compile("sisters"))

u'Once upon a time there were three little sisters; and their names were\n'

name 参数：可以查找所有名字为 name 的tag。
attr 参数：就是tag里的属性。
string 参数：搜索文档中字符串的内容。
recursive 参数： 调用tag的 find_all() 方法时，Beautiful Soup会检索当前tag的所有子孙节点。如果只想搜索tag的直接子节点，可以使用参数 recursive=False 。

find()
与find_all()类似，只不过只返回找到的第一个值。返回值类型是bs4.element.Tag。
完整语法：
>find( name , attrs , recursive , string , **kwargs )

看例子：

>soup.find('title')

&#60;title>The Dormouse's story</title>

>soup.find("head").find("title")

&#60;title>The Dormouse's story</title>