### JSON
这里我们先开始记录关于抽取HTML的正文内容的JSON方法的记录，首先需要说明的是我们应该先将我们的目标网页爬下来然后利用JSON进行处理  

** 什么是JSON **
1. JSON是JS的对象表示法，常用来存储和交换信息文本，语法类同XML（但是转化比XML快，并且更容易解析）
2. 轻量级**文本**交换格式，独立于语言，可以做我描述
3. JSON利用了JS的语法秒数数据对象，但是独立于任何语言和平台 

** JSON语法 **
1. 数据存储在键值对中，**键只能是字符串，但是值可以是任何的JSON数据**
2. 数据使用逗号分割
3. 方括号保存数组，花括号保存对象  

** JSON的值 **
1. number数值
2. 字符串
3. 逻辑值
4. 数组
5. 对象
6. null

** 误区 **
1. 数组可以单独构成JSON
2. 按照网上的资料的说法，只要不是function，其他的数据都可以理解为是JSON

### JSON - Module
Python3对JSON文件的操作主要分为编码和解码两类

** 编码 **  
编码的意思就是把python对象转化成JSON对象的过程
* dumps :　转化ｐｙｔｈｏｎ对象到ＪＳＯＮ对象生成字符串
* dump  :　转化ｐｙｔｈｏｎ对象带ＪＳＯＮ对象并写入文件中,dump就比dumps多了一个文件对象参数(第二个参数)
* 常用参数
    * skipkeys : 有些python的对象（键，ＪＳＯＮ的键只能是字符串）是不能转化成ＪＳＯＮ数据的，这时候我们面临的选择就是是否过滤掉这些字典的键
    * ensure_ascii : 如果我们的数据中存在不属于ASCII的数据，会表现成\uXXXX的错误，我们将该参数置为False就可以修改这样的错误，建议保留写入
    * indent : 非0的话，会格式化的排版出来JSON

In [52]:
import json

# skipkeys : 选择过滤掉对JSON错误的键

answer = tuple()
dic = {answer : 'lantian'}
res = json.dumps(dic , skipkeys=True)
print('1.1 ' + res)

# ensure_ascii : 修正非ASCII字符的显示

dic = {'兰天':'lantian'}
res = json.dumps(dic)
print('2.1 ' + res)
res1 = json.dumps(dic , ensure_ascii=False)
print('2.2 ' + res1)

# indent :　格式化排版JSON,indent表示前面的缩进次数

dic = ['lantian' , 1 , True , {'name' : 'lantian' , 'age' : 21}]
res = json.dumps(dic , indent = 4)
print('3.1\n'+ res)
res = json.dumps(dic)
print('3.2 '+ res)

# dic = 1
dic = 1
res = json.dumps(dic)
print('4.1 ' + res , type(res))    #　任何非function的ＪＳ数据都可以看作是JSON

1.1 {}
2.1 {"\u5170\u5929": "lantian"}
2.2 {"兰天": "lantian"}
3.1
[
    "lantian",
    1,
    true,
    {
        "name": "lantian",
        "age": 21
    }
]
3.2 ["lantian", 1, true, {"name": "lantian", "age": 21}]
4.1 1 <class 'str'>


** 解码 **  
相对的解码就是将JSON对象转变成ｐｙｈｏｎ对象的过程，常使用两个函数load , loads,其中第一个函数多了文件读写的功能  

** 转化规则 **  
1. Python -> JSON
dict -> Object
list/tuple -> array
str/unicode -> string
int/long/float -> number
True/False -> true/false
None -> null

2.JSON -> Python
Object -> dict
array -> list
string -> unicode
number -> int/long/float
true/false -> True/False
numm -> None

P.S. 从上面的转化关系来看，对于数组来说，ｐｙｔｈｏｎ的接受对象只有ｌｉｓｔ，ｔｕｐｌｅ已经归属到ｌｉｓｔ下了

In [58]:
# requests先爬网页
import requests
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = {'User-Agetn':user_agent}
r = requests.get("http://seputu.com",headers = headers)
#print(r.text)

# bs4解析获取节点,并收集数据
from bs4 import BeautifulSoup
import lxml
soup = BeautifulSoup(r.text , 'lxml' , from_encoding = "utf8")

content = []

for mulu in soup.find_all(class_ = 'mulu'):
    h2 = mulu.find('h2')
    if h2 == None : continue
    h2_title = h2.string
    list = []
    for a in mulu.find(class_ = 'box').find_all(name = 'a'):
        href = a.get('href')
        box_title = a.get('title')
        list.append({'href':href , 'box_title':box_title})
    content.append({'title':h2_title , 'content':list})

# 完全可以存储在文件里，在这里我只是为了展示效果所以采用dumps函数

res = json.dumps(content , indent = 4 , ensure_ascii=False)
# print(res)

with open('daomubiji.json' , 'w' , encoding = 'utf8') as f:    # 制定ｕｔｆ８编码格式
    f.write(res)