# 数据交换格式

数据交换格式有CSV格式、XML格式和JSON格式

## CSV数据交换

### reader()函数&writer()函数

csv.reader(csvfile,dialect='excel',\**fmtparams)

csv.writer(csvfile,dialect='excel',\**fmtparams)

csv.reader()函数返回一个读取器reader对象。csvfile参数是CSV文件对象;dialect参数是方言，方言提供一组预定好的格式参数;fmtparams参数可以提供单个格式化参数。

csv.writer()函数返回一个写入器writer对象

方言dialect实际参数是csv.Dialect的子类，

1.csv.excel类定义Excel生成的CSV文件的常用属性，它的方言是“excel”

2.csv.excel_tab类定义了Excel生成的Tab（水平制表符）分隔文件的常用属性，“excel-tab”

3.csv.unix_dialect类定义在UNIX系统上生成的CSV文件的常用属性，即使用\n作为终止符，而windows下使用的是\r\n作为行终止符，方言是“unix”

In [1]:
import csv

In [2]:
with open("bookdata.csv","r",encoding="utf-8") as rf:
    reader = csv.reader(rf,dialect=csv.excel)
    for row in reader:
        print("|".join(row))

9|web clients and services|base640,urllib

10|web Programming:CGI|cgi,time,wsgiref

13|web Services|urllib,twython



In [3]:
with open("bookdata.csv","r",encoding="utf-8") as rf:
    reader = csv.reader(rf,dialect=csv.excel)
    with open("books.csv","w",newline="",encoding="utf-8") as wf:
        writer = csv.writer(wf)
        for row in reader:
            print("|".join(row))
            writer.writerow(row)

9|web clients and services|base640,urllib

10|web Programming:CGI|cgi,time,wsgiref

13|web Services|urllib,twython



## XML 数据交换格式

xml是一种字描述的数据交换格式

### xml文档结构

xml文档结构要遵守一定的格式规范。xml虽然在结构上与html很相似，但是有着严格的语法规则。只有严格按照规范编写的xml文档才是有效的文档，也称为“格式良好”的XML文档。

1）声明:<?xml version="1.0" encoding="UTF-8"?> 就是声明XML文件，定义版本和字符集

2）根元素:只有一个，里面包含其他的子元素

3）子元素

4）属性：一个元素不能有多个名字相同的属性

5）命名空间:用于为XML提供名字唯一的元素和属性，xmlns:开头的都是命名空间

6）限定名:是有命名空间引出的概念，定义了元素和属性的合法标识符。限定名通常在XML文档中用作特定元素或属性引用。<soap:Body>就是合法限定名，前缀soap是由命名空间定义的。

### 解析XML文档

XML文档操作读入XML文档并分析的过程称为“解析”

解析XML文档在目前有SAX和DOM两种流行的模式

SAX（Simple API for XML）是一种基于事件的解析模式。解析XML文档时，程序从上到下读取XML文档，遇到开始标签、结束标签和属性等，就会触发相应的事件。但是这种解析XML文件的方式有一个弊端，那就是只能读取XML文档，不能写入XML文档，它的优点是解析速度快。所以如果只是对读取进行解析，推荐使用SAX模式解析。

DOM（Document Object Model）将XML文档作为一棵树状结构进行解析，获取节点的内容以及相关的属性，或是新增、删除和修改节点的内容。XML解析器在加载XML文件以后，DOM模式将XML文件视为一个树状结构的节点，一次性读入内存。如果文档比较大，解析速度就会变慢。但是DOM模式能够修改XML文档。

Python标准库中提供了支持SAX和DOM的XML模块，但同时Python也提供了另外一个兼顾SAX和DOM优点的XML模块---ElementTree.

In [4]:
import xml.etree.ElementTree as ET

tree = ET.parse("Notes.xml")#parse()函数创建XML文档树tree，参数可以是表示XML文件的字符串，也可以是XML文件对象
print(type(tree))

root = tree.getroot()
print(type(root))
print(root.tag)

for index,child in enumerate(root):
    print("第{0}个{1}元素,属性:{2}".format(index,child.tag,child.attrib))
    for i,child_child in enumerate(child):
        print("    标签：{0},内容：{1}".format(child_child.tag,child_child.text))

<class 'xml.etree.ElementTree.ElementTree'>
<class 'xml.etree.ElementTree.Element'>
Notes
第0个Note元素,属性:{'id': '1'}
    标签：CDate,内容：2018-3-21
    标签：Content,内容：发布Python0
    标签：UserID,内容：Tony
第1个Note元素,属性:{'id': '2'}
    标签：CDate,内容：2018-3-22
    标签：Content,内容：发布Python1
    标签：UserID,内容：Tony
第2个Note元素,属性:{'id': '3'}
    标签：CDate,内容：2018-3-24
    标签：Content,内容：发布Python2
    标签：UserID,内容：Tony
第3个Note元素,属性:{'id': '4'}
    标签：CDate,内容：2018-3-24
    标签：Content,内容：发布Python3
    标签：UserID,内容：Tony
第4个Note元素,属性:{'id': '5'}
    标签：CDate,内容：2018-3-25
    标签：Content,内容：发布Python5
    标签：UserID,内容：Tony


### XPath

实际开发时，往往需要查找某些特殊的元素或某些特殊属性。这需要使用xml.etree.ElementTree.Element的相关find方法，还要结合XPath匹配查找。

xml.etree.ElementTree.Element的相关find方法有三种:

1)find(match,namespaces=None) 查找匹配的第一个子元素。match可以是标签名或XPath返回元素对象或None。namespace是指定命名空间，如果非空，那么查找会在指定的命名空间的标签中进行。

2)findall(match,namespaces=None) 查找所有匹配的子元素，参数同find()方法。返回值是符合条件的元素列表。

3)findtext(match,default=None,namespaces=None) 查找匹配的第一个子元素的文本，如果未找到元素，则返回默认。default参数是默认值，其他参数同find

XPath是专门用来在xml文档中查找信息的语言。XPath将XML中的所有元素、属性和文本看作节点Node，根元素就是根节点，属性称为属性节点，文本成文文本节点。除了根节点外，其他节点都有一个父节点，零个或多个子节点和兄弟节点。

XPath 表达式:

nodename  :选择nodename子节点

. :选择当前节点 ，例如./Node 当前节点下的所有Node子节点

/ :路径指示符，相当于目录分隔符，例如./Node/CDate 表示所有Node子节点下的CDate节点

.. :选择父节点，例如 ./Node/CDate/..表示CDate节点的父节点，其实就是Node节点

// :所有后代节点（包括子节点、孙节点等），例如 .//CDate 表示当前节点中查找所有CDate后代节点。

[@attrib]  :选择指定属性的所有节点， 例如 ./Node[@id] 表示有id属性的所有Node节点

[@attrib='value'] 选择指定属性等于value的所有节点 ，例如 ./Node[@id='1'] 表示选择有id = '1' 属性的所有Node节点

[position] :指定位置，位置从1开始，最后一个可以使用last()获取，例如 ./Node[1] 表示第一个Node节点， ./Node[last()] 表示最后一个Node节点

In [5]:
node = root.find("./Note") #当前节点下的第一个Note节点
print(node.tag,node.attrib)

Note {'id': '1'}


In [6]:
node = root.find("./Note/CDate")
print(node.text)

2018-3-21


In [7]:
node = root.find("./Note/CDate/..")
print(node.tag,node.attrib)

Note {'id': '1'}


In [8]:
node = root.find(".//CDate")#当前节点中查找所有的后代节点中的第一个CDate节点
print(node.text)
nodes = root.findall(".//Content")#当前节点中查找所有的后代节点中的Content节点
for node in nodes:
    print(node.text)

2018-3-21
发布Python0
发布Python1
发布Python2
发布Python3
发布Python5


In [9]:
node = root.find("./Note[@id]")#具有id属性的第一个Note节点
print(node.tag,node.attrib)

Note {'id': '1'}


In [10]:
node = root.find("./Note[@id='2']")
print(node.tag,node.attrib)
print(node.find("./CDate").text)

Note {'id': '2'}
2018-3-22


In [11]:
node = root.find("./Note[2]") #第二个Note节点
print(node.tag,node.attrib)

Note {'id': '2'}


In [12]:
node = root.find("./Note[last()]") #最后一个Note节点
print(node.tag,node.attrib)

Note {'id': '5'}


In [13]:
node = root.find("./Note[last()-2]") #倒数第三个Note节点
print(node.tag,node.attrib)

Note {'id': '3'}


## JSON数据交换格式

JSON (JavaScript Object Notation) 是一种轻量级的数据交换格式。所谓轻量级，是与XML文档结构相比而言的。

## JSON 数据编码
dumps()  dump()函数

Python 数据与JSON数据映射关系:

### Python                                         JSON

字典                                                                                 对象

列表、元组                                                                            数组

字符串                                                                                字符串

整数、浮点等数字类型                                                                  数字

True                                                                                  true

False                                                                                 false

None                                                                                  null

In [14]:
#coding=utf-8
import json

py_dict = {"name":"tony","age":30,"sex":True}
py_list = [1,3]
py_tuple = ("A","B","C")

py_dict["a"] = py_list
py_dict["b"] = py_tuple

print(py_dict)
print(type(py_dict))

{'name': 'tony', 'age': 30, 'sex': True, 'a': [1, 3], 'b': ('A', 'B', 'C')}
<class 'dict'>


In [15]:
json_obj = json.dumps(py_dict)
print(json_obj)
print(type(json_obj))

{"name": "tony", "age": 30, "sex": true, "a": [1, 3], "b": ["A", "B", "C"]}
<class 'str'>


In [16]:
json_obj = json.dumps(py_dict,indent=4)# indent =4 表示json字符串格式缩进4个空格
print(json_obj)

{
    "name": "tony",
    "age": 30,
    "sex": true,
    "a": [
        1,
        3
    ],
    "b": [
        "A",
        "B",
        "C"
    ]
}


In [17]:
with open("data1.json","w") as f:
    json.dump(py_dict,f)
    
with open("data2.json","w") as f:
    json.dump(py_dict,f,indent=4)

## JSON数据解码

解码函数: loads()读取json字符串 load()函数读取文件或流

### JSON                        Python

对象                         字典

数组                         列表

字符串                       字符串

整数数字                     整数

实数数字                     浮点

true                         True

false                        False

null                         None

In [18]:
#coding=utf-8

import json

json_obj = r'{"name":"tony", "age":30, "sex": true,"a": [1, 3], "b": ["A","B","C"]}' 
#字符串内字符必须使用" " 否则报错：Expecting property name enclosed in double quotes
py_dict = json.loads(json_obj)
print(py_dict["name"])
print(py_dict["age"])
print(py_dict["a"])

tony
30
[1, 3]


In [19]:
with open("data2.json","r") as f:
    data = json.load(f)
    print(data)
    print(data["a"])

{'name': 'tony', 'age': 30, 'sex': True, 'a': [1, 3], 'b': ['A', 'B', 'C']}
[1, 3]


## 配置文件

在windows平台经常使用ini文件(Initialization File),它是Windows系统配置文件所采用的存储格式，也称为配置文件。

### 配置文件结构

配置文件采用键值对数据结构，可以进行少量的数据交换和存储

注释用; 单独占一行

配置节名称用 [] 括起来

配置项内容由键值对构成，默认情况下键和值用等号进行分隔。

### 读取配置文件

Python 标准库中提供了对配置文件读写模块 ----configparser 。 configparser模块中提供了一个配置文件解析器类ConfigParser，实现读写操作。

In [20]:
import configparser

In [21]:
config = configparser.ConfigParser()

config.read("setup.ini",encoding="utf-8")

print(config.sections()) #返回所有的节

['Startup', 'Product', 'Windows 10', 'Startup1', 'Product1', 'Windows 101']


In [22]:
section1 = config['Startup']
print(config.options("Startup")) #返回Startup 节的键

['requireos', 'requiremsi', 'requireie']


In [23]:
print(section1["Requireos"])  #返回值

Windows 10


In [24]:
print(config["Product"]["msi"])

AcroRead.msi


### 写入配置文件

configparser 可以更新节配置信息等写入配置文件

In [25]:
config["Startup"]["RequireMSI"] = "8.0"
config["Product"]["RequireMSI"] = "4.0"

config.add_section("Section2")
config.set("Section2","name","Mac")

with open ("Setup.ini","w") as fw:
    config.write(fw)

# NoSQL数据存储

非关系型数据库，不通过SQL语句操作数据库，这些数据库称为NoSQL数据库，dbm(DataBase Manager)数据库是最简单的NoSQL数据库，它不需要安装，直接通过键值对数据存储。

Python内置dbm模块提供了存储dbm数据的API

## dbm 数据库的打开和关闭

与关系型数据库类似，dbm数据库使用前需要打开，使用完成需要关闭。打卡数据库使用open()函数，dbm.open(file,flag="r")

参数file是数据库文件名，flag是文件打开方式: r 以只读方式打开  w 以读写方式打开  c  以读写方式打开，如果不存在则创建  n 读写方式打开创建一个新的空数据库;

关闭数据库使用close() 函数 或使用with   as 模式

## dbm数据库存储

dbm 数据存储类似于字典数据结构，通过键写入或读取数据。但需要注意的是dbm数据库保存的数据是字符串类型或者字节序列(bytes)类型

1) 写入数据: d[key] = data

2) 读取数据: data = d[key] 或 data = d.get(key,defaultvalue)

3) 删除数据: del d[key] 按照key在数据库d中删除，如果没有key对应的数据则会抛出KeyError异常

4) 查找数据: flag = key in d    按照key在数据库d中查找

In [26]:
import dbm

with dbm.open("mydb","c") as db:
    db["name"] = "tony"
    db["age"] = "22"
    db["name"] = "Hello"
    print(db["name"].decode())
    
    age = int(db.get("age",b"18").decode())
    print(age)
    
    if "age" in db:
        db["age"] = "20"
    name = db["name"]
    
    #del db["name"]

Hello
22
