# 第7章 文件和数据格式化
## 7.1 文件的使用
### 7.1.1 文件概述
* 文件是数据的抽象和集合
    * 文件是存储在辅助存储器上的数据序列
    * 文件是数据存储的一种形式
    * 文件展现形态：文本文件和二进制文件
* 文件文件和二进制文件只是文件的展示方式
    * 本质上：所有文件都是二进制形式存储
    * 形式上：所有文件采用两种方式展示
* 文本文件由**单一特定编码**组成的文件，如UTF-8编码
    * 由于存在编码，也被看成是存储着的长字符串
    * 适用于例如：.txt文件、.py文件等
* 二进制文件直接由比特0和1组成，没有统一字符编码
    * 一般存在二进制0和1的组织结构，即文件格式
    * 适用于例如：.png文件、.avi文件等   

In [2]:
#t表示文本文件方式
textFile = open("../file/7-1.txt ","rt") 
print(textFile.readline())
textFile.close()
#b表示二进制文件方式
binFile = open("../file/7-1.txt","rb") 
print(binFile.readline())
binFile.close()

中国是一个伟大的国家！
b'\xd6\xd0\xb9\xfa\xca\xc7\xd2\xbb\xb8\xf6\xce\xb0\xb4\xf3\xb5\xc4\xb9\xfa\xbc\xd2\xa3\xa1'


* 采用文本方式读入文件，文件经过编码形成字符串，打印出有含义的字符。
* 采用二进制方式打开文件，文件被解析为字节流，且由于存在编码，所以字符串中的一个字符由两个字节表示。

### 7.1.2 文件的打开关闭
* 文件处理的步骤: 打开->操作->关闭

![](../picture/fileopenclose.png)

* Python通过内置函数`open()`函数打开一个文件，并实现该文件与一个程序变量的关联，`open()`函数格式如下：
```python
<变量名> = open(<文件名>, <打开模式>)
```
* `open()`函数的两个参数：
    * 文件名：文件名可以是文件的实际名字，也可以是包含完整路径的名字。
    * 打开模式：用于控制使用何种方式打开文件。

|打开模式|含义|
|:-:|:-:|
|`'r'`|只读模式，如果文件不存在，返回异常`FileNotFoundError`，默认值|
|`'w'`|覆盖写模式，文件不存在则创建，存在则完全覆盖|
|`'x'`|创建写模式，文件不存在则创建，存在则返回异常`FileExistsError`|
|`'a'`|追加写模式，文件不存在则创建，存在则在文件最后追加内容|
|`'b'`|二进制文件模式|
|`'t'`|文本文件模式，默认值|
|`'+'`|与r/w/x/a一同使用，在原功能基础上增加同时读写功能|

* 上述打开模式r/w/x/b可以与b/t/+组合使用，形成既表达读写又表达文件模式的方式。 
```python
f = open("f.txt") #文本形式、只读模式、默认值
f = open("f.txt", "rt") #文本形式、只读模式、同默认值
f = open("f.txt", "w") #文本形式、覆盖写模式
f = open("f.txt", "a+") #文本形式、追加写模式+读文件
f = open("f.txt", "x") #文本形式、创建写模式
f = open("f.txt", "b") #二进制形式、只读模式
f = open("f.txt", "wb") #二进制形式、覆盖写模式
```

### 7.1.3 文件的读写

* 文件内容读取方法

|操作方法|含义|
|:-:|:-:|
|`<file>.readall()`|读入整个文件内容，返回一个字符串或字节流|
|`<file>.read(size=-1)`|从文件中读入整个文件内容，如果给出参数，读入前`size`长度的字符串或字节流|
|`<file>.readline(size=-1)`|从文件中读入一行内容，如果给出参数，读入该行前`size`长度的字符串或字节流|
|`<file>.readlines(hint=-1)`|从文件中读入所有行，以每行为元素形成一个列表，如果给出参数，读入`hint`行|

>**实例**：文本文件逐行打印
```python
fname = input("请输入要打开的文件：")
fo = open(fname, "r")
for line in fo.readlines():
    print(line)
fo.close()
```
文件的全部内容通过`fo.readlines()`方法读入到一个列表中，列表的每个元素是文件一行的内容，然后通过`for-in`方式遍历列表，处理每行内容。

* 当读入文件非常大时，上面的代码一次性讲内容读取到列表中会占用很多内存，影响程序的执行速度，可以逐行读入内容到内存并逐行处理。
```python
fname = input("请输入要打开的文件：")
fo = open(fname, "r")
for line in fo:
    print(line)
fo.close()
```

* Python提供3个与文件内容写入有关的方法

|方法|含义|
|:-:|:-:|
|`<file>.write(s)`|向文件写入一个字符串或字节流|
|`<file>.writelines(lines)`|将一个元素全为字符串的列表写入文件|
|`<file>.seek(offset)`|改变当前文件操作指针的位置，offset的值：0-文件开头，1-当前位置，2-文件结尾|

In [1]:
fname = input("请输入要写入的文件：")
fo = open("../file/"+fname, "w+")
ls = ["唐诗", "宋词", "元曲"]
fo.writelines(ls)
for line in fo:
    print(line)
fo.close()

请输入要写入的文件：test.txt


* 上面的代码我们发现并没有输出test.txt文件中的内容
* 可以在写入文件后增加一条代码`fo.seek(0)`，将文件操作指针返回到文件开始。

In [2]:
fname = input("请输入要写入的文件：")
fo = open("../file/"+fname, "w+")
ls = ["唐诗", "宋词", "元曲"]
fo.writelines(ls)
fo.seek(0)
for line in fo:
    print(line)
fo.close()

请输入要写入的文件：test.txt
唐诗宋词元曲


* 这里还要注意`fo.writelines()`方法并不在列表后面增加换行，只是将列表内容直接排列输出。

### 7.2.1 PIL库概述
* Anaconda全家桶已经装好了pillow包，因此不需要像教材中那样安装，可以直接用。
* PIL库支持图像存储、显示和处理，几乎支持所有图片格式，可以完成对图像的缩放、剪裁、叠加以及向图像添加线条、图像和文字等操作。
* PIL库主要可以实现图像归档和图像处理两方面功能：
    * 图像归档：对图像进行批处理、生成图像预览、图像格式转换等。
    * 图像处理：图像基本处理、像素处理、颜色处理等。
* PIL库的详细参考文档链接如下：[Pillow](https://pillow.readthedocs.io/en/stable/)
* 任何一个图像文件都可以用PIL包中的Image对象表示。

### 7.2.2 PIL库Image类解析

* Image类的图像读取和创建方法

|方法|描述|
|:-:|:-:|
|Image.open(filename)|根据参数加载图像文件|
|Image.new(mode, size, color)|根据给定参数创建一个新的图像|
|Image.open(StringIO.StringIO(buffer))|从字符串中获取图像|
|Image.frombytes(mode, size, data)|根据像素点`data`创建图像|
|Image.verify()|对图像文件完整性进行检查，返回异常|



In [4]:
from PIL import Image
im = Image.open("../picture/birdnest.jpg")
im.show()
print(im.format, im.size, im.mode)

JPEG (641, 350) RGB


* Image类有4个处理图片的常用属性

|属性|描述|
|:-:|:-:|
|`Image.format`|标识图象格式或来源，如果图象不是从文件读取，值为None|
|`Image.mode`|图像的色彩模式，“L”为灰度图像，“RGB”为真彩色图像，“CMYK”为出版图像|
|`Image.size`|图像宽度和高度，单位是像素（px），返回值是二元元组（tuple）|
|`Image.palette`|调色板属性，返回一个`ImagePalette`类型|

* Image还可以读取序列类图像文件，包括GIF、FLI、FLC、TIFF等格式文件。
    * `open()`方法打开一个图像时自动加载序列中的第一帧。
    * 使用`seek()`和`tell()`方法可以在不同帧之间移动。
* Image类的序列图像操作方法

|方法|描述|
|:-:|:-:|
|`Image.seek(frame)`|跳转并返回图像中的指定帧|
|`Image.tell()`|返回当前帧的序号|

In [5]:
from PIL import Image
im = Image.open("../picture/mario.gif") # 读入GIF文件
try:
    im.save("C:/Users/yuang/Desktop/gifframes/picframe{:02d}.png".format(im.tell()))
    while True:
        im.seek(im.tell()+1)
        im.save("C:/Users/yuang/Desktop/gifframes/picframe{:02d}.png".format(im.tell()))
except:
    print("处理结束")

处理结束


* Image类的图像转换和保存方法

|方法|描述|
|:-:|:-:|
|`Image.save(filename, format)`|将图像保存为`filename`文件名，`fromat`是图片格式|
|`Image.convert(mode)`|使用不同的参数，转换图像为新的模式|
|`Image.thumbnail(size)`|创建图像的缩略图，`size`是缩略图尺寸的二元元组|

* 搭配采用`open()`和`save()`方法可以实现图像的格式转换

In [2]:
from PIL import Image
im = Image.open("../picture/birdnest.jpg")
im.save("../picture/birdnest.png")

* 生成图像的缩率图

In [5]:
from PIL import Image
im = Image.open("../picture/birdnest.jpg")
# thumbnail()方法按比例缩小，size参数只规定修改后size的最大值。
im.thumbnail((128,128))
im.save("../picture/birdnestTN.jpg")

![](../picture/birdnest.jpg)

![](../picture/birdnestTN.jpg)


* Image类的图像旋转和缩放方法

|方法|描述|
|:-:|:-:|
|`Image.resize(size)`|按size大小调整图像，生成副本|
|`Image.rotate(angle)`|按angle角度旋转图像，生成副本|

* Image类的图像像素和通道处理方法

|方法|描述|
|:-:|:-:|
|`Image.point(func)`|根据函数func的功能对每个元素进行运算，返回图像副本|
|`Image.split()`|根据RGB图像的每个颜色通道，返回图像副本|
|`Image.merge(mode, bands)`|合并通道，其中mode表示色彩，bands表示新的色彩通道|
|`Image.blend(im1, im2, alpha)`|将两幅图片im1和im2按照公式im1 * (1.0 - alpha) + im2 * alpha插值后生成新的图像|


>**实例**：图像的颜色交换。

In [2]:
from PIL import Image
im = Image.open("../picture/birdnest.jpg")
r, g, b = im.split()
om = Image.merge("RGB", (b, g, r))
om.save("../picture/birdnestBGR.jpg")

![](../picture/birdnest.jpg)

![birdnestBGR](../picture/birdnestBGR.jpg)

* 操作图像的每个像素点需要通过函数实现，可以采用lambda函数和point()方法。

In [4]:
from PIL import Image
im = Image.open("../picture/birdnest.jpg") # 打开图片文件
r, g, b = im.split() # 获得RGB通道数据
newg = g.point(lambda i:i*0.9) # 将G通道颜色值变为原来的0.9倍
newb = b.point(lambda i:i<100) # 选择B通道值低于100的像素点
om = Image.merge(im.mode, (r, newg, newb)) # 将3个通道合成为新图像
om.save("../picture/birdnestMerge.jpg") # 输出图片

![](../picture/birdnest.jpg)

![birdnestMerge](../picture/birdnestMerge.jpg)

### 7.2.3 图像的过滤和增强

* PIL库的`ImageFilter`类提供的预定义过滤方法

|方法表示|描述|
|:-:|:-:|
|`ImageFilter.BLUR`|图像的模糊效果|
|`ImageFilter.CONTOUR`|图像的轮廓效果|
|`ImageFilter.DETAIL`|图像的细节效果|
|`ImageFilter.EDGE_ENHANCE`|图像的边界加强效果|
|`ImageFilter.EDGE_ENHANCE_MORE`|图像的阈值边界加强效果|
|`ImageFilter.EMBOSS`|图像的浮雕效果|
|`ImageFilter.FIND_EDGES`|图像的边界效果|
|`ImageFilter.SMOOTH`|图像的平滑效果|
|`ImageFilter.SMOOTH_MORE`|图像的阈值平滑效果|
|`ImageFilter.SHARPEN`|图像的锐化效果|

* 利用`Image`类的`filter()`方法可以使用`ImageFilter`类，语法格式如下：

```python
Image.filter(ImageFilter.function)
```

>**实例**：图像的轮廓获取

In [6]:
from PIL import Image
from PIL import ImageFilter
im = Image.open("../picture/birdnest.jpg")
om = im.filter(ImageFilter.CONTOUR)
om.save("../picture/birdnestContour.jpg")

![birdnest](../picture/birdnest.jpg)

![birdnestContour](../picture/birdnestContour.jpg)

* `ImageEnhance`类提供了更高级的图像增强功能，调整色彩度、亮度、对比度、锐化等。

|方法|描述|
|:-:|:-:|
|`ImageEnhance.enhance(factor)`|对选择属性的数值增强`factor`倍|
|`ImageEnhance.Color(im)`|调整图像的颜色平衡|
|`ImageEnhance.Contrast(im)`|调整图像的对比度|
|`ImageEnhance.Brightness(im)`|调整图像的亮度|
|`ImageEnhance.Sharpness(im)`|调整图像的锐度|

>**实例**：图像的对比度增强

In [8]:
# 增强图像的对比度为初始的20倍
from PIL import Image
from PIL import ImageEnhance
im = Image.open("../picture/birdnest.jpg")
om = ImageEnhance.Contrast(im)
om.enhance(20).save("../picture/birdnestEnContrast.jpg")

![birdnest](../picture/birdnest.jpg)

![birdnestEnContrast](../picture/birdnestEnContrast.jpg)

## 7.3 实例：图像的字符画绘制

In [26]:
from PIL import Image
ascii_char = list('"$%_&WM#*oahkbdpqwmZO0QLCJUYXzcvunxrjft/\|()1{}[]?-/+@<>i!;:,\^`.')
def get_char(r, b, g, alpha=256):
    if alpha == 0:
        return ' '
    gray = int(0.2126 * r + 0.7152 * g + 0.0722 * b)
    unit = 256 / len(ascii_char)
    return ascii_char[int(gray//unit)]
def main():
    im = Image.open("../picture/bingdundun.png")
    WIDTH, HEIGHT = 1000, 600
    im = im.resize((WIDTH, HEIGHT))
    txt = ""
    for i in range(HEIGHT):
        for j in range(WIDTH):
            txt += get_char(*im.getpixel((j, i)))
        txt += '\n'
    fo = open("../file/pic_char.txt","w")
    fo.write(txt)
    fo.close()
main()

## 7.4 一二维数据的格式化和处理
### 7.4.1 数据组织的维度
* **一维数据**：由对应关系的有序或无序数据构成，采用线性方式组织，对应于数学中的数组和集合等概念。

>**实例**：国际经济合作论坛20国集团的成员，中国、美国、日本、德国、法国、英国、意大利、加拿大、俄罗斯、欧盟、澳大利亚、南非、阿根廷、巴西、印度、印度尼西亚、墨西哥、沙特阿拉伯、土耳其、韩国。

* **二维数据**：也称表格数据，由关联关系数据构成，采用表格方式组织，对应于数据中的矩阵，常见的表格都属于二维数据。

>**实例**：2016年7月部分大/中城市新建住宅价格指数。

|城市|环比|同比|定基|
|:-:|:-:|:-:|:-:|
|北京|101.5|120.7|121.4|
|上海|101.2|127.3|127.8|
|广州|101.3|119.4|120.0|
|深圳|102.0|140.9|145.5|
|沈阳|100.1|101.4|101.6|

* **高维数据**：由键值对类型的数据构成，采用对象方式组织，属于整合度更好的数据组织方式。常见的高维数据组织的语法格式包括，HTML、XML和JSON等。

>**实例**：描述教材作者的JSON格式数据。

```python
{
    "本书作者": 
        [
            {
                "姓氏": "嵩"，
                "名字": "天"，
                "单位": "北京理工大学"
            },
            {
                "姓氏": "礼"，
                "名字": "欣"，
                "单位": "北京理工大学"
            },
            {
                "姓氏": "黄"，
                "名字": "天羽"，
                "单位": "北京理工大学"
            }
        ]
}
```

### 7.4.2 一二维数据的存储格式
* 一维数据的存储格式：
    * 用一个或多个空格分隔。
    ```python
    中国 美国 日本 德国 法国 英国 意大利
    ```
    * 用逗号分隔，需要注意逗号是英文输入法中的半角逗号，不是中文逗号。
    ```python
    中国,美国,日本,德国,法国,英国,意大利
    ```
    * 用其他符号或符号组合分隔，建议采用不出现在数据中的特殊符号。
    ```python
    中国;美国;日本;德国;法国;英国;意大利
    ```
* 二维数据的存储格式：
    * 逗号分隔数值的存储格式，也称CSV格式（Comma-Separated Values）。
        * 纯文本格式，通过单一编码表示字符。
        * 以行为单位，开头不留空行，行之间没有空行。
        * 每行表示一个一维数据，多行表示二维数据。
        * 以逗号（英文，半角）分隔每列数据，列数据为空也要保留逗号。
        * 对于表格数据，可以包含或不包含列名，包含时列名放置在文件第一行。
    * 上面的**2016年7月部分大/中城市新建住宅价格指数**表格采用CSV格式存储后的内容如下：
    ```python
    城市,环比,同比,定基
    北京,101.5,120.7,121.4
    上海,101.2,127.3,127.8
    广州,101.3,119.4,120.0
    深圳,102.0,140.9,145.5
    沈阳,100.1,101.4,101.6
    ```
    * CSV格式存储的文件一般采用.csv为扩展名
        * 记事本
        * Microsoft Office Excel
        * Python的csv标准库：[官方文档](https://docs.python.org/zh-cn/3/library/csv.html)

### 7.4.3 一二维数据的表示和读写
* CSV文件的内容可以由一个二维列表表示。
```python
[
    ["城市","环比","同比","定基"],
    ["北京","101.5","120.7","121.4"],
    ["上海","101.2","127.3","127.8"],
    ["广州","101.3","119.4","120.0"],
    ["深圳","102.0","140.9","145.5"],
    ["沈阳","100.1","101.4","101.6"],
]
```

>**实例**：导入CSV格式数据到列表。

In [21]:
fo = open("../file/price2016.csv", "r")
ls = []
for line in fo:
    line = line.replace("\n","")
    ls.append(line.split(","))
print(ls)
fo.close()

[['城市', '环比', '同比', '定基'], ['北京', '101.5', '120.7', '121.4'], ['上海', '101.2', '127.3', '127.8'], ['广州', '101.3', '119.4', '120'], ['深圳', '102', '140.9', '145.5'], ['沈阳', '100.1', '101.4', '101.6']]


>**实例**：逐行处理CSV格式数据。

In [22]:
fo = open("../file/price2016.csv", "r")
ls = []
for line in fo:
    line = line.replace("\n","")
    ls = line.split(",")
    lns = ""
    for s in ls:
        lns += "{}\t".format(s)
    print(lns)
fo.close()

城市	环比	同比	定基	
北京	101.5	120.7	121.4	
上海	101.2	127.3	127.8	
广州	101.3	119.4	120	
深圳	102	140.9	145.5	
沈阳	100.1	101.4	101.6	


 >**实例**：一维数据写入CSV文件。

In [28]:
fo = open("../file/price2016bj.csv", "w")
ls = ["北京", "101.5", "120.7", "121.4"]
fo.write(",".join(ls) + "\n")
fo.close()

>**实例**：二维数据写入CSV文件。

In [29]:
fr = open("../file/price2016.csv", "r")
fw = open("../file/price2016out.csv", "w")
ls = []
for line in fr: #将CSV 文件中的二维数据读入到列表变量
    line = line.replace("\n","")
    ls.append(line.split(","))
for i in range(len(ls)): #遍历列表变量计算百分数
    for j in range(len(ls[i])):
        if ls[i][j].replace(".","").isnumeric():
            ls[i][j] = "{:.2}%".format(float(ls[i][j])/100)
for row in ls: #将列表变量中的二位数据输出到CSV 文件
    print(row)
    fw.write(",".join(row)+"\n")
fr.close()
fw.close()

['城市', '环比', '同比', '定基']
['北京', '1.0%', '1.2%', '1.2%']
['上海', '1.0%', '1.3%', '1.3%']
['广州', '1.0%', '1.2%', '1.2%']
['深圳', '1.0%', '1.4%', '1.5%']
['沈阳', '1.0%', '1.0%', '1.0%']


## 7.5 实例：CSV格式的HTML展示

In [30]:
seg1 = '''
<!DOCTYPE HTML>\n<html>\n<body>\n<meta charset=gb2312>
<h2 align=center>2016年7月部分大中城市新建住宅价格指数</h2>
<table border='1' align="center" width=70%>
<tr bgcolor='orange'>\n'''
seg2 = "</tr>\n"
seg3 = "</table>\n</body>\n</html>"
def fill_data(locls):
    seg = '<tr><td align="center">{}</td><td align="center">{}</td><td align="center">{}</td><td align="center">{}</td></tr>\n'.format(*locls)
    return seg
fr = open("../file/price2016.csv", "r")
ls = []
for line in fr:
    line = line.replace("\n","")
    ls.append(line.split(","))
fr.close()
fw = open("../file/price2016.html", "w")
fw.write(seg1)
fw.write('<th width="25%">{}</th>\n<th width="25%">{}</th>\n<th width="25%">{}</th>\n<th width="25%">{}</th>\n'.format(*ls[0]))
fw.write(seg2)
for i in range(len(ls)-1):
    fw.write(fill_data(ls[i+1]))
fw.write(seg3)
fw.close()

## 7.6 高维数据的格式化

* 万维网（WWW）是一个复杂的数据组织体系。
    * 通过HTML方式链接并展示不同类型数据内容。
    * 采用XML或JSON格式表达键值对，形成数据间复杂的结构关系。
* JSON格式可以对高维数据进行表达和存储。
    * JSON（JavaScript Object Notation）是一种轻量级的数据交换格式，易于阅读和理解。
    * JSON格式表达键值对`<key, value>`的基本格式如下。
```python
"key" : "value"
```
* 当多个键值对放在一起时，JSON有如下一些约定。
    * 数据保存在键值对中。
    * 键值对之间由逗号分隔。
    * 大括号用于保存键值对数据组成的对象。
    * 方括号用于保存键值对数据组成的数组。

>**实例**：本书作者——JSON

```python
{
	"本书作者": [{
			"姓氏": "嵩",
			"名字": "天",
			"单位": "北京理工大学"
		},
		{
			"姓氏": "礼",
			"名字": "欣",
			"单位": "北京理工大学"
		},
		{
			"姓氏": "黄",
			"名字": "天羽",
			"单位": "北京理工大学"
		}
	]
}
```

>**实例**：本书作者——XML

```python
<?xml version="1.0" encoding="UTF-8" ?>
	<本书作者>
		<姓氏>嵩</姓氏>
		<名字>天</名字>
		<单位>北京理工大学</单位>
	</本书作者>
	<本书作者>
		<姓氏>礼</姓氏>
		<名字>欣</名字>
		<单位>北京理工大学</单位>
	</本书作者>
	<本书作者>
		<姓氏>黄</姓氏>
		<名字>天羽</名字>
		<单位>北京理工大学</单位>
	</本书作者>
```

* [JSON的在线工具](https://www.bejson.com/)：提供了格式校验、不同格式互转等功能。

## 7.7 JSON库的使用
### 7.7.1 JSON库概述
* `json`库是处理JSON格式的Python标准库，使用前需要导入：

```python
import json
```

* `json`库包括两类函数：
    * 操作类函数：完成外部JSON格式和程序内部数据类型之间的转换功能。
    * 解析类函数：解析键值对内容。
    
* `json`格式包括对象和数组：
    * 大括号`{}`：键值对的组合关系。
    * 方括号`[]`：键值对的对等关系。
* `json`格式与Python数据格式的对应关系：
    * `json`格式的“对象”：Python中的“字典”。
    * `json`格式的“数组”：Python中的“列表”。

### 7.7.2 json库解析
* `json`库包含两个过程：
    * 编码（encoding）——序列化：将Python数据类型变换成JSON格式的过程。
    * 解码（decoding）——反序列化：从JSON格式中解析数据对应到Python数据类型。

* json库的操作类函数

|函数|描述|
|:-:|:-:|
|`json.dumps(obj, sort_keys=False,indent=None)`|将Python的数据类型转换为JSON格式，编码过程|
|`json.loads(string)`|将JSON格式字符串转换为Python的数据类型，解码过程|
|`json.dump(obj,fp,sort_keys=False,indent=None)`|与`dumps()`功能一致，输出到文件`fp`|
|`json.load(fp)`|与`loads()`功能一致，从文件fp读入|

* `json.dumps()`：
    * `obj`可以是Python的列表或字典类型。
    * 输入字典类型时，`dumps()`函数将其变为JSON格式字符串。
    * 默认生成的字符串是顺序存放的，`sort_keys`可以对字典元素按照`key`进行排序，控制输出结果。
    * `indent`参数用于增加数据缩进，是的生成的JSON格式字符串更具有可读性。

In [1]:
import json
dt = {'b':2,'c':4,'a':6}
s1 = json.dumps(dt) # dumps返回JSON格式的字符串类型
s2 = json.dumps(dt, sort_keys=True, indent=4)
print(s1)
print(s2)
print(s1==s2)
dt2=json.loads(s2)
print(dt2, type(dt2))

{"b": 2, "c": 4, "a": 6}
{
    "a": 6,
    "b": 2,
    "c": 4
}
False
{'a': 6, 'b': 2, 'c': 4} <class 'dict'>


## 7.8 实例：CSV和JSON格式相互转换
* 将CSV格式转换成JSON格式的代码如下：

In [5]:
import json
fr = open("../file/price2016.csv", "r")
ls = []
for line in fr:
    line = line.replace("\n","")
    ls.append(line.split(','))
fr.close()
fw = open("../file/price2016.json", "w")
for i in range(1,len(ls)):
    ls[i] = dict(zip(ls[0], ls[i]))
json.dump(ls[1:],fw, sort_keys=True, indent=4)
fw.close()

* `zip()`是一个内置函数，能够将两个长度相同的列表组合成一个关系对，该函数非常适合于生成键值对。

In [4]:
x = [1, 2, 3]
y = ["a", "b", "c"]
list(zip(x, y))

[(1, 'a'), (2, 'b'), (3, 'c')]

* 用VSCode打开我们生成的“price2016.json”会发现中文字符被替换成Unicode编码，`json`库默认采用Unicode编码处理非西文字符，主要避免网络传输中因编码方式不同带来的问题。

![jsonzhjg](../picture/jsonzhjg.png)

* 可以通过在`dumps()`函数中修改`ensure_ascii`参数默认值使`json`库输出中文字符。

In [6]:
import json
fr = open("../file/price2016.csv", "r")
ls = []
for line in fr:
    line = line.replace("\n","")
    ls.append(line.split(','))
fr.close()
fw = open("../file/price2016.json", "w")
for i in range(1,len(ls)):
    ls[i] = dict(zip(ls[0], ls[i]))
json.dump(ls[1:],fw, sort_keys=True, indent=4, ensure_ascii=False)
fw.close()

* 再打开“price2016.json”文件看一下，注意使用Windows自带的记事本打开，VSCode打开也会乱码。

![jsonzhjgzw](../picture/jsonzhjgzw.png)

* 将二维JSON格式数据转换成CSV格式数据的代码如下：

In [7]:
import json
fr = open("../file/price2016.json", "r")
ls = json.load(fr)
data = [ list(ls[0].keys()) ]
for item in ls:
    data.append(list(item.values()))
fr.close()
fw = open("../file/price2016_from_json.csv", "w")
for item in data:
    fw.write(",".join(item) + "\n")
fw.close()

* 打开“price2016_from_json.csv”文件可以看到下面的结果。

![json2csv](../picture/json2csv.png)

* Python的数据类型转换函数

|函数|描述|
|:-:|:-:|
|`int(x [,base])`|将字符串x转换为一个整数|
|`float(x)`|将字符串x转换为一个浮点数|
|`complex(real [,imag])`|根据real和imag创建一个浮点数|
|`str(x)`|将对象x转换为字符串|
|`repr(obj)`|将对象obj当作Python语句执行，返回结果的字符串形式|
|`eval(str)`|计算字符串中的有效Python表达式，返回结果|
|`tuple(s)`|将序列s转换为一个元组|
|`list(s)`|将序列s转换为一个列表|
|`chr(x)`|将一个整数转换为一个字符|
|`unichr(x)`|将一个整数转换为Unicode字符|
|`ord(x)`|将一个字符串转换为它的整数值|
|`hex(x)`|将一个整数转换为一个十六进制字符串|
|`oct(x)`|将一个整数转换为一个八进制字符串|
