# 文件读写

Python内置的`open`函数，可以指定文件名、操作模式、编码信息等来获得操作文件的对象

| 操作模式 | 具体含义 |
| :-----:  | :-----: |
| `r` | 读取（默认） |
| `w` | 写入，如果文件不存在会被创建；如果文件已经存在，会覆盖之前写的所有内容 |
| `x` | 写入，如果文件已经存在会产生异常 |
| `a` | 追加，将内容写入到已有文件的末尾 |
| `b` | 二进制模式|
| `t` | 文本模式（默认） |
| `+` | 更新（既可以读又可以写） |

## 读写文本文件

In [1]:
f = open("file/test.txt", 'r', encoding = 'UTF-8')
f.read()

'this is a test file.\nhello world!\npython is good!\ntoday is a good day.\nhello world\nhello world'

也可以按照行读入内容，`readlines`方法返回一个列表，每个元素代表文件中每一行的内容：

In [2]:
f.seek(0)
f.readlines()

['this is a test file.\n',
 'hello world!\n',
 'python is good!\n',
 'today is a good day.\n',
 'hello world\n',
 'hello world']

多次调用`f.read()`，第一次调用`f.read()`可以读取到内容，这时游标会移动到文章末尾，再次调用`f.read()`是获取不到内容的，可以使用`f.seek(0)`将游标移动到文章开头再次调用`f.read()`即可获取内容。  
在使用`f.write()`向文件内写入内容后立刻使用`f.read()`读取文件内容，这时游标也是在文件末尾的，也获取不到文本。

使用完文件之后，需要将文件关闭。

In [3]:
f.close()

可以将`f`放在一个循环中，得到它每一行的内容：

In [4]:
f = open("file/test.txt", 'r', encoding = 'UTF-8')
for line in f:
    print(line)
f.close()

this is a test file.

hello world!

python is good!

today is a good day.

hello world

hello world


要将文本信息写入文件，使用`open`函数时指定好文件名并将文件模式设置为`'w'`即可。  
注意如果需要对文件内容进行追加式写入，应该将模式设置为`'a'`。  
如果要写入的文件不存在会自动创建文件而不是引发异常。  

例：将1-9999之间的素数分别写入三个文件中（1-99之间的素数保存在a.txt中，100-999之间的素数保存在b.txt中，1000-9999之间的素数保存在c.txt中）

In [5]:
from math import sqrt

'''判断是否是素数'''
def is_prime(n):
    assert n > 0
    for factor in range(2, int(sqrt(n))+1):
        if n % factor == 0:
            return False
    return True if n != 1 else False

def main():
    filenames = ['file/a.txt', 'file/b.txt', 'file/c.txt']
    fs_list = []
    try:
        for filename in filenames:
            fs_list.append(open(filename, 'w', encoding = 'UTF-8'))
        for i in range(1,100):
            if is_prime(i):
                fs_list[0].write(str(i) + '\n')
        for i in range(100,1000):
            if is_prime(i):
                fs_list[1].write(str(i) + '\n')
        for i in range(1000,10000):
            if is_prime(i):
                fs_list[2].write(str(i) + '\n')
    except IOError as ex:
        print(ex)
        print('写文件时发生错误!')
    finally:
        for fs in fs_list:
            fs.close()
        print("操作完成！")
            
if __name__ == '__main__':
    main()

操作完成！


## 读写二进制文件

例：复制图片文件

In [6]:
try:
    with open("C:/Users/gaoyu/Pictures/jerome-comentale-hogwarts.jpg", 'rb') as fs1:
        pic = fs1.read()
        print(type(pic))
    with open("file/background.jpg", 'wb') as fs2:
        fs2.write(pic)
except FileNotFoundError as e:
    print('指定的文件无法打开.')
except IOError as e:
    print('读写文件时出现错误.')
print('程序执行结束.')
    
if __name__ == '__main__':
    main()

<class 'bytes'>
程序执行结束.
操作完成！


## 读写JSON文件

如果希望把一个列表或者一个字典中的数据保存到文件中又该怎么做呢？答案是将数据以JSON格式进行保存。  
JSON是“JavaScript Object Notation”的缩写，它本来是JavaScript语言中创建对象的一种字面量语法，现在已经被广泛的应用于跨平台跨语言的数据交换，原因很简单，因为JSON也是纯文本，任何系统任何编程语言处理纯文本都是没有问题的。  
下面是一个JSON的简单例子:

In [7]:
{
    "name": "骆昊",
    "age": 38,
    "qq": 957658,
    "friends": ["王大锤", "白元芳"],
    "cars": [
        {"brand": "BYD", "max_speed": 180},
        {"brand": "Audi", "max_speed": 280},
        {"brand": "Benz", "max_speed": 320}
    ]
}

{'name': '骆昊',
 'age': 38,
 'qq': 957658,
 'friends': ['王大锤', '白元芳'],
 'cars': [{'brand': 'BYD', 'max_speed': 180},
  {'brand': 'Audi', 'max_speed': 280},
  {'brand': 'Benz', 'max_speed': 320}]}

JSON和python中的字典类似，事实上JSON的数据类型和Python的数据类型是很容易找到对应关系的：

| JSON | Python |
| :-----:  | :-----: |
| object | dict |
| array | list |
| string | str |
| number (int / real) | int / float |
| true / false | True / False|
| null | None |

使用Python中的json模块就可以将字典或列表以JSON格式保存到文件中:

In [8]:
import json

def main():
    mydict = {
        'name': '骆昊',
        'age': 38,
        'qq': 957658,
        'friends': ['王大锤', '白元芳'],
        'cars': [
            {'brand': 'BYD', 'max_speed': 180},
            {'brand': 'Audi', 'max_speed': 280},
            {'brand': 'Benz', 'max_speed': 320}
        ]
    }
    try:
        with open('file/data.json', 'w', encoding='utf-8') as fs:
            json.dump(mydict, fs)
    except IOError as e:
        print(e)
    print('保存数据完成!')

if __name__ == '__main__':
    main()

保存数据完成!


json模块主要有四个比较重要的函数，分别是：  
* `dump` - 将Python对象按照JSON格式序列化到文件中
* `dumps` - 将Python对象处理成JSON格式的字符串
* `load` - 将文件中的JSON数据反序列化成对象
* `loads` - 将字符串的内容反序列化成Python对象

> 序列化（serialization）在计算机科学的数据处理中，是指将数据结构或对象状态转换为可以存储或传输的形式，这样在需要的时候能够恢复到原先的状态，而且通过序列化的数据重新获取字节时，可以利用这些字节来产生原始对象的副本（拷贝）。与这个过程相反的动作，即从一系列字节中提取数据结构的操作，就是反序列化（deserialization）

目前绝大多数网络数据服务（或称之为网络API）都是基于HTTP协议提供JSON格式的数据。

下面的例子演示了如何使用requests模块（封装得足够好的第三方网络访问模块）访问网络API获取国内新闻，如何通过json模块解析JSON数据并显示新闻标题，这个例子使用了天行数据提供的国内新闻数据接口，其中的APIKey需要自己到该网站申请。

In [None]:
import requests
import json

def main():
    resp = requests.get('http://api.tianapi.com/guonei/?key=APIKey&num=10')
    data_model = json.loads(resp.text)
    for news in data_model['newslist']:
        print(news['title'])

if __name__ == '__main__':
    main()

在Python中要实现序列化和反序列化除了使用json模块之外，还可以使用pickle和shelve模块，但是这两个模块是使用特有的序列化协议来序列化数据，因此序列化后的数据只能被Python识别。