## 文件读写

### 读文件

In [5]:
f = open('D:\\Documents\\GitHub\\Python-learning\\iotest.txt', 'r')
# 'r'表示read
# 调用系统打开文件

In [6]:
f.read()
# 读取到内存

'test'

In [7]:
f.close()
#调用完成关闭，减少资源占用

In [8]:
#如果读写过程中出错则无法继续下一步调用f.close(),所以应该用try方法
try: #逐行执行。如果出错跳到finally
    f = open('D:\\Documents\\GitHub\\Python-learning\\iotest.txt', 'r')
    print(f.read())
finally: #即使出错也会执行
    if f:
        f.close()

test


这样写太麻烦，应该使用with语句

In [9]:
#读取文件到f中，f对象带有read系列方法
with open('D:\\Documents\\GitHub\\Python-learning\\iotest.txt', 'r') as f:
    print(f.read())

test


调用read()会一次性读取文件的全部内容，如果文件有10G，内存就爆了，所以，要保险起见，可以反复调用read(size)方法，每次最多读取size个字节的内容。另外，调用readline()可以每次读取一行内容，调用readlines()一次读取所有内容并按行返回list。因此，要根据需要决定怎么调用。

### file-like Object

像open()函数返回的这种有个read()方法的对象，在Python中统称为file-like Object。除了file外，还可以是内存的字节流，网络流，自定义流等等。file-like Object不要求从特定类继承，只要写个read()方法就行。
StringIO就是在内存中创建的file-like Object，常用作临时缓冲。

### 二进制文件

如图片，视频等。把r模式换成rb模式

In [None]:
f = open('/Users/michael/test.jpg', 'rb')
f.read()

### 字符编码
读取非UTF-8的文件，需要给open传入encoding参数



In [None]:
f = open('/Users/michael/gbk.txt', 'r', encoding='gbk')
f.read()

In [None]:
#如果遇到非法编码字符，可以指定处理方式
f = open('/Users/michael/gbk.txt', 'r', encoding='gbk', errors='ignore')

### 写文件
open函数中传入w或wb，分别表示对文本文件和二进制文件编辑

In [None]:
f = open('/Users/michael/test.txt', 'w')#可编辑模式
f.write('Hello')  #写入内容
f.close()

当我们写文件时，操作系统往往不会立刻把数据写入磁盘，而是放到内存缓存起来，空闲的时候再慢慢写入。只有调用close()方法时，操作系统才保证把没有写入的数据全部写入磁盘。忘记调用close()的后果是数据可能只写了一部分到磁盘，剩下的丢失了。所以，还是用with语句来得保险：

In [None]:
with open('/Users/michael/test.txt', 'w') as f:
    f.write('Hello')

## StringIO & BytesIO
### StringIO
在内存中读写str（而不是读取文件）

In [1]:
from io import StringIO
f = StringIO() #创建一个空的StringIO
f.write('Hello') #返回字符串长度,写入Hello

5

In [2]:
f.write(' ') #写入空格

1

In [3]:
f.write('world!') #写入world！

6

In [4]:
print(f.getvalue()) #返回f的全部结果

Hello world!


In [5]:
# 也可以对已经写好的str作为StringIO读写
from io import StringIO
f = StringIO('Hello!\nHi!\nGoodbye!')
while True:
    s = f.readline()
    if s =='':
        break
    print(s.strip())

Hello!
Hi!
Goodbye!


### BytesIO
对二进制数据进行操作

In [6]:
from io import BytesIO
f = BytesIO()
f.write('中文'.encode('utf-8')) #返回字节数,写入经过utf8编码的bytes

6

In [7]:
print(f.getvalue())

b'\xe4\xb8\xad\xe6\x96\x87'


In [8]:
# 也可以直接对已有bytes操作
from io import StringIO
f = BytesIO(b'\xe4\xb8\xad\xe6\x96\x87')
f.read()

b'\xe4\xb8\xad\xe6\x96\x87'

## 操作文件和目录

In [9]:
import os
os.name #操作系统类型

'nt'

### 环境变量

In [11]:
# 显示全部在操作系统中定义的环境变量
os.environ

environ({'IPY_INTERRUPT_EVENT': '364', 'PROCESSOR_REVISION': '4c03', 'PROGRAMDATA': 'C:\\ProgramData', 'USERDOMAIN_ROAMINGPROFILE': 'ELARA-SURFACE', 'PATH': 'C:\\Users\\elara\\Anaconda3\\Library\\bin;C:\\Users\\elara\\Anaconda3\\Library\\bin;C:\\Users\\elara\\Anaconda3;C:\\Users\\elara\\Anaconda3\\Scripts;C:\\Users\\elara\\Anaconda3\\Library\\bin;C:\\Users\\elara\\Anaconda3\\Library\\bin;C:\\WINDOWS\\system32;C:\\WINDOWS;C:\\WINDOWS\\System32\\Wbem;C:\\WINDOWS\\System32\\WindowsPowerShell\\v1.0\\;C:\\Users\\elara\\Anaconda3;C:\\Users\\elara\\Anaconda3\\Scripts;C:\\Users\\elara\\Anaconda3\\Library\\bin;C:\\Users\\elara\\AppData\\Local\\Programs\\Python\\Python35\\Scripts\\;C:\\Users\\elara\\AppData\\Local\\Programs\\Python\\Python35\\;C:\\Users\\elara\\AppData\\Local\\Microsoft\\WindowsApps;C:\\Users\\elara\\AppData\\Local\\atom\\bin;%USERPROFILE%\\AppData\\Local\\Microsoft\\WindowsApps;', 'SYSTEMROOT': 'C:\\WINDOWS', 'ALLUSERSPROFILE': 'C:\\ProgramData', 'HOMEPATH': '\\Users\\elara', '

In [13]:
# 显示具体某个变量的值
os.environ.get('PATH')

'C:\\Users\\elara\\Anaconda3\\Library\\bin;C:\\Users\\elara\\Anaconda3\\Library\\bin;C:\\Users\\elara\\Anaconda3;C:\\Users\\elara\\Anaconda3\\Scripts;C:\\Users\\elara\\Anaconda3\\Library\\bin;C:\\Users\\elara\\Anaconda3\\Library\\bin;C:\\WINDOWS\\system32;C:\\WINDOWS;C:\\WINDOWS\\System32\\Wbem;C:\\WINDOWS\\System32\\WindowsPowerShell\\v1.0\\;C:\\Users\\elara\\Anaconda3;C:\\Users\\elara\\Anaconda3\\Scripts;C:\\Users\\elara\\Anaconda3\\Library\\bin;C:\\Users\\elara\\AppData\\Local\\Programs\\Python\\Python35\\Scripts\\;C:\\Users\\elara\\AppData\\Local\\Programs\\Python\\Python35\\;C:\\Users\\elara\\AppData\\Local\\Microsoft\\WindowsApps;C:\\Users\\elara\\AppData\\Local\\atom\\bin;%USERPROFILE%\\AppData\\Local\\Microsoft\\WindowsApps;'

### 操作文件和目录

In [14]:
# 查看当前目录的绝对路劲：
os.path.abspath('.')

'C:\\Users\\elara\\Documents\\GitHub\\Python-learning'

In [20]:
# 创建一个新目录
# 合并目录字符串
os.path.join('C:\\Users\\elara\\Documents\\GitHub', 'testdir')

'C:\\Users\\elara\\Documents\\GitHub\\testdir'

In [21]:
# 创建目录
os.mkdir('C:\\Users\\elara\\Documents\\GitHub\\testdir')

In [22]:
# 删除目录
os.rmdir('C:\\Users\\elara\\Documents\\GitHub\\testdir')

In [23]:
# 拆分路径字符串（路径和文件）
os.path.split('C:\\Users\\elara\\Documents\\GitHub\\testdir\\file.txt')

('C:\\Users\\elara\\Documents\\GitHub\\testdir', 'file.txt')

In [24]:
# 在文件扩展名处分割
os.path.splitext('C:\\Users\\elara\\Documents\\GitHub\\testdir\\text.txt')

('C:\\Users\\elara\\Documents\\GitHub\\testdir\\text', '.txt')

In [28]:
#'C:\\Users\\elara\\Documents\\GitHub\\Python-learning'下有个text.txt
# 重命名
os.rename('C:\\Users\\elara\\Documents\\GitHub\\Python-learning\\text.txt', 'renametest.txt')
# 前面是需要重命名的文件，后面是重命名的名字

In [30]:
# 删除文件
os.remove('C:\\Users\\elara\\Documents\\GitHub\\Python-learning\\renametest.txt')

复制文件函数在shutil模块中，copyfile()函数

In [31]:
# 列出当前目录下的所有目录
[x for x in os.listdir('.') if os.path.isdir(x)]

['.git', '.ipynb_checkpoints']

In [36]:
[x for x in os.listdir('C:\\Users\\elara\\') if os.path.isdir(x)]

[]

In [38]:
# 列出所有.ipynb文件
[x for x in os.listdir('.') if os.path.isfile(x) and os.path.splitext(x)[1]=='.ipynb']

['Advanced feature.ipynb',
 'Advanced OOP.ipynb',
 'Basic of python.ipynb',
 'functional programing.ipynb',
 'IO programing.ipynb',
 'Object Oriented Programming.ipynb',
 'python function.ipynb']

In [39]:
[x for x in os.listdir('C:\\Users\\elara\\') if os.path.isfile(x) and os.path.splitext(x)[1]=='.ipynb']

[]

## 序列化
把变量从内存中变成可储存或者传输的过程，称之为序列化(pickling,serialization,marshalling,flattening).

序列化后的内容就可以写入磁盘或发送

如果把序列化的对象重新读到内存称为反序列化，unpickling

In [40]:
# 把对象序列化成bytes，就可以写入文件# 
import pickle
d = dict(name='Bob', age=20, score=80)
pickle.dumps(d)

b'\x80\x03}q\x00(X\x04\x00\x00\x00nameq\x01X\x03\x00\x00\x00Bobq\x02X\x03\x00\x00\x00ageq\x03K\x14X\x05\x00\x00\x00scoreq\x04KPu.'

In [42]:
# 把d序列化后并写入dump.txt
f = open('dump.txt', 'wb')
pickle.dump(d,f)
f.close()

In [45]:
# 反序列化
# 把文件内容读取成一个bytes
f = open('dump.txt', 'rb')
d = pickle.load(f)
f.close()

In [46]:
d

{'age': 20, 'name': 'Bob', 'score': 80}

pickle函数只能用于python，甚至不同版本的python都不能兼容

### JSON
序列化为标准格式，方便在不同语言之间传递。本身是个字符串。

对应关系：

JSON -----         Python

{}   -----          dict

[]     -----        list

"string"    -----   str

1234.56    -----    int或float

true/false   -----  True/False

null     -----      None

In [47]:
# 把一个python对象转化为一个JSON
import json
d = dict(name='Bob', age=10, score=88)
json.dumps(d)
# 返回一个str，内容是json

'{"name": "Bob", "age": 10, "score": 88}'

In [48]:
# 从json反序列化
json_str = '{"name": "Bob", "age": 10, "score": 88}'
json.loads(json_str)
#返回反序列化的内容

{'age': 10, 'name': 'Bob', 'score': 88}

In [52]:
#对class的实例序列化
import json

class Student(object):
    def __init__(self, name, age, score):
        self.name = name
        self.age = age
        self.score = score
        
s = Student('Bob', 20, 88)

In [54]:
json.dumps(s)
# 无法直接把class序列化

TypeError: <__main__.Student object at 0x000001D745DFD320> is not JSON serializable

In [55]:
# 写一个转换函数
def student2dict(std):
    return {
        'name': std.name,
        'age': std.age,
        'score': std.score
    }
# 把实例转化为dict，再json化

In [57]:
print(json.dumps(student2dict(s)))

{"name": "Bob", "age": 20, "score": 88}


In [58]:
#对应的，如果要反序列化
def dict2student(d):
    return Student(d['name'], d['age'], d['score'])

In [69]:
json_str = '{"age":20, "score":88, "name": "Bob"}'

In [71]:
print(dict2student(json.loads(json_str)))

<__main__.Student object at 0x000001D745D985F8>
