#  文件
- 长久保存信息的一种数据集合
- 常用操作：
  - 打开，关闭（文件一旦打开，就需要关闭操作）
  - 读写内容
  - 查找
  
## open 函数
- open 函数负责打开文件，带有很多参数
- 第一个参数：文件的路径和名称,必须有
- mode: 表明文件用什么方式打开
  - r: 只读
  - w: 写，会覆盖之前的内容
  - x: 创建方式打开，如果文件已存在，报错
  - a: append 方式，追加的方式写入
  - b: binary, 以二进制的方式写入
  - t: 文本方式打开
  - +: 可读写

In [2]:
# 用写的方式打开一个文件
# f 称之为文件句柄
# r 表示之后的符号不需要转义，原意输出（当路径有反斜杠或空格时linux下需要转义）

f = open(r"test01.txt",'w')
f.write('111\n222\n333\n444\n555\n666\n777\n888')
# 文件一旦打开就必须有关闭
f.close()

## with 语句
- with 语句使用的技术是一种称为上下文管理协议的技术（ContextManagermentProtocal）
- 自动判断文件的作用域，自动关闭没有在使用的文件句柄

In [3]:
# with 案例-01

with open(r"test01.txt",'r') as f:
    pass
    # 下面语句块开始对文件f进行操作
    # 在本模块中，不需要用close关闭文件f

In [4]:
# with 案例-02

with open(r"test01.txt",'r') as f:
    # 按行读取内容
    strline = f.readline()
   
    # 此结构保证能够完整读取文件直到结束    
    while strline:
        print(strline)
        strline = f.readline()

111

222

333

444

555

666

777

888


In [5]:
# list 能用打开的文件作为参数，把文件内每一行内容作为一个 list 的元素
with open(r'test01.txt', 'r') as f:
    # 以 打开的文件 f 作为参数创建列表
    l = list(f)
    for line in l:
        print(line)

111

222

333

444

555

666

777

888


In [6]:
# read 是按字符读取文件内容
# 允许输入参数决定读取几个字符，如果没有指定字符数，从当前位置读取到结尾
# 如果有指定字符数，则从当前位置读取指定个数的字符

with open(r'test01.txt', 'r') as f:
    strChar = f.read()
    print(len(strChar))
    print(strChar)

31
111
222
333
444
555
666
777
888


## seek(offset, from)
- 移动文件的读取位置，也叫读取指针
- from 的取值范围：
  - 0: 从文件开头开始偏移
  - 1: 从文件当前位置开始偏移
  - 2: 从文件末尾开始偏移
  
- 移动的单位是字节（byte）
- 一个汉字由若干个字节构成
- 返回文件值只针对当前位置

In [11]:
# seek 案例
# 先创建一个案例文件
with open(r'test02.txt', 'w') as f:
    f.write("国破山河在\n城春草木深\n感时花溅泪\n恨别鸟惊心")
    
# 打开文件后，偏移量为3，从第4个字节开始读取
with open(r'test02.txt', 'r') as f:
    # seek 移动单位是字节，一个汉字在utf-8编码时，长度为3个字节
    # 偏移量为3，那么第一个字就不会读取
    f.seek(3, 0)
    strChar = f.read()
    print(strChar)

破山河在
城春草木深
感时花溅泪
恨别鸟惊心


In [12]:
# 读取文件的练习：
# 打开文件，三个字符一组读取内容，显示在屏幕上
# 每读一次，休息一秒（让程序暂停可以使用 time 模块的 sleep 函数）

import time
with open(r'test02.txt', 'r') as f:
    # utf-8编码的汉字，1个汉字长度为三个字节
    # read 的单位是字符，一个汉字即一个字符
    strChar = f.read(3)
    while strChar:
        print(strChar)
        time.sleep(1) # 单位是秒
        strChar = f.read(3)
        
# 作业：解释以下结果，为什么不是每行三个字符
# 换行符的写法是\n，在 python 中看起来是2个字符，但只算一个字符
# 所以结果就是这样了

国破山
河在

城春草
木深

感时花
溅泪

恨别鸟
惊心


### tell 函数
- 用来显示文件读写指针的当前位置

In [13]:
# tell 案例-01

with open(r'test02.txt', 'r') as f:
    strChar = f.read(3)
    pos = f.tell()
    
    while strChar:
        print(pos)
        print(strChar)
        
        strChar = f.read(3)
        pos = f.tell()

9
国破山
16
河在

25
城春草
32
木深

41
感时花
48
溅泪

57
恨别鸟
63
惊心


## write - 文件的写操作
- write(str) 把字符串写入文件
- writelines(str) 把字符串按行写入文件
- 区别：
  - write 的参数只能是字符串
  - writelines 的参数可以是字符串，也可以是字符串序列

In [18]:
# write 案例-01
# 1. 向文件追加一句诗

with open(r'test02.txt','a') as f:
    f.write("\n生活不仅有眼前的苟且\n还有远方的苟且")

In [19]:
# 可以直接写入行，用 writelines
# writeline 表示写入很多行，参数可以是 list 格式
with open(r'test02.txt','a') as f:
    f.writelines("\n生活不仅有眼前的苟且")
    f.writelines("\n还有远方的枸杞")

In [20]:
l = ["I", "Love", "Wangxiaojing"]

with open(r'test02.txt', 'a') as f:
    # 注意字符串内的换行符问题，需要手动添加
    f.writelines(l)

### pickle - 持久化
- 序列化（持久化，落地）：把程序运行中的信息保存在磁盘中
- 反序列化： 序列化的逆向过程
- pickle: python 提供的序列化模块
  - pickle.dump: 序列化
  - pickle.load: 反序列化

In [22]:
# pickle 序列化案例-01

import pickle

age = 19
with open(r'test03.txt', 'wb') as f: # wb 以二进制的方式写入
    pickle.dump(age, f)

In [23]:
# 反序列化
import pickle

with open(r'test03.txt', 'rb') as f: # 以二进制的方式读取
    age = pickle.load(f)
    print(age)


19


In [24]:
# pickle 序列化案例-02
# 可以序列化结构
import pickle

a = [19, 'liudana', 'i love wangxiaojing', [185, 76]]
with open(r'test04.txt', 'wb') as f:
    pickle.dump(a, f)

In [25]:
# 反序列化2
import pickle

with open(r'test04.txt', 'rb') as f:
    a = pickle.load(f)
    print(a)

[19, 'liudana', 'i love wangxiaojing', [185, 76]]


### shelve - 持久化
- 持久化工具
- 类似字典，用kv对保存数据，存取方式更字典也类似
- open/close

In [26]:
# shelve 案例-01
# 使用shelve创建一个文件并使用

import shelve

# 打开文件
# shv 相当于一个字典 dict
# 注意保存时,jupyter notebook中不带后缀 ".db"，否则会报错
shv = shelve.open(r'shv01')

shv['one'] = 1
shv['two'] = 2
shv['three'] = 3

shv.close()

# 通过以上案例发现
# shelve 自动创建的不仅仅是一个shv.db文件，还包括其他格式的文件

In [27]:
# shelve 的读取案例-01

import shelve

# 当读取不存在的 key 时，shevle 会报错，报错会导致 shelve 没有关闭
# 此时 可以使用 try-finally 来保证其会被关闭

try:
    shv = shelve.open(r'shv01') # 注意读取时文件名不带后缀
    print(shv['one'])
    print(shv['three'])
except Exception as e:
    print("烦死了")
finally:
    shv.close()

1
3


#### shelve 的特性
- 不支持多个应用并行写入
  - 为了解决这个问题，open 的时候可以使用 flag=r
- 写回问题
  - shelve 默认情况下不会等待持久化对象进行任何修改
  - 解决办法：强制写回： writeback=True

In [28]:
# shelve 之只读打开案例-01
import shelve

shv = shelve.open(r'shv01', flag='r') # 注意打开时文件名不带后缀，否则会报错

try:
    k1 = shv['one']
    print(k1)
finally:
    shv.close()

1


In [40]:
import shelve

# 先写回
shv = shelve.open(r'shv02')
try:
    shv['one'] = {"eins":1, "zwei":2, "drei":3}
finally:
    shv.close()
    
# 再读取
shv = shelve.open(r'shv02')
try:
    one = shv['one']
    print(one)
finally:
    shv.close()
    


{'eins': 1, 'zwei': 2, 'drei': 3}


In [41]:
# shelve 之忘记写回案例-01

# 修改上一个案例中的 shv02 的内容，但默认没有写回
shv = shelve.open(r'shv02')
try:
    k1 = shv['one']
    print(k1)
    k1["eins"] = 100
finally:
    shv.close() # 此时一旦关闭，100并没有写回数据库中，还在内存中

# 读取，发现 shv['one'] 的值并没有改变
shv = shelve.open(r'shv02')
try:
    k1 = shv['one']
    print(k1)
finally:
    shv.close()

{'eins': 1, 'zwei': 2, 'drei': 3}
{'eins': 1, 'zwei': 2, 'drei': 3}


In [42]:
# 使用 writeback 强制写回，一旦有更改，则会自动写回shv.db文件

shv = shelve.open(r'shv02', writeback=True)
try:
    k1 = shv['one']
    print(k1)
    k1["eins"] = 100
finally:
    shv.close() # 使用了 writeback=True，此时一旦关闭，更改即写回

# 检查上一步的 writeback=True 是否生效
shv = shelve.open(r'shv02')
try:
    k1 = shv['one']
    print(k1)
finally:
    shv.close()

{'eins': 1, 'zwei': 2, 'drei': 3}
{'eins': 100, 'zwei': 2, 'drei': 3}


In [43]:
# shevle 使用 with 管理上下文环境

with shelve.open(r'shv02', writeback=True) as shv:
    k1 = shv['one']
    print(k1)
    # 使用了 writeback=True
    k1["eins"] = 1000
    
with shelve.open(r'shv02') as shv:
    print(shv['one'])

{'eins': 100, 'zwei': 2, 'drei': 3}
{'eins': 1000, 'zwei': 2, 'drei': 3}
