## 第八章 文件、异常和模块

**在实际应用中，我们绝大多数的数据都是通过与文件的交互完成的。**

### 文件的读写

#### 文件的打开

- 文件打开的通用格式

with open("文件路径", "打开模式", encoding = "操作文件的字符编码") as f:
    对文件进行读写操作块

使用with块的好处：执行完毕后，**自动**对打开的文件进行close操作。

**一个简单的文件读**

##### 文件路径

全路径，如下例

当文件在当前路径，可简化为文件名

##### 打开模式

"r"    只读模式，**缺省模式**，如文件不存在，报错
"w"    覆盖写模式，如果文件不存在，则创建；如文件已存在，则完全覆盖
"x"    创建写模式，如果文件不存在，则创建；如文件已存在，则报错
"a"    追加写模式，如果文件不存在，则创建；如文件已存在，则在后面添加内容
"b"    二进制文件模式，该模式不能单独存在，要结合一起用"rb","wb","ab",**这个模式不需要指定encoding**
"t"    文本文件模式，默认值，一般省略
"+"    添加模式，与"r", "w", "x", "a"结合使用。

##### 字符编码

**万国码 utf-8 **

包括全世界国家所需要使用的字符

**中文码 gbk**

专门解决中文编码问题



In [1]:
with open('../data/ex3.txt', mode='r', encoding = 'gbk') as f: 
    text = f.read()
    print(text)

     	    A         B 	C
aaa -0.264438 -1.026059 -0.619500
bbb  0.927272  0.302904 -0.032399
ccc -0.264273 -0.386314 -0.217601
ddd -0.871858 -0.348382 1.100491


#### 文件的读取

- 读取整个文件的内容 f.read()



In [2]:
with open('../data/test1.txt', mode='r', encoding = 'utf-8') as f:
    text = f.read()
    print(text)

这是一个测试文件
用来测试python的读写文件。
  
上一行是空行



- 逐行进行读取 f.readline()

In [3]:
with open('../data/test1.txt', mode='r', encoding = 'utf-8') as f:
    text = f.readline()
    print(text)

这是一个测试文件



In [4]:
with open('../data/test1.txt', mode= 'r', encoding = 'utf-8') as f:
    while True:
        text = f.readline()
        if not text:
            #print(text is "")    #文件到最后是“”，即空字符串
            break
        else:
            #print("\n")    # 空行是"\n"
            print(text, end="")    # 保留原文的换行，使print()的换行不起作用
            

这是一个测试文件
用来测试python的读写文件。
  
上一行是空行


- 读入所有的行，以每行为一个元素形成一个列表 - f.readlines()

In [5]:
with open('../data/test1.txt', mode='r', encoding = 'utf-8') as f:
    text = f.readlines()
    print(text, end = " ")

['这是一个测试文件\n', '用来测试python的读写文件。\n', '  \n', '上一行是空行\n'] 

- 小结

文件比较大时，read()和readlines()占用内存较大，不建议使用。
readline又不太方便。

可以用以下方法，

In [6]:
with open('../data/test1.txt', mode='r', encoding = 'utf-8') as f:
    for text in f:
        print(text, end = "")

这是一个测试文件
用来测试python的读写文件。
  
上一行是空行


- 读取二进制文件


In [7]:
with open('../figs/normal.png', mode='rb') as f:
    print(len(f.readlines()))

40


#### 文件的写入

- 向一个文件写入字符串或二进制流 - f.write()

In [8]:
with open('../data/恋曲1980.txt', mode = 'w', encoding='utf-8') as f: 
    f.write('你曾经对我说\n')    # 文件不存在，则创建一个
    f.write('你永远爱着我\n')
    f.write('爱情这东西我明白\n')
    f.write('但永远是什么\n')

**如果文件存在，则新写的内容会完全覆盖原来的内容**

- 追加模式 "a"

In [9]:
with open('../data/恋曲1980.txt', mode='a', encoding='utf-8') as f:
    f.write("姑娘你别哭泣\n")
    f.write("我两还在一起\n")
    f.write("今天的欢乐\n")
    f.write("将是明天永恒的回忆\n")

- 将一个元素是字符串的列表整体写入文 f.writelines(ls)

In [10]:
ls = ['春天刮着风\n', '秋天下着雨\n', '春风秋雨多少海誓山盟随风而逝\n']

with open('../data/恋曲1980.txt', mode='a', encoding='utf-8') as f: 
    f.writelines(ls)

#### 即读又写

- "r+"

如果文件名不存在，则报错

指针在开始

要把指针移到末尾才能开始写，否则要覆盖前面的内容

In [11]:
with open('../data/浪淘沙.txt', mode='r+', encoding='utf-8') as f:
    #for text in f:
    #    print(text,end="")    #全部读一遍，指针到达末尾
    f.seek(0,2)    #或者可以将指针移到文件末尾，f.seek(偏移字节数，位置（0:开始，1:当前位置，2:结尾))
    text = ['萧瑟秋风今又是，\n','换了人间。\n']
    f.writelines(text)
    

- "w+"

若文件不存在，则创建 

若文件存在，会立刻清空原内容 

In [12]:
with open('../data/浪淘沙.txt', mode="w+", encoding ="utf-8") as f:
    pass

In [13]:
with open('../data/浪淘沙.txt', mode='w+', encoding = 'utf-8') as f: 
    text = ['萧瑟秋风今又是，\n','换了人间。\n']
    f.writelines(text)
    f.seek(0,0)    #写完以后指针在文件末尾，移到文件开头处读
    print(f.read(), end="")

萧瑟秋风今又是，
换了人间。


- “a+"

若文件不存在，则创建

指针在末尾，添加新内容，不会清空原内容

In [14]:
with open('../data/浪淘沙.txt', mode="a+", encoding = "utf-8") as f: 
    f.seek(0,0)
    print(f.read(), end="")

萧瑟秋风今又是，
换了人间。


In [15]:
with open('../data/浪淘沙.txt', mode="a+", encoding = "utf-8") as f: 
    text = ['萧瑟秋风今又是，\n','换了人间。\n']
    f.writelines(text)
    f.seek(0,0)
    print(f.read(), end="")

萧瑟秋风今又是，
换了人间。
萧瑟秋风今又是，
换了人间。


#### 数据的存储与读取

通用的数据格式，可以在不同语言中加载和存储。

本节介绍两种通用结构，csv和json

##### csv格式

由逗号将数据分开的字符序列，可以在excel中打开

- 读取


In [16]:
with open('../data/smallstocks.csv', mode='r', encoding='utf-8') as f: 
    ls = []
    for line in f:
        ls.append(line.strip('\n').split(','))
for item in ls:
    print(item)

['Date', 'Close', 'Volume', 'Symbol']
['2016-10-03', '31.50', '14070500', 'CSCO']
['2016-10-03', '112.52', '21701800', 'AAPL']
['2016-10-03', '57.42', '19189500', 'MSFT']
['2016-10-04', '113.00', '29736800', 'AAPL']
['2016-10-04', '57.24', '20085900', 'MSFT']
['2016-10-04', '31.35', '18460400', 'CSCO']
['2016-10-05', '57.64', '16726400', 'MSFT']
['2016-10-05', '31.59', '11808600', 'CSCO']
['2016-10-05', '113.05', '21453100', 'AAPL']
['Date', 'Close', 'Volume', 'Symbol']
['2021-08-20', '55.50', '14870588', 'ALBB']
['Date', 'Close', 'Volume', 'Symbol']
['2021-08-20', '55.50', '14870588', 'ALBB']


- 写入


In [17]:
ls = [['Date','Close','Volume','Symbol'], ['2021-08-20','55.50','14870588','ALBB']]
with open('../data/smallstocks.csv', mode='a+', encoding='utf-8') as f: 
    for row in ls:
        f.write(','.join(row) + "\n")

In [18]:
with open('../data/smallstocks.csv', mode="r", encoding='utf-8') as f:
    for line in f:
        print(line, end="") 

Date,Close,Volume,Symbol
2016-10-03,31.50,14070500,CSCO
2016-10-03,112.52,21701800,AAPL
2016-10-03,57.42,19189500,MSFT
2016-10-04,113.00,29736800,AAPL
2016-10-04,57.24,20085900,MSFT
2016-10-04,31.35,18460400,CSCO
2016-10-05,57.64,16726400,MSFT
2016-10-05,31.59,11808600,CSCO
2016-10-05,113.05,21453100,AAPL
Date,Close,Volume,Symbol
2021-08-20,55.50,14870588,ALBB
Date,Close,Volume,Symbol
2021-08-20,55.50,14870588,ALBB
Date,Close,Volume,Symbol
2021-08-20,55.50,14870588,ALBB


**Python 中有csv模块做相应的操作**

##### json格式

常被用来存储字典格式

**写入 - dump()**


In [19]:
import json

scores = {'Peter': {'math': 96, 'physics': 97},
         'Andy': {'math':88, 'physics': 76},
         "Lucy": {'math':96, 'physics':87}}
with open('../data/scores.json', "w", encoding = 'utf-8') as f:
    #indent 表示字符串换行+缩进， ensure_ascii=False显示中文
    json.dump(scores, f, indent = 4, ensure_ascii = False)

**读取 - load()**

In [20]:
with open('../data/scores.json', mode='r', encoding='utf-8') as f: 
    scores = json.load(f)
    for k, v in scores.items():
        print(k,v)

Peter {'math': 96, 'physics': 97}
Andy {'math': 88, 'physics': 76}
Lucy {'math': 96, 'physics': 87}


### 异常处理

#### 常见异常的产生

##### 除0运算 - ZeroDIvisionError

In [21]:
#1/0 

##### 找不到可读文件 FileNotFoundError

In [22]:
#with open('nobody.txt', "r") as f:
#    pass 

##### 值错误 ValueError
传入一个函数不期望的值，即使这个值的类型是正确的

In [23]:
# s = "1.3"
# i = int(s)

#####  索引错误 IndexError
下标超出序列边界

In [24]:
# ls = [1,3,5,7]
# ls[4]

##### 类型错误 TypeError
传入对象类型与要求不符

In [25]:
#1+"3"

##### 其他常见的异常类型
NameError使用一个未被定义的变量。

KeyError试图访问字典里不存在的键

......

**当异常发生时，如果不预先定义好处理方法，程序运行会终止。**

#### 异常的处理
**提高程序运行的稳定性和可靠性**

##### try / except

- 如果try内代码块顺利执行完毕，不触发except块内代码

- 如果try内代码块发生错误，出发except块内代码

**单分支**

In [26]:
x = 10
y = 0
try:
    z = x / y
except ZeroDivisionError:    #一般说可以预判到有什么错误
    #z = x / (y + 1e-7)
    #print(z)
    print("Can not divided by 0.")

Can not divided by 0.


In [27]:
# x = 10
# y = 0
# try:
#     z = x / y
# except NameError:    #捕捉错误
#     #z = x / (y + 1e-7)
#     #print(z)
#     print("Can not divided by 0.")

**多分支**

In [28]:
ls = []

d = {'name':"Peter"}

try:
    #y = x 
    ls[4]
    #d['Age']
except NameError:
    print("variable name not exist.")
except IndexError:
    print("Index out of range.")
except KeyError:
    print("Key not exist.")

Index out of range.


- 万能异常Exception（所有异常的老祖宗）

In [29]:
ls = []
d = {'name':"Peter"}

try:
    #y = x 
    ls[4]
    #d['Age']
except Exception:
    print("Error Captured.")


Error Captured.


- 捕获异常的值

In [30]:
ls = []
d = {'name':"Peter"}

try:
    y = m 
    ls[4]
    d['Age']
except Exception as e:    #虽然不能捕获具体错误的类型，但是可以捕获错误的值
    print(e)


name 'm' is not defined


- try-except-else

如果try模块成功执行，没有到except块，则执行else块中的内容。

else块可以看作是try成功的额外奖赏

In [31]:
try:
    with open("../data/浪淘沙.txt", mode="r", encoding="utf-8") as f:
        text = f.read()
        print(text, end="")
except FileNotFoundError as e: 
    print("File not Found.")
else:
    for s in ['\n',',','.','，','。','?','?']:
        text = text.replace(s,"")
    print("浪淘沙.txt 一共有{}个字符.".format(len(text)))

萧瑟秋风今又是，
换了人间。
萧瑟秋风今又是，
换了人间。
浪淘沙.txt 一共有22个字符.


- try-except-finally

无论try模块中是否执行， finally里面都要执行

In [32]:
ls = []
d = {'name':"Peter"}

try:
    y = m 
    ls[4]
    d['Age']
except Exception as e:    #虽然不能捕获具体错误的类型，但是可以捕获错误的值
    print(e)
finally:
    print("Do it.")

name 'm' is not defined
Do it.


### 模块简介

已经被封装好，用于解决一些特定的问题

无需自己重新造轮子

声明导入后就可以使用

#### 广义模块的分类

##### python内置

数学库math, 时间库time, 随机库random

##### 第三方库

数据分析 numpy, pandas,数据可视化matplotlib, 机器学习scikit-learn, 深度学习Tensorflow

##### 自定义文件

- 单独py文件

- 包 - 多个py文件，

  文件夹内多个py文件，再加一个__init__.py文件（内容可为空）

#### 模块的导入

##### 导入整个模块 - import 模块名

调用方法: 模块名.函数名或类名

In [33]:
import time 

start = time.time()    #调用time模块中的time()方法
time.sleep(3)    #调用time模块中的sleep()函数
end = time.time()
print("程序运行用时：{:.2f}秒".format(end - start))

程序运行用时：3.00秒


##### 从模块中导入类或函数 - from 模块 import 类名或函数名

调用方法：函数名或方法

In [34]:
from itertools import product

ls = list(product("AB", "123"))
ls 

[('A', '1'), ('A', '2'), ('A', '3'), ('B', '1'), ('B', '2'), ('B', '3')]

- 一次导入多个

from 模块名 import 类名或函数名1， 类名或函数名2, ...

- 导入模块中所有的类和函数 - from 模块 import *

调用方式：函数名或类名

**不建议使用这种方式**

#### 模块的查找路径

**模块搜索查找顺序：**

1. 内存中已经加载的模块

2. 内置模块

python启动时，解释器会默认加载一些modules存放在sys.modules中，

sys.modules 变量包含一个由当前载入（完整且成功导入）到解释器的模块组成的字典，模块名作为键，它们的位置作为键值。

In [39]:
import sys 

print("The number of sys.modules: {}.".format(len(sys.modules)))
print("math" in sys.modules)
print("numpy" in sys.modules)
for k, v in list(sys.modules.items())[0:10]:
    print(k,": ", v)

The number of sys.modules: 769.
True
False
sys :  <module 'sys' (built-in)>
builtins :  <module 'builtins' (built-in)>
_frozen_importlib :  <module 'importlib._bootstrap' (frozen)>
_imp :  <module '_imp' (built-in)>
_frozen_importlib_external :  <module 'importlib._bootstrap_external' (frozen)>
_io :  <module 'io' (built-in)>
marshal :  <module 'marshal' (built-in)>
nt :  <module 'nt' (built-in)>
_thread :  <module '_thread' (built-in)>


3. sys.path路径中包含的模块

In [36]:
import sys 
sys.path 

['C:\\work2\\src\\basic_learning\\备课',
 'C:\\work2\\src',
 'C:\\work2\\anaconda3\\envs\\py38\\python38.zip',
 'C:\\work2\\anaconda3\\envs\\py38\\DLLs',
 'C:\\work2\\anaconda3\\envs\\py38\\lib',
 'C:\\work2\\anaconda3\\envs\\py38',
 '',
 'C:\\work2\\anaconda3\\envs\\py38\\lib\\site-packages',
 'C:\\work2\\anaconda3\\envs\\py38\\lib\\site-packages\\win32',
 'C:\\work2\\anaconda3\\envs\\py38\\lib\\site-packages\\win32\\lib',
 'C:\\work2\\anaconda3\\envs\\py38\\lib\\site-packages\\Pythonwin',
 'C:\\work2\\anaconda3\\envs\\py38\\lib\\site-packages\\IPython\\extensions',
 'C:\\Users\\wenyuc\\.ipython']

- sys.path 的第一个路径是当前执行文件所在的文件夹

- 若需将不在该文件夹内的模块导入，需要将模块的路径添加到sys.path

In [37]:
# import sys 

# sys.path.append("../../my_package")
# import func3

# func3.f3()