## 第8章  文件与异常  
前面我们学习Python编程的基础知识和基本技能，接下来将使用Python来解决实际问题。在人工智能、大数据时代，数据是核心内容，是我们分析的依据，也是数据分析、机器学习的原料。如何使用数据、如何分析处理相关数据，就显得非常重要。
	而数据一般是以文件方式存储的，所以如何用Python操作文件是我们经常会遇到的问题。当然在Python操作数据过程中，难免会遇到各种问题，如何保证我们程序的可靠性、容错性等是衡量程序优劣的重要依据。所以本章除了介绍如何操作文件之外，还将介绍如何使Python程序更健壮、更可靠



### 8.1 问题：Python如何获取文件数据？

Python处理文件的步骤包括打开、读写、关闭。第一步当然就是先要打开文件。要以读文件的模式打开一个文件对象，使用Python内置的open()函数，传入文件名和其他参数。open() 函数常用形式是接收两个参数：文件名(file)和模式(mode)，如：

其中：
- file: 必需，文件路径（相对或者绝对路径）。如果是linux环境，路径一般表示为'./data/file_name',如果是windows环境，一般表示为'.\data\file_name',因反斜杠"\"在Python中被视为转义字符，为确保正确，应以原字符串的方式指定路径，即在开头的单引号前加上r。
- mode: 可选，文件打开模式
- buffering: 可选，设置缓冲
- encoding: 可选，一般使用utf8
- errors: 可选，报错级别
- newline: 可选，区分换行符，如\n,\r\n等
- closefd: 可选，传入的file参数类型
- opener: 可选，可以通过调用*opener*来自定义opener。


In [1]:
#用open()函数打开文件具体代码如下：
##这是windows环境
myfile = open(r".\data\hello.txt",'r') 
#如果是linux环境，打开方式为：myfile = open("./data/hello.txt",'r') 
contents=myfile.read()
print(contents) 
myfile.close()

Python，java
PyTorch，TensorFlow，Keras


### 8.2基本文件操作
	对文件的常用操作包括读取文件，写入文件。读取文件又可以根据文件的大小选择不同的读取方式，如按字节读取、逐行读取、读取整个文件等方式。
####  8.2.1 读取文件  
（1）按字节读取

In [2]:
myfile = open(r'.\data\hello.txt')
token = myfile.read(1)
print(token) #p
token = myfile.read(1)
print(token) #y
token = myfile.read(2)
print(token)  #th
myfile.close()

P
y
th


（2）读取整个文件

In [3]:
myfile = open(r".\data\hello.txt")
token = myfile.read()
print(token)
myfile.close()

Python，java
PyTorch，TensorFlow，Keras


#### 8.2.2读取文件使用with语句  
Python语言为了避免忘记关闭文件，提供了with关键字来自动关闭文件

In [4]:
with open(r'.\data\hello.txt') as myfile:
    print(myfile.read())

Python，java
PyTorch，TensorFlow，Keras


#### 8.2.3 逐行读取文件
使用read()方法要么读取整个文件，要么读取固定字节数，总归不太方便。文本文件都是由多行字符串组成，Python也可以逐行读取文件，使用readline()方法。  
（1）逐行读取文件内容并打印

In [6]:
with open(r".\data\stu.csv") as myfiles:
    for line in myfiles:
        print(line)


no,name,age,gender

01,李康,15,M

02,张平,14,F

03,刘畅,16,M



（2）删除空行  
从上面的打印结果可以看出，行之间多了一个空行。为何出现这种情况？这是因为在文件中，每行的末尾都有一个不可见的换行符(如\n),print语句会加上这个换行符。如何去掉这些空行？只要在print中使用rstrip()或strip()即可：

In [7]:
with open(r".\data\stu.csv") as myfiles:
    for line in myfiles:
        print(line.rstrip())

no,name,age,gender
01,李康,15,M
02,张平,14,F
03,刘畅,16,M


（3）使用readline()可以每次读取一行

In [8]:
with open(r".\data\stu.csv") as myfiles:
    line1=myfiles.readline()
    print(line1.rstrip())
    line2=myfiles.readline()
    print(line2.strip())

no,name,age,gender
01,李康,15,M


#### 8.2.4 读取文件所有内容
使用readline()方法虽然可以一次读一行，比使用read(size)方法一次读一个字节方便了不少，
但每次运行readline()方法后，文件指针会自动指向下一行，仍然要再调用一次readline()方法，  
才能读取下一行内容。还是不方便。  
（1）使用readlines()读取文件所有内容  
Python还提供了readlines()方法一次把文件所有行都读出来，放入到一个列表中


In [10]:
with open(r".\data\stu.csv") as myfiles:
    lists=myfiles.readlines()
    print(type(lists))
    for line in lists:
        print(line.strip())

<class 'list'>
no,name,age,gender
01,李康,15,M
02,张平,14,F
03,刘畅,16,M


下面定义一个类Stu，该类实现利用readlines()函数返回的列表中，并处理每行的每列数据，
并打印出每列属性值。  
（2）定义类Stu

In [11]:
class Stu:
    def __init__(self,no,name,age,gender):
        self.no = no
        self.name = name
        self.age = age
        self.gender = gender

    def debug(self):
        print("学号：{},姓名：{}, 年龄：{},性别:{}".format(self.no,self.name,self.age,self.gender))


（3）处理文件中每列数据

In [12]:
with  open(r".\data\stu.csv") as myfiles:
    for line in myfiles.readlines():
        line = line.strip()
        #不取第一行列名
        if (line[0] != 'n'):
            lst = line.split(',')
            stu = Stu(lst[0],lst[1],lst[2],lst[3])
            stu.debug()


学号：01,姓名：李康, 年龄：15,性别:M
学号：02,姓名：张平, 年龄：14,性别:F
学号：03,姓名：刘畅, 年龄：16,性别:M


#### 8.2.5写入文件
write(str)方法把str字符串写入文件，返回值是str字符串的长度。写文件前要先使用追加或写入模式打开文件。

In [13]:
with open(r'.\data\newfile','a') as myfile:
   myfile.write("hello,Python")

如果要把多行内容写文件，可以每行都调用write方法，Python也提供了writelines(seq)方法一次性写入多行内容。参数seq是一个列表或元祖。

In [14]:
with open(r'.\data\newfile','w') as myfile:
   seq1 = ["第一行\n","第二行\n"]
   seq2 = ("第三行\n","第四行\n")
   myfile.writelines(seq1)
   myfile.writelines(seq2)


#### 8.2.6 中文乱码处理
采用utf-8字符集生成文件，代码如下：

In [15]:
with open(r'.\data\newfile-utf8','w',encoding='utf-8') as myfile:
   seq1 = ["第一行\n","第二行\n"]
   seq2 = ("第三行\n","第四行\n")
   myfile.writelines(seq1)
   myfile.writelines(seq2)

如果用缺省字符集（即GBK）打开文件newfile-utf8将报错：

In [16]:
with open(r".\data\newfile-utf8",'r') as file_utf:
#with open(r".\data\newfile-utf8",'r',encoding='utf-8') as file_utf:
    lists=file_utf.readlines()
    for line in lists:
        print(line.strip())

UnicodeDecodeError: 'gbk' codec can't decode byte 0xac in position 2: illegal multibyte sequence

改用UTF-8方式打开，一切都正常。

In [17]:
#with open(r".\data\newfile-utf8",'r') as file_utf:
with open(r".\data\newfile-utf8",'r',encoding='utf-8') as file_utf:
    lists=file_utf.readlines()
    for line in lists:
        print(line.strip())

第一行
第二行
第三行
第四行


### 8.3 目录操作  
在操作系统中，除了文件之外还有目录。文件目录被当作是一种特殊类型的文件。Python操作目录要比操作文件简单一些。
### 8.3.1 os简介
详细说明，请参考书中对应章节

#### 8.3.2 查看环境变量

#### 8.3.3 判断是否为文件或目录

In [21]:
import os

#获取当前路径
curpath = os.path.abspath(os.path.curdir)
print(curpath)
#判断指定文件是否存在
filepath = ".\data\hello.txt"
os.path.exists(filepath)  #True
#判断是否为路径
os.path.isdir(filepath)  #False
#判断是否为文件
os.path.isfile(filepath)  #True

D:\python-script\py\python-base-al-code\python-ai-08


True

#### 8.3.4 判断是否为文件或目录  
以下代码指定了一个绝对路径，如果该路径不存在，就自动创建

#### 8.3.5 join目录
要把两个路径合成一个时，不要直接拼字符串，而要通过os.path.join()函数，这样可以正确处理不同操作系统的路径分隔符。在Linux/Unix/Mac下，执行以下命令

In [23]:
#windows环境
os.path.join('path1', 'path2')
#如果是linux环境将返回'path1/path2'

'path1\\path2'

### 8.4异常处理  
在Python编程中遇到的错误分为两种。一种是语法错误（Syntax Error），即在程序编写时违反了语法规则，运行时马上就会报错，并且有错误信息；还有一种是程序运行一直正常，突然有一次就挂掉了，而且也报了一堆的出错信息，这种情况多半是由于程序运行所依赖的外部条件变化导致的。这种错误被称作异常（Exception）。
#### 8.4.2 捕获异常  
异常处理有两个关键字：try和except。这两个关键字把程序分成两个代码块。try中放置程序正常运行代码，except中是处理程序出错后的代码。其语句结构如下：

try..except代码执行过程类似于 if...else，但后者仅限于可以预知的错误，而使用except是来捕获隐藏的错误。下面代码演示除数为零的异常。

In [24]:
try:
    num1 = 10
    num2 = 0
    print(num1 / num2)
except:
    print("除法运行错误，请检查数值")


除法运行错误，请检查数值


在进行文件操作时，也会出各种异常情况，同样适用try..except语法格式。以下代码中要打开的文件并不存在，程序捕捉到这种异常后，会进入except模块

In [25]:
try:
  myfile = open("test.txt")
  myfile.read()
  myfile.close()
except:
  print("处理文件出错")


处理文件出错


#### 8.4.3 捕获多种异常  
异常的种类有多种，针对不同类型的异常可以做区别处理。Python中定义的异常类型有很多种，常见的几种类型可参考书中表9-3。  
捕获多种异常的语法格式为：

我们把上一节的两种异常代码合并处理：

In [26]:
def demo():
    
    try:
        num1 = 10
        num2 = 0
        print(num1 / num2)
    except ZeroDivisionError as e:
        print("除法运行错误", e)
    try:
        with open("test.txt") as myfile:
            myfile.read()   
    except FileNotFoundError as e:
        print("处理文件出错", e)

demo()


除法运行错误 division by zero
处理文件出错 [Errno 2] No such file or directory: 'test.txt'


#### 8.4.4 捕获所有异常  
既然有那么多的异常种类，我需要每个都捕获么？那样代码写起来太冗长了。Python的每个常规异常类型被定义成了一个类，这些类都有一个共同的父类，就是Exception类。在不需要区分异常类型的情况下，把所有异常都归入Exception类也是通用的做法。

In [28]:
import sys

try:
    with open('myfile.txt') as files:
        s = files.readline()
except IOError as err:
    print("I/O error: {0}".format(err))
except ValueError:
    print("Could not convert data to an integer.")
except:
    print("Unexpected error:", sys.exc_info()[0])
    raise

I/O error: [Errno 2] No such file or directory: 'myfile.txt'


另外需要注意，如果多个except并列出现，要把Exception基类放在最下面，否则会出现某个异常种类捕捉不到的情况。以下代码是错误的：

In [29]:
def demo():
  try:
    with open("test.txt") as myfile:
        myfile.read()
   
  except Exception as e:
    print("程序运行异常", e)
  except IOError as e:
    print("IO异常", e)

demo()


程序运行异常 [Errno 2] No such file or directory: 'test.txt'


#### 8.4.5 清理操作  
异常处理中还有一个关键字是finally。final是最终的意思，finally代码块放在所有except代码的后面，无论是否执行了异常代码，finally中的代码都会被执行。

In [30]:
try:
    num1 = 10
    num2 = 0
    print(num1 / num2)
except Exception as e:
    print("程序运行异常", e)
finally:
    print("程序运行结束")
#程序运行结果
#程序运行异常 division by zero
#程序运行结束


程序运行异常 division by zero
程序运行结束


finally关键字只能出现一次，里面的代码主要完成清理工作。比如关闭文件、关闭数据库链接、记录运行日志等。如下代码把关闭文件放在finally中

In [31]:
myfile = open(r".\data\stu.csv")
try:
  print(myfile.read(1))
except Exception as e:
  print("程序运行异常", e)
finally:
  myfile.close()


n


#### 8.4.6 try else finally return之间的关系  
如果finally遇到return，finally是必然要执行的。finally中的return语句拥有最高的优先级输出。先看如下代码。

In [32]:
def demo():
  
  try:
    myfile = open(r".\data\stu.csv")
    print(myfile.read(18))
    return 10
  except Exception as e:
    print("程序运行异常", e)
  else:
    print('没有错误')
  finally:
    myfile.close()
    print("文件已关闭")
    return 100


demo()


#程序运行结果
#no,name,age,gender
#文件已关闭
#100


no,name,age,gender
文件已关闭


100