# Chp 7 File

* 文件分类：文件文本
  * 文本文件
    * 存储的是常规字符串，由若干文本行组成，通常每行以换行符'\n'结尾。
    * 常规字符串是指记事本或其他文本编辑器能正常显示、编辑并且人类能够直接阅读和理解的字符串，如英文字母、汉字、数字字符串。
  * 文本文件的编辑
    * 可以使用字处理软件如gedit、记事本进行编辑。
  * 常用文本文件工具有notepad++，ultraedit，notepad等。
* 文件分类：二进制文件
  * 二进制文件
    * 包含：数据库文件、图像文件、可执行文件、音视频文件、Office文档等等。
  * 二进制文件的编辑
    * 不能使用记事本或其他文本编辑软件进行正常读写，也无法通过Python的文件对象直接读取和理解二进制文件的内容。
  * 常用的二进制文件工具有ultraedit、ultrahex；notepad++等。
### 7.1 文件对象
* 文件对象是python内置对象之一
  * 是一种资源；
  * 需要打开文件对象；
  * 同时，需要释放文件对象。
* 文件对象的操作遵循特定的流程：三步
  * 打开：使用open()；
  * 操作：读、写、删除等操作；
  * 关闭：使用close()。
* 文件打开详解：
  * 文件对象名 = open（文件名\[，访问模式\[，缓冲区\]\])
    * 文件名
      * 被打开的文件名称；
    * 访问模式
      * 打开文件后的处理方式；
      * 具体取值见右表：红色的标记可与其他组合使用；【r：读，w：写，a：追加，<b style="color: red;">b：二进制模式，+：读写模式</b>】
      * 默认值是‘r’；
    * 缓冲区
      * 读写文件的缓存模式；
      * 0表示不缓存，1表示缓存，大于1则表示缓冲区的大小，小于0则表示使用默认的缓冲区大小；
      * 默认值是缓存模式。
    * 函数返回1个文件对象
      * 利用该对象可以进行各种文件操作；
      * 可以访问文件对象的属性。
* 文件打开典型调用方法
  * 典型调用方式
    * 以读模式打开文件：f = open('a.txt')
    * 以读模式打开二进制文件：f = open('c.dat','rb')
    * 以读写模式打开文件（文件不存在则创建文件，否则置文件指针到文件尾）：f = open('b.csv','a+')
* 文件对象的属性

In [207]:
#filename property.py
import os
def printfp():
    fh = open('sample.txt')
    try:
        print('file name  : %s' % fh.name) # 文件的名称
        print('access mode: %s' % fh.mode) # 文件的访问模式
        print('encoding   : %s' % fh.encoding) # 文件所使用的编码
        print('closed     : %s' % fh.closed) # 若文件关闭则为真，否则为假
    finally:
        fh.close()
#end printfp

if __name__=='__main__':
    printfp()
#end if

file name  : sample.txt
access mode: r
encoding   : UTF-8
closed     : False


* 文件对象的常用操作
  * 读
    * f.read(\[size\])：从文件中读取size个字节，默认读取所有内容
    * f.readline()：从文本文件中读取一行内容
    * f.readlines()：把文本文件中的每行作为字符串插入列表中返回该列表
  * 写
    * f.write(s)：把字符串s的内容写入文件
    * f.writelines(s)：把字符串列表s写入文本文件，不添加换行符
  * 其他操作
    * f.flush()：把缓冲区的内容写入文件，不关闭文件
    * f.close()：把缓冲区的内容写入文件，关闭文件，释放文件对象
    * f.truncated(\[size\])：删除从当前指针位置到文件末尾的内容。如果制定了size，则不论指针在什么位置都只留下size个字节，其余的删除
    * f.seek(offset\[,whence\])：把文件指针移动到新的位置。offset表示相对于whence的位置；whence为0表示从文件头开始计算，1表示从当前位置开始计算，2表示从文件尾开始计算，默认为0

* 文件操作模式

In [None]:
# 模式一
handler = open('sample.txt')
lines = handler.readlines()
handler.close()

print(lines)
# 优缺点：最常见的操作方式：三步；如有例外产生时，程序运行不正常；同时资源不能释放

# 模式二
lines=[]
with open('sample.txt') as handler:
    lines = handler.readlines()

print(lines)
# 优缺点：比较安全的操作方式；可以自动进行资源管理

# 模式三
lines=[]
handler=open('sample.txt')
try:
    lines = handler.readlines()
finally:
    handler.close()

print(lines)
# 优缺点：很好的操作方式；可以保证资源的释放

### 7.2 文本文件操作案例精选

例7-1：向文本文件写入内容。可以仿照模式一和模式二写代码如右侧；注意s1和s2中都有行结束标记

In [211]:
f = open('sample7-1.txt', 'a+') # 不存在则创建文件
f.truncate(0) # 不管指针在什么位置，文档都只留下0个字节，其余的删除
s1 = '1\tfudan\t复旦大学\t中国上海\t200433\n'
s2 = '2\tsjtu\t交通大学\t中国上海\t200240\n'
f.write(s1)
f.write(s2)
f.close()

In [212]:
s1 = '1\tfudan\t复旦大学\t中国上海\t200433\n'
s2 = '2\tsjtu\t交通大学\t中国上海\t200240\n'
with open('sample7-1-2.txt', 'a+') as f: 
    f.write(s1)
    f.write(s2)

In [213]:
s1 = '1\tfudan\t复旦大学\t中国上海\t200433\n'
s2 = '2\tsjtu\t交通大学\t中国上海\t200240\n'
f = open('sample7-1-3.txt', 'a+')
try: 
    f.write(s1)
    f.write(s2)
finally: 
    f.close()

例7-3：读取并显示文本文件所有行
  * print()函数默认输出一个换行符；当使用end参数，可以指定输出的结束字符；
  * 读出的每一行(line)中包含一个换行符；
  * 不做处理的话，将输出一个空行

In [223]:
def fa(fname):
    f = open(fname)
    while True:
        line = f.readline()
        if line == '':
            break
        print(line.strip()) # 去除字符串开头结尾空格、换行符、制表符等空白字符，保证不会在行与行之间输出一个空白行，这里主要消除了换行符
    #end while
    f.close()

fa('sample7-1.txt')

def fb(fname): 
    #lines = []
    with open(fname) as f:
        lines = f.readlines()
        for line in lines:
            print(line,end='') # end=''保证不会在行与行之间输出一个空白行

fb('sample7-1.txt')

1	fudan	复旦大学	中国上海	200433
2	sjtu	交通大学	中国上海	200240
1	fudan	复旦大学	中国上海	200433
2	sjtu	交通大学	中国上海	200240


In [6]:
import re
with open('sample7-1.txt', 'r') as f: 
    id = 0
    for line in f: 
        num = re.findall('[0-9]+', line)
        print(num)
        print(id, line, end='')
        id += 1

['1', '200433']
0 1	fudan	复旦大学	中国上海	200433
['2', '200240']
1 2	sjtu	交通大学	中国上海	200240


例7.5：排序10KI.txt中的整数，并按升序排列写入10KI_asc.txt中

In [135]:
def fa(fname):
    f = open(fname)
    while True:
        line = f.readline()
        if line == '':
            break
    print(line.strip())
    #end while
    f.close()

def sort10ki():
    with open('sample7-5.txt','r') as f:
        data = f.readlines()
    #end with
    data = [int(line.strip()) for line in data]
    data.sort()
    data = [str(i)+'\n' for i in data]
    with open('sample7-5.txt','a+') as f:
        f.truncate(0)
        f.writelines(data)
    #end with

sort10ki()
fa('sample7-5.txt')




例7.6：把T76.py中的代码，在行首加上行号，保存为文件T76_n.py

In [136]:
def comment(fname):
    with open(fname,'r') as f:
        lines = f.readlines()
    #end with
    lines = [ str(idx)+") "+line for idx,line in enumerate(lines)]
  
    with open(fname[:-3]+'_n.py','a+') as f:
        f.truncate(0)
        f.writelines(lines)
    #end with

comment('sample7-6.py')

### 7.4 文件级操作
* 文件级别的操作
  * 文件内容：7.1中的内容
  * 文件路径：os.path
  * 读取文件内容：fileinput
  * 临时文件和文件夹：tempfile
  * Python 3.4以上：pathlib

* 重点：os模块、os.path模块【见Chp 7 ppt p21, 22】

* 示例1：列出当前目录下，所有扩展名为.pyc的文件。

In [137]:
import os
def list_file_ext(ext):
    file_list = [fn for fn in os.listdir(os.getcwd())\
                 if os.path.isfile(fn) and fn.endswith(ext)] # os.getcwd：给出当前路径
    print(file_list)
list_file_ext('.ipynb')

['Chp 3 Selection&Loop.ipynb', 'Chp 4 String.ipynb', 'Chp 5 Function.ipynb', 'Lecture Note.ipynb', 'Chp 2 Sequence.ipynb', 'Chp 1 Basics.ipynb']


In [13]:
import os

def list_file_ext(ext):
    file_list = [fn for fn in os.listdir(os.getcwd()) if os.path.isfile(fn) and fn.endswith(ext)]
    print(file_list)

list_file_ext('.ipynb')

['Lecture Note.ipynb', 'Chp 1.ipynb']


* 示例2：更改当前目录下，所有扩展名为.html的文件为.htm

In [None]:
import os
def rename_extention(old,new):
    file_list = os.listdir('.')
    for filename in file_list:
        pos = filename.rindex('.') # 找'.'，然后返回下标
        if filename[pos+1:] == old :
            newname = filename[:pos+1]+ new
            os.rename(filename,newname)
            print(filename+"更改为:"+newname)

rename_extention('html','htm')

In [143]:
import os
def rename_extention2(old,new):
    file_list = [filename for filename in os.listdir('.') if filename.endswith(old)]
    for filename in file_list:
        newname = filename[:-4] + new
        os.rename(filename,newname)
        print(filename+"更改为:"+newname)


rename_extention2('html','htm')

### 7.5 目录操作：递归遍历
* os和os.path模块中包含目录操作方法
  * 可以通过dir(os)和dir(os.path)查看【见Chp 7 ppt p27】

In [201]:
# 不使用walk方法
def VisitDef(path):
    if not os.path.isdir(path): # 判断是否存在该目录
        print('Error')
        return
    for lists in os.listdir(path): # 列出目录下所有文件的文件名
        sub_path = os.path.join(path, lists) # 合并目录和文件名
        print(sub_path)
        if os.path.isdir(sub_path): # 如果存在子目录，子目录也一并打出，利用了上一级的输出结果
            VisitDef(sub_path) # 递归
VisitDef('/Users/liguanxi/Dropbox/00 大学/大三下/课程（大三下）/Python/Python note')
print()
print()

# 使用os.walk方法
def visitDir2(path):
    if not os.path.isdir(path):
        print('Error:"',path,'" is not a directory or does not exist.')
        return
    list_dirs = os.walk(path)   
    #os.walk返回3个元素的元组：所有路径名、该层路径所有目录列表与该层路径文件列表
    for root, dirs, files in list_dirs:  # 一层一层目录进行访问
    #遍历该元组的目录和文件信息
        print(1)
        for d in dirs: 
            print(os.path.join(root, d))  
            #获取完整路径
        print(2)
        for f in files: 
            print(os.path.join(root, f))  
            #获取文件绝对路径
        print(3)
visitDir2('/Users/liguanxi/Dropbox/00 大学/大三下/课程（大三下）/Python/Python note')

/Users/liguanxi/Dropbox/00 大学/大三下/课程（大三下）/Python/Python note/sample7-1-3.txt
/Users/liguanxi/Dropbox/00 大学/大三下/课程（大三下）/Python/Python note/resume.htm
/Users/liguanxi/Dropbox/00 大学/大三下/课程（大三下）/Python/Python note/sample7-1-2.txt
/Users/liguanxi/Dropbox/00 大学/大三下/课程（大三下）/Python/Python note/.DS_Store
/Users/liguanxi/Dropbox/00 大学/大三下/课程（大三下）/Python/Python note/Chp 3 Selection&Loop.ipynb
/Users/liguanxi/Dropbox/00 大学/大三下/课程（大三下）/Python/Python note/sample7-1.txt
/Users/liguanxi/Dropbox/00 大学/大三下/课程（大三下）/Python/Python note/Chp 4 String.ipynb
/Users/liguanxi/Dropbox/00 大学/大三下/课程（大三下）/Python/Python note/pdf
/Users/liguanxi/Dropbox/00 大学/大三下/课程（大三下）/Python/Python note/pdf/Chp 1 Basics.pdf
/Users/liguanxi/Dropbox/00 大学/大三下/课程（大三下）/Python/Python note/pdf/.DS_Store
/Users/liguanxi/Dropbox/00 大学/大三下/课程（大三下）/Python/Python note/pdf/Chp 2 Sequence.pdf
/Users/liguanxi/Dropbox/00 大学/大三下/课程（大三下）/Python/Python note/pdf/Chp 4 String.pdf
/Users/liguanxi/Dropbox/00 大学/大三下/课程（大三下）/Python/Python note/pdf/Chp 3 S

In [197]:
# os.walk
import os
a = os.walk('/Users/liguanxi/Dropbox/00 大学/大三下/课程（大三下）/Python/Python note')
for i, j, k in a: 
    print(i) # 目录名
    print(1)
    for m in j: 
        print(m) # 目录列表
    print(2)
    for n in k: 
        print(n) # 文件列表
    print(3)

/Users/liguanxi/Dropbox/00 大学/大三下/课程（大三下）/Python/Python note
1
pdf
.ipynb_checkpoints
.vscode
2
sample7-1-3.txt
resume.htm
sample7-1-2.txt
.DS_Store
Chp 3 Selection&Loop.ipynb
sample7-1.txt
Chp 4 String.ipynb
sample7-5.txt
Chp 5 Function.ipynb
Lecture Note.ipynb
sample7-6_n.py
Chp 2 Sequence.ipynb
Chp 1 Basics.ipynb
sample7-6.py
sample.txt
3
/Users/liguanxi/Dropbox/00 大学/大三下/课程（大三下）/Python/Python note/pdf
1
2
Chp 1 Basics.pdf
.DS_Store
Chp 2 Sequence.pdf
Chp 4 String.pdf
Chp 3 Selection&Loop.pdf
3
/Users/liguanxi/Dropbox/00 大学/大三下/课程（大三下）/Python/Python note/.ipynb_checkpoints
1
2
Chp 2-checkpoint.ipynb
Chp 3-checkpoint.ipynb
Chp 5 Function-checkpoint.ipynb
未命名-checkpoint.ipynb
Chp 4 String-checkpoint.ipynb
Lecture Note-checkpoint.ipynb
Chp 1 Basics-checkpoint.ipynb
lec-checkpoint.ipynb
Chp 1-checkpoint.ipynb
3
/Users/liguanxi/Dropbox/00 大学/大三下/课程（大三下）/Python/Python note/.vscode
1
2
tasks.json
3


In [150]:
# 高级话题：计算文本文件中最长行的长度
def getlonglinesize(fname):
    f = open(fname,'r')
    allLineLens = [len(line.strip()) for line in f] # allLineLens = max([len(line.strip()) for line in f])
    f.close
    longest = max(allLineLens)
    return(longest)
getlonglinesize('sample.txt')

44