# File Operation

## buildin operations ##

### open ###
* syntax
```python
fn = open(file, mode='r', buffering=-1, encoding=None, errors=None,
     newline=None, closefd=True, opener=None)

with open() as fn:
    fn operation block
```
    - [x] file参数指定了被打开的文件名称。
    - [x] mode参数指定了打开文件后的处理方式。
    - [x] buffering参数指定了读写文件的缓存模式。0表示不缓存，1表示缓存，如大于1则表示缓冲区的大小。默认值是缓存模式。
    - [x] encoding参数指定对文本进行编码和解码的方式，只适用于文本模式，可以使用Python支持的任何格式，如GBK、utf8、CP936等等。

> note: 推荐用with. 关键字with 可以自动管理资源，跳出with块，会自动关闭文件。
mode table
|mode | description|
|:----|;-----------|
|r   |读模式（默认模式，可省略），如果文件不存在则抛出异常 |
|w   |写模式，如果文件已存在，先清空原有内容 |
|x   | 写模式，创建新文件，如果文件已存在则抛出异常|
|+   |读、写模式（可与其他模式组合使用） |
|a   |追加模式，不覆盖文件中原有内容 |
|b   |二进制模式（可与其他模式组合使用） |
|t   |文本模式（默认模式，可省略） |

### close ##
* syntax
```
  fn.close()
```
|operation|description|
|:--------|:----------|
|*close()*| |
|*flush()*| |
|* read(\[size\])| |
|*readline()*| |
|*readlines()*| |
|*seek(offset\[,whence\])*|把文件指针移动到新的字节位置，offset表示相对于whence的位置。whence为0表示从文件头开始计算，1表示从当前位置开始计算，2表示从文件尾开始计算，默认为0|
|


In [3]:
# example text reading

f1 = open(r'tmp/test.txt','r',encoding='UTF-8')
print(f1.readline())
print(f1.readline())

f1.close()

with open(r'tmp/test.txt','r',encoding='UTF-8') as f1:
    lines = f1.readlines()
    print(lines[1]) # print line 2 only

This is line 1

第二行

第二行



In [14]:
# example with open, read/write
s = 'Hello world\n文本文件的读取方法\n文本文件的写入方法\n'

with open('sample.txt', 'w') as fp:    #默认使用cp936编码
    fp.write(s)

with open('sample.txt') as fp:         #默认使用cp936编码
    print(fp.read())

with open('sample.txt') as fin, open('sample_out.txt','w+') as fout:
    #while (line=fin.readline()):
    for line in fin: # read each line
        fout.write(line)
        fout.readline()
print("---check sample_out.txt---")
# read sample_out.txt        
with open('sample_out.txt') as fp:         #默认使用cp936编码
    s2=''
    for line in fp:
        s2+=line
    print(s2)


Hello world
文本文件的读取方法
文本文件的写入方法

---check sample_out.txt---
Hello world
文本文件的读取方法
文本文件的写入方法



In [11]:
#example find the longest line

with open('sample.txt') as fp:
    result =[0,'']
    for line in fp:
        t = len(line)
        if t >= result[0]:
            result = [t,line]
print('最长行内容："',result[1][:-1],'",共',result[0],'个字符')

最长行内容：" Hello world ",共 12 个字符


In [6]:
'''
# 假设文件data.txt中有若干整数，
每行一个整数，编写程序读取所有整数，
将其按降序排序后再写入文本文件data_asc.txt中。
'''

with open('data.txt', 'r') as fp:
    data = fp.readlines()                     #读取所有行，存入列表

# method define methodology of sorting the data.
'''
3 methods here:
0: increasing by digi
1: descreasing by digi
2: sorting in one command
'''
method=2

if method <2:
    data = [int(item) for item in data]           #列表推导式，转换为数字
    if method ==1:
        data.sort(reverse=True)                       #降序排序
    elif method ==0:
        data.sort()                       #升序排序
    else:
        print("the method doesn't exist")
    data = [str(item)+'\n' for item in data]      #将结果转换为字符串
elif method ==2:
    data.sort(key=int,reverse=True)             #直接这样更简洁

with open('data_inc.txt', 'w') as fp:        #将结果写入文件
    fp.writelines(data)

with open('data_inc.txt') as fp:
    print(fp.read())

8838
3445
929
884
443
382
1
0
-11
-233



In [35]:
with open('userinfo.txt') as fp:
    username = fp.readline()[:-1]
    pwd = fp.readline()[:-1]
    print(username,pwd)
    
    #if input('请输入用户名：') ==username and \
    #input('请输入密码：') ==pwd:
username0= input('请输入用户名：')
pwd0 =input('请输入密码：')
if username==username0 and pwd ==pwd0:
#if username =='zhangsan' and pwd =='123':
    print("登录成功")
else:
    print('登录失败')
    with open('log.txt','a') as fp2:
        #fp2.writelines(user0+','+pwd0)
        fp2.write(username0+','+pwd0+'\n')
    #else:
    #    print("error in open log.txt")
        
        

zhangsan 123
请输入用户名：fkldsfjl
请输入密码：lkd
登录失败


## 二进制文件操作
* 数据库文件、图像文件、可执行文件、动态链接库文件、音频文件、视频文件、Office文档等均属于二进制文件。
* 对于二进制文件，不能使用记事本或其他文本编辑软件直接进行正常读写，也不能通过Python的文件对象直接读取和理解二进制文件的内容。必须正确理解二进制文件结构和序列化规则，然后设计正确的反序列化规则，才能准确地理解二进制文件内容。
* 所谓序列化，简单地说就是把内存中的数据在不丢失其类型信息的情况下转成二进制形式的过程，对象序列化后的数据经过正确的反序列化过程应该能够准确无误地恢复为原来的对象。
* Python中常用的序列化模块有struct、pickle、shelve、marshal。


### pickle ###
* packle file fomrat
 emelement number, element\[0\],element\[1\],...element\[n-1\]

In [15]:
#例9-5   使用pickle模块写入二进制文件。
import pickle

i = 13000000
a = 99.056
s = '中国人民 123abc'
lst = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
tu = (-5, 10, 8)
coll = {4, 5, 6}
dic = {'a':'apple', 'b':'banana', 'g':'grape', 'o':'orange'}
data = (i, a, s, lst, tu, coll, dic)
with open('sample_pickle.dat', 'wb') as f:
    try:
        pickle.dump(len(data), f)        #要序列化的对象个数
        for item in data:
            pickle.dump(item, f)         #序列化数据并写入文件
    except:
        print('写文件异常')


In [24]:
# 例9-6  使用pickle模块读取上例中二进制文件的内容。

import pickle

with open('sample_pickle.dat', 'rb') as f:
    n = pickle.load(f)                     #读出文件中的数据个数
    for i in range(n):
        x = pickle.load(f)              #读取并反序列化每个数据
        print(x)


13000000
99.056
中国人民 123abc
[[1, 2, 3], [4, 5, 6], [7, 8, 9]]
(-5, 10, 8)
{4, 5, 6}
{'a': 'apple', 'b': 'banana', 'g': 'grape', 'o': 'orange'}


### struct ###


In [37]:
#例9-7   使用struct模块写入二进制文件。

import struct

n = 1300000000
x = 96.45
b = True
s = 'a1@中国'
sn = struct.pack('if?', n, x, b)  #序列化，i表示整数，f表示实数，?表示逻辑值
with open('sample_struct.dat', 'wb') as f:
    f.write(sn)
    f.write(s.encode())           #字符串需要编码为字节串再写入文件


In [38]:
#例9-8  使用struct模块读取上例中二进制文件的内容。

import struct

with open('sample_struct.dat', 'rb') as f:
    sn = f.read(9)
    n, x, b1 = struct.unpack('if?', sn)   #使用指定格式反序列化
    print('n=',n, 'x=',x, 'b1=',b1)
    s = f.read(9).decode()
    print('s=', s)


n= 1300000000 x= 96.44999694824219 b1= True
s= a1@中国


### shelve module ###
Help on module shelve:

NAME
    shelve - Manage shelves of pickled objects.

MODULE REFERENCE
    https://docs.python.org/3.8/library/shelve

> note: shelve file looks like a simple key-value db file.storying dict

In [60]:
import os

os.execl('pydoc.exe',('os'))
#print(os.startfile('pydoc.exe'))

#exec('pydoc.exe shelve')

FileNotFoundError: [Errno 2] No such file or directory

In [63]:
# 使用shelve模块读写二进制文件。

import shelve
zhangsan = {'age':38, 'sex':'Male', 'address':'SDIBT'}
lisi = {'age':40, 'sex':'Male', 'qq':'1234567', 'tel':'7654321'}
with shelve.open('shelve_test.dat') as fp:
    fp['zhangsan'] = zhangsan      # 像操作字典一样把数据写入文件
    fp['lisi'] = lisi
    for i in range(5):
        fp[str(i)] = str(i)*3

with shelve.open('shelve_test.dat') as fp:
    print(fp['zhangsan'])                 #读取并显示文件内容
    print(fp['zhangsan']['age'])
    print(fp['lisi']['qq'])
    print(fp['3'])
    print("---fp.items---")
    for itm in fp.items():
        print(itm)


{'age': 38, 'sex': 'Male', 'address': 'SDIBT'}
38
1234567
333
---fp.items---
('zhangsan', {'age': 38, 'sex': 'Male', 'address': 'SDIBT'})
('lisi', {'age': 40, 'sex': 'Male', 'qq': '1234567', 'tel': '7654321'})
('0', '000')
('1', '111')
('2', '222')
('3', '333')
('4', '444')


### marshal module

detail document please refer to cmd: `pydoc marshal`
dumping variables into marshal file.

Functions: 

   * dump() -- write value to a file
   * load() -- read value from a file
   * dumps() -- marshal value as a bytes object
   * loads() -- read value from a bytes-like object


In [65]:
#例9-10  使用marshal模块读写二进制文件，并对对象进行序列化和反序列化操作。

import marshal                   #导入模块
x1 = 30                           #待序列化的对象
x2 = 5.0
x3 = [1, 2, 3]
x4 = (4, 5, 6)
x5 = {'a':1, 'b':2, 'c':3}
x6 = {7, 8, 9}
x = [eval('x'+str(i)) for i in range(1,7)]  #把所有数据放入列表
print(x)

with open('test.dat', 'wb') as fp: #创建二进制文件
    marshal.dump(len(x), fp)             #先写入对象个数
    for item in x:
        marshal.dump(item,fp)  #把列表中的对象依次序列化并写入文件

with open('test.dat', 'rb') as fp:  #打开二进制文件
    n = marshal.load(fp)              #获取对象个数
    for i in range(n):
        print(marshal.load(fp))    #反序列化，输出结果


[30, 5.0, [1, 2, 3], (4, 5, 6), {'a': 1, 'b': 2, 'c': 3}, {8, 9, 7}]
30
5.0
[1, 2, 3]
(4, 5, 6)
{'a': 1, 'b': 2, 'c': 3}
{8, 9, 7}


### excel file ###
使用扩展库openpyxl读写Excel 2007以及更高版本的文件。部分功能还支持的不是很好，可能图片和图表显示不正常。
detail document please refer to `pydoc openpyxl`
 and [openpyxl Online document](https://openpyxl.readthedocs.io/en/stable/)
 #### Saving as a stream
If you want to save the file to a stream, e.g. when using a web application such as Pyramid, Flask or Django then you can simply provide a NamedTemporaryFile():
```PYTHON
>>> from tempfile import NamedTemporaryFile
>>> from openpyxl import Workbook
>>> wb = Workbook()
>>> with NamedTemporaryFile() as tmp:
        wb.save(tmp.name)
        tmp.seek(0)
        stream = tmp.read()
```
You can specify the attribute template=True, to save a workbook as a template:
```PYTHON
>>> wb = load_workbook('document.xlsx')
>>> wb.template = True
>>> wb.save('document_template.xltx')
```
or set this attribute to False (default), to save as a document:
```PYTHON
>>> wb = load_workbook('document_template.xltx')
>>> wb.template = False
>>> wb.save('document.xlsx', as_template=False)
```

In [68]:
#例9-11   使用扩展库openpyxl读写Excel 2007以及更高版本的文件。

import openpyxl
from openpyxl import Workbook
fn = r'labfile\test.xlsx'                       #文件名
wb = Workbook()                            #创建工作簿
ws = wb.create_sheet(title='你好，世界')    #创建工作表
ws['A1'] = '这是第一个单元格'                #单元格赋值
ws['B1'] = 3.1415926
wb.save(fn)                                 #保存Excel文件
wb = openpyxl.load_workbook(fn)             #打开已有的Excel文件
ws = wb.worksheets[1]                       #打开指定索引的工作表
print(ws['A1'].value)                       #读取并输出指定单元格的值
ws.append([1,2,3,4,5])                      #添加一行数据
ws.merge_cells('F2:F3')                     #合并单元格
ws['F2'] = "=sum(A2:E2)"                    #写入公式
for r in range(10,15):
    for c in range(3,8):
        ws.cell(row=r, column=c, value=r*c) #写入单元格数据
wb.save(fn)


这是第一个单元格


In [81]:
#例9-12   把记事本文件test.txt转换成Excel 2007+文件。假设test.txt文件中第一行为表头，从第二行开始是实际数据，并且表头和数据行中的不同字段信息都是用逗号分隔。
from openpyxl import Workbook
from random import randint

def main(txtFileName):
    new_XlsxFileName = txtFileName[:-3] + 'xlsx'
    wb = Workbook()
    ws = wb.worksheets[0]
    with open(txtFileName) as fp:
        for line in fp:
            line = line.strip().split(',')
            line =[(int(s0) if s0.isnumeric() 
                 else float(s0) if s0.replace('.','',1).isnumeric() 
                    else  s0) for s0 in line]
            ws.append(line)
    wb.save(new_XlsxFileName)

# create test.txt file
line_format ='{0:d},{1:3.3d}\n'
with open(r'labfile\test.txt','w') as fp:
    fp.writelines("year,revenue\n")
    for n in range(10):
        fp.write(line_format.format((2000+n), randint(100,1000)))
    
main(r'labfile\test.txt')


In [94]:
#例9-13  输出Excel文件中单元格中公式计算结果。

import openpyxl

#打开Excel文件
wb = openpyxl.load_workbook(r'labfile/data.xlsx', data_only=True)

#获取WorkSheet
ws = wb.worksheets[1]

#遍历Excel文件所有行，假设下标为2的列中是公式
for row in ws.rows:
    print(row[2].value)
    #print(row)

print(ws['C2'])
print(wb.worksheets[1].cell(3,3).internal_value)


None
-384.5
-241.22222222222217
105.625
-271.28571428571433
-9.5
83.60000000000002
-97.5
172
128
0
<Cell 'Sheet1'.C2>
-241.22222222222217


In [97]:
#example of stream,need extra work to make this work
from tempfile import NamedTemporaryFile
from openpyxl import Workbook

wb = Workbook()
with NamedTemporaryFile() as tmp:
        wb.save(tmp.name)
        tmp.seek(0)
        stream = tmp.read()

PermissionError: [Errno 13] Permission denied: 'C:\\Users\\Zandra\\AppData\\Local\\Temp\\tmp0ouqe0df'

### word file ###

module docx [online document](https://python-docx.readthedocs.io/en/latest/).



In [None]:
# -*- coding: utf-8 -*-
"""
Created on Mon Jan 25 13:45:28 2021

@author: Zandra
"""

from docx import Document
from docx.shared import Inches

document = Document()

document.add_heading('Document Title', 0)

p = document.add_paragraph('A plain paragraph having some ')
p.add_run('bold').bold = True
p.add_run(' and some ')
p.add_run('italic.').italic = True

document.add_heading('Heading, level 1', level=1)
document.add_paragraph('Intense quote', style='Intense Quote')

document.add_paragraph(
    'first item in unordered list', style='List Bullet'
)

document.add_picture('beauty5.jpg', width=Inches(1.25))

records = (
    (3, '101', 'Spam'),
    (7, '422', 'Eggs'),
    (4, '631', 'Spam, spam, eggs, and spam')
)

table = document.add_table(rows=1, cols=3)
hdr_cells = table.rows[0].cells
hdr_cells[0].text = 'Qty'
hdr_cells[1].text = 'Id'
hdr_cells[2].text = 'Desc'

for qty, id, desc in records:
    row_cells = table.add_row().cells
    row_cells[0].text = str(qty)
    row_cells[1].text = id
    row_cells[2].text = desc

document.add_page_break()

document.save('demo.docx')

In [None]:
#示例9-14    检查word文档的连续重复字。在word文档中，经常会由于键盘操作不小心而使得文档中出现连续的重复字，例如“用户的的资料”或“需要需要用户输入”之类的情况。本例使用扩展库python-docx对word文档进行检查并提示类似的重复汉字。

from docx import Document

doc = Document('《Python程序设计开发宝典》.docx')

contents = ''.join((p.text for p in doc.paragraphs))
words = []
for index, ch in enumerate(contents[:-2]):
    if ch==contents[index+1] or ch==contents[index+2]:
        word = contents[index:index+3]
        if word not in words:
            words.append(word)
            print(word)


In [96]:
#例9-16  查找Word文件中所有红色字体和加粗的文字。
from docx import Document
from docx.shared import RGBColor

boldText = []
redText = []
#打开Word文件，遍历所有段落
doc = Document('Test.docx')
for p in doc.paragraphs:
    for r in p.runs:
        #加粗字体
        if r.bold:
            boldText.append(r.text)
        #红色字体
        if r.font.color.rgb == RGBColor(255,0,0):
            redText.append(r.text)

result = {'red text': redText,
           'bold text': boldText,
           'both': set(redText) & set(boldText)}

# 输出结果
for title in result.keys():
    print(title.center(30, '='))
    for text in result[title]:
        print(text)


我的测试文件
测试
1
我是帅哥。
我爱美女
