### 第五章：文件与 IO
#### 5.1 读写文本数据
你需要读写各种不同编码的文本数据，比如 ASCII，UTF-8 或 UTF-16 编码等。

In [9]:
import sys
print(sys.getdefaultencoding())
with open('passwd', 'r', newline='') as f:
    for line in f:
        print(line)

utf-8
sdfasdf

sd

fas

d

f

w

e

g

x

g

s

dg

s

df

a

sdfas

dg





#### 5.2 打印输出至文件中
你想将 print() 函数的输出重定向到一个文件中去。

In [10]:
with open('test.txt', 'w', encoding='utf-8') as f:
    print('Hello World!', file=f)

#### 5.3 使用其他分隔符或行终止符打印
你想使用 print() 函数输出数据，但是想改变默认的分隔符或者行尾符。

In [12]:
print('ACME', 50, 4456.3434)
print('ACME', 50, 4456.3434, sep=',')
print('ACME', 50, 4456.3434, sep=',', end='!!\n')

ACME 50 4456.3434
ACME,50,4456.3434
ACME,50,4456.3434!!


#### 5.4 读写字节数据
你想读写二进制文件，比如图片，声音文件等等。

In [14]:
with open('test.bin', 'wb') as f:
    text = 'Hello World!'
    f.write(text.encode('utf-8'))

In [21]:
with open('test.bin', 'rb') as f:
    data = f.read()
    print(data.decode('utf-8'))

Hello World!


In [22]:
t = 'Hello World!'
print(t[0])
for c in t:
    print(c)

H
H
e
l
l
o
 
W
o
r
l
d
!


In [23]:
t = b'Hello World!'
print(t)
for c in t:
    print(c)

b'Hello World!'
72
101
108
108
111
32
87
111
114
108
100
33


#### 5.5 文件不存在才能写入
你想向一个文件中写入数据，但是前提必须是这个文件在文件系统上不存在。也就
是不允许覆盖已存在的文件内容。

In [26]:
with open('somefile', 'x') as f:
    f.write('Hello\n')

In [27]:
with open('somefile', 'x') as f:
    f.write('Hello\n')

FileExistsError: [Errno 17] File exists: 'somefile'

#### 5.6 字符串的 I/O 操作
你想使用操作类文件对象的程序来操作文本或二进制字符串。

In [30]:
import io
s = io.StringIO()
s.write('Hello World\n')
print('This is a test', file=s)
print(s.getvalue())

Hello World
This is a test



In [39]:
s = io.StringIO('Hello\nWorld\n')

In [57]:
s.seek(0)
print(s.read(4))

Hell


In [58]:
s = io.BytesIO()
s.write(b'binary data')
print(s.getvalue())

b'binary data'


#### 5.7 读写压缩文件
你想读写一个 gzip 或 bz2 格式的压缩文件。

In [60]:
import gzip
import bz2

In [64]:
with gzip.open('somefile.gz', 'wt') as f:
    f.write('hello world')

In [65]:
with gzip.open('somefile.gz', 'rt') as f:
    print(f.read())

hello world


In [66]:
with open('somefile.gz', 'rb') as f:
    with gzip.open(f, 'rt') as g:
        print(g.read())

hello world


#### 5.8 固定大小记录的文件迭代
你想在一个固定长度记录或者数据块的集合上迭代，而不是在一个文件中一行一
行的迭代。

In [68]:
from functools import partial

#### 5.9 读取二进制数据到可变缓冲区中
你想直接读取二进制数据到一个可变缓冲区中，而不需要做任何的中间复制操作。
或者你想原地修改数据并将它写回到一个文件中去。

In [1]:
import os

def read_into_buffer(filename):
    buf = bytearray(os.path.getsize(filename))
    with open(filename, 'rb') as f:
        f.readinto(buf)
    return buf

In [2]:
with open('sample.bin', 'wb') as f:
    f.write(b'Hello World')

In [3]:
buf = read_into_buffer('sample.bin')
print(buf)

bytearray(b'Hello World')


In [4]:
print(buf[0:5])

bytearray(b'Hello')


In [6]:
m1 = memoryview(buf)
m2 = m1[-5:]
print(m2)

<memory at 0x000001E78AA421C8>


In [7]:
m2[:] = b'WORLD'
print(buf)

bytearray(b'Hello WORLD')


#### 5.10 内存映射的二进制文件
你想内存映射一个二进制文件到一个可变字节数组中，目的可能是为了随机访问
它的内容或者是原地做些修改。

In [8]:
size = 1000000
with open('data', 'wb') as f:
    f.seek(size-1)
    f.write(b'\x00')

In [9]:
import os
import mmap

def memory_map(filename, access=mmap.ACCESS_WRITE):
    size = os.path.getsize(filename)
    fd = os.open(filename, os.O_RDWR)
    return mmap.mmap(fd, size, access=access)

In [13]:
m = memory_map('data')
print(len(m))
print(m[0:10])
print(m[0])
m[0:11] = b'Hello World'
m.close()

1000000
b'\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00'
0


In [14]:
with open('data', 'rb') as f:
    print(f.read(11))

b'Hello World'


#### 5.11 文件路径名的操作
你需要使用路径名来获取文件名，目录名，绝对路径等等。

In [16]:
import os
path = '/Users/beazley/Data/data.csv'

In [19]:
print(os.path.basename(path))
print(os.path.dirname(path))
print(os.path.join('tmp', 'data', os.path.basename(path)))

data.csv
/Users/beazley/Data
tmp\data\data.csv


In [20]:
path = '~/Data/data.csv'

In [22]:
print(os.path.expanduser(path))
print(os.path.splitext(path))

C:\Users\lingfangyuan/Data/data.csv
('~/Data/data', '.csv')


#### 5.12 测试文件是否存在
你想测试一个文件或目录是否存在。

In [24]:
import os
print(os.path.exists('/etc/passwd'))
print(os.path.exists('data'))

False
True


In [31]:
print(os.path.isfile('data'))
print(os.path.isdir('.'))
print(os.path.islink('~'))
print(os.path.realpath('..'))

True
True
False
F:\GitRepository\Learning\jupyter


In [34]:
print(os.path.getsize('data'))
print(os.path.getmtime('data'))
import time
print(time.ctime(os.path.getmtime('data')))

1000000
1577943779.3228784
Thu Jan  2 13:42:59 2020


####  5.13 获取文件夹中的文件列表
你想获取文件系统中某个目录下的所有文件列表。

In [37]:
print(list(os.walk('.')))
print(os.listdir('.'))

[('.', ['.ipynb_checkpoints'], ['data', 'passwd', 'sample.bin', 'somefile', 'somefile.gz', 'test.bin', 'test.txt', 'Untitled.ipynb', '第一~五章.ipynb']), ('.\\.ipynb_checkpoints', [], ['Untitled-checkpoint.ipynb', '第一~五章-checkpoint.ipynb'])]
['.ipynb_checkpoints', 'data', 'passwd', 'sample.bin', 'somefile', 'somefile.gz', 'test.bin', 'test.txt', 'Untitled.ipynb', '第一~五章.ipynb']


#### 5.14 忽略文件名编码
你想使用原始文件名执行文件的 I/O 操作，也就是说文件名并没有经过系统默认
编码去解码或编码过。

In [38]:
import sys
print(sys.getfilesystemencoding())

utf-8


#### 5.15 打印不合法的文件名
#### 5.16 增加或改变已打开文件的编码
你想在不关闭一个已打开的文件前提下增加或改变它的 Unicode 编码。
#### 5.17 将字节写入文本文件
你想在文本模式打开的文件中写入原始的字节数据。
#### 5.18 将文件描述符包装成文件对象
你有一个对应于操作系统上一个已打开的 I/O 通道 (比如文件、管道、套接字等)
的整型文件描述符，你想将它包装成一个更高层的 Python 文件对象。
#### 5.19 创建临时文件和文件夹
你需要在程序执行时创建一个临时文件或目录，并希望使用完之后可以自动销毁
掉。

In [39]:
from tempfile import TemporaryFile

with TemporaryFile('w+t') as f:
    f.write("hello World\n")
    f.write('Testing\n')
    
    f.seek(0)
    data = f.read()

In [40]:
print(data)

hello World
Testing



#### 5.20 与串行端口的数据通信
你想通过串行端口读写数据，典型场景就是和一些硬件设备打交道 (比如一个机器
人或传感器)。
#### 5.21 序列化 Python 对象
你需要将一个 Python 对象序列化为一个字节流，以便将它保存到一个文件、存储
到数据库或者通过网络传输它。

In [41]:
import pickle

In [42]:
data = 'dfsddddddd'
with open('somefile.plk', 'wb') as f:
    pickle.dump(data, f)

### 第六章：数据编码和处理
#### 6.1 读写 CSV 数据

In [1]:
import csv

In [6]:
from collections import namedtuple
with open('stocks.csv', 'r') as f:
    f_csv = csv.reader(f)
    headers = next(f_csv)
    Row = namedtuple('Row', headers)
    print(headers)
    for r in f_csv:
        row = Row(*r)
        print(row.Symbol)

['Symbol', 'Price', 'Date', 'Time', 'Change', 'Volume']
AA
AIG
AXP
BA
C
CAT


In [10]:
with open('stocks.csv', 'r') as f:
    f_csv = csv.DictReader(f)
    for row in f_csv:
        print(row)

OrderedDict([('Symbol', 'AA'), ('Price', '39.48'), ('Date', '6/11/2007'), ('Time', '9:36am'), ('Change', '-0.18'), ('Volume', '181800')])
OrderedDict([('Symbol', 'AIG'), ('Price', '71.38'), ('Date', '6/11/2007'), ('Time', '9:36am'), ('Change', '-0.15'), ('Volume', '195500')])
OrderedDict([('Symbol', 'AXP'), ('Price', '62.58'), ('Date', '6/11/2007'), ('Time', '9:36am'), ('Change', '-0.46'), ('Volume', '935000')])


In [8]:
headers = ['Symbol','Price','Date','Time','Change','Volume']
rows = [('AA', 39.48, '6/11/2007', '9:36am', -0.18, 181800),
('AIG', 71.38, '6/11/2007', '9:36am', -0.15, 195500),
('AXP', 62.58, '6/11/2007', '9:36am', -0.46, 935000),
]

In [9]:
with open('stocks.csv', 'w') as f:
    f_csv = csv.writer(f)
    f_csv.writerow(headers)
    f_csv.writerows(rows)

#### 6.2 读写 JSON 数据
你想读写 JSON(JavaScript Object Notation) 编码格式的数据。

In [11]:
import json

In [12]:
data = {
    'name': 'ACME',
    'shares': 100,
    'price': 542.23
}

In [15]:
json_str = json.dumps(data)
print(type(json_str), json_str)

<class 'str'> {"name": "ACME", "shares": 100, "price": 542.23}


In [17]:
data1 = json.loads(json_str)
print(type(data1), data1)

<class 'dict'> {'name': 'ACME', 'shares': 100, 'price': 542.23}


In [18]:
with open('data.json', 'w') as f:
    json.dump(data, f)

In [19]:
with open('data.json', 'r') as f:
    data2 = json.load(f)
print(type(data2), data2)

<class 'dict'> {'name': 'ACME', 'shares': 100, 'price': 542.23}


#### 6.3 解析简单的 XML 数据
你想从一个简单的 XML 文档中提取数据。

In [124]:
from urllib.request import urlopen
# from xml.etree.ElementTree import parse
from lxml.etree import parse

In [125]:
u = urlopen('http://feed.cnblogs.com/blog/u/269038/rss/')
doc = parse(u)
print(doc)

<lxml.etree._ElementTree object at 0x00000280977B1488>


In [126]:
ns = {'i': 'http://www.w3.org/2005/Atom'}
for item in doc.iterfind('i:entry', namespaces=ns):
    title = item.findtext('i:title', namespaces=ns)
    updated = item.findtext('i:updated', namespaces=ns)
    link = item.findall('i:link', namespaces=ns)[-1].get('href')
    print(title)
    print(updated)
    print(link)
    print()

脚本代码混淆-Python篇-pyminifier（1） - 七夜的故事
2019-09-15T14:32:00Z
http://www.cnblogs.com/qiyeboy/p/11524806.html

Python RASP 工程化:一次入侵的思考 - 七夜的故事
2019-02-10T04:57:00Z
http://www.cnblogs.com/qiyeboy/p/10359081.html

教你学木马攻防 | 隧道木马 | 第一课 - 七夜的故事
2019-02-03T08:40:00Z
http://www.cnblogs.com/qiyeboy/p/10350621.html

一个Python开源项目-哈勃沙箱源码剖析（下） - 七夜的故事
2019-01-13T06:03:00Z
http://www.cnblogs.com/qiyeboy/p/10262441.html

一个Python开源项目-腾讯哈勃沙箱源码剖析(上) - 七夜的故事
2019-01-04T11:40:00Z
http://www.cnblogs.com/qiyeboy/p/10222084.html

golang高性能端口扫描 - 七夜的故事
2018-12-17T12:33:00Z
http://www.cnblogs.com/qiyeboy/p/10133716.html

QQ快速登录协议分析以及风险反思 - 七夜的故事
2018-08-22T02:09:00Z
http://www.cnblogs.com/qiyeboy/p/9496262.html

小知识点--crontab - 七夜的故事
2018-08-12T12:14:00Z
http://www.cnblogs.com/qiyeboy/p/9464262.html

基于HTTPS的中间人攻击-BaseProxy - 七夜的故事
2018-07-11T10:16:00Z
http://www.cnblogs.com/qiyeboy/p/9296038.html

BaseProxy:异步http/https中间人 - 七夜的故事
2018-06-23T02:14:00Z
http://www.cnblogs.com/qiyeboy/p/9216433.html



#### 6.4 增量式解析大型 XML 文件
你想使用尽可能少的内存从一个超大的 XML 文档中提取数据。
#### 6.5 将字典转换为 XML
你想使用一个 Python 字典存储数据，并将它转换成 XML 格式。
#### 6.6 解析和修改 XML
你想读取一个 XML 文档，对它最一些修改，然后将结果写回 XML 文档。
#### 6.8 与关系型数据库的交互
你想在关系型数据库中查询、增加或删除记录。
#### 6.9 编码和解码十六进制数
你想将一个十六进制字符串解码成一个字节字符串或者将一个字节字符串编码成
一个十六进制字符串。

In [3]:
import binascii

In [12]:
s = b'hello'
h = binascii.b2a_hex(s)
print(h)
print(binascii.a2b_hex(h))

b'68656c6c6f'
b'hello'


In [14]:
import base64
h = base64.b16encode(s)
print(h)
print(base64.b16decode(h))

b'68656C6C6F'
b'hello'


#### 6.10 编码解码 Base64 数据
你需要使用 Base64 格式解码或编码二进制数据。

In [15]:
import base64

In [18]:
s = b'hello'
a = base64.b64encode(s)
print(a)
print(base64.b64decode(a))

b'aGVsbG8='
b'hello'


#### 6.11 读写二进制数组数据
你想读写一个二进制数组的结构化数据到 Python 元组中。