---
title: Python-基础-文件目录操作
date: 2017-04-19 16:49:00
mathjax: true
categories: "Python-基础"

---

# 常用文件编码

## ASCII码

- 标准化字符集
- 每个ASCII码以**1个字节、7个二进制位**（第一个二进制位为0）编码储存
- 从0到数字127代表不同的常用符号  
- 例如大写A的ASCII码是65，小写a则是97。

## Unicode

- 跨语言、跨平台进行文本转换和处理
- 对每种语言中字符设定统一且唯一的二进制编码
- 每个字符**两个字节**长
- 65536 个字符的编码空间
- “严”：Unicode的十六进制数为4E25

## UTF-8编码

- **可变长度**（1个字节至4个字节）的Unicode的实现方式
- “严”：十六进制数为E4B8A5

## GBK编码

- 双字节编码

# **文本文件读写**

## 直接读入

In [None]:
file1 = open("input.txt") 
file2 = open("output.txt","w") 

while True: 
    line = file1.readline()
    
    #这里可以进行逻辑处理 
    file2.write(line) 
    if not line: 
        break 
        
#记住文件处理完，关闭是个好习惯 
file1.close() 
file2.close() 

**读写模式：**

打开模式 | 说明
:---:|:---:
r | 只读。如果文件不存在，则输出错误
w | 为只写（如果文件不存在，则自动创建文件）
a | 表示附加到文件末尾
rb | 只读二进制文件。如果文件不存在，则输出错误
wb | 只写二进制文件，如果文件不存在，则自动创建文件。
ab | 附加到二进制文件末尾
r+ |读写

常用模式如:`rb`,`wb`,`r+b`等等。

**读文件有3种方法：**

1. read()
    将文本文件所有行读到一个字符串中
2. readline()
    一行一行的读。
    优点：可以在读行过程中跳过特定行。
3. readlines()
    将文本文件中所有行读到一个list中，文本文件每一行是list的一个元素。 

## 文件迭代器

In [None]:
file2 = open("output.txt","w") 
for line in open("input.txt"): 
      #这里可以进行逻辑处理 
    file2.write(line)

## 上下文管理器

In [None]:
# with.open自带关闭文本的功能
with open('somefile.txt', 'r') as f: 
    data = f.read() 

# loop整个文档
with open('somefile.txt', 'r') as f: 
    for line in f: 
        # 处理每一行

# 写入文本 
with open('somefile.txt', 'w') as f: 
    f.write(text1) 
    f.write(text2) 
    ... 

# 把要打印的line写入文件中 
with open('somefile.txt', 'w') as f: 
    print(line1, file = f) 
    print(line2, file = f)

# **二进制文件读写**

Python默认读取的都是文本文件。要是想要读取二进制文件，需要把刚刚的`r`改成`rb`。

In [None]:
f = open('EDC.jpg', 'rb')
print(f.read())
# 输出 '\xff\xd8\xff\xe1\x00\x18Exif\x00\x00...' # 十六进制表示的字节

简单说就是，任何非标准的文本文件（对于Python 3来说，标准是unicode），你就需要用二进制读入这个文件，然后再用 `.decode('...')`的方法来解码这个二进制文件。

In [None]:
f = open('DegangGuo.txt', 'rb')
# 读入郭德纲老师的作文, 但是郭老师用的是"DeyunCode"的繁体编码
# 那么你读入以后，就需要用它来解码
u = f.read().decode('DeyunCode')

# **文件和目录操作**

在图形界面的操作系统下，这个很简单，就是右键/拖拽等等。
但是在Python的代码内该怎么做呢？

## 基本操作

用Python内置的`os`模块直接调用操作系统提供的接口函数。

In [27]:
import os
# 查看操作系统的名字，如果是`posix`，说明系统是#nix族，如果是`nt`，就是Windows。
os.name
# 在操作系统中定义的环境变量，全部保存在os.environ这个列表中，可以直接查看
os.environ
# 当前工作目录
os.getcwd()

## 操作文件与目录

查看、创建和删除目录。

In [36]:
# 返回当前目录的绝对路径
print os.path.abspath('.')
print os.getcwd()

# 列出当前目录下的所有目录
print [x for x in os.listdir('.') if os.path.isdir(x)]

# 列出所有的py文件
print [y for y in os.listdir('.') if os.path.isfile(y) and os.path.splitext(y)[1]=='.txt']

E:\MyDocuments\Jupyter
E:\MyDocuments\Jupyter
['.ipynb_checkpoints']
['a.txt']


In [35]:
# 创建目录

# 首先把新目录的完整路径表示出来:
myPath = os.path.join('.', 'Pictures')
print myPath
# 这里你得到的是一个字符串，代表了新的文件夹是这个位置：E:\MyDocuments\Jupyter\Pictures
# 自己也可以拼起来，但是怕不同操作系统下的区分符问题，最好是用OS接口

# 使用mkdir创建：
if not os.path.exists(myPath):# 判断目录是否存在
    os.mkdir(myPath)
    
# 删除目录
os.rmdir(myPath)

.\Pictures


同样的道理，要拆分路径时，也不要直接去拆字符串

In [42]:
# 把一个路径拆分为两部分，第二部分总是最后级别的目录或文件名
print (os.path.split('C:/Users/EDC/Pictures/AJiao.jpg'))

# 得到文件扩展名
print (os.path.splitext('C:/Users/EDC/Pictures/AJiao.jpg'))

('C:/Users/EDC/Pictures', 'AJiao.jpg')
('C:/Users/EDC/Pictures/AJiao', '.jpg')


操作文件

In [None]:
# 文件重命名：
os.rename('JAV-001.avi', '学习资料')

# 删除文件
os.remove('学习资料')

尴尬的是。。复制文件并不存在于os里。。(⊙﹏⊙)b
原因是复制这个操作，不是由操作系统提供的系统调用。
我们可以用上面的代码，读入一个文件，再写入一个文件，来达到复制的目的。
当然，Python作为一个`Glue Language`的调性，总有第三方库来帮我们stay lazy：
`Shutil`就是其中一个。基本上可以看做是os的补充。这个库用起来比os爽很多。比较简单易用。
它提供`copyfile()`方法，来复制你的文件。

In [43]:
import shutil  
shutil.copyfile('/path/to/file', '/path/to/other/file')  

# **序列化和反序列化**

什么是序列化？
程序运行的过程中，所有变量都是在内存中操作的，程序一旦执行完毕退出后，变量占有的内存就被操作系统回收了。因此我们需要将某些数据持久化存储到磁盘中，下次运行的时候从磁盘中读取相关数据。
我们将变量从内存中变成可以存储或传输的过程称之为**序列化**，在Python中叫做`pickling`，在其它语言中也称之为 serialization、marshaling、flattening等等，说的都是一个意思。 反之，则为**反序列化**，称之为`unpickling`，把变量内容从序列化的对象重新读取到内存中。

## 使用pickle实现序列化

In [63]:
# Python 2和Python 3里面的pickle不一样。
# Python 2中cPickle和pickle是分开的，而Python 3中两者已经合并了
# 为了保证2，3的和谐，可以用这个方法来保证import正确
try:
    import cPickle as pickle
except ImportError:
    import pickle

# 此处定义一个dict字典对象
d = dict(name='思聪', age=29, score=80)

# 调用pickle的dumps函数进行序列化处理
d2Pkl = pickle.dumps(d)
print (d2Pkl)
# 调用pickle的loads函数进行序列化处理
pkl2D = pickle.loads(d2Pkl)
print (pkl2D)


print ("----------------------------------------------------------------")



# 将内容序列化写入到file文件中
# 定义和创建一个file文件对象，注意设定模式为wb
f = open('dump.pkl', 'wb')
pickle.dump(d, f)
f.close() # 最后关闭掉文件资源

# 从之前序列化的dump.pkl文件里边读取内容
f = open('dump.pkl', 'rb') # 设定文件选项模式为rb
d = pickle.load(f) # 调用load做反序列处理过程
f.close() # 关闭文件资源

print(d)
print('name is %s' % d['name'])

(dp1
S'age'
p2
I29
sS'score'
p3
I80
sS'name'
p4
S'\xe6\x80\x9d\xe8\x81\xaa'
p5
s.
{'age': 29, 'score': 80, 'name': '\xe6\x80\x9d\xe8\x81\xaa'}
-----------------------------------------------------
{'age': 29, 'score': 80, 'name': '\xe6\x80\x9d\xe8\x81\xaa'}
name is 思聪


## 使用JSON实现序列化

Python的数据结构跟Json有非常完美的兼容：

JSON类型|Python类型
:---:|:---:
{}|dict
[]|list
"string"|'str'或者u'unicode'
1234.56|int或float
true/false|True/False
null|None

如果你有一个比较结构化的数据想要序列化，并且想要人也能看得懂。那么你可以用JSON来做。

In [61]:
import json
 
# 定义dict字典对象
d = dict(name='小王', age=20, score=80)

# 调用json的dumps函数进行json序列化处理
d2Json = json.dumps(d)
print d2Json
# 调用json的loads函数进行反序列化处理
json2D = json.loads(d2Json)
print json2D

print ("======================================================")

# 序列化到文件中
f = open('dump.json', 'w') # 设定文件选项模式为w
json.dump(d,f)
f.close
# 从文件中反序列化
f = open('dump.json', 'r')
d = json.load(f)
f.close

print d
print d['name']

{"age": 20, "score": 80, "name": "\u5c0f\u738b"}
{u'age': 20, u'score': 80, u'name': u'\u5c0f\u738b'}
{u'age': 20, u'score': 80, u'name': u'\u5c0f\u738b'}
小王
