# 文件管理

## 文件目录管理

### 文件目录操作

In [None]:
import os 
print("当前目录：", os.getcwd())
print("当前目录里有什么：", os.listdir())
os.makedirs("file", exist_ok=True)
print(os.path.exists("file"))

### 文件管理系统

In [None]:
# 创建用户文件夹
if os.path.exists("file/user/user_name"):
    print("user exist")
else:
    os.makedirs("file/user/user_name")
    print("user created")
print(os.listdir("file/user"))

In [None]:
# 删除用户文件夹
if os.path.exists("file/user/user_name"):
    os.removedirs("file/user/user_name")
    print("user removed")
else:
    print("user not exist")

In [None]:
# 文件夹里有文件不为空，就会报错
os.makedirs("file/user/user_name", exist_ok=True)
with open("file/user/user_name/a.txt", "w") as f:
    f.write("nothing")
os.removedirs("file/user/user_name")  # 这里会报错

可以用到另一个库叫做 `shutil`，但是要注意，这个库太强大了，它可以清空整个目录，一定要小心！

In [None]:
import shutil
shutil.rmtree("file/user/user_name")
print(os.listdir("file/user"))

In [None]:
# 改名字
os.makedirs("file/user/user_name", exist_ok=True)
os.rename("file/user/user_name", "file/user/user_namepy")
print(os.listdir("file/user"))

### 文件目录多种检验

In [None]:
# 判断是否是一个文件或者是否是一个文件夹
import os
os.makedirs("file/user/user_name", exist_ok=True)
with open("file/user/user_name/a.txt", "w") as f:
    f.write("nothing")
print(os.path.isfile("file/user/user_name/a.txt")) # True
print(os.path.exists("file/user/user_name/a.txt")) # True
print(os.path.isdir("file/user/user_name/a.txt")) # False
print(os.path.isdir("file/user/user_name"))  # True

In [None]:
# 告诉一个文件目录，想为这个文件创建副本
import os
import shutil

def copy(path):
    filename = os.path.basename(path)   # 文件名
    dir_name = os.path.dirname(path)    # 文件夹名
    new_filename = "new_" + filename    # 新文件名
    new_path = os.path.join(dir_name, new_filename) # 目录重组
    shutil.copy2(path, new_path)   # 复制文件
    return os.path.isfile(new_path), new_path

copied, new_path = copy("file/user/user_name/a.txt")
if copied:
    print("copied to:", new_path)
else:
    print("copy failed")

In [None]:
# 更方便的功能代替拿文件名和文件夹名的工作
def copy(path):
    dir_name, filename = os.path.split(path)
    new_filename = "new2_" + filename    # 新文件名
    new_path = os.path.join(dir_name, new_filename) # 目录重组
    shutil.copy2(path, new_path)   # 复制文件
    return os.path.isfile(new_path), new_path

copied, new_path = copy("file/user/user_name/a.txt")
if copied:
    print("copied to:", new_path)
else:
    print("copy failed")

## 读写文件

### 创建文件

In [23]:
f = open("file/new_file.txt", "w")   # 创建并打开
f.write("some text...")         # 在文件里写东西
f.close()                       # 关闭

把打开和关闭嵌入到了一个 `with` 架构中，再也不用担心忘记关闭文件了。`writelines()`当传入的是列表样的数据时，列表中的每个元素就是一行记录，数据会分行来写。

注意，在列表里，每个元素最后都最好写一个`\n`来表示要另起一行，不然读出来的时候就黏在一起了。

In [24]:
with open("file/new_file.txt", "w") as f:
    f.writelines(["some text for new file...\n", "2nd line\n"])

### 读文件

In [None]:
f = open("file/new_file.txt", "r")
print(f.read())
f.close()

In [None]:
# 读出列表
with open("file/new_file.txt", "r") as f:
    print(f.readlines())

In [None]:
# 一行一行读取，取代一次性读取
with open("file/new_file.txt", "r") as f:
    while True:
        line = f.readline()
        print(line)
        if not line:
            break

### 文件编码，中文乱码

有些文件在 Windows 存储的时候，是以 `gbk` 的格式存储的，下面的 `chinese.txt` 就模拟用 `gbk` 编码保存。注意这里选用的写模式是 `wb`，意思是 `write binary` 形式，取代默认的 text 形式，所以读的时候是 `rb`。运行会给你出一段乱码，因为Python不识别这段编码后的文本。

In [None]:
with open("file/chinese.txt", "wb") as f:
    f.write("这是中文的，this is Chinese".encode("gbk"))

with open("file/chinese.txt", "rb", ) as f:
    print(f.read())
    # print(f.read().decode('gbk'))  # 这种方式可以正确读取

# 下面的代码会报错
with open("file/chinese.txt", "r") as f:
    print(f.read())

In [None]:
with open("file/chinese.txt", "r", encoding="gbk") as f:
    print(f.read())

### 更多读写模式
| mode | 意思  |
| --- | --- |
| w   | （创建）写文本 |
| r   | 读文本，文件不存在会报错 |
| a   | 在文本最后添加 |
| wb  | 写二进制 binary |
| rb  | 读二进制 binary |
| ab  | 添加二进制 |
| w+  | 又可以读又可以（创建）写 |
| r+  | 又可以读又可以写, 文件不存在会报错 |
| a+  | 可读写，在文本最后添加 |
| x   | 创建  |

In [None]:
with open("file/new_file.txt", "r") as f:
    print(f.read())
with open("file/new_file.txt", "r+") as f:
    f.write("text has been replaced")
    f.seek(0)       # 将开始读的位置从写入的最后位置调到开头
    print(f.read())

In [None]:
with open("file/new_file.txt", "a+") as f:
    print(f.read())
    f.write("\nadd new line")
    f.seek(0)       # 将开始读的位置从写入的最后位置调到开头
    print(f.read())

## pickle / json 序列化

什么是序列化呢，就是把像字典，列表这类的数据，打包保存在电脑硬盘中。

### pickle

用 pickle 的时候重要的是，需不需要能看懂被打包的数据，如果没有这个需求，那就可以用 pickle， 后面还会介绍一个叫 json 的打包库，它打出来的包就是能看懂的东西。

In [None]:
import pickle

data = {"filename": "f1.txt", "create_time": "today", "size": 111}
pickle.dumps(data)

In [None]:
# 将字典转换成一个文件
data = {"filename": "f1.txt", "create_time": "today", "size": 111}
with open("file/data.pkl", "wb") as f:
    pickle.dump(data, f)

import os
os.listdir('file')

In [None]:
with open("file/data.pkl", "rb") as f:
    data = pickle.load(f)
print(data)

除了常见的字典，列表，元组，pickle 甚至都可以打包 Python 的功能以及类。比如我有一个文件系统，我定义了一个 `File` 类，而且基于它生成了很多 `file` 实例。 这些实例都是可以被 pickle 的。

注意，在反序列化 unpickle 的时候，这个 `File` 的 class 一定要有，不然反序列化会因为找不到 `File` 类而失败。 

In [None]:
class File:
    def __init__(self, name, create_time, size):
        self.name = name
        self.create_time = create_time
        self.size = size
    
    def change_name(self, new_name):
        self.name = new_name

data = File("f2.txt", "now", 222)
# 存
with open("file/data.pkl", "wb") as f:
    pickle.dump(data, f)
# 读
with open("file/data.pkl", "rb") as f:
    read_data = pickle.load(f)
# unpickle 出来的东西是一个实例
print(read_data.name)
print(read_data.size)

有些类型的对象是不能被序列化的，这些通常是那些依赖外部系统状态的对象，比如打开的文件，网络连接，线程，进程，栈帧等等。 如果在 class 中把上述东西赋值到了 class 的属性上，比如下面的 `self.file = open()`，这样的 class 在 pickle 的时候会报错。

In [None]:
class File:
    def __init__(self, name, create_time, size):
        self.name = name
        self.create_time = create_time
        self.size = size
        self.file = open(name, "w")

data = File("f3.txt", "now", 222)
# pickle 存会报错
with open("file/data.pkl", "wb") as f:
    pickle.dump(data, f)

### json

一般来说，Python 里的字典，列表都可以是 json 数据格式。如果我们用 Python 里的 json 库来读一个 Python 字典， 会处理成什么样呢？会变成一个字符串形式的字典。

In [None]:
import json

data = {"filename": "f1.txt", "create_time": "today", "size": 111}
j = json.dumps(data)
print(j)
print(type(j))

In [None]:
data = {"filename": "f1.txt", "create_time": "today", "size": 111}
with open("file/data.json", "w") as f:
    json.dump(data, f)

print("直接当纯文本读：")
with open("file/data.json", "r") as f:
    print(f.read())

print("用 json 加载了读：")
with open("file/data.json", "r") as f:
    new_data = json.load(f)
print("字典读取：", new_data["filename"])

但是 json 相比 pickle 还是有它不及的点。pickle 可以很轻松的打包 Python 的 class，但是 json 不能序列化保存 class。只能挑出来重要的信息，放到字典或列表里，然后再用 json 打包字典。下面就是一段 json 打包 class 会报错的代码。

In [None]:
class File:
    def __init__(self, name, create_time, size):
        self.name = name
        self.create_time = create_time
        self.size = size
    
    def change_name(self, new_name):
        self.name = new_name

data = File("f4.txt", "now", 222)
# 会报错
with open("file/data.json", "w") as f:
    json.dump(data, f)

### pickle和json的不同

| 对比  | Pickle | Json |
| --- | --- | --- |
| 存储格式 | Python 特定的 Bytes 格式 | 通用 JSON text 格式，可用于常用的网络通讯中 |
| 数据种类 | **类，功能**，字典，列表，元组等 | 基本和 Pickle 一样，但不能存类，功能 |
| 保存后可读性 | 不能直接阅读 | 能直接阅读 |
| 跨语言性 | 只能用在 Python | 可以跨多语言读写 |
| 处理时间 | 长（需编码数据） | 短（不需编码） |
| 安全性 | 不安全（除非你信任数据源） | 相对安全 |