# Python处理文件

常见的文件可以人为/习惯性的分为以上两种：
* 文本文件：可用文本编辑软件查找
* 二进制文件：不能直接用文本编辑器直接查看内容，需要用专用的软件打开（如word）

## 文件操作

* 打开文件：open。打开文件，并且返回文件操作对象
* 读/写：
    * read：内存读取到内存，并且一次性读取全部内容
    * write：指定内容写入文件
* 关闭文件：close

> read、write、close三个方法都需要文件对象调用。

```python
f = open("file_name", "[r|w|a]", encoding="UTF-8")
test = f.read()
print(test)
f.write("test")
f.close
```

* `r`: 只读，（默认模式）文件指针在开头，文件不存在则报错
* `w`: 只写，文件存在则覆盖，文件不存在则新建
* `a`: 追加，文件之间在文件末尾，文件不存在则新建
* `r+`: 读写，文件指针在开头，文件不存在则报错
* `w+`: 读写，文件存在则覆盖，文件不存在则新建
* `a+`: 读写，文件指针在末尾，文件不存在则新建

## `readline`

`readline` 方法一次性读取一行，执行一次以后，文件指针移动到下行行首，准备再次读取。

```python
f = open("file_name")

while True:
    test = f.readline()

    if not text:
        break

    print(text, end="")  # 读取的一行中已经有换行“\n”，因此此处不需要配置换行。

f.close()
```


## 小文件复制

```ipython

In [1]: f_read = open("read_line.txt")

In [2]: f_copy = open("copy.txt", "w")

In [3]: text = f_read.read()

In [4]: f_copy.write(text)
Out[4]: 18

In [5]: f_read.close()

In [6]: f_copy.close()
```

## 大文件复制

```python
f_read = open("read_line.txt")
f_copy = open("copy.txt", "w")

while True:
    text = f_read.readline()
    
    if not text:
        break
    
    f_copy.write(text)

f_read.close()
f_copy.close()
```

## 文件/目录的常用管理操作

文件操作：
* `os.rename("old_file_name", "new_file_name")`
* `os.remove("file_name")`

目录操作：
* `os.listdir("dir_name")`
* `os.path.isdir("dir_name")`: 判断是否是目录
* `os.mkdir("dir_name")`
* `os.rmdir("dir_name")`
* `os.getcwd("dir_name")`
* `os.chdir("dir_name")`

文本文件编码格式：
* ASCII：一个ASCII占用一个字节的空间，8个0/1排列，共256种
* unicode：常用的utf-8，使用1-6个字节（汉字使用3个字符）表示一个utf-8字符

一般的，
* 默认情况下， python 2.x 使用ascii，可在文件首行使用 `# *-* coding:utf8 *-*`, `# coding=utf8`
* 默认情况下，python 3.x 使用utf-8
* python2中即使定义了utf8，在遍历时，仍然会以字节为单位，可以用 `u"hello"` 形式告诉解释器该字符串是unicode字符串
