# 复习
- 单元测试
- 代码格式化
- 递归
- 命令行参数

# Quiz

为下面的代码添加命令行参数和异常处理。

```python
# command.py
import math


def is_prime(n):
    for i in range(2, int(math.sqrt(n)) + 1):
        if n % i == 0:
            return False
        i += 1
    return True

if __name__ == "__main__":
    print(is_prime(1007)
```

# 文件
文件读写是程序设计的一项基本任务。

> 文件（file）指的是存储在磁盘上的数据序列，它可以包含任何数据内容。

![file](https://img.freepik.com/premium-vector/color-download-file-format-icons-collection_629597-70.jpg)

## 文件路径

```
├── images
│   ├── append-insert.svg
│   ├── append-insert.tldr
│   ├── call-by-object-ref.excalidraw
│   ├── call-by-object-ref.png
│   ├── python_collection.drawio
│   └── python_collection.svg
├── week2.ipynb
├── week3.ipynb
├── week4.ipynb
└── week6.ipynb
```

- **文件名**，即文件的名称。比如`students.txt`。绝大多数文件都有后缀名（suffix），比如`txt`，`csv`。
- **路径**（path），即文件存储的位置。文件存储在操作系统中的某个文件夹（目录）中。为了唯一定位一个文件，需要使用完整路径（full path）。

> 为了不必要的麻烦，建议文件名和路径全部使用ASCII码，且不要出现空格。

在Linux和macOS中，文件的根路径（root path）是`/`；路径的分隔符（seperator）也是`/`。比如macOS桌面某个文件的完整路径为`/Users/yourname/Desktop/students.txt`。**Linux和macOS的路径和文件名大小写敏感**。

而在Windows中，文件的根路径是某个盘符，比如`c:`、`d:`；路径的分隔符是`\`。比如Windows桌面某个文件的完整路径为`C:\Users\yourname\Desktop\students.txt`。**Windows的路径和文件名大小写不敏感**。

```python
>>> import os
>>> os.sep
```

### 正确处理Windows的路径

**Windows中路径分隔符和Python的转义字符有冲突**。所以，有三种处理方式：

- 手动转义：`'C:\\Users\\yourname\\Desktop\\students.txt'`
- 原始字符串（raw string)：`r'C:\Users\yourname\Desktop\students.txt'`
- 统一使用`/`作为分隔符：`'C:/Users/yourname/Desktop/students.txt'`（**推荐**）

### 绝对路径和相对路径
前面提到的完整路径（如`C:\Users\yourname\Desktop\students.txt`）一般被称为**绝对路径**（absolute path）。为了方便地读写文件，操作系统也支持使用**相对路径**（relative path）。

```
├── images
│   ├── append-insert.svg
│   ├── append-insert.tldr
│   ├── call-by-object-ref.excalidraw
│   ├── call-by-object-ref.png
│   ├── python_collection.drawio
│   └── python_collection.svg
├── week2.ipynb
├── week3.ipynb
├── week4.ipynb
└── week6.ipynb
```

假设在`week2.ipynb`相同文件夹（目录）有个`foo.py`，那么该Python脚本访问`week2.ipynb`文件时也可以使用：

- `week2.ipynb`
- `./week2.ipynb`（其中`.`表示当前工作目录）

在命令行使用`pwd`可以得到当前工作目录（current working directory）的绝对路径，或者常用下面的Python代码：

```python
>>> import os
>>> os.getcwd()
```

思考：该Python脚本访问`images`文件夹中的`append-insert.svg`时的相对路径是什么？

----

再假设`images`文件夹有个`bar.py`，那么该Python脚本访问`week2.ipynb`文件时也可以使用：

- `../week2.ipynb`（其中`..`表示上层目录）

## 读文件
使用内建的`open()`函数读写文件，默认是读文本文件。参考[Reading and Writing Files](https://docs.python.org/3/tutorial/inputoutput.html#reading-and-writing-files)。

```
open(filename, mode, encoding=None)
```

- `filename`：文件的相对或绝对路径
- `mode`：读写模式，默认是`r`（表示*read*）
- `encoding`：文件编码（不区分大小写）。默认使用平台的默认编码，推荐使用`utf-8`。

----

```python
# 查看平台默认编码
>>> import sys
>>> sys.getdefaultencoding()
```

> utf-8是一种针对Unicode的编码，又称万国码，是目前互联网文字编码的事实标准。

```python
>>> ord('A')
>>> ord('西')
```

假设在桌面的`students.txt`文件的内容如下：

```python
Bob 80
Jack 90
Alice 85
```

同在桌面的`read.py`来读取该文件：

```python
# open返回的是file对象
>>> f = open('students.txt', encoding='utf-8')
>>> f.read()
```

### 有开（open）是否需要关（close）
> 当**打开**文件时，操作系统会分配一定资源，为了避免资源泄露，需要手动关闭它。

```python
f = open('students.txt', encoding='utf-8')
# some operations
f.close()
```

Python提供了一种更好的方式解决这个问题：(**推荐**）

```python
with open('students.txt', encoding='utf-8') as f:
    pass
```

这样当操作结束后，会自动关闭文件并释放资源。

### 逐行读取
一般来说，`read()`是很少用的，因为它会读取全部内容，这样容易在读取大文件时会遇到内存不足的问题。

> file对象是可迭代的。

```python
with open('students.txt', encoding='utf-8') as f:
    for line in f:
        print(line)
```

思考：上面打印的结果有什么问题？如何解决？

### 练习
读取`students.txt`，将结果保存在一个字典中。

## 写文件
假设我们要写入`Mary 99`：

```python
with open('students.txt', 'w', encoding='utf-8') as f:
    f.write('Mary 99\n') # 只能写入字符串
```

这里的`mode`是`w`（表示*write*）。

----

思考：测试上面的代码，是否有什么问题？

|  Character |  Meaning |
| ------ | ----- |
| 'r' | open for reading (default) |
| 'w' |  open for writing, truncating the file first |
| 'x' | open for exclusive creation, failing if the file already exists |
| 'a' | open for writing, appending to the end of file if it exists |
| 'b' | binary mode |
| 't' | text mode (default) |
| '+' | open for updating (reading and writing) |

```python
with open('students.txt', 'a', encoding='utf-8') as f:
    f.write('Mary 99\n')
```

## CSV文件
CSV（comma-separated values）文件是一种使用广泛的文件格式，可以在Excel等软件中通过表格的形式展示。

```
name,score
Bob Smith,80
Jack,90
Alice,85
```

尽管我们可以将CSV文件当成普通文件处理，但Python的`csv`模块简化了其读写操作。

> 实践中，我们一般使用[pandas](https://pandas.pydata.org/)来处理CSV等文件。

参考[Reading and Writing CSV Files in Python](https://realpython.com/python-csv/)和[csv](https://docs.python.org/3/library/csv.html)。

> 建议在读写CSV文件的时候将`newline`参数设置为`''`。

### 读CSV

```python
import csv

with open("students.csv", encoding="utf-8", newline="") as f:
    csv_f = csv.DictReader(f)
    for row in csv_f:
        print(row["name"], row["score"])
```

### 写CSV

```python
with open("students.csv", "a", encoding="utf-8", newline='') as f:
    csv_f = csv.DictWriter(f, ["name", "score"])
    csv_f.writerow({"name": "LeBron James", "score": 99})
```

### 练习
如何在写新CSV文件的时候同时写入*header*信息？

```
Name,Age,Email
John Doe,25,johndoe@example.com
Jane Smith,30,janesmith@example.com
Alex Johnson,40,alexjohnson@example.com
```

> 课后自学另外一种常用的文本格式JSON及[json](https://docs.python.org/3/library/json.html)模块。

# 二进制文件

前面都是在读写文本文件，无法读取二进制（binary）文件。

|  Character |  Meaning |
| ------ | ----- |
| 'r' | open for reading (default) |
| 'w' |  open for writing, truncating the file first |
| 'x' | open for exclusive creation, failing if the file already exists |
| 'a' | open for writing, appending to the end of file if it exists |
| 'b' | binary mode |
| 't' | text mode (default) |
| '+' | open for updating (reading and writing) |


`r`模式实际上是`rt`。

## pickle
[pickle](https://docs.python.org/3/library/pickle.html)是用于二进制序列化模块。

> 生成实践中，建议使用Apache Avro、 Apache Parquet等进行二进制序列化。

```python
# 写
import pickle

medals = {'中国': 103, '日本': 21, '韩国': 17, '意大利': 17}
with open('result', 'wb') as f:
    pickle.dump(medals, f)
```

> 读写二进制不需要编码。

-------

```python
# 读
import pickle

with open('result', 'rb') as f:
    medals = pickle.load(f)
print(medals)
```

# 练习

`weather.csv`是某气象站观测的2010年的每日天气数据（具体介绍参考[NORMAL_DLY_documentation.pdf](https://www.ncei.noaa.gov/pub/data/cdo/documentation/NORMAL_DLY_documentation.pdf)）。请根据该文件得到每月最大单日降雨量，记录在字典中，并通过`pickle`持久化到二进制文件中。

```
STATION,STATION_NAME,ELEVATION,LATITUDE,LONGITUDE,DATE,DLY-TMIN-NORMAL,DLY-TMAX-NORMAL,MTD-PRCP-NORMAL
GHCND:USC00327027,PETERSBURG 2 N ND US,466.3,48.0355,-98.01,20100101,-33,145,2
```