# 六、 文件和数据格式化

1. 文件的使用：文件打开、读写和关闭。
2. 数据组织的维度：一维数据和二维数据。
3. 一维数据的处理：表示、存储和处理。
4. 二维数据的处理：表示、存储和处理。
5. 采用 `CSV` 格式对一二维数据文件的读写。

## 使用

文件存储形式：其实都是0101
- 文本 按特定编码，以文本方式打开九就有意义
- 二进制形式：图片、视频等 无法用文本方式打开的

### 打开

`<变量名> = open(<文件名>, <打开模式>)`
- 完整的文件名：相对or绝对路径
- 打开：
    - t(ext) or b(yte)
    - 读 or 写
        - 读：r(ead)
        - 写：w(rite) or a(ppend) or x(exclusive创建写 存在文件则报错)
        - +(read and write) 配合读写使用

注意编码：
- 现在Windows默认创建文件编码为UTF-8
- 而Python在简体中文下默认使用GBK编码
- `encoding="utf-8"`

### 关闭

- `<变量名>.close()`
- 自动：`with open() as <变量名>:`

In [1]:
file = open("assets/countries.txt", "r", encoding="utf-8") # 开
file.close() # 关

## 读

- `<f>.read(size=-1)` 读入全部内容，如果给出参数，读入前size长度
- `<f>.readline(size=-1)` 读入一行内容，如果给出参数，读入该行前size长度
- `<f>.readlines(hint=-1)` 读入文件所有行，以每行为元素形成列表；如果给出参数，读入前hint行

逐行操作
- 一次读入，分行处理：`for line in file.readlines():`
- 分行读入，逐行处理：`for line in file:`


In [2]:
with open("assets/countries.txt", "r", encoding="utf-8") as file:
    print(file.read()) # 读到指定的索引，默认-1

中国
日本
韩国


In [3]:
with open("assets/countries.txt", "r", encoding="utf-8") as file:
    print(file.readline()) # 注意这里读了换行符 \n

中国



In [4]:
with open("assets/countries.txt", "r", encoding="utf-8") as file:
    print(file.readlines())

['中国\n', '日本\n', '韩国']


## 写

- `<f>.write(s)` 向文件写入一个字符串或字节流
- `<f>.writelines(lines)` 将一个元素全为字符串的列表写入文件

In [5]:
import os
if not os.path.exists("output"):
    os.mkdir("output")

In [6]:
with open("output/test_write.txt", "w", encoding="utf-8") as file:
    file.write("中国")
    file.writelines(("日本", "韩国"))

### file.seek()

改变当前文件操作指针的位置，offset含义如下：
- 0 – 文件开头；
- 1 – 当前位置；
- 2 – 文件结尾

读写操作都有

In [7]:
with open("assets/countries.txt", "r", encoding="utf-8") as file:
    print(file.read(3))
    print(file.read(3))
    file.seek(0) # 回到开头
    print(file.read(3))

中国

日本

中国



In [8]:
with open("output/seek_test.txt", "w", encoding="utf-8") as file:
    file.write("你很不错。")
    file.seek(0) # 回到开头
    file.write("我")

# 文件内容：我很不错。

## 一维数据

线性的，有序也可无序
- `['中国', '美国', '日本', '德国', '法国', '英国', '意大利']`
- `{'日本', '中国', '美国', '意大利', '法国', '德国', '英国'}`

list or set

- 存储：使用 空格 或 "," 分隔，也可用其他字符
- 处理：`split()` `join()`

In [9]:
with open("assets/one_dimensional_data.txt", "r", encoding="utf-8") as f:
    countries = f.read().split('$')
    print(countries)

['中国', '美国', '日本', '德国', '法国', '英国', '意大利']


In [10]:
countries = ["中国", "美国", "日本", "德国"]

with open("output/1d_test.txt", "w", encoding="utf-8") as f:
    f.write(" ".join(countries))

## 二维数据

两个维度：如表格

CSV: Comma-Separated Values
- 国际通用的一二维数据存储格式，一般.csv扩展名
- 每行一个一维数据，采用逗号分隔，无空行
- Excel和一般编辑软件都可以读入或另存为csv文件

```
城市,环比,同比,定基
北京,101.5,120.7,121.4
上海,101.2,127.3,127.8
广州,101.3,119.4,120.0
深圳,102.0,140.0,145.5
沈阳,100.0,101.4,101.6
```

- 如果某个元素缺失，逗号仍要保留
- 二维数据的表头可以作为数据存储，也可以另行存储
- 逗号为英文半角逗号，逗号与数据之间无额外空格

存取习惯
- 一般按行存
- 一般索引习惯：`ls[row][column]`，先行后列
- 根据一般习惯，外层列表每个元素是一行，按行存


### 自定义方法读

In [11]:
table = []

with open("assets/bidimensional_data.csv", encoding="utf-8") as f:
    for line in f:
        line = line.replace("\n","")
        table.append(line.split(",")) 

print(table)

[['城市', '环比', '同比', '定基'], ['北京', '101.5', '120.7', '121.4'], ['上海', '101.2', '127.3', '127.8'], ['广州', '101.3', '119.4', '120.0'], ['深圳', '102.0', '140.0', '145.5'], ['沈阳', '100.0', '101.4', '101.6']]


In [12]:
print(table[1][0])

北京


### 自定义方法写

In [13]:
with open("output/2d_test.txt", "w", encoding="utf-8") as f:
    for row in table:
        f.write(','.join(row) + '\n')

### Python 有 CSV 库 （了解）

- `csv.reader()` 传入文本迭代器，返回每行列表的迭代器
- `csv.DictReader()` 传入文本迭代器，返回字典从读取器
    - 文件的第一行为Key，其他行为该行的Value
    - reader.fieldnames 返回第一行的Key list
- 

In [14]:
import csv

In [15]:
with open("assets/bidimensional_data.csv", encoding="utf-8") as f:
    # for row in csv.reader(f): 
    #     print(type(row), end='\t')
    #     print(row)
    for row in csv.DictReader(f):
        print(row)
    

{'城市': '北京', '环比': '101.5', '同比': '120.7', '定基': '121.4'}
{'城市': '上海', '环比': '101.2', '同比': '127.3', '定基': '127.8'}
{'城市': '广州', '环比': '101.3', '同比': '119.4', '定基': '120.0'}
{'城市': '深圳', '环比': '102.0', '同比': '140.0', '定基': '145.5'}
{'城市': '沈阳', '环比': '100.0', '同比': '101.4', '定基': '101.6'}


In [16]:
with open("assets/bidimensional_data.csv", encoding="utf-8") as in_csv, open("output/csv_test.txt", "w", encoding="utf-8") as out_csv:
    reader = csv.DictReader(in_csv)
    fieldnames = reader.fieldnames
    table = []
    for row in reader:
        table.append(row)
    writer = csv.DictWriter(out_csv, fieldnames)
    writer.writeheader()
    writer.writerows(table)
