## 文件格式
文件的格式表明了文件中存储的信息的编码方式，如是二进制文件还是文本文件？信息的组织形式是什么？

文件格式一般与文件后缀名（即文件名中”.“点后面的部分，如ReadMe.md, ReadMe.txt中.md和.txt分别是两个文件的后缀名。

### 常见数据文件格式
- Comma-separated values (CSV)
- XLSX
- ZIP
- Plain Text (txt)
- JSON
- XML
- HTML
- Image
- ...

## CSV、JSON以及XML文件格式实例
<img src='./images/csv-json-xml.png'></img>

## 纯文本文档的读写


In [17]:
# 打开一个不存在的文件，并试图读取其中的信息
with open('./data/test.txt', 'w', encoding='utf-8') as f:
    text = f.read()
print(text)

UnsupportedOperation: not readable

## CSV格式文件

CSV是英文Comma Separate Values（逗号分隔值）的缩写。文档的内容是由 “,” 分隔的一列列的数据构成的。

In [26]:
import csv

with open('./data/students.csv') as csv_file:
    csv_reader = csv.reader(csv_file, delimiter=',')
    '''a = list(csv_reader)
    print(a[0])
    print(a[1][1])'''
    line_count = 0
    for row in csv_reader:
        if line_count == 0:
            print(f'列名： {", ".join(row)}')
            line_count += 1
        else:
            print(f'\t{row[1]} 的学号是 {row[0]} 在 {row[2]} 学院, 生日在 {row[3]} 月.')
            line_count += 1
    print(f'已经处理 {line_count} 行.')

列名： 学号, 姓名, 学院, 生日
	张三 的学号是 0001 在 历史 学院, 生日在 11 月.
	李四 的学号是 0002 在 计算机 学院, 生日在 5 月.
	王五 的学号是 0003 在 文学 学院, 生日在 12 月.
	赵六 的学号是 0004 在 哲学 学院, 生日在 4 月.
	王五 的学号是 0003 在 文学 学院, 生日在 12 月.
	赵六 的学号是 0004 在 哲学 学院, 生日在 4 月.
已经处理 7 行.


In [27]:
with open('./data/students.csv', 'a') as student_file:
    student_writer = csv.writer(student_file, delimiter=',', quotechar='"', quoting=csv.QUOTE_MINIMAL)

    student_writer.writerow(['0003', '王五', '文学', '12'])
    student_writer.writerow(['0004', '赵六', '哲学', '4'])

## JSON格式文件
JSON文件是一种重要的数据存储和交换格式
- 文本文件
- 与dict类型关系紧密
- Python有内置的包（json）操作JSON数据

### json操作函数
- json.dumps：将Python对象编码成JSON字符串
- json.loads：将已编码的JSON字符串解码为Python对象

### Python读取JSON数据

#### JSON字串 $\rightarrow$ Dict数据

In [28]:
import json

# JSON字符串
x =  '{ "name":"张三", "age":30, "city":"西安"}'

# 解析JSON字符串
y = json.loads(x)

print(type(y))

# JSON加载之后保存的数据类型是一个Python dictionary
print(f"姓名: {y['name']}")
print(f"年龄: {y['age']}")
print(f"所在城市: {y['city']}")

<class 'dict'>
姓名: 张三
年龄: 30
所在城市: 西安


#### Dict数据 $\rightarrow$ JSON字串

In [15]:
import json

# 字典数据
x = {
  "name": "张三",
  "age": 30,
  "city": "西安"
}

# 转换为JSON
y = json.dumps(x)
print(y)

y = json.dumps(x, ensure_ascii=False) # 为避免乱码加上第二个参数ensure_ascii
print(y)

{"name": "\u5f20\u4e09", "age": 30, "city": "\u897f\u5b89"}
{"name": "张三", "age": 30, "city": "西安"}


In [17]:

data = [ { 'a' : 1, 'b' : 2, 'c' : 3, 'd' : 4, 'e' : 5 } ]

data2 = json.dumps(data)
print(data2)
print(type(data2))

[{"a": 1, "b": 2, "c": 3, "d": 4, "e": 5}]
<class 'str'>


In [18]:
data = [ { 'a' : 1, 'b' : 2, 'c' : 3, 'd' : 4, 'e' : 5 } ]

data2 = json.dumps({'a': 'Runoob', 'b': 7}, sort_keys=True, indent=4, separators=(',', ': '))
print(data2)

{
    "a": "Runoob",
    "b": 7
}


## python 原始类型向 json 类型的转化对照表：
|Python|JSON| 
| ---- | ---- | 
|dict|object|
|list, tuple|array|
|str, unicode|string|
|int, long, float|number|
|True|true|
|False|false|

## 读写JSON 文件


## 将字典数据写入JSON文件保存

In [29]:
# 字典数据
x = {
  "name": "张三",
  "age": 30,
  "city": "西安"
}

# Serializing json 序列化json
json_object = json.dumps(x, indent = 4, ensure_ascii=False)
  
# Writing to sample.json
with open("./data/x.json", "w") as outfile:
    outfile.write(json_object)

##

In [31]:
# Opening JSON file
with open('./data/data2.json', 'r') as openfile:
  
    # Reading from json file
    json_object = json.load(openfile)
  
print(json_object)
print(type(json_object))
print(type(json_object[0]))

[{'a': 1, 'b': 2, 'c': 3, 'd': 4, 'e': 5}, {'a': 3, 'b': 5, 'c': 7, 'd': 8, 'e': 9}]
<class 'list'>
<class 'dict'>


In [29]:
data2 = [ { 'a' : 1, 'b' : 2, 'c' : 3, 'd' : 4, 'e' : 5 }, { 'a' : 3, 'b' : 5, 'c' : 7, 'd' : 8, 'e' : 9 }  ]
# Serializing json 序列化json
json_object = json.dumps(data2, indent = 4, ensure_ascii=False)
  
# Writing to sample.json
with open("./data/data2.json", "w") as outfile:
    outfile.write(json_object)

## 图片文件

## PDF文件
PDF (Portable Document Format) 

In [15]:
from IPython.display import IFrame
IFrame("./data/[康熙]洋縣志八卷-卷一.pdf", width=800, height=800)

In [None]:
!python -m pip install --upgrade pip
!python -m pip install --upgrade pymupdf

Collecting pip
  Downloading https://mirrors.aliyun.com/pypi/packages/27/79/8a850fe3496446ff0d584327ae44e7500daf6764ca1a382d2d02789accf7/pip-20.3.4-py2.py3-none-any.whl (1.5MB)
[K    100% |████████████████████████████████| 1.5MB 10.1MB/s ta 0:00:011
[?25hInstalling collected packages: pip
Successfully installed pip-20.3.4


In [12]:
## 将pdf中的一页转换为图片，并保存到文件夹中
import fitz
from tqdm import tqdm
import cv2
target_dir = './data/pdf-images'
zoom = 2
mat = fitz.Matrix(zoom, zoom)
doc = fitz.open('./data/[康熙]洋縣志八卷-卷一.pdf')
page_count = doc.page_count
print(page_count)
i = 1
page = doc[2]
pix = page.getPixmap(matrix = mat)
pix.save(f"{target_dir}/0003.jpg")


143


In [31]:
import os
os.path.getsize('./data/[康熙]洋縣志八卷-卷一.pdf') 

34370465

## 本周作业
### 作业内容
1. 熟悉json、csv文件的读写操作；
2. 根据上面的pdf中提取页面保存为图片的介绍，将一个pdf文件中的页面转换为图片（jpg或png格式）并保存到目录中
- 编写实现该功能的函数，参数1为pdf文件的位置，参数2为图片存放的路径
    - 定义函数示例： def pdf2images(pdf, img_dir):
    - 调用函数：pdf2images('./data/[康熙]洋縣志八卷-卷一.pdf', './data/pdf-images')
    - 无需返回值
    - 【可选】执行过程中可以输出处理的信息，比如处理完一页，输出相应信息"已经保存了第xx页”
- 图片文件命名方式：第一页为0001.jpg，第二页为0002.jpg，以此类推
- pdf文件位置：'./data/[康熙]洋縣志八卷-卷一.pdf'
- png/jpg文件存放目录：'./data/pdf-images/'
    - 请在代码中创建该目录，无需手动创建该目录
- 将图片文件信息保存在一个csv文件中，生成的csv文件与ipynb文件同目录
    - csv文件表头：文件名,文件大小
    - csv文件内容示例：
            文件名,文件大小
            0001.jpg,322120
            0002.jpg,423156
            
    - python查询文件大小信息可参考，或者自行检索实现
    ```python
    os.path.getsize('./data/pdf-images/0001.jpg') 
    ```
    
### 作业要求
1. 小组共同完成一份ipynb即可
2. ipynb文件与data在同一目录（data目录无需提交，测试机器上有data目录以及pdf文件）
3. 小组为单位提交，提交文件名：小组名-组长-pdf2images.ipynb
4. 提交时间：11月14日20:00
