- [读取 zip 文件](#读取-zip-文件)
- [读取 Text 文件](#读取-Text-文件)
- [用 Pandas 导入 CSV 文件](#用-Pandas-导入-CSV-文件)
- [读取 Excel 文件](#读取-Excel-文件)
- [从数据库导入](#从数据库导入)
- [JSON 文件处理](#JSON-文件处理)
- [读取 Pickle 文件](#读取-Pickle-文件)
- [Web 抓取](#Web-抓取)
- [用 PIL 读取图像](#用-PIL-读取图像)
- [用 Glob 读取多个文件](#用-Glob-读取多个文件)

### 读取 zip 文件

压缩文件能帮助我们节省空间和时间。ZIP 是种存档文件，支持无损数据压缩。用 Python 打开 ZIP 文件夹先得有 **Zip File** 库。

本文所有文件都已打包进独立 ZIP 文件中，来提取看看吧。

In [5]:
from zipfile import ZipFile

# 压缩文件路径
file = './data/demo data.zip'

# 读取并解压内容
with ZipFile (file, 'r') as zip:
    zip.printdir()
    zip.extractall(path='./data/demo data')

File Name                                             Modified             Size
Employee.txt                                   2020-12-30 21:54:52            0
Liberty Dream.txt                              2020-12-30 21:54:02            0
Products.csv                                   2020-12-30 21:55:02            0
sample_db.db                                   2020-12-30 21:56:32            0
sample_json.json                               2020-12-30 21:55:58            0
sample_pickle.pkl                              2020-12-30 21:56:16            0
test_demo_1.py                                 2020-12-30 21:57:10            0
test_demo_2.py                                 2020-12-30 21:57:48            0
test_img.png                                   2019-07-17 09:28:22       255274
World_city.xlsx                                2020-12-30 21:58:56            0
Xiao Ming/                                     2020-12-30 21:52:28            0
Xiao Ming/1.jpeg                        

执行上面的代码后，可以在同目录下的 `apply/data/demo data` 文件夹中看到相同结构内容

![](https://raw.githubusercontent.com/LibertyDream/diy_img_host/master/img/2020-12-29_release_dic.png)

### 读取 Text 文件

 文本文件算是最常见的文件格式了。Python 用 `open()` 方法读取指定路径的文件，并用参数指定访问方式。读文件模式为 `r`，还有其他访问模式：

- `w` —— 写入文件
- `r+` 或 `w+` —— 读取并写入文件
- `a` —— 追加到既有文本后面
- `a+` —— 读取后再追加

Python 提供了三种方法读取文本文件：

1. `read(n)` – 从文本中读取 n 个字符，不指定数字就读取全部。可以自动识别定界符并分隔句子。
2. `readline(n)` – 从文件中读取 n 个字符，但不超过一行
3. `readlines()` – 读取全部信息，但不同于 `read()`，该方法不会管分隔符，将其一并读入列表

来看看这些方法读文件时的异同吧：

In [9]:
# 读取 text 文件,指定解码格式为 utf-8
with open(r'./data/demo data/Liberty Dream.txt','r',encoding='utf-8') as f:
    print(f.read())

欢迎来到 Python 文件导入教程。我们会关注以下文件类型的处理：
1. Text
2. CSV
3. Excel
4. SQL
5. Web 数据
6. Image
阅读愉快！


`read()` 方法成功以结构化的方式读入了所有数据。

In [11]:
# 读取 text 文件,读取 n 个字节
with open(r'./data/demo data/Liberty Dream.txt','r',encoding='utf-8') as f:
    print(f.read(4))

欢迎来到


给 `read()` 指定一个数后，可以读取定量的字符

In [12]:
# 按行读取 text 文件
with open(r'./data/demo data/Liberty Dream.txt','r',encoding='utf-8') as f:
    print(f.readline())

欢迎来到 Python 文件导入教程。我们会关注以下文件类型的处理：



用了 `readline()`，只读了一行文本进来

In [13]:
# 将 text 文件解析成列表
with open(r'./data/demo data/Liberty Dream.txt','r',encoding='utf-8') as f:
    print(f.readlines())

['欢迎来到 Python 文件导入教程。我们会关注以下文件类型的处理：\n', '1. Text\n', '2. CSV\n', '3. Excel\n', '4. SQL\n', '5. Web 数据\n', '6. Image\n', '阅读愉快！']


这里 `readlines()` 方法将整个文本提取成了列表格式。

### 用 Pandas 导入 CSV 文件

经典的 CSV 格式。CSV（ Comma Separated Value，字符分隔值）文件算是数据科学行业里最常见的文件类型了。这类文件用 `,` 作分隔符分隔数据值，文件中的一行就是一条数据记录。如果用 Notepad 打开，你会看到类似这样的数据格式：

![](https://raw.githubusercontent.com/LibertyDream/diy_img_host/master/img/2020-12-30_csv_file_demo.png)


通过 [Pandas](https://pandas.pydata.org/) 库可以很方便的用 `read_csv()` 方法读取 CSV 文件

In [15]:
import pandas as pd

# 读取文件为 DataFrame
df = pd.read_csv(r'./data/demo data/Products.csv')

df

Unnamed: 0,ID,Product,Price
0,1,Pen,10
1,2,Pencil,5
2,3,Eraser,2
3,4,Notebook,40
4,5,Stapler,60


但数据值里包括逗号的话 CSV 文件就会遇到问题。这可以靠采用不同分隔符解决，比如 `\t` 或 `;` 等：

In [16]:
import pandas as pd

df = pd.read_csv(r'./data/demo data/Employee.txt',delimiter='\t')
df

Unnamed: 0,ID,Name,Job
0,1,Tom,Full Stack
1,2,Jerry,Frontend
2,3,Merry,Backend
3,4,Jack,Data Science


### 读取 Excel 文件

想必你对 Excel 文件不会陌生，谈到表格类数据必定少不了它。Pandas 提供了一个很方便的方法 `read_excel()` 读取 Excel 文件：

In [1]:
import pandas as pd

df = pd.read_excel(r'./data/demo data/World_city.xlsx')

df

Unnamed: 0,ID,City,Country
0,1,Beijing,China
1,2,Tokyo,Japan
2,3,Delhi,India
3,4,Washington,America


但 Excel 文件通常有多个表单，此时可以用 Pandas 的 `ExcelFile()` 方法打印文件内所有表单名称：

In [2]:
# pandas 读取 Excel sheets

xls = pd.ExcelFile(r'./data/demo data/World_city.xlsx')

xls.sheet_names

['Asia', 'Europe', 'Africa']

这样我们就可以通过参数 `sheet_name` 借助 `read_excel()` 方法读取任意表单内的数据了：

In [3]:
# 读取欧洲表单

df = pd.read_excel(r'./data/demo data/World_city.xlsx', sheet_name='Europe')

df

Unnamed: 0,ID,City,Country
0,1,London,Britain
1,2,Pairs,France
2,3,Berlin,Germany
3,4,Moscow,Russia


### 从数据库导入

实际项目中，免不了从项目数据库中提取数据（所以 SQL 还是得学滴）。数据在数据库中是以表格形式存储的，（一般）这些系统又名关系数据库管理系统（RDBMS），访问不同数据库需要不同的 PYthon 模块支持，比如 SQLite 需要 sqlite3，MySQL 需要 mysql-connector。

一般的数据访问步骤为：

1. 用 `connect()` 创建一个数据库连接，需要传入要访问的数据库名。它会返回一个 Connection 对象
2. 用 `cursor()` 创建一个 cursor 对象，通过它实现操作数据的 SQL 指令
3. 调用指针对象的 `execute()` 方法执行 SQL 命令。检索数据会用到 `SELECT` 语句，并将查询存入一个对象
4. 将对象内数据读入 DataFrame 可以通过 `fetchone()` 读入一行，或是 `fetchcall()` 读取所有行

一个好习惯是，即使只是读取数据，也用 `commit()` 方法将你的事务保存/提交。

In [38]:
from getpass import getpass
from mysql.connector import connect, Error

# 连接数据库
try:
     db=connect(
        host="localhost",
        user=input("Enter username: "),
        passwd=getpass("Enter password: "),
        database="nba",
        auth_plugin='mysql_native_password'
    )
except Error as e:
    print(e)
    
# 获取游标
cursor = db.cursor()

# 执行查询操作
cursor.execute("SELECT * FROM player LIMIT 10")

df = pd.DataFrame(cursor.fetchall())

db.commit()

df

Enter username: root
Enter password: ········


Unnamed: 0,0,1,2,3
0,10001,1001,韦恩-艾灵顿,1.93
1,10002,1001,雷吉-杰克逊,1.91
2,10003,1001,安德烈-德拉蒙德,2.11
3,10004,1001,索恩-马克,2.16
4,10005,1001,布鲁斯-布朗,1.96
5,10006,1001,兰斯顿-加洛韦,1.88
6,10007,1001,格伦-罗宾逊三世,1.98
7,10008,1001,伊斯梅尔-史密斯,1.83
8,10009,1001,扎扎-帕楚里亚,2.11
9,10010,1001,乔恩-洛伊尔,2.08


In [40]:
team_id = int(input("team id: "))
height = float(input("height: "))

select_query ="""
SELECT player_id,player_name FROM player
WHERE team_id=%d AND height > %f;
""" % (team_id, height)

cursor.execute(select_query)

df = pd.DataFrame(cursor.fetchall())

db.commit()

df

team id:1001
height:1.95


Unnamed: 0,0,1
0,10003,安德烈-德拉蒙德
1,10004,索恩-马克
2,10005,布鲁斯-布朗
3,10007,格伦-罗宾逊三世
4,10009,扎扎-帕楚里亚
5,10010,乔恩-洛伊尔
6,10011,布雷克-格里芬
7,10012,雷吉-巴洛克
8,10013,卢克-肯纳德
9,10014,斯坦利-约翰逊


In [41]:
# 关闭数据库
cursor.close()
db.close()

### JSON 文件处理

**JSON (JavaScript Object Notation)** 是用于数据存储、交换的轻量可读文件格式。机器很容易解析、生成这些文件。

JSON 中的数据用类似 Python 字典的方式存在 `{}` 中，JSON 是语言独立的，一般文件长这样：

![](https://raw.githubusercontent.com/LibertyDream/diy_img_host/master/img/2020-12-31_json_style.png)

Python 提供了 `json` 模块来读取 JSON 文件，像读文本一样简单。只不过这里的读方法变成了 `json.load()`，其返回一个 JSON 字典。

接着就可以用 `pandas.DataFrame()` 方法将其转换成 Pandas dataframe 格式了。

In [44]:
import json

with open(r'./data/demo data/sample_json.json','r') as file:
    data = json.load(file)
    
print(type(data))

df_json = pd.DataFrame(data)
df_json

<class 'dict'>


Unnamed: 0,firstName,lastName,hobbies,age
0,Jane,Doe,"[running, sky diving, singing]",35
1,Teddy,Dunken,"[reading, singing, swimming]",40


你甚至可以用 `pandas.read_json()` 直接将 JSON 文件读入 dataframe：

In [45]:
path = r'./data/demo data/sample_json.json'
df = pd.read_json(path)
df

Unnamed: 0,firstName,lastName,hobbies,age
0,Jane,Doe,"[running, sky diving, singing]",35
1,Teddy,Dunken,"[reading, singing, swimming]",40


### 读取 Pickle 文件

Pickle 文件常用于存储 Python 序列化对象，也就是说像 list，set，tuple，dict 这些在存入磁盘前先被转换成了字符流。这可以让你之后继续使用对象，当训练完模型想存起来之后预测用时，这就能派上用场了。

所以，如果存储前将文件序列化了，用之前就得先反序列化，这可以通过 `pickle` 模块的 `pickle.load()` 方法实现。在用 `open()` 打开 pickle 文件时候记得得用 `rb` 做参数。

### Web 抓取


### 用 PIL 读取图像

### 用 Glob 读取多个文件

---

作者：Daniel Meng

GitHub: [LibertyDream](https://github.com/LibertyDream)

博客：[明月轩](https://libertydream.github.io/)