# pandas 进阶修炼 ｜早起 Python

<br>

**本习题由公众号【早起 Python & 可视化图鉴】 原创，转载及其他形式合作请与我们联系（微信号`sshs321`)，未经授权严禁搬运及二次创作，侵权必究！**

本习题基于 `pandas` 版本 `1.1.3`，所有内容应当在 `Jupyter Notebook` 中执行以获得最佳效果。

不同版本之间写法可能会有少许不同，如若碰到此情况，你应该学会如何自行检索解决。


# 1 - 数据加载与存储


是的，常常被忽略的「<font color=#E36C07>**数据加载与存储**</font>」也大有门道且值得作为本套习题的开门之章。

在一次数据分析的过程中，你可能只会读取或存储一两次数据集。

**但若能灵活掌握各项设置，在读取阶段就将数据筛选、匹配、格式指定等操作完成，有时会为我们节省大量时间。**

在本节习题中，我将 pandas 数据分析中常见的数据读取与存储操作进行整理。

<font color=#E36C07>**既可以用于巩固、学习各种操作，也可以作为速查手册使用**</font>。


## 初始化

<br>

该 `Notebook` 版本为**纯习题版**

如果需要答案或者提示，可以微信搜索公众号「早起 Python」获取！


## 1-1 数据读取


### 1 读取 Excel 文件

<br>

- 读取当前目录下 `某招聘网站数据.csv` 文件

- 读取当前目录下 `TOP250.xlsx` 文件

**注意**：使用 `pandas` 读取 `CSV` 与 读取 `xlsx` 格式的 `Excel` 文件方法大致相同

因此接下来与 `Excel` 相关的操作均以 `CSV` 格式进行出题。


In [1]:
import pandas as pd

data = pd.read_csv("某招聘网站数据.csv")
data = pd.read_excel("TOP250.xlsx")

### 2 读取 Excel 文件｜指定位置

在大多数情况下，我们会将 `notebook` 和数据源文件放在同一个目录（文件夹下），这样直接使用`pd.read_xxx("文件名")`即可成功读取。

但有时需要读取的文件和 `notebook` 不在同一个目录下，这时可以使用绝对路径或者相对本 `notebook` 的路径。

现在请读取本套习题中第二章节下的数据，即 `2 - 个性化显示设置/data.csv`


In [2]:
pd.read_csv("../2 - 个性化显示设置/data.csv")

Unnamed: 0,positionId,positionName,companyId,companySize,industryField,financeStage,companyLabelList,firstType,secondType,thirdType,...,plus,pcShow,appShow,deliver,gradeDescription,promotionScoreExplain,isHotHire,count,aggregatePositionIds,famousCompany
0,6802721,数据分析,475770,50-150人,"移动互联网,电商",A轮,"['绩效奖金', '带薪年假', '定期体检', '弹性工作']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,[],False
1,5204912,数据建模,50735,150-500人,电商,B轮,"['年终奖金', '做五休二', '六险一金', '子女福利']",开发|测试|运维类,数据开发,建模,...,,0,0,0,,,0,0,[],False
2,6877668,数据分析,100125,2000人以上,"移动互联网,企业服务",上市公司,"['节日礼物', '年底双薪', '股票期权', '带薪年假']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,[],False
3,6496141,数据分析,26564,500-2000人,电商,D轮及以上,"['生日趴', '每月腐败基金', '每月补贴', '年度旅游']",开发|测试|运维类,数据开发,数据分析,...,,0,0,0,,,0,0,[],True
4,6467417,数据分析,29211,2000人以上,物流丨运输,上市公司,"['技能培训', '免费班车', '专项奖金', '岗位晋升']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,[],True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
100,6884346,数据分析师,21236,500-2000人,"移动互联网,医疗丨健康",C轮,"['技能培训', '年底双薪', '节日礼物', '绩效奖金']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,[],False
101,6849100,商业数据分析,72076,500-2000人,"移动互联网,电商",C轮,"['节日礼物', '股票期权', '带薪年假', '年度旅游']",市场|商务类,市场|营销,商业数据分析,...,,0,0,0,,,0,0,[],False
102,6803432,奔驰·耀出行-BI数据分析专家,751158,150-500人,移动互联网,不需要融资,[],开发|测试|运维类,数据开发,数据分析,...,,0,0,0,,,0,0,[],False
103,6704835,BI数据分析师,52840,2000人以上,电商,上市公司,"['技能培训', '年底双薪', '节日礼物', '绩效奖金']",开发|测试|运维类,数据开发,数据分析,...,,0,0,0,,,0,0,[],True


### 3 读取 Excel 文件｜指定行（顺序）

<br>

读取当前目录下 `某招聘网站数据.csv` 文件的 <font color = '#5F5FFC'>前 20 行</font>


In [4]:
pd.read_csv("./某招聘网站数据.csv").head(20)

Unnamed: 0,positionId,positionName,companyId,companySize,industryField,financeStage,companyLabelList,firstType,secondType,thirdType,...,plus,pcShow,appShow,deliver,gradeDescription,promotionScoreExplain,isHotHire,count,aggregatePositionIds,famousCompany
0,6802721,数据分析,475770,50-150人,"移动互联网,电商",A轮,"['绩效奖金', '带薪年假', '定期体检', '弹性工作']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,[],False
1,5204912,数据建模,50735,150-500人,电商,B轮,"['年终奖金', '做五休二', '六险一金', '子女福利']",开发|测试|运维类,数据开发,建模,...,,0,0,0,,,0,0,[],False
2,6877668,数据分析,100125,2000人以上,"移动互联网,企业服务",上市公司,"['节日礼物', '年底双薪', '股票期权', '带薪年假']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,[],False
3,6496141,数据分析,26564,500-2000人,电商,D轮及以上,"['生日趴', '每月腐败基金', '每月补贴', '年度旅游']",开发|测试|运维类,数据开发,数据分析,...,,0,0,0,,,0,0,[],True
4,6467417,数据分析,29211,2000人以上,物流丨运输,上市公司,"['技能培训', '免费班车', '专项奖金', '岗位晋升']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,[],True
5,6882347,数据分析,94826,50-150人,"移动互联网,社交",B轮,"['股票期权', '扁平管理', '五险一金', '岗位晋升']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,[],False
6,6841659,数据分析,348784,50-150人,"移动互联网,电商",A轮,"['大牛团队', '扁平管理', '年底双薪', '股票期权']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,[],False
7,6764018,数据建模工程师,13163,500-2000人,移动互联网,上市公司,"['绩效奖金', '股票期权', '年底双薪', '专项奖金']",开发|测试|运维类,数据开发,建模,...,,0,0,0,,,0,0,[],True
8,6458372,数据分析专家,34132,150-500人,"数据服务,广告营销",A轮,"['开放式办公', '扁平管理', '带薪假期', '弹性工作时间']",产品|需求|项目类,数据分析,其他数据分析,...,,0,0,0,,,0,0,[],False
9,6786904,数据分析师,13163,500-2000人,移动互联网,上市公司,"['绩效奖金', '股票期权', '年底双薪', '专项奖金']",开发|测试|运维类,数据开发,BI工程师,...,,0,0,0,,,0,0,[],True


### 4 读取 Excel 文件｜指定行（跳过）

<br>

读取当前目录下 `某招聘网站数据.csv` 文件并<font color = '#5F5FFC'>跳过前 20 行</font>


In [14]:
pd.read_csv("./某招聘网站数据.csv", skiprows=20)

Unnamed: 0,6702852,数据分析专家（游戏业务）,593,2000人以上,"移动互联网,游戏",不需要融资,"['五险一金', '交通补助', '绩效奖金', '节日礼物']",开发|测试|运维类,数据开发,数据分析,...,Unnamed: 42,0.3,0.4,0.5,Unnamed: 46,Unnamed: 47,0.6,0.7,[],TRUE
0,6829277,资深数据分析师,593,2000人以上,"移动互联网,游戏",不需要融资,"['五险一金', '交通补助', '绩效奖金', '节日礼物']",产品|需求|项目类,高端产品职位,数据分析专家,...,,0,0,0,,,0,0,[],True
1,6267370,数据分析专家,31544,150-500人,数据服务,不需要融资,"['专业红娘牵线', '节日礼物', '技能培训', '岗位晋升']",开发|测试|运维类,数据开发,数据分析,...,,0,0,0,,,0,0,[],False
2,5927901,数据分析经理,62,2000人以上,文娱丨内容,C轮,"['扁平管理', '弹性工作', '大厨定制三餐', '就近租房补贴']",产品|需求|项目类,产品经理,其他产品经理,...,,0,0,0,,,0,0,[],True
3,6862245,数据分析专家,473950,50-150人,移动互联网,未融资,[],产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,[],False
4,5604926,数据分析师,143884,50-150人,"移动互联网,金融",A轮,"['股票期权', '带薪年假', '绩效奖金', '年底双薪']",开发|测试|运维类,数据开发,数据分析,...,,0,0,0,,,0,0,[],False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
80,6884346,数据分析师,21236,500-2000人,"移动互联网,医疗丨健康",C轮,"['技能培训', '年底双薪', '节日礼物', '绩效奖金']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,[],False
81,6849100,商业数据分析,72076,500-2000人,"移动互联网,电商",C轮,"['节日礼物', '股票期权', '带薪年假', '年度旅游']",市场|商务类,市场|营销,商业数据分析,...,,0,0,0,,,0,0,[],False
82,6803432,奔驰·耀出行-BI数据分析专家,751158,150-500人,移动互联网,不需要融资,[],开发|测试|运维类,数据开发,数据分析,...,,0,0,0,,,0,0,[],False
83,6704835,BI数据分析师,52840,2000人以上,电商,上市公司,"['技能培训', '年底双薪', '节日礼物', '绩效奖金']",开发|测试|运维类,数据开发,数据分析,...,,0,0,0,,,0,0,[],True


### 5 读取 Excel 文件｜指定行（条件）

<br>

读取当前目录下 `某招聘网站数据.csv` 文件中全部<font color = '#5F5FFC'>偶数行</font>

思考：如果是读取全部奇数行，或者更多满足指定条件的行呢？


In [15]:
pd.read_csv("./某招聘网站数据.csv", skiprows=lambda x: x % 2 != 0)

Unnamed: 0,positionId,positionName,companyId,companySize,industryField,financeStage,companyLabelList,firstType,secondType,thirdType,...,plus,pcShow,appShow,deliver,gradeDescription,promotionScoreExplain,isHotHire,count,aggregatePositionIds,famousCompany
0,5204912,数据建模,50735,150-500人,电商,B轮,"['年终奖金', '做五休二', '六险一金', '子女福利']",开发|测试|运维类,数据开发,建模,...,,0,0,0,,,0,0,[],False
1,6496141,数据分析,26564,500-2000人,电商,D轮及以上,"['生日趴', '每月腐败基金', '每月补贴', '年度旅游']",开发|测试|运维类,数据开发,数据分析,...,,0,0,0,,,0,0,[],True
2,6882347,数据分析,94826,50-150人,"移动互联网,社交",B轮,"['股票期权', '扁平管理', '五险一金', '岗位晋升']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,[],False
3,6764018,数据建模工程师,13163,500-2000人,移动互联网,上市公司,"['绩效奖金', '股票期权', '年底双薪', '专项奖金']",开发|测试|运维类,数据开发,建模,...,,0,0,0,,,0,0,[],True
4,6786904,数据分析师,13163,500-2000人,移动互联网,上市公司,"['绩效奖金', '股票期权', '年底双薪', '专项奖金']",开发|测试|运维类,数据开发,BI工程师,...,,0,0,0,,,0,0,[],True
5,6847013,大数据分析工程师(J11108),55046,2000人以上,"移动互联网,企业服务",上市公司,"['技能培训', '年底双薪', '带薪年假', '岗位晋升']",开发|测试|运维类,数据开发,数据分析,...,,0,0,0,,,0,0,[],False
6,6804489,资深数据分析师,34132,150-500人,"数据服务,广告营销",A轮,"['开放式办公', '扁平管理', '带薪假期', '弹性工作时间']",开发|测试|运维类,数据开发,数据分析,...,,0,0,0,,,0,0,[],False
7,6882983,产品运营（偏数据分析）,7461,2000人以上,企业服务,上市公司,"['工程师氛围', '弹性工作', '扁平管理', '上班不打卡']",运营|编辑|客服类,运营,数据运营,...,,0,0,0,,,0,0,[],True
8,5519962,大数据建模总监,50735,150-500人,电商,B轮,"['年终奖金', '做五休二', '六险一金', '子女福利']",开发|测试|运维类,数据开发,建模,...,,0,0,0,,,0,0,[],False
9,6702852,数据分析专家（游戏业务）,593,2000人以上,"移动互联网,游戏",不需要融资,"['五险一金', '交通补助', '绩效奖金', '节日礼物']",开发|测试|运维类,数据开发,数据分析,...,,0,0,0,,,0,0,[],True


### 6 读取 Excel 文件｜指定列（列号）

<br>

**根据指定列号读取**

读取当前目录下 `某招聘网站数据.csv` 文件的第 `1、3、5` 列


In [16]:
df = pd.read_csv("./某招聘网站数据.csv")

# 1,3,5索引
df.iloc[[0, 2, 4]]

Unnamed: 0,positionId,positionName,companyId,companySize,industryField,financeStage,companyLabelList,firstType,secondType,thirdType,...,plus,pcShow,appShow,deliver,gradeDescription,promotionScoreExplain,isHotHire,count,aggregatePositionIds,famousCompany
0,6802721,数据分析,475770,50-150人,"移动互联网,电商",A轮,"['绩效奖金', '带薪年假', '定期体检', '弹性工作']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,[],False
2,6877668,数据分析,100125,2000人以上,"移动互联网,企业服务",上市公司,"['节日礼物', '年底双薪', '股票期权', '带薪年假']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,[],False
4,6467417,数据分析,29211,2000人以上,物流丨运输,上市公司,"['技能培训', '免费班车', '专项奖金', '岗位晋升']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,[],True


### 7 读取 Excel 文件｜指定列（列名）

<br>

**根据指定列名读取**

读取当前目录下 `某招聘网站数据.csv` 文件的 `positionId、positionName、salary` 列


In [18]:
df = pd.read_csv(
    "./某招聘网站数据.csv", usecols=["positionId", "positionName", "salary"]
)
df

Unnamed: 0,positionId,positionName,salary
0,6802721,数据分析,37500
1,5204912,数据建模,15000
2,6877668,数据分析,3500
3,6496141,数据分析,45000
4,6467417,数据分析,30000
...,...,...,...
100,6884346,数据分析师,25000
101,6849100,商业数据分析,35000
102,6803432,奔驰·耀出行-BI数据分析专家,30000
103,6704835,BI数据分析师,20000


### 8 读取 Excel 文件｜指定列（匹配）

<br>

**根据指定列名匹配读取**

让我们来个更难一点的，还是读取 `某招聘网站数据.csv` 文件，但现在有一个 list 中包含多个字段 👇

`usecols = ['positionId','test','positionName', 'test1','salary']`

如果 `usecols` 中的列名存在于 `某招聘网站数据.csv` 中，则读取。


In [20]:
usecols = ["positionId", "test", "positionName", "test1", "salary"]
pd.read_csv(
    "./某招聘网站数据.csv",
    usecols=lambda col: col in usecols,
)

Unnamed: 0,positionId,positionName,salary
0,6802721,数据分析,37500
1,5204912,数据建模,15000
2,6877668,数据分析,3500
3,6496141,数据分析,45000
4,6467417,数据分析,30000
...,...,...,...
100,6884346,数据分析师,25000
101,6849100,商业数据分析,35000
102,6803432,奔驰·耀出行-BI数据分析专家,30000
103,6704835,BI数据分析师,20000


### 9 读取 Excel 文件｜指定索引

<br>

读取当前目录下 `某招聘网站数据.csv` 文件，并在读取时将 `positionId` 设置为索引列


In [21]:
pd.read_csv("./某招聘网站数据.csv", index_col="positionId")

Unnamed: 0_level_0,positionName,companyId,companySize,industryField,financeStage,companyLabelList,firstType,secondType,thirdType,skillLables,...,plus,pcShow,appShow,deliver,gradeDescription,promotionScoreExplain,isHotHire,count,aggregatePositionIds,famousCompany
positionId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
6802721,数据分析,475770,50-150人,"移动互联网,电商",A轮,"['绩效奖金', '带薪年假', '定期体检', '弹性工作']",产品|需求|项目类,数据分析,数据分析,"['SQL', '数据库', '数据运营', 'BI']",...,,0,0,0,,,0,0,[],False
5204912,数据建模,50735,150-500人,电商,B轮,"['年终奖金', '做五休二', '六险一金', '子女福利']",开发|测试|运维类,数据开发,建模,"['算法', '数据架构']",...,,0,0,0,,,0,0,[],False
6877668,数据分析,100125,2000人以上,"移动互联网,企业服务",上市公司,"['节日礼物', '年底双薪', '股票期权', '带薪年假']",产品|需求|项目类,数据分析,数据分析,"['数据库', '数据分析', 'SQL']",...,,0,0,0,,,0,0,[],False
6496141,数据分析,26564,500-2000人,电商,D轮及以上,"['生日趴', '每月腐败基金', '每月补贴', '年度旅游']",开发|测试|运维类,数据开发,数据分析,[],...,,0,0,0,,,0,0,[],True
6467417,数据分析,29211,2000人以上,物流丨运输,上市公司,"['技能培训', '免费班车', '专项奖金', '岗位晋升']",产品|需求|项目类,数据分析,数据分析,"['BI', '数据分析', '数据运营']",...,,0,0,0,,,0,0,[],True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6884346,数据分析师,21236,500-2000人,"移动互联网,医疗丨健康",C轮,"['技能培训', '年底双薪', '节日礼物', '绩效奖金']",产品|需求|项目类,数据分析,数据分析,"['数据库', '商业', '数据分析', 'SQL']",...,,0,0,0,,,0,0,[],False
6849100,商业数据分析,72076,500-2000人,"移动互联网,电商",C轮,"['节日礼物', '股票期权', '带薪年假', '年度旅游']",市场|商务类,市场|营销,商业数据分析,"['市场', '数据分析', '行业分析', '市场分析']",...,,0,0,0,,,0,0,[],False
6803432,奔驰·耀出行-BI数据分析专家,751158,150-500人,移动互联网,不需要融资,[],开发|测试|运维类,数据开发,数据分析,"['MySQL', '数据处理', '数据分析']",...,,0,0,0,,,0,0,[],False
6704835,BI数据分析师,52840,2000人以上,电商,上市公司,"['技能培训', '年底双薪', '节日礼物', '绩效奖金']",开发|测试|运维类,数据开发,数据分析,"['SQLServer', '数据分析']",...,,0,0,0,,,0,0,[],True


### 10 读取 Excel 文件｜指定标题

<br>

读取当前目录下 `某招聘网站数据.csv` 文件的 `positionId、positionName、salary` 列，并将标题设置为 `ID、岗位名称、薪资`


In [27]:
df = pd.read_csv(
    "./某招聘网站数据.csv",
    usecols=["positionId", "positionName", "salary"],
)
df.rename(columns={"positionId": "ID", "positionName": "岗位名称", "salary": "薪资"})

Unnamed: 0,ID,岗位名称,薪资
0,6802721,数据分析,37500
1,5204912,数据建模,15000
2,6877668,数据分析,3500
3,6496141,数据分析,45000
4,6467417,数据分析,30000
...,...,...,...
100,6884346,数据分析师,25000
101,6849100,商业数据分析,35000
102,6803432,奔驰·耀出行-BI数据分析专家,30000
103,6704835,BI数据分析师,20000


### 11 读取 Excel 文件｜缺失值转换

<br>

读取当前目录下 `某招聘网站数据.csv` 文件，**并不将缺失值标记为 `NA`**

思考：为什么要这样做？


In [28]:
pd.read_csv("./某招聘网站数据.csv", na_filter=False)

Unnamed: 0,positionId,positionName,companyId,companySize,industryField,financeStage,companyLabelList,firstType,secondType,thirdType,...,plus,pcShow,appShow,deliver,gradeDescription,promotionScoreExplain,isHotHire,count,aggregatePositionIds,famousCompany
0,6802721,数据分析,475770,50-150人,"移动互联网,电商",A轮,"['绩效奖金', '带薪年假', '定期体检', '弹性工作']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,[],False
1,5204912,数据建模,50735,150-500人,电商,B轮,"['年终奖金', '做五休二', '六险一金', '子女福利']",开发|测试|运维类,数据开发,建模,...,,0,0,0,,,0,0,[],False
2,6877668,数据分析,100125,2000人以上,"移动互联网,企业服务",上市公司,"['节日礼物', '年底双薪', '股票期权', '带薪年假']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,[],False
3,6496141,数据分析,26564,500-2000人,电商,D轮及以上,"['生日趴', '每月腐败基金', '每月补贴', '年度旅游']",开发|测试|运维类,数据开发,数据分析,...,,0,0,0,,,0,0,[],True
4,6467417,数据分析,29211,2000人以上,物流丨运输,上市公司,"['技能培训', '免费班车', '专项奖金', '岗位晋升']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,[],True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
100,6884346,数据分析师,21236,500-2000人,"移动互联网,医疗丨健康",C轮,"['技能培训', '年底双薪', '节日礼物', '绩效奖金']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,[],False
101,6849100,商业数据分析,72076,500-2000人,"移动互联网,电商",C轮,"['节日礼物', '股票期权', '带薪年假', '年度旅游']",市场|商务类,市场|营销,商业数据分析,...,,0,0,0,,,0,0,[],False
102,6803432,奔驰·耀出行-BI数据分析专家,751158,150-500人,移动互联网,不需要融资,[],开发|测试|运维类,数据开发,数据分析,...,,0,0,0,,,0,0,[],False
103,6704835,BI数据分析师,52840,2000人以上,电商,上市公司,"['技能培训', '年底双薪', '节日礼物', '绩效奖金']",开发|测试|运维类,数据开发,数据分析,...,,0,0,0,,,0,0,[],True


### 12 读取 Excel 文件｜缺失值标记

<br>

读取当前目录下 `某招聘网站数据.csv` 文件，**并将`[]`标记为缺失值**


In [29]:
pd.read_csv('./某招聘网站数据.csv', na_values=["[]"])

Unnamed: 0,positionId,positionName,companyId,companySize,industryField,financeStage,companyLabelList,firstType,secondType,thirdType,...,plus,pcShow,appShow,deliver,gradeDescription,promotionScoreExplain,isHotHire,count,aggregatePositionIds,famousCompany
0,6802721,数据分析,475770,50-150人,"移动互联网,电商",A轮,"['绩效奖金', '带薪年假', '定期体检', '弹性工作']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,,False
1,5204912,数据建模,50735,150-500人,电商,B轮,"['年终奖金', '做五休二', '六险一金', '子女福利']",开发|测试|运维类,数据开发,建模,...,,0,0,0,,,0,0,,False
2,6877668,数据分析,100125,2000人以上,"移动互联网,企业服务",上市公司,"['节日礼物', '年底双薪', '股票期权', '带薪年假']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,,False
3,6496141,数据分析,26564,500-2000人,电商,D轮及以上,"['生日趴', '每月腐败基金', '每月补贴', '年度旅游']",开发|测试|运维类,数据开发,数据分析,...,,0,0,0,,,0,0,,True
4,6467417,数据分析,29211,2000人以上,物流丨运输,上市公司,"['技能培训', '免费班车', '专项奖金', '岗位晋升']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
100,6884346,数据分析师,21236,500-2000人,"移动互联网,医疗丨健康",C轮,"['技能培训', '年底双薪', '节日礼物', '绩效奖金']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,,False
101,6849100,商业数据分析,72076,500-2000人,"移动互联网,电商",C轮,"['节日礼物', '股票期权', '带薪年假', '年度旅游']",市场|商务类,市场|营销,商业数据分析,...,,0,0,0,,,0,0,,False
102,6803432,奔驰·耀出行-BI数据分析专家,751158,150-500人,移动互联网,不需要融资,,开发|测试|运维类,数据开发,数据分析,...,,0,0,0,,,0,0,,False
103,6704835,BI数据分析师,52840,2000人以上,电商,上市公司,"['技能培训', '年底双薪', '节日礼物', '绩效奖金']",开发|测试|运维类,数据开发,数据分析,...,,0,0,0,,,0,0,,True


### 13 读取 Excel 文件｜忽略缺失值

<br>

读取当前目录下 `某招聘网站数据.csv` 文件，**但不处理缺失值**

思考：和之前的有什么不同，为什么这么做？


In [30]:
pd.read_csv("./某招聘网站数据.csv")

Unnamed: 0,positionId,positionName,companyId,companySize,industryField,financeStage,companyLabelList,firstType,secondType,thirdType,...,plus,pcShow,appShow,deliver,gradeDescription,promotionScoreExplain,isHotHire,count,aggregatePositionIds,famousCompany
0,6802721,数据分析,475770,50-150人,"移动互联网,电商",A轮,"['绩效奖金', '带薪年假', '定期体检', '弹性工作']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,[],False
1,5204912,数据建模,50735,150-500人,电商,B轮,"['年终奖金', '做五休二', '六险一金', '子女福利']",开发|测试|运维类,数据开发,建模,...,,0,0,0,,,0,0,[],False
2,6877668,数据分析,100125,2000人以上,"移动互联网,企业服务",上市公司,"['节日礼物', '年底双薪', '股票期权', '带薪年假']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,[],False
3,6496141,数据分析,26564,500-2000人,电商,D轮及以上,"['生日趴', '每月腐败基金', '每月补贴', '年度旅游']",开发|测试|运维类,数据开发,数据分析,...,,0,0,0,,,0,0,[],True
4,6467417,数据分析,29211,2000人以上,物流丨运输,上市公司,"['技能培训', '免费班车', '专项奖金', '岗位晋升']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,[],True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
100,6884346,数据分析师,21236,500-2000人,"移动互联网,医疗丨健康",C轮,"['技能培训', '年底双薪', '节日礼物', '绩效奖金']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,[],False
101,6849100,商业数据分析,72076,500-2000人,"移动互联网,电商",C轮,"['节日礼物', '股票期权', '带薪年假', '年度旅游']",市场|商务类,市场|营销,商业数据分析,...,,0,0,0,,,0,0,[],False
102,6803432,奔驰·耀出行-BI数据分析专家,751158,150-500人,移动互联网,不需要融资,[],开发|测试|运维类,数据开发,数据分析,...,,0,0,0,,,0,0,[],False
103,6704835,BI数据分析师,52840,2000人以上,电商,上市公司,"['技能培训', '年底双薪', '节日礼物', '绩效奖金']",开发|测试|运维类,数据开发,数据分析,...,,0,0,0,,,0,0,[],True


### 14 读取 Excel 文件｜指定格式

<br>

读取当前目录下 `某招聘网站数据.csv` 文件，并将 `positionId,companyId` 设置为字符串格式


In [44]:
df = pd.read_csv("./某招聘网站数据.csv", dtype={"positionId": str, "companyId": str})
df.dtypes

positionId                object
positionName              object
companyId                 object
companySize               object
industryField             object
financeStage              object
companyLabelList          object
firstType                 object
secondType                object
thirdType                 object
skillLables               object
positionLables            object
industryLables            object
createTime                object
formatCreateTime          object
district                  object
businessZones             object
salary                     int64
workYear                  object
jobNature                 object
education                 object
positionAdvantage         object
imState                   object
lastLogin                 object
publisherId                int64
approve                    int64
subwayline                object
stationname               object
linestaion                object
latitude                 float64
longitude 

### 15 读取 Excel 文件｜指定格式（时间）

<br>

读取当前目录下 `某招聘网站数据.csv` 文件，并将 `createTime` 列设置为字符串格式


In [53]:
pd.read_csv('./某招聘网站数据.csv', dtype={'createTime': str})

Unnamed: 0,positionId,positionName,companyId,companySize,industryField,financeStage,companyLabelList,firstType,secondType,thirdType,...,plus,pcShow,appShow,deliver,gradeDescription,promotionScoreExplain,isHotHire,count,aggregatePositionIds,famousCompany
0,6802721,数据分析,475770,50-150人,"移动互联网,电商",A轮,"['绩效奖金', '带薪年假', '定期体检', '弹性工作']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,[],False
1,5204912,数据建模,50735,150-500人,电商,B轮,"['年终奖金', '做五休二', '六险一金', '子女福利']",开发|测试|运维类,数据开发,建模,...,,0,0,0,,,0,0,[],False
2,6877668,数据分析,100125,2000人以上,"移动互联网,企业服务",上市公司,"['节日礼物', '年底双薪', '股票期权', '带薪年假']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,[],False
3,6496141,数据分析,26564,500-2000人,电商,D轮及以上,"['生日趴', '每月腐败基金', '每月补贴', '年度旅游']",开发|测试|运维类,数据开发,数据分析,...,,0,0,0,,,0,0,[],True
4,6467417,数据分析,29211,2000人以上,物流丨运输,上市公司,"['技能培训', '免费班车', '专项奖金', '岗位晋升']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,[],True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
100,6884346,数据分析师,21236,500-2000人,"移动互联网,医疗丨健康",C轮,"['技能培训', '年底双薪', '节日礼物', '绩效奖金']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,[],False
101,6849100,商业数据分析,72076,500-2000人,"移动互联网,电商",C轮,"['节日礼物', '股票期权', '带薪年假', '年度旅游']",市场|商务类,市场|营销,商业数据分析,...,,0,0,0,,,0,0,[],False
102,6803432,奔驰·耀出行-BI数据分析专家,751158,150-500人,移动互联网,不需要融资,[],开发|测试|运维类,数据开发,数据分析,...,,0,0,0,,,0,0,[],False
103,6704835,BI数据分析师,52840,2000人以上,电商,上市公司,"['技能培训', '年底双薪', '节日礼物', '绩效奖金']",开发|测试|运维类,数据开发,数据分析,...,,0,0,0,,,0,0,[],True


### 16 读取 Excel 文件｜分块读取

<br>

读取当前目录下 `某招聘网站数据.csv` 文件，要求返回一个可迭代对象，每次读取 10 行

思考：为什么这样做？


In [55]:
for chunk in pd.read_csv('./某招聘网站数据.csv', chunksize=20):
    print(chunk)

    positionId      positionName  companyId companySize industryField  \
0      6802721              数据分析     475770     50-150人      移动互联网,电商   
1      5204912              数据建模      50735    150-500人            电商   
2      6877668              数据分析     100125     2000人以上    移动互联网,企业服务   
3      6496141              数据分析      26564   500-2000人            电商   
4      6467417              数据分析      29211     2000人以上         物流丨运输   
5      6882347              数据分析      94826     50-150人      移动互联网,社交   
6      6841659              数据分析     348784     50-150人      移动互联网,电商   
7      6764018           数据建模工程师      13163   500-2000人         移动互联网   
8      6458372            数据分析专家      34132    150-500人     数据服务,广告营销   
9      6786904             数据分析师      13163   500-2000人         移动互联网   
10     6804629             数据分析师      34132    150-500人     数据服务,广告营销   
11     6847013  大数据分析工程师(J11108)      55046     2000人以上    移动互联网,企业服务   
12     6763962           数据分析工程师      13163   500-2

### 17 读取 txt 文件｜常规

<br>

读取当前目录下 `Titanic.txt` 文件。

注意：在接下来的几种格式文件读取中，对于之前重复的参数/功能将不再整理，仅介绍读取功能。


In [57]:
pd.read_csv('./Titanic.txt', sep="\t")

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0000,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S
...,...,...,...,...,...,...,...,...,...,...,...
413,1305,3,"Spector, Mr. Woolf",male,,0,0,A.5. 3236,8.0500,,S
414,1306,1,"Oliva y Ocana, Dona. Fermina",female,39.0,0,0,PC 17758,108.9000,C105,C
415,1307,3,"Saether, Mr. Simon Sivertsen",male,38.5,0,0,SOTON/O.Q. 3101262,7.2500,,S
416,1308,3,"Ware, Mr. Frederick",male,,0,0,359309,8.0500,,S


### 18 读取 txt 文件｜含中文

<br>

读取当前目录下 `TOP250.txt` 文件。


In [59]:
pd.read_csv("./TOP250.txt", sep="\t", encoding="gbk")

Unnamed: 0,片名,上映年份,评分,评价人数,导演,编剧,主演,类型,国家/地区,语言,时长(分钟)
0,肖申克的救赎,1994,9.7,2317937,弗兰克·德拉邦特,弗兰克·德拉邦特 / 斯蒂芬·金,蒂姆·罗宾斯 / 摩根·弗里曼 / 鲍勃·冈顿 / 威廉姆·赛德勒 / 克兰西·布朗 / 吉...,剧情 / 犯罪,美国,英语,142
1,霸王别姬,1993,9.6,1720638,陈凯歌,芦苇 / 李碧华,张国荣 / 张丰毅 / 巩俐 / 葛优 / 英达 / 蒋雯丽 / 吴大维 / 吕齐 / 雷汉...,剧情 / 爱情 / 同性,中国,汉语普通话,171
2,阿甘正传,1994,9.5,1743966,罗伯特·泽米吉斯,艾瑞克·罗斯 / 温斯顿·格鲁姆,汤姆·汉克斯 / 罗宾·怀特 / 加里·西尼斯 / 麦凯尔泰·威廉逊 / 莎莉·菲尔德 / ...,剧情 / 爱情,美国,英语,142
3,这个杀手不太冷,1994,9.4,1922740,吕克·贝松,吕克·贝松,让·雷诺 / 娜塔莉·波特曼 / 加里·奥德曼 / 丹尼·爱罗 / 彼得·阿佩尔 / 迈克尔...,剧情 / 动作 / 犯罪,法国,英语,110
4,泰坦尼克号,1997,9.4,1706127,詹姆斯·卡梅隆,詹姆斯·卡梅隆,莱昂纳多·迪卡普里奥 / 凯特·温丝莱特 / 比利·赞恩 / 凯西·贝茨 / 弗兰西丝·费舍...,剧情 / 爱情 / 灾难,美国,英语,194
...,...,...,...,...,...,...,...,...,...,...,...
245,浪潮,2008,8.7,223511,丹尼斯·甘塞尔,丹尼斯·甘塞尔 / 彼得·图万斯 / 约翰尼·道金斯 / 罗恩·比恩巴赫 / 罗恩·琼斯,于尔根·福格尔 / 弗雷德里克·劳 / 马克思·雷迈特 / 詹妮弗·乌尔里希 / 克里斯蒂安...,剧情 / 惊悚,德国,德语,107
246,小萝莉的猴神大叔,2015,8.4,404886,卡比尔·汗,卡比尔·汗 / 维杰耶德拉·普拉萨德,萨尔曼·汗 / 哈莎莉·马洛特拉 / 卡琳娜·卡普尔 / 纳瓦祖丁·席迪圭 / 欧姆·普瑞 ...,剧情 / 喜剧 / 动作,印度,印地语,159
247,追随,1998,8.9,149521,克里斯托弗·诺兰,克里斯托弗·诺兰,杰里米·西奥伯德 / 亚历克斯·霍 / 露西·拉塞尔 / 约翰·诺兰 / 迪克·布拉德塞尔 ...,悬疑 / 惊悚 / 犯罪,英国,英语,69
248,网络谜踪,2018,8.6,430811,阿尼什·查甘蒂,阿尼什·查甘蒂 / 赛弗·奥哈尼安,约翰·赵 / 米切尔·拉 / 黛博拉·梅辛 / 约瑟夫·李 / 萨拉·米博·孙 / 亚历克丝...,剧情 / 悬疑 / 惊悚 / 犯罪,美国,英语,102


### 19 读取 JSON 文件

<br>

读取当前目录下 `某基金数据.json` 文件。


In [60]:
pd.read_json('./某基金数据.json')

Unnamed: 0,净值日期,单位净值,累计净值,日增长率,申购状态,赎回状态,分红送配
0,2020-02-13,1.884,1.884,-0.11%,开放申购,开放赎回,
1,2020-02-12,1.886,1.886,3.34%,开放申购,开放赎回,
2,2020-02-11,1.825,1.825,-0.16%,开放申购,开放赎回,
3,2020-02-10,1.828,1.828,1.33%,开放申购,开放赎回,
4,2020-02-07,1.804,1.804,0.61%,开放申购,开放赎回,
5,2020-02-06,1.793,1.793,3.11%,开放申购,开放赎回,
6,2020-02-05,1.739,1.739,1.64%,开放申购,开放赎回,
7,2020-02-04,1.711,1.711,7.34%,开放申购,开放赎回,
8,2020-02-03,1.594,1.594,-7.22%,开放申购,开放赎回,
9,2020-01-23,1.718,1.718,-2.05%,开放申购,开放赎回,


### 20 读取 HDF5 文件

<br>

`HDF5`是一种特殊的文件格式，常见于在大规模存储数据上

关于 `pandas` 与 `hdf5` 格式文件的操作较多，下面仅学习如何读取。

读取当前目录下`store_tl.h5`文件


In [75]:
with pd.HDFStore('./store_tl.h5', mode='r') as hdf:
    print(hdf.keys())
    
pd.read_hdf('./store_tl.h5', key='/table')

['/', '/table']


Unnamed: 0,A,B
0,0,0
1,1,1
2,2,2
3,3,3
4,4,4
...,...,...
495,495,495
496,496,496
497,497,497
498,498,498


微信搜索公众号「早起 Python」，关注后可以获得更多资源！


### 21 从剪贴板读取数据

<br>

打开当前目录下 `Titanic.txt` 文件，全选并复制。

现在直接从剪贴板读取数据。


In [76]:
pd.read_clipboard(sep="\t")

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0000,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S
...,...,...,...,...,...,...,...,...,...,...,...
413,1305,3,"Spector, Mr. Woolf",male,,0,0,A.5. 3236,8.0500,,S
414,1306,1,"Oliva y Ocana, Dona. Fermina",female,39.0,0,0,PC 17758,108.9000,C105,C
415,1307,3,"Saether, Mr. Simon Sivertsen",male,38.5,0,0,SOTON/O.Q. 3101262,7.2500,,S
416,1308,3,"Ware, Mr. Frederick",male,,0,0,359309,8.0500,,S


### 22 从 SQL 读取数据

<br>

有时我们需要从 `SQL` 中读取数据，如果先将数据导出再`pandas`读取并不是一个合适的选择。

在 `pandas` 中支持直接从 `sql` 中查询并读取。

为了方便统一操作，请先执行下面的代码创建数据。


In [77]:
from sqlite3 import connect

# :memory: 意为内存中创建
conn = connect(":memory:")
df = pd.DataFrame(
    data=[[0, "10/11/12"], [1, "12/11/10"]], columns=["int_column", "date_column"]
)
df.to_sql("test_data", conn)

2

下面将 `SQL` 语句 `SELECT int_column, date_column FROM test_data` 转换为 `DataFrame`


In [78]:
pd.read_sql_query("SELECT int_column, date_column FROM test_data", conn)

Unnamed: 0,int_column,date_column
0,0,10/11/12
1,1,12/11/10


### 23 从网页读取数据

<br>

直接从东京奥运会官网读取奖牌榜数据。

目标网站地址为 `https://olympics.com/tokyo-2020/olympic-games/zh/results/all-sports/medal-standings.htm`

思考：什么类型的在线表格可以直接读取？


In [87]:
df_list = pd.read_html(
    "https://www.runoob.com/numpy/numpy-ndarray-object.html", header=0
)
df_list[0]

Unnamed: 0,名称,描述
0,object,数组或嵌套的数列
1,dtype,数组元素的数据类型，可选
2,copy,对象是否需要复制，可选
3,order,创建数组的样式，C为行方向，F为列方向，A为任意方向（默认）
4,subok,默认返回一个与基类类型一致的数组
5,ndmin,指定生成数组的最小维度


### 24 循环读取数据

<br>

在本小节 `demodata` 文件夹下有多个 `Excel` 文件，要求一次性循环读取全部文件


In [91]:
import os

# 设置文件夹路径
folder_path = './demodata/'

# 初始化一个空的DataFrame，用于存储所有文件的数据
all_data = pd.DataFrame()

# 遍历文件夹中的所有文件
for filename in os.listdir(folder_path):
    # 检查文件扩展名是否为.xlsx或.xls
    if filename.endswith('.xlsx') or filename.endswith('.xls'):
        # 构建完整的文件路径
        file_path = os.path.join(folder_path, filename)
        
        # 读取Excel文件
        df = pd.read_excel(file_path, na_filter=False)
        
        # 将读取的数据追加到all_data DataFrame中
        all_data = pd.concat([all_data, df], ignore_index=True)

all_data

Unnamed: 0,日期,日增长率,涨跌,持有金额,剩余本金,操作,总资产
0,2020-01-02,2.92,up,0.000000,20000,,20000.000000
1,2020-01-03,0.51,up,0.000000,20000,,20000.000000
2,2020-01-06,1.98,up,0.000000,20000,,20000.000000
3,2020-01-07,0.17,up,0.000000,20000,,20000.000000
4,2020-01-08,-1.16,down,0.000000,20000,,20000.000000
...,...,...,...,...,...,...,...
3405,2021-05-26,-0.12,down,20372.810590,4700,,25072.810590
3406,2021-05-27,0.66,up,20507.271140,4700,buy,25207.271140
3407,2021-05-28,-0.30,down,20545.329687,4600,,25145.329687
3408,2021-05-31,0.06,up,20557.656885,4600,buy,25157.656885


## 1-2 数据创建

<br>

除了直接读取本地文件，学会直接创建数据框也很重要，常见于测试一些函数，下面是从常见数据结构创建数据框的方法整理


### 25 从列表创建

<br>

将下面的 `list` 转换为 `dataframe`，并指定列名为`"早起Python"`


In [137]:
l = [1, 2, 3, 4, 5]

### 26 从列表创建｜嵌套列表

<br>

将下面的 `list` 转换为 `dataframe`，并指定行索引为`"公众号","早起Python"`


In [150]:
l = [[1, 2, 3], [4, 5, 6]]

![公众号：早起Python](http://liuzaoqi.oss-cn-beijing.aliyuncs.com/2021/09/18/16319660121648.jpg?域名/sample.jpg?x-oss-process=style/stylename)


### 27 从字典创建


执行下方代码，并将字典转换为`dataframe`


In [124]:
d = {
    "one": pd.Series([1.0, 2.0, 3.0], index=["a", "b", "c"]),
    "two": pd.Series([1.0, 2.0, 3.0, 4.0], index=["a", "b", "c", "d"]),
}

### 28 从字典创建｜指定索引

<br>

还是上一题的字典`d`，将其转换为`dataframe`并指定索引顺序为 `d、b、a`


### 29 从字典创建｜指定列名

<br>

还是上一题的字典`d`，将其转换为`dataframe`并指定索引顺序为 `d、b、a`，列名为`"two", "three"`


### 30 从字典创建｜字典列表

<br>

将下方列表型字典转换为`dataframe`

思考：如何指定行/列索引？


In [None]:
d = [{"a": 1, "b": 2}, {"a": 5, "b": 10, "c": 20}]

### 31 从集合创建

<br>

将下面的元组转换为 dataframe 且行列索引均为 `1,2,3,4`


In [163]:
t = (
    (
        1,
        0,
        0,
        0,
    ),
    (
        2,
        3,
        0,
        0,
    ),
    (
        4,
        5,
        6,
        0,
    ),
    (
        7,
        8,
        9,
        10,
    ),
)

## 1-3 数据存储


### 32 保存为 CSV

<br>

将第三题读取到的数据保存为 `csv` 格式至当前目录下（文件名任意）


In [184]:
data = pd.read_csv("某招聘网站数据.csv", nrows=20)

### 33 保存为 CSV ｜指定列

<br>

将第三题读取到的数据保存为 `csv` 格式至当前目录下（文件名任意），且只保留`positionName、salary`两列


### 34 保存为 CSV ｜取消索引

<br>

将第三题读取到的数据保存为 `csv` 格式至当前目录下（文件名任意），且取消每一行的索引


### 35 保存为 CSV ｜标记缺失值

<br>

在上一题的基础上，在保存的同时，将缺失值标记为`'数据缺失'`


### 36 保存为 CSV ｜压缩

<br>

将上一题的数据保存至 `zip` 文件，解压后出现 `out.csv`


### 37 保存为 Excel

<br>

将第三题读取到的数据保存为 `xlsx` 格式至当前目录下（文件名任意）


### 38 保存为 JSON

将之前的数据保存为 `json` 格式至当前目录下（文件名任意）


### 39 保存为 Markdown


将之前数据转换为 `markdown` 形式表格，这样可以直接复制进 `.md` 文件中使用


### 40 保存为 Html

将之前的数据保存为 `html` 格式至当前目录下（文件名任意），并进行如下设置

- 取消行索引
- 标题居中对齐
- 列宽 100


![](http://liuzaoqi.oss-cn-beijing.aliyuncs.com/2021/09/16/16317972442543.jpg?域名/sample.jpg?x-oss-process=style/stylename)
