# pandas 进阶修炼 ｜早起Python
<br>

**本习题由公众号【早起Python & 可视化图鉴】 原创，转载及其他形式合作请与我们联系（微信号`sshs321`)，未经授权严禁搬运及二次创作，侵权必究！**



本习题基于 `pandas` 版本 `1.1.3`，所有内容应当在 `Jupyter Notebook` 中执行以获得最佳效果。

不同版本之间写法可能会有少许不同，如若碰到此情况，你应该学会如何自行检索解决。

# 1 - 数据加载与存储 

是的，常常被忽略的「<font color=#E36C07>**数据加载与存储**</font>」也大有门道且值得作为本套习题的开门之章。

在一次数据分析的过程中，你可能只会读取或存储一两次数据集。

**但若能灵活掌握各项设置，在读取阶段就将数据筛选、匹配、格式指定等操作完成，有时会为我们节省大量时间。**

在本节习题中，我将 pandas 数据分析中常见的数据读取与存储操作进行整理。

<font color=#E36C07>**既可以用于巩固、学习各种操作，也可以作为速查手册使用**</font>。

## 初始化

<br>

该 `Notebook` 版本为**纯习题版**

如果需要答案或者提示，可以微信搜索公众号「早起Python」获取！

## 1-1 数据读取

### 1 读取 Excel 文件

<br>

- 读取当前目录下 `某招聘网站数据.csv` 文件

- 读取当前目录下 `TOP250.xlsx` 文件

**注意**：使用 `pandas` 读取 `CSV` 与 读取 `xlsx` 格式的 `Excel` 文件方法大致相同

因此接下来与 `Excel` 相关的操作均以 `CSV` 格式进行出题。

In [21]:
import pandas as pd
data = pd.read_csv("某招聘网站数据.csv")
print(len(data))
data = pd.read_excel("TOP250.xlsx")

105


### 2 读取 Excel 文件｜指定位置

在大多数情况下，我们会将 `notebook` 和数据源文件放在同一个目录（文件夹下），这样直接使用`pd.read_xxx("文件名")`即可成功读取。
 
但有时需要读取的文件和 `notebook` 不在同一个目录下，这时可以使用绝对路径或者相对本 `notebook` 的路径。

现在请读取本套习题中第二章节下的数据，即 `2 - 个性化显示设置/data.csv`

In [7]:
data = pd.read_csv("../2 - 个性化显示设置/data.csv")

###  3 读取 Excel 文件｜指定行（顺序）
<br>

读取当前目录下 `某招聘网站数据.csv` 文件的 <font color = '#5F5FFC'>前20行</font>

In [27]:
df = pd.read_csv("某招聘网站数据.csv", nrows=20)
len(df)

20

###  4 读取 Excel 文件｜指定行（跳过）
<br>

读取当前目录下 `某招聘网站数据.csv` 文件并<font color = '#5F5FFC'>跳过前20行</font>

In [33]:
df = pd.read_csv("某招聘网站数据.csv", skiprows=[i for i in range(1, 21)])
# df = pd.read_csv("某招聘网站数据.csv", header=20)
len(df)

85

###  5 读取 Excel 文件｜指定行（条件）
<br>

读取当前目录下 `某招聘网站数据.csv` 文件中全部<font color = '#5F5FFC'>偶数行</font>

思考：如果是读取全部奇数行，或者更多满足指定条件的行呢？

In [54]:
df = pd.read_csv("某招聘网站数据.csv")
df1 = df[df.index%2==1]
print(len(df1))

52


In [64]:
# 或者可以用lambda：
df = pd.read_csv("某招聘网站数据.csv", skiprows=lambda x: (x != 0) and not x % 2)  # 偶数行
df = pd.read_csv("某招聘网站数据.csv", skiprows=lambda x: (x != 0) and x % 2)      # 奇数行

### 6 读取 Excel 文件｜指定列（列号）

<br>

**根据指定列号读取**

读取当前目录下 `某招聘网站数据.csv` 文件的第 `1、3、5` 列

In [55]:
df = pd.read_csv("某招聘网站数据.csv")
df.iloc[:, [1,3,5]]

Unnamed: 0,positionName,companySize,financeStage
0,数据分析,50-150人,A轮
1,数据建模,150-500人,B轮
2,数据分析,2000人以上,上市公司
3,数据分析,500-2000人,D轮及以上
4,数据分析,2000人以上,上市公司
...,...,...,...
100,数据分析师,500-2000人,C轮
101,商业数据分析,500-2000人,C轮
102,奔驰·耀出行-BI数据分析专家,150-500人,不需要融资
103,BI数据分析师,2000人以上,上市公司


In [66]:
# 或者可以用usecols
pd.read_csv("某招聘网站数据.csv", usecols=[1,3,5])

Unnamed: 0,positionName,companySize,financeStage
0,数据分析,50-150人,A轮
1,数据建模,150-500人,B轮
2,数据分析,2000人以上,上市公司
3,数据分析,500-2000人,D轮及以上
4,数据分析,2000人以上,上市公司
...,...,...,...
100,数据分析师,500-2000人,C轮
101,商业数据分析,500-2000人,C轮
102,奔驰·耀出行-BI数据分析专家,150-500人,不需要融资
103,BI数据分析师,2000人以上,上市公司


###  7 读取 Excel 文件｜指定列（列名）

<br>

**根据指定列名读取**

读取当前目录下 `某招聘网站数据.csv` 文件的 `positionId、positionName、salary` 列

In [67]:
# df.loc[:, ["positionId","positionName","salary"]]
# 或者同样可以用usecols参数
pd.read_csv("某招聘网站数据.csv", usecols=["positionId","positionName","salary"])

Unnamed: 0,positionId,positionName,salary
0,6802721,数据分析,37500
1,5204912,数据建模,15000
2,6877668,数据分析,3500
3,6496141,数据分析,45000
4,6467417,数据分析,30000
...,...,...,...
100,6884346,数据分析师,25000
101,6849100,商业数据分析,35000
102,6803432,奔驰·耀出行-BI数据分析专家,30000
103,6704835,BI数据分析师,20000


###  8 读取 Excel 文件｜指定列（匹配）

<br>

**根据指定列名匹配读取**

让我们来个更难一点的，还是读取 `某招聘网站数据.csv` 文件，但现在有一个 list 中包含多个字段👇

`usecols = ['positionId','test','positionName', 'test1','salary']`

如果 `usecols` 中的列名存在于 `某招聘网站数据.csv` 中，则读取。

In [69]:
usecols = ['positionId', 'test', 'positionName', 'test1', 'salary']
pd.read_csv("某招聘网站数据.csv", usecols=lambda c: c in usecols)

Unnamed: 0,positionId,positionName,salary
0,6802721,数据分析,37500
1,5204912,数据建模,15000
2,6877668,数据分析,3500
3,6496141,数据分析,45000
4,6467417,数据分析,30000
...,...,...,...
100,6884346,数据分析师,25000
101,6849100,商业数据分析,35000
102,6803432,奔驰·耀出行-BI数据分析专家,30000
103,6704835,BI数据分析师,20000


### 9 读取 Excel 文件｜指定索引

<br>

读取当前目录下 `某招聘网站数据.csv` 文件，并在读取时将 `positionId` 设置为索引列

In [70]:
pd.read_csv("某招聘网站数据.csv", index_col="positionId")

Unnamed: 0_level_0,positionName,companyId,companySize,industryField,financeStage,companyLabelList,firstType,secondType,thirdType,skillLables,...,plus,pcShow,appShow,deliver,gradeDescription,promotionScoreExplain,isHotHire,count,aggregatePositionIds,famousCompany
positionId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
6802721,数据分析,475770,50-150人,"移动互联网,电商",A轮,"['绩效奖金', '带薪年假', '定期体检', '弹性工作']",产品|需求|项目类,数据分析,数据分析,"['SQL', '数据库', '数据运营', 'BI']",...,,0,0,0,,,0,0,[],False
5204912,数据建模,50735,150-500人,电商,B轮,"['年终奖金', '做五休二', '六险一金', '子女福利']",开发|测试|运维类,数据开发,建模,"['算法', '数据架构']",...,,0,0,0,,,0,0,[],False
6877668,数据分析,100125,2000人以上,"移动互联网,企业服务",上市公司,"['节日礼物', '年底双薪', '股票期权', '带薪年假']",产品|需求|项目类,数据分析,数据分析,"['数据库', '数据分析', 'SQL']",...,,0,0,0,,,0,0,[],False
6496141,数据分析,26564,500-2000人,电商,D轮及以上,"['生日趴', '每月腐败基金', '每月补贴', '年度旅游']",开发|测试|运维类,数据开发,数据分析,[],...,,0,0,0,,,0,0,[],True
6467417,数据分析,29211,2000人以上,物流丨运输,上市公司,"['技能培训', '免费班车', '专项奖金', '岗位晋升']",产品|需求|项目类,数据分析,数据分析,"['BI', '数据分析', '数据运营']",...,,0,0,0,,,0,0,[],True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6884346,数据分析师,21236,500-2000人,"移动互联网,医疗丨健康",C轮,"['技能培训', '年底双薪', '节日礼物', '绩效奖金']",产品|需求|项目类,数据分析,数据分析,"['数据库', '商业', '数据分析', 'SQL']",...,,0,0,0,,,0,0,[],False
6849100,商业数据分析,72076,500-2000人,"移动互联网,电商",C轮,"['节日礼物', '股票期权', '带薪年假', '年度旅游']",市场|商务类,市场|营销,商业数据分析,"['市场', '数据分析', '行业分析', '市场分析']",...,,0,0,0,,,0,0,[],False
6803432,奔驰·耀出行-BI数据分析专家,751158,150-500人,移动互联网,不需要融资,[],开发|测试|运维类,数据开发,数据分析,"['MySQL', '数据处理', '数据分析']",...,,0,0,0,,,0,0,[],False
6704835,BI数据分析师,52840,2000人以上,电商,上市公司,"['技能培训', '年底双薪', '节日礼物', '绩效奖金']",开发|测试|运维类,数据开发,数据分析,"['SQLServer', '数据分析']",...,,0,0,0,,,0,0,[],True


###  10 读取 Excel 文件｜指定标题

<br>


读取当前目录下 `某招聘网站数据.csv` 文件的 `positionId、positionName、salary` 列，并将标题设置为 `ID、岗位名称、薪资`

In [84]:
pd.read_csv(
    "某招聘网站数据.csv",
    header=0,
    usecols=["positionId", "positionName", "salary"],
#     names=["ID", "岗位名称", "薪资"]
).rename(columns={"positionId": "ID", "positionName":"岗位名称","salary":"薪资"})


Unnamed: 0,ID,岗位名称,薪资
0,6802721,数据分析,37500
1,5204912,数据建模,15000
2,6877668,数据分析,3500
3,6496141,数据分析,45000
4,6467417,数据分析,30000
...,...,...,...
100,6884346,数据分析师,25000
101,6849100,商业数据分析,35000
102,6803432,奔驰·耀出行-BI数据分析专家,30000
103,6704835,BI数据分析师,20000


###  11 读取 Excel 文件｜缺失值转换

<br>


读取当前目录下 `某招聘网站数据.csv` 文件，**并不将缺失值标记为 `NA`**

思考：为什么要这样做？

In [88]:
pd.read_csv("某招聘网站数据.csv", keep_default_na=False)

Unnamed: 0,positionId,positionName,companyId,companySize,industryField,financeStage,companyLabelList,firstType,secondType,thirdType,...,plus,pcShow,appShow,deliver,gradeDescription,promotionScoreExplain,isHotHire,count,aggregatePositionIds,famousCompany
0,6802721,数据分析,475770,50-150人,"移动互联网,电商",A轮,"['绩效奖金', '带薪年假', '定期体检', '弹性工作']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,[],False
1,5204912,数据建模,50735,150-500人,电商,B轮,"['年终奖金', '做五休二', '六险一金', '子女福利']",开发|测试|运维类,数据开发,建模,...,,0,0,0,,,0,0,[],False
2,6877668,数据分析,100125,2000人以上,"移动互联网,企业服务",上市公司,"['节日礼物', '年底双薪', '股票期权', '带薪年假']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,[],False
3,6496141,数据分析,26564,500-2000人,电商,D轮及以上,"['生日趴', '每月腐败基金', '每月补贴', '年度旅游']",开发|测试|运维类,数据开发,数据分析,...,,0,0,0,,,0,0,[],True
4,6467417,数据分析,29211,2000人以上,物流丨运输,上市公司,"['技能培训', '免费班车', '专项奖金', '岗位晋升']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,[],True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
100,6884346,数据分析师,21236,500-2000人,"移动互联网,医疗丨健康",C轮,"['技能培训', '年底双薪', '节日礼物', '绩效奖金']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,[],False
101,6849100,商业数据分析,72076,500-2000人,"移动互联网,电商",C轮,"['节日礼物', '股票期权', '带薪年假', '年度旅游']",市场|商务类,市场|营销,商业数据分析,...,,0,0,0,,,0,0,[],False
102,6803432,奔驰·耀出行-BI数据分析专家,751158,150-500人,移动互联网,不需要融资,[],开发|测试|运维类,数据开发,数据分析,...,,0,0,0,,,0,0,[],False
103,6704835,BI数据分析师,52840,2000人以上,电商,上市公司,"['技能培训', '年底双薪', '节日礼物', '绩效奖金']",开发|测试|运维类,数据开发,数据分析,...,,0,0,0,,,0,0,[],True


###  12 读取 Excel 文件｜缺失值标记

<br>


读取当前目录下 `某招聘网站数据.csv` 文件，**并将`[]`标记为缺失值**


In [89]:
pd.read_csv("某招聘网站数据.csv", na_values=["[]"])

Unnamed: 0,positionId,positionName,companyId,companySize,industryField,financeStage,companyLabelList,firstType,secondType,thirdType,...,plus,pcShow,appShow,deliver,gradeDescription,promotionScoreExplain,isHotHire,count,aggregatePositionIds,famousCompany
0,6802721,数据分析,475770,50-150人,"移动互联网,电商",A轮,"['绩效奖金', '带薪年假', '定期体检', '弹性工作']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,,False
1,5204912,数据建模,50735,150-500人,电商,B轮,"['年终奖金', '做五休二', '六险一金', '子女福利']",开发|测试|运维类,数据开发,建模,...,,0,0,0,,,0,0,,False
2,6877668,数据分析,100125,2000人以上,"移动互联网,企业服务",上市公司,"['节日礼物', '年底双薪', '股票期权', '带薪年假']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,,False
3,6496141,数据分析,26564,500-2000人,电商,D轮及以上,"['生日趴', '每月腐败基金', '每月补贴', '年度旅游']",开发|测试|运维类,数据开发,数据分析,...,,0,0,0,,,0,0,,True
4,6467417,数据分析,29211,2000人以上,物流丨运输,上市公司,"['技能培训', '免费班车', '专项奖金', '岗位晋升']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
100,6884346,数据分析师,21236,500-2000人,"移动互联网,医疗丨健康",C轮,"['技能培训', '年底双薪', '节日礼物', '绩效奖金']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,,False
101,6849100,商业数据分析,72076,500-2000人,"移动互联网,电商",C轮,"['节日礼物', '股票期权', '带薪年假', '年度旅游']",市场|商务类,市场|营销,商业数据分析,...,,0,0,0,,,0,0,,False
102,6803432,奔驰·耀出行-BI数据分析专家,751158,150-500人,移动互联网,不需要融资,,开发|测试|运维类,数据开发,数据分析,...,,0,0,0,,,0,0,,False
103,6704835,BI数据分析师,52840,2000人以上,电商,上市公司,"['技能培训', '年底双薪', '节日礼物', '绩效奖金']",开发|测试|运维类,数据开发,数据分析,...,,0,0,0,,,0,0,,True


### 13 读取 Excel 文件｜忽略缺失值

<br>

读取当前目录下 `某招聘网站数据.csv` 文件，**但不处理缺失值**

思考：和之前的有什么不同，为什么这么做？

In [91]:
pd.read_csv("某招聘网站数据.csv", na_filter=False)

Unnamed: 0,positionId,positionName,companyId,companySize,industryField,financeStage,companyLabelList,firstType,secondType,thirdType,...,plus,pcShow,appShow,deliver,gradeDescription,promotionScoreExplain,isHotHire,count,aggregatePositionIds,famousCompany
0,6802721,数据分析,475770,50-150人,"移动互联网,电商",A轮,"['绩效奖金', '带薪年假', '定期体检', '弹性工作']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,[],False
1,5204912,数据建模,50735,150-500人,电商,B轮,"['年终奖金', '做五休二', '六险一金', '子女福利']",开发|测试|运维类,数据开发,建模,...,,0,0,0,,,0,0,[],False
2,6877668,数据分析,100125,2000人以上,"移动互联网,企业服务",上市公司,"['节日礼物', '年底双薪', '股票期权', '带薪年假']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,[],False
3,6496141,数据分析,26564,500-2000人,电商,D轮及以上,"['生日趴', '每月腐败基金', '每月补贴', '年度旅游']",开发|测试|运维类,数据开发,数据分析,...,,0,0,0,,,0,0,[],True
4,6467417,数据分析,29211,2000人以上,物流丨运输,上市公司,"['技能培训', '免费班车', '专项奖金', '岗位晋升']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,[],True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
100,6884346,数据分析师,21236,500-2000人,"移动互联网,医疗丨健康",C轮,"['技能培训', '年底双薪', '节日礼物', '绩效奖金']",产品|需求|项目类,数据分析,数据分析,...,,0,0,0,,,0,0,[],False
101,6849100,商业数据分析,72076,500-2000人,"移动互联网,电商",C轮,"['节日礼物', '股票期权', '带薪年假', '年度旅游']",市场|商务类,市场|营销,商业数据分析,...,,0,0,0,,,0,0,[],False
102,6803432,奔驰·耀出行-BI数据分析专家,751158,150-500人,移动互联网,不需要融资,[],开发|测试|运维类,数据开发,数据分析,...,,0,0,0,,,0,0,[],False
103,6704835,BI数据分析师,52840,2000人以上,电商,上市公司,"['技能培训', '年底双薪', '节日礼物', '绩效奖金']",开发|测试|运维类,数据开发,数据分析,...,,0,0,0,,,0,0,[],True


### 14 读取 Excel 文件｜指定格式

<br>

读取当前目录下 `某招聘网站数据.csv` 文件，并将 `positionId,companyId` 设置为字符串格式

In [100]:
df1 = pd.read_csv("某招聘网站数据.csv", dtype={"positionId":str,"companyId":str})
type(df1["positionId"][0])

str

### 15 读取 Excel 文件｜指定格式（时间）

<br>

读取当前目录下 `某招聘网站数据.csv` 文件，并将 `createTime` 列设置为字符串格式

In [115]:
df1 = pd.read_csv("某招聘网站数据.csv", 
                  parse_dates=["createTime"]
                # parse_dates=True
                  )
type(df1["createTime"][0])
# df1["createTime"][0]

pandas._libs.tslibs.timestamps.Timestamp

### 16 读取 Excel 文件｜分块读取


<br>

读取当前目录下 `某招聘网站数据.csv` 文件，要求返回一个可迭代对象，每次读取 10 行

思考：为什么这样做？

In [129]:
df = pd.read_csv("某招聘网站数据.csv", chunksize=10)

for data in df:
    print(data)

   positionId positionName  companyId companySize industryField financeStage  \
0     6802721         数据分析     475770     50-150人      移动互联网,电商           A轮   
1     5204912         数据建模      50735    150-500人            电商           B轮   
2     6877668         数据分析     100125     2000人以上    移动互联网,企业服务         上市公司   
3     6496141         数据分析      26564   500-2000人            电商        D轮及以上   
4     6467417         数据分析      29211     2000人以上         物流丨运输         上市公司   
5     6882347         数据分析      94826     50-150人      移动互联网,社交           B轮   
6     6841659         数据分析     348784     50-150人      移动互联网,电商           A轮   
7     6764018      数据建模工程师      13163   500-2000人         移动互联网         上市公司   
8     6458372       数据分析专家      34132    150-500人     数据服务,广告营销           A轮   
9     6786904        数据分析师      13163   500-2000人         移动互联网         上市公司   

                      companyLabelList  firstType secondType thirdType  ...  \
0     ['绩效奖金', '带薪年假', '定期体检', '弹性工作']  

### 17 读取 txt 文件｜常规

<br>

读取当前目录下 `Titanic.txt` 文件。

注意：在接下来的几种格式文件读取中，对于之前重复的参数/功能将不再整理，仅介绍读取功能。

In [4]:
import pandas as pd

pd.read_csv("Titanic.txt", sep="\t")

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0000,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S
...,...,...,...,...,...,...,...,...,...,...,...
413,1305,3,"Spector, Mr. Woolf",male,,0,0,A.5. 3236,8.0500,,S
414,1306,1,"Oliva y Ocana, Dona. Fermina",female,39.0,0,0,PC 17758,108.9000,C105,C
415,1307,3,"Saether, Mr. Simon Sivertsen",male,38.5,0,0,SOTON/O.Q. 3101262,7.2500,,S
416,1308,3,"Ware, Mr. Frederick",male,,0,0,359309,8.0500,,S


### 18 读取 txt 文件｜含中文

<br>

读取当前目录下 `TOP250.txt` 文件。

In [8]:
pd.read_csv("TOP250.txt", encoding="gbk", sep="\t")

Unnamed: 0,片名,上映年份,评分,评价人数,导演,编剧,主演,类型,国家/地区,语言,时长(分钟)
0,肖申克的救赎,1994,9.7,2317937,弗兰克·德拉邦特,弗兰克·德拉邦特 / 斯蒂芬·金,蒂姆·罗宾斯 / 摩根·弗里曼 / 鲍勃·冈顿 / 威廉姆·赛德勒 / 克兰西·布朗 / 吉...,剧情 / 犯罪,美国,英语,142
1,霸王别姬,1993,9.6,1720638,陈凯歌,芦苇 / 李碧华,张国荣 / 张丰毅 / 巩俐 / 葛优 / 英达 / 蒋雯丽 / 吴大维 / 吕齐 / 雷汉...,剧情 / 爱情 / 同性,中国,汉语普通话,171
2,阿甘正传,1994,9.5,1743966,罗伯特·泽米吉斯,艾瑞克·罗斯 / 温斯顿·格鲁姆,汤姆·汉克斯 / 罗宾·怀特 / 加里·西尼斯 / 麦凯尔泰·威廉逊 / 莎莉·菲尔德 / ...,剧情 / 爱情,美国,英语,142
3,这个杀手不太冷,1994,9.4,1922740,吕克·贝松,吕克·贝松,让·雷诺 / 娜塔莉·波特曼 / 加里·奥德曼 / 丹尼·爱罗 / 彼得·阿佩尔 / 迈克尔...,剧情 / 动作 / 犯罪,法国,英语,110
4,泰坦尼克号,1997,9.4,1706127,詹姆斯·卡梅隆,詹姆斯·卡梅隆,莱昂纳多·迪卡普里奥 / 凯特·温丝莱特 / 比利·赞恩 / 凯西·贝茨 / 弗兰西丝·费舍...,剧情 / 爱情 / 灾难,美国,英语,194
...,...,...,...,...,...,...,...,...,...,...,...
245,浪潮,2008,8.7,223511,丹尼斯·甘塞尔,丹尼斯·甘塞尔 / 彼得·图万斯 / 约翰尼·道金斯 / 罗恩·比恩巴赫 / 罗恩·琼斯,于尔根·福格尔 / 弗雷德里克·劳 / 马克思·雷迈特 / 詹妮弗·乌尔里希 / 克里斯蒂安...,剧情 / 惊悚,德国,德语,107
246,小萝莉的猴神大叔,2015,8.4,404886,卡比尔·汗,卡比尔·汗 / 维杰耶德拉·普拉萨德,萨尔曼·汗 / 哈莎莉·马洛特拉 / 卡琳娜·卡普尔 / 纳瓦祖丁·席迪圭 / 欧姆·普瑞 ...,剧情 / 喜剧 / 动作,印度,印地语,159
247,追随,1998,8.9,149521,克里斯托弗·诺兰,克里斯托弗·诺兰,杰里米·西奥伯德 / 亚历克斯·霍 / 露西·拉塞尔 / 约翰·诺兰 / 迪克·布拉德塞尔 ...,悬疑 / 惊悚 / 犯罪,英国,英语,69
248,网络谜踪,2018,8.6,430811,阿尼什·查甘蒂,阿尼什·查甘蒂 / 赛弗·奥哈尼安,约翰·赵 / 米切尔·拉 / 黛博拉·梅辛 / 约瑟夫·李 / 萨拉·米博·孙 / 亚历克丝...,剧情 / 悬疑 / 惊悚 / 犯罪,美国,英语,102


### 19 读取 JSON 文件



<br>

读取当前目录下 `某基金数据.json` 文件。

In [9]:
pd.read_json("某基金数据.json")

Unnamed: 0,净值日期,单位净值,累计净值,日增长率,申购状态,赎回状态,分红送配
0,2020-02-13,1.884,1.884,-0.11%,开放申购,开放赎回,
1,2020-02-12,1.886,1.886,3.34%,开放申购,开放赎回,
2,2020-02-11,1.825,1.825,-0.16%,开放申购,开放赎回,
3,2020-02-10,1.828,1.828,1.33%,开放申购,开放赎回,
4,2020-02-07,1.804,1.804,0.61%,开放申购,开放赎回,
5,2020-02-06,1.793,1.793,3.11%,开放申购,开放赎回,
6,2020-02-05,1.739,1.739,1.64%,开放申购,开放赎回,
7,2020-02-04,1.711,1.711,7.34%,开放申购,开放赎回,
8,2020-02-03,1.594,1.594,-7.22%,开放申购,开放赎回,
9,2020-01-23,1.718,1.718,-2.05%,开放申购,开放赎回,


### 20 读取 HDF5 文件

<br>

`HDF5`是一种特殊的文件格式，常见于在大规模存储数据上

关于 `pandas` 与 `hdf5` 格式文件的操作较多，下面仅学习如何读取。

读取当前目录下`store_tl.h5`文件

In [12]:
pd.read_hdf("store_tl.h5", "table") # key="table"

Unnamed: 0,A,B
0,0,0
1,1,1
2,2,2
3,3,3
4,4,4
...,...,...
495,495,495
496,496,496
497,497,497
498,498,498


微信搜索公众号「早起Python」，关注后可以获得更多资源！

### 21 从剪贴板读取数据

<br>

打开当前目录下 `Titanic.txt` 文件，全选并复制。

现在直接从剪贴板读取数据。

In [15]:
pd.read_clipboard(sep="\t")

Unnamed: 0,片名,上映年份,评分,评价人数,导演,编剧,主演,类型,国家/地区,语言,时长(分钟)
0,肖申克的救赎,1994,9.7,2317937,弗兰克·德拉邦特,弗兰克·德拉邦特 / 斯蒂芬·金,蒂姆·罗宾斯 / 摩根·弗里曼 / 鲍勃·冈顿 / 威廉姆·赛德勒 / 克兰西·布朗 / 吉...,剧情 / 犯罪,美国,英语,142
1,霸王别姬,1993,9.6,1720638,陈凯歌,芦苇 / 李碧华,张国荣 / 张丰毅 / 巩俐 / 葛优 / 英达 / 蒋雯丽 / 吴大维 / 吕齐 / 雷汉...,剧情 / 爱情 / 同性,中国,汉语普通话,171
2,阿甘正传,1994,9.5,1743966,罗伯特·泽米吉斯,艾瑞克·罗斯 / 温斯顿·格鲁姆,汤姆·汉克斯 / 罗宾·怀特 / 加里·西尼斯 / 麦凯尔泰·威廉逊 / 莎莉·菲尔德 / ...,剧情 / 爱情,美国,英语,142
3,这个杀手不太冷,1994,9.4,1922740,吕克·贝松,吕克·贝松,让·雷诺 / 娜塔莉·波特曼 / 加里·奥德曼 / 丹尼·爱罗 / 彼得·阿佩尔 / 迈克尔...,剧情 / 动作 / 犯罪,法国,英语,110
4,泰坦尼克号,1997,9.4,1706127,詹姆斯·卡梅隆,詹姆斯·卡梅隆,莱昂纳多·迪卡普里奥 / 凯特·温丝莱特 / 比利·赞恩 / 凯西·贝茨 / 弗兰西丝·费舍...,剧情 / 爱情 / 灾难,美国,英语,194
...,...,...,...,...,...,...,...,...,...,...,...
245,浪潮,2008,8.7,223511,丹尼斯·甘塞尔,丹尼斯·甘塞尔 / 彼得·图万斯 / 约翰尼·道金斯 / 罗恩·比恩巴赫 / 罗恩·琼斯,于尔根·福格尔 / 弗雷德里克·劳 / 马克思·雷迈特 / 詹妮弗·乌尔里希 / 克里斯蒂安...,剧情 / 惊悚,德国,德语,107
246,小萝莉的猴神大叔,2015,8.4,404886,卡比尔·汗,卡比尔·汗 / 维杰耶德拉·普拉萨德,萨尔曼·汗 / 哈莎莉·马洛特拉 / 卡琳娜·卡普尔 / 纳瓦祖丁·席迪圭 / 欧姆·普瑞 ...,剧情 / 喜剧 / 动作,印度,印地语,159
247,追随,1998,8.9,149521,克里斯托弗·诺兰,克里斯托弗·诺兰,杰里米·西奥伯德 / 亚历克斯·霍 / 露西·拉塞尔 / 约翰·诺兰 / 迪克·布拉德塞尔 ...,悬疑 / 惊悚 / 犯罪,英国,英语,69
248,网络谜踪,2018,8.6,430811,阿尼什·查甘蒂,阿尼什·查甘蒂 / 赛弗·奥哈尼安,约翰·赵 / 米切尔·拉 / 黛博拉·梅辛 / 约瑟夫·李 / 萨拉·米博·孙 / 亚历克丝...,剧情 / 悬疑 / 惊悚 / 犯罪,美国,英语,102


### 22 从 SQL 读取数据

<br>

有时我们需要从 `SQL` 中读取数据，如果先将数据导出再`pandas`读取并不是一个合适的选择。

在 `pandas` 中支持直接从 `sql` 中查询并读取。

为了方便统一操作，请先执行下面的代码创建数据。

In [16]:
from sqlite3 import connect
conn = connect(':memory:')
df = pd.DataFrame(data=[[0, '10/11/12'], [1, '12/11/10']],
                  columns=['int_column', 'date_column'])
df.to_sql('test_data', conn)

2

下面将 `SQL` 语句 `SELECT int_column, date_column FROM test_data` 转换为 `DataFrame`

In [20]:
pd.read_sql("SELECT int_column, date_column FROM test_data", con=conn)

Unnamed: 0,int_column,date_column
0,0,10/11/12
1,1,12/11/10


### 23 从网页读取数据

<br>

直接从东京奥运会官网读取奖牌榜数据。

目标网站地址为 `https://olympics.com/tokyo-2020/olympic-games/zh/results/all-sports/medal-standings.htm`

思考：什么类型的在线表格可以直接读取？

In [27]:
pd.read_html("https://olympics.com/tokyo-2020/olympic-games/zh/results/all-sports/medal-standings.html")

ImportError: lxml not found, please install it

### 24 循环读取数据

<br>

在本小节 `demodata` 文件夹下有多个 `Excel` 文件，要求一次性循环读取全部文件

In [29]:
import os

df_list = []
for fn in os.listdir("./demodata"):
    df_list.append(pd.read_excel(f"./demodata/{fn}"))

In [30]:
df_list

[             日期  日增长率    涨跌          持有金额   剩余本金   操作           总资产
 0    2020-01-02  2.92    up      0.000000  20000  NaN  20000.000000
 1    2020-01-03  0.51    up      0.000000  20000  NaN  20000.000000
 2    2020-01-06  1.98    up      0.000000  20000  NaN  20000.000000
 3    2020-01-07  0.17    up      0.000000  20000  NaN  20000.000000
 4    2020-01-08 -1.16  down      0.000000  20000  NaN  20000.000000
 ..          ...   ...   ...           ...    ...  ...           ...
 336  2021-05-26 -1.50  down  16071.686368   4900  NaN  20971.686368
 337  2021-05-27  1.27    up  16275.796785   4900  buy  21175.796785
 338  2021-05-28  0.58    up  16470.625536   4800  NaN  21270.625536
 339  2021-05-31  2.32    up  16852.744049   4800  NaN  21652.744049
 340  2021-06-01 -0.57  down  16756.683407   4800  NaN  21556.683407
 
 [341 rows x 7 columns],
              日期  日增长率    涨跌          持有金额   剩余本金   操作           总资产
 0    2020-01-02  2.37    up      0.000000  20000  NaN  20000.000000
 1    2

## 1-2 数据创建

<br>

除了直接读取本地文件，学会直接创建数据框也很重要，常见于测试一些函数，下面是从常见数据结构创建数据框的方法整理

### 25 从列表创建

<br>

将下面的 `list` 转换为 `dataframe`，并指定列名为`"早起Python"`

In [32]:
l = [1,2,3,4,5]

In [34]:
df = pd.DataFrame({"早起Python": l})
df

Unnamed: 0,早起Python
0,1
1,2
2,3
3,4
4,5


### 26 从列表创建｜嵌套列表

<br>

将下面的 `list` 转换为 `dataframe`，并指定行索引为`"公众号","早起Python"`

In [36]:
l = [[1,2,3],[4,5,6]]

In [39]:
pd.DataFrame(l, index=["公众号","早起Python"])

Unnamed: 0,0,1,2
公众号,1,2,3
早起Python,4,5,6


### 27 从字典创建

执行下方代码，并将字典转换为`dataframe`

In [40]:
d = {
    "one": pd.Series([1.0, 2.0, 3.0], index=["a", "b", "c"]),
    "two": pd.Series([1.0, 2.0, 3.0, 4.0], index=["a", "b", "c", "d"]) }

In [41]:
pd.DataFrame(d)

Unnamed: 0,one,two
a,1.0,1.0
b,2.0,2.0
c,3.0,3.0
d,,4.0


### 28 从字典创建｜指定索引

<br>

还是上一题的字典`d`，将其转换为`dataframe`并指定索引顺序为 `d、b、a`

In [42]:
pd.DataFrame(d, index=["d","b", "a"])

Unnamed: 0,one,two
d,,4.0
b,2.0,2.0
a,1.0,1.0


### 29 从字典创建｜指定列名

<br>

还是上一题的字典`d`，将其转换为`dataframe`并指定索引顺序为 `d、b、a`，列名为`"two", "three"`

In [44]:
pd.DataFrame(d, index=["d","b", "a"], columns=['two', 'three'])

Unnamed: 0,two,three
d,4.0,
b,2.0,
a,1.0,


### 30 从字典创建｜字典列表
<br>

将下方列表型字典转换为`dataframe`

思考：如何指定行/列索引？

In [45]:
d = [{"a": 1, "b": 2}, {"a": 5, "b": 10, "c": 20}]

In [46]:
pd.DataFrame(d)

Unnamed: 0,a,b,c
0,1,2,
1,5,10,20.0


### 31 从集合创建

<br>

将下面的元组转换为 dataframe 且行列索引均为 `1,2,3,4`

In [49]:
t =((1,0,0,0,),(2,3,0,0,),(4,5,6,0,),(7,8,9,10,))

In [50]:
pd.DataFrame(t, index=[1,2,3,4], columns=[1,2,3,4])

Unnamed: 0,1,2,3,4
1,1,0,0,0
2,2,3,0,0
3,4,5,6,0
4,7,8,9,10


## 1-3 数据存储

### 32 保存为 CSV

<br>

将第三题读取到的数据保存为 `csv` 格式至当前目录下（文件名任意）

In [51]:
data = pd.read_csv("某招聘网站数据.csv",nrows = 20)

In [53]:
data.to_csv("temp.csv")

### 33 保存为 CSV｜指定列

<br>

将第三题读取到的数据保存为 `csv` 格式至当前目录下（文件名任意），且只保留`positionName、salary`两列

In [55]:
data.to_csv("temp.csv", columns=["positionName", "salary"])

### 34 保存为 CSV｜取消索引

<br>

将第三题读取到的数据保存为 `csv` 格式至当前目录下（文件名任意），且取消每一行的索引

In [56]:
data.to_csv("temp.csv", index=False)

### 35 保存为 CSV｜标记缺失值

<br>

在上一题的基础上，在保存的同时，将缺失值标记为`'数据缺失'`

In [57]:
data.to_csv("temp.csv", index=False, na_rep="数据缺失")

### 36 保存为CSV｜压缩

<br>

将上一题的数据保存至 `zip` 文件，解压后出现 `out.csv`

In [58]:
data.to_csv("out.zip", index=False, na_rep="数据缺失", 
            compression={"method": "zip", "archive_name": "out.csv"})

### 37 保存为 Excel 

<br>

将第三题读取到的数据保存为 `xlsx` 格式至当前目录下（文件名任意）

In [59]:
data.to_excel("out.xlsx")

### 38 保存为 JSON

将之前的数据保存为 `json` 格式至当前目录下（文件名任意）

In [64]:
data.to_json("out.json", index=False, orient="split", force_ascii=False)

### 39 保存为 Markdown

将之前数据转换为 `markdown` 形式表格，这样可以直接复制进 `.md` 文件中使用

In [67]:
print(data.to_markdown(index=False))

|   positionId | positionName             |   companyId | companySize   | industryField       | financeStage   | companyLabelList                                       | firstType        | secondType   | thirdType    | skillLables                                   | positionLables                                                      | industryLables                                                      | createTime      | formatCreateTime   | district   | businessZones                    |   salary | workYear   | jobNature   | education   | positionAdvantage                        | imState   | lastLogin       |   publisherId |   approve | subwayline   | stationname   | linestaion                               |   latitude |   longitude | hitags                                                                                                                                                                                  |   resumeProcessRate |   resumeProcessDay |   score |   newScore | 

### 40 保存为 Html

将之前的数据保存为 `html` 格式至当前目录下（文件名任意），并进行如下设置
- 取消行索引
- 标题居中对齐
- 列宽100

In [72]:
data.to_html("temp.html",index=False, col_space=100, justify="center")

![](http://liuzaoqi.oss-cn-beijing.aliyuncs.com/2021/09/16/16317972442543.jpg?域名/sample.jpg?x-oss-process=style/stylename)