# pandas 进阶修炼 ｜早起Python

**本习题由公众号【早起Python & 可视化图鉴】 原创，授权「和鲸社区」独家第三方平台发布。**


**转载及其他形式合作请与我们联系，未经授权严禁搬运及二次创作，侵权必究！**



本习题基于 `pandas` 版本 `1.1.3`，所有内容应当在 `Jupyter Notebook` 中执行以获得最佳效果。

不同版本之间写法可能会有少许不同，如若碰到此情况，你应该学会如何自行检索解决。

# 1 - 数据加载与存储 

是的，常常被忽略的「**数据加载与存储**」也大有门道且值得作为本套习题的开门之章。

在一次数据分析的过程中，你可能只会读取或存储一两次数据集。

**但若能灵活掌握各项设置，在读取阶段就将数据筛选、匹配、格式指定等操作完成，有时会为我们节省大量时间。**

在本节习题中，我将 pandas 数据分析中常见的数据读取与存储操作进行整理。

**既可以用于巩固、学习各种操作，也可以作为速查手册使用**。

## 初始化



该 `Notebook` 版本为**习题+答案版**


**请执行下方单元格以初始化读取本节习题的答案**

执行完毕后，你可以使用  	`ans(1)` 来查看第 1 题的参考解答，其余习题类似。

注意：所有答案并非固定（唯一），我提供的答案仅供参考（并非推荐答案或者最优解）

如果发现任何错误或者你有更好的解答，可以微信搜索公众号「早起Python」提交以获得奖励！


In [2]:
### 请务必执行本单元格加载本章所需要的数据与答案！
### 本单元格仅需执行一次！
### 由于和鲸社区数据缓存有一定时效，如若在后续的使用过程中出现数据文件不存在的问题，请重新执行本单元格以加载数据
! mkdir data1 > /dev/null 2>&1 && wget http://101.34.8.201:8080/pandas300/data/data1.zip > /dev/null 2>&1 && unzip /home/mw/project/data1.zip -d /home/mw/project/data1 > /dev/null 2>&1

import sys
import os
import pandas as pd
os.chdir('data1')
from inits import initialize,ans
res = initialize("answer-1.txt")

## 1-1 数据读取

### 1 读取 Excel 文件

- 读取当前目录下 `某招聘网站数据.csv` 文件

- 读取当前目录下 `TOP250.xlsx` 文件

**注意**：使用 `pandas` 读取 `CSV` 与 读取 `xlsx` 格式的 `Excel` 文件方法大致相同

因此接下来与 `Excel` 相关的操作均以 `CSV` 格式进行出题。

In [1]:
ans(1) # 查看第一题答案

NameError: name 'ans' is not defined

### 2 读取 Excel 文件｜指定位置

在大多数情况下，我们会将 `notebook` 和数据源文件放在同一个目录（文件夹下），这样直接使用`pd.read_xxx("文件名")`即可成功读取。
 
但有时需要读取的文件和 `notebook` 不在同一个目录下，这时可以使用绝对路径或者相对本 `notebook` 的路径。

现在请读取本套习题中第二章节下的数据，即 `2 - 个性化显示设置/data.csv`

###  3 读取 Excel 文件｜指定行（顺序）


读取当前目录下 `某招聘网站数据.csv` 文件的 <font color = '#5F5FFC'>前20行</font>

###  4 读取 Excel 文件｜指定行（跳过）



读取当前目录下 `某招聘网站数据.csv` 文件并<font color = '#5F5FFC'>跳过前20行</font>

###  5 读取 Excel 文件｜指定行（条件）


读取当前目录下 `某招聘网站数据.csv` 文件中全部<font color = '#5F5FFC'>偶数行</font>

思考：如果是读取全部奇数行，或者更多满足指定条件的行呢？

![公众号：早起Python](http://liuzaoqi.oss-cn-beijing.aliyuncs.com/2021/09/18/16319660121648.jpg?域名/sample.jpg?x-oss-process=style/stylename)

### 6 读取 Excel 文件｜指定列（列号）



**根据指定列号读取**

读取当前目录下 `某招聘网站数据.csv` 文件的第 `1、3、5` 列

###  7 读取 Excel 文件｜指定列（列名）



**根据指定列名读取**

读取当前目录下 `某招聘网站数据.csv` 文件的 `positionId、positionName、salary` 列

###  8 读取 Excel 文件｜指定列（匹配）



**根据指定列名匹配读取**

让我们来个更难一点的，还是读取 `某招聘网站数据.csv` 文件，但现在有一个 list 中包含多个字段👇

`usecols = ['positionId','test','positionName', 'test1','salary']`

如果 `usecols` 中的列名存在于 `某招聘网站数据.csv` 中，则读取。

### 9 读取 Excel 文件｜指定索引



读取当前目录下 `某招聘网站数据.csv` 文件，并在读取时将 `positionId` 设置为索引列

###  10 读取 Excel 文件｜指定标题




读取当前目录下 `某招聘网站数据.csv` 文件的 `positionId、positionName、salary` 列，并将标题设置为 `ID、岗位名称、薪资`

微信搜索公众号「早起Python」，关注后可以获得更多资源！

###  11 读取 Excel 文件｜缺失值转换




读取当前目录下 `某招聘网站数据.csv` 文件，**并不将缺失值标记为 `NA`**

思考：为什么要这样做？

###  12 读取 Excel 文件｜缺失值标记




读取当前目录下 `某招聘网站数据.csv` 文件，**并将`[]`标记为缺失值**


### 13 读取 Excel 文件｜忽略缺失值



读取当前目录下 `某招聘网站数据.csv` 文件，**但不处理缺失值**

思考：和之前的有什么不同，为什么这么做？

### 14 读取 Excel 文件｜指定格式



读取当前目录下 `某招聘网站数据.csv` 文件，并将 `positionId,companyId` 设置为字符串格式

### 15 读取 Excel 文件｜指定格式（时间）



读取当前目录下 `某招聘网站数据.csv` 文件，并将 `createTime` 列设置为字符串格式

### 16 读取 Excel 文件｜分块读取




读取当前目录下 `某招聘网站数据.csv` 文件，要求返回一个可迭代对象，每次读取 10 行

思考：为什么这样做？

### 17 读取 txt 文件｜常规



读取当前目录下 `Titanic.txt` 文件。

注意：在接下来的几种格式文件读取中，对于之前重复的参数/功能将不再整理，仅介绍读取功能。

### 18 读取 txt 文件｜含中文



读取当前目录下 `TOP250.txt` 文件。

### 19 读取 JSON 文件





读取当前目录下 `某基金数据.json` 文件。

### 20 读取 HDF5 文件



`HDF5`是一种特殊的文件格式，常见于在大规模存储数据上

关于 `pandas` 与 `hdf5` 格式文件的操作较多，下面仅学习如何读取。

读取当前目录下`store_tl.h5`文件

### 21 从剪贴板读取数据



打开当前目录下 `Titanic.txt` 文件，全选并复制。

现在直接从剪贴板读取数据。

### 22 从 SQL 读取数据



有时我们需要从 `SQL` 中读取数据，如果先将数据导出再`pandas`读取并不是一个合适的选择。

在 `pandas` 中支持直接从 `sql` 中查询并读取。

为了方便统一操作，请先执行下面的代码创建数据。

下面将 `SQL` 语句 `SELECT int_column, date_column FROM test_data` 转换为 `DataFrame`

Unnamed: 0,int_column,date_column
0,0,10/11/12
1,1,12/11/10


### 23 从网页读取数据



直接从东京奥运会官网读取奖牌榜数据。

目标网站地址为 `https://olympics.com/tokyo-2020/olympic-games/zh/results/all-sports/medal-standings.htm`

思考：什么类型的在线表格可以直接读取？

### 24 循环读取数据



在本小节 `demodata` 文件夹下有多个 `Excel` 文件，要求一次性循环读取全部文件

## 1-2 数据创建



除了直接读取本地文件，学会直接创建数据框也很重要，常见于测试一些函数，下面是从常见数据结构创建数据框的方法整理

### 25 从列表创建



将下面的 `list` 转换为 `dataframe`，并指定列名为`"早起Python"`

In [137]:
l = [1,2,3,4,5]

### 26 从列表创建｜嵌套列表



将下面的 `list` 转换为 `dataframe`，并指定行索引为`"公众号","早起Python"`

In [150]:
l = [[1,2,3],[4,5,6]]

### 27 从字典创建

执行下方代码，并将字典转换为`dataframe`

In [124]:
d = {
    "one": pd.Series([1.0, 2.0, 3.0], index=["a", "b", "c"]),
    "two": pd.Series([1.0, 2.0, 3.0, 4.0], index=["a", "b", "c", "d"]) }

### 28 从字典创建｜指定索引



还是上一题的字典`d`，将其转换为`dataframe`并指定索引顺序为 `d、b、a`

### 29 从字典创建｜指定列名



还是上一题的字典`d`，将其转换为`dataframe`并指定索引顺序为 `d、b、a`，列名为`"two", "three"`

In [144]:
data = pd.DataFrame(d, index=["d", "b", "a"], columns=["two", "three"])

### 30 从字典创建｜字典列表


将下方列表型字典转换为`dataframe`

思考：如何指定行/列索引？

In [None]:
d = [{"a": 1, "b": 2}, {"a": 5, "b": 10, "c": 20}]

### 31 从集合创建



将下面的元组转换为 dataframe 且行列索引均为 `1,2,3,4`

In [163]:
t =((1,0,0,0,),(2,3,0,0,),(4,5,6,0,),(7,8,9,10,))

## 1-3 数据存储

### 32 保存为 CSV



将第三题读取到的数据保存为 `csv` 格式至当前目录下（文件名任意）

In [184]:
data = pd.read_csv("某招聘网站数据.csv",nrows = 20)

![](http://liuzaoqi.oss-cn-beijing.aliyuncs.com/2021/09/16/16317972442543.jpg?域名/sample.jpg?x-oss-process=style/stylename)

### 33 保存为 CSV｜指定列

<br>

将第三题读取到的数据保存为 `csv` 格式至当前目录下（文件名任意），且只保留`positionName、salary`两列

### 34 保存为 CSV｜取消索引

<br>

将第三题读取到的数据保存为 `csv` 格式至当前目录下（文件名任意），且取消每一行的索引

### 35 保存为 CSV｜标记缺失值

<br>

在上一题的基础上，在保存的同时，将缺失值标记为`'数据缺失'`

### 36 保存为CSV｜压缩

<br>

将上一题的数据保存至 `zip` 文件，解压后出现 `out.csv`

### 37 保存为 Excel 

<br>

将第三题读取到的数据保存为 `xlsx` 格式至当前目录下（文件名任意）

### 38 保存为 JSON

将之前的数据保存为 `json` 格式至当前目录下（文件名任意）

### 39 保存为 Markdown

将之前数据转换为 `markdown` 形式表格，这样可以直接复制进 `.md` 文件中使用

### 40 保存为 Html

将之前的数据保存为 `html` 格式至当前目录下（文件名任意），并进行如下设置
- 取消行索引
- 标题居中对齐
- 列宽100

![](http://liuzaoqi.oss-cn-beijing.aliyuncs.com/2021/09/16/16317972442543.jpg?域名/sample.jpg?x-oss-process=style/stylename)