# pandas 进阶修炼 ｜早起Python

**本习题由公众号【早起Python & 可视化图鉴】 原创，授权「和鲸社区」独家第三方平台发布。**


**转载及其他形式合作请与我们联系，未经授权严禁搬运及二次创作，侵权必究！**



本习题基于 `pandas` 版本 `1.1.3`，所有内容应当在 `Jupyter Notebook` 中执行以获得最佳效果。

不同版本之间写法可能会有少许不同，如若碰到此情况，你应该学会如何自行检索解决。

# 2 - pandas 个性化显示设置

在使用 `pandas` 时，有时默认的配置方案并不能让我们舒服的进行数据分析。

幸运的是，`pandas` 也支持我们**自定义显示、样式等个性化操作**

本节将部分常用的设置整理为习题形式，  **所有操作答案拿走即用。既可以刷一遍来了解有这样那样的设置，也可以保存用于速查手册**

注意：本习题中未提及的配置可以点击查阅 `pandas` 👉 [**官方文档对应文章**](https://pandas.pydata.org/pandas-docs/stable/user_guide/options.html)


 

## 初始化



该 `Notebook` 版本为**习题+答案版**


请执行下方单元格以初始化读取本节习题的答案

执行完毕后，你可以使用 `ans(1)` 来查看第 1 题的参考解答，其余习题类似。

注意：所有答案并非固定（唯一），我提供的答案仅供参考（并非推荐答案或者最优解）

如果发现任何错误或者你有更好的解答，可以微信搜索公众号「早起Python」提交以获得奖励！


In [1]:
### 请务必执行本单元格加载本章所需要的数据与答案！
### 本单元格仅需执行一次！
### 由于和鲸社区数据缓存有一定时效，如若在后续的使用过程中出现数据文件不存在的问题，请重新执行本单元格以加载数据
###! mkdir data2 > /dev/null 2>&1 && wget http://101.34.8.201:8080/pandas300/data/data2.zip > /dev/null 2>&1 && unzip /home/mw/project/data2.zip -d /home/mw/project/data2 > /dev/null 2>&1

import sys
import os
import pandas as pd
from inits import initialize,ans
res = initialize("answer-2.txt")

***************正在初始化***************
*************读取到配置文件*************
***************初始化成功***************


## 加载数据

导入 `pandas` 并读取当前目录下 `csv` 数据(`data.csv`)

In [2]:
import pandas as pd

In [3]:
data = pd.read_csv("data.csv")

## 2-1 基于 option 修改显示设置


在 `pandas` 中有一个 `option` 系统，可以通过 `set_option`方法进行进阶显示选项设置。

本小节主要整理了一些基于 `option` 修改数据显示的设置。

注意【**基于 option 修改显示设置**】并未修改数据，仅是在原有数据基础上优化显示状态，随时可以通过重置选项重置全部设置，恢复数据默认显示状态。

### 1 显示全部列



如下图所示👇，直接查看 `data` 会发现，由于数据维度较大，部分行列会被折叠，显示为`...`，现在需要显示全部的列方便预览。

![](http://liuzaoqi.oss-cn-beijing.aliyuncs.com/2021/08/19/16293397012946.jpg?域名/sample.jpg?x-oss-process=style/stylename)

在下面的 cell 中输入你的解决方案，并在最后执行 `data.head()`以检查你的答案是否正确解决问题。

In [4]:
data.head()
ans(1)

pd.set_option('display.max_columns', None) #显示全部列
# pd.set_option('display.max_rows', None) # 显示全部行


### 2 显示指定行/列



指定让 `data` 在预览时显示10列，7行

In [5]:
pd.set_option('display.max_columns', 10)
pd.set_option('display.rows', 7)
ans(2)

pd.set_option('display.max_columns', 10)  
pd.set_option('display.max_rows', 7)


### 3 还原行/列显示数


还原上面的显示设置

In [6]:
ans(3)

pd.reset_option("max_rows")
pd.reset_option("max_columns")


### 4 修改每列最大字符宽度



即每列最多显示的字符长度，例如【每列最多显示10个字符，多余的会变成`...`】

### 5 修改小数点精度



修改默认显示精度为小数点后5位

### 6 还原所有显示设置

还原上面的全部显示设置

## 2-2 更多 option 相关设置

### 7 忽略警告


取消`pandas`相关`warning`提示

In [7]:
ans(7)

pd.set_option("mode.chained_assignment", None) 


### 8 设置数值显示条件

如果数值小于 20 则显示为0

In [8]:
ans(8)

pd.set_option('chop_threshold', 20) 


### 9 让 pandas 支持 LaTex

让`dataframe`中内容支持 `Latex` 显示（需要使用`$$`包住）

### 10 修改默认绘图引擎

修改`pandas`默认绘图引擎为`plotly`（需要提前安装好`plotly`）

### 11 还原所有 option 设置

还原上面全部 option 设置

### 彩蛋

如何设置在预览数据时，不换行显示每列内容？

![](http://liuzaoqi.oss-cn-beijing.aliyuncs.com/2021/08/19/16293394983242.jpg?域名/sample.jpg?x-oss-process=style/stylename)

## 2-3 基于 style  个性化设置

上面基于 `option` 的 `pandas` 相关设置是<font color=#E36C07>全局配置</font>，一次设置会在关闭notebook前一直有效

但相关常用的设置并不多，不能满足更多的个性化需求。

幸运的是在 `pandas` 中提供 `Styler` 对象让我们进一步个性化展示数据。

本节我就将一些常用的基于 `style` 个性化设置整理为习题模式方便大家学习、巩固。

注意：基于 `style` 个性化设置<font color=#E36C07>**同样不会修改数据**</font>，所有 `data.style.xxxx` 输出的数据均是<font color=#E36C07>一次性的（可以复用、导出）</font>，因此你应该在合适的时间选择使用该方法。

下面仅列举常用的方法，若想了解更多可以查阅[**pandas官方文档对应文章👉**](https://pandas.pydata.org/pandas-docs/stable/user_guide/style.html)

###  重新加载数据

为了方便理解，重新读取`data.csv`**前20行指定列**
- `'positionName'`
- `'createTime'`（设置为时间格式）
- `'salary'`
- `'subwayline'`
- `'matchScore'`

In [9]:
data = pd.read_csv("data.csv", usecols=[
                   'positionName', 'createTime', 'salary', 'subwayline', 'matchScore'], nrows=20, parse_dates=['createTime'])

### 12 隐藏索引



隐藏索引列

In [10]:
ans(12)

data.style.hide_index()


### 13 调整精度



将带有小数点的列精度调整为小数点后2位

In [11]:
ans(13)

data.style.set_precision(2)


### 14 标记缺失值

将缺失值标记为`数据缺失`

In [12]:
ans(14)

(data
.style
.set_na_rep("数据缺失"))


微信搜索公众号「早起Python」，关注后可以获得更多资源！

### 15 高亮缺失值



将缺失值高亮，颜色名`skyblue`

### 16 高亮数值列最大值

将 数值格式列的最大值进行高亮

### 17 高亮数值列最小值

将 数值格式列的最小值进行高亮

### 18 同时高亮最大最小值



同时高亮最大值（颜色代码为`#F77802`）与最小值（颜色代码为`#26BE49`）

### 19 指定格式高亮

高亮 `salary` 列范围在 3000 - 10000 的数值

### 20 渐变显示数值列

将数值格式的列使用渐变色（绿色）进行显示，以突出趋势

### 21 修改字体颜色



将 `salary` 列修改为红色字体

### 22 修改背景颜色、对齐方式、字体大小


将整个 `dataframe` 进行如下设置：
- 居中
- 背景色修改为 `#F8F8FF`
- 字体:13px

### 23 综合(链式)设置


除了上面的单个设置，还可以将多个设置进行结合，下面对整个 `dataframe` 进行如下设置：
- 居中
- 背景色修改为 `#F8F8FF`
- 字体:13px

并将 `salary` 列字体修改为红色

### 24 导出样式

将上一题带有样式的 `pandas` 数据框导出为本地 Excel(`.xlsx`格式)

### 25 制作指定列条形图



在 `pandas` 中对 `salary` 列使用条形图进行可视化，指定颜色`skyblue`

### 26 带有条件的样式（自定义样式）

将 `salary` 列数值大于 30000 的单元格字体修改为红色

### 27 格式化输出日期类型



将 `createTime` 列格式化输出为 `xx年xx月xx日` 

[链接](https://stackoverflow.com/questions/38067704/how-to-change-the-datetime-format-in-pandas/38067805)

### 28 指定（自定义）格式化数据



- 在 `salary` 列后增加"元"
- 对 `matchScore` 列保留两位小数并增加"分"


![](http://liuzaoqi.oss-cn-beijing.aliyuncs.com/2021/09/16/16317972442543.jpg?域名/sample.jpg?x-oss-process=style/stylename)