# pandas 进阶修炼
<br>
本习题基于 `pandas` 版本 `1.1.3`，所有内容应当在 `Jupyter Notebook` 中执行以获得最佳效果。

不同版本之间写法可能会有少许不同，如若碰到此情况，你应该学会如何自行检索解决。

# 2 - pandas 个性化显示设置
<br>

在使用 `pandas` 时，有时默认的配置方案并不能让我们舒服的进行数据分析。

幸运的是，`pandas` 也支持我们 <font color=#E36C07>**自定义显示、样式等个性化操作**</font>。

本节将部分常用的设置整理为习题形式，<font color=#E36C07>  **所有操作答案拿走即用。既可以刷一遍来了解有这样那样的设置，也可以保存用于速查手册** </font>  

注意：本习题中未提及的配置可以点击查阅 `pandas` 👉 [**官方文档对应文章**](https://pandas.pydata.org/pandas-docs/stable/user_guide/options.html)


 

## 初始化

<br>

该 `Notebook` 版本为**习题+答案版**


请执行下方单元格以初始化读取本节习题的答案

执行完毕后，你可以使用 `ans(1)` 来查看第 1 题的参考解答，其余习题类似。

注意：所有答案并非固定（唯一），我提供的答案仅供参考（并非推荐答案或者最优解）



In [None]:
import sys
sys.path.append('../document/')
from inits import initialize,ans

res = initialize("../document/answer-2.txt")

## 加载数据

导入 `pandas` 并读取当前目录下 `csv` 数据(`data.csv`)

In [2]:
import pandas as pd

In [None]:
data = pd.read_csv("data.csv")

## 2-1 基于 option 修改显示设置
<br>

在 `pandas` 中有一个 `option` 系统，可以通过 `set_option`方法进行进阶显示选项设置。

本小节主要整理了一些基于 `option` 修改数据显示的设置。

注意【**基于 option 修改显示设置**】并未修改数据，仅是在原有数据基础上优化显示状态，随时可以通过重置选项重置全部设置，恢复数据默认显示状态。

### 1 显示全部列

<br>

如下图所示👇，直接查看 `data` 会发现，由于数据维度较大，部分行列会被折叠，显示为`...`，现在需要显示全部的列方便预览。

![](http://liuzaoqi.oss-cn-beijing.aliyuncs.com/2021/08/19/16293397012946.jpg?域名/sample.jpg?x-oss-process=style/stylename)

在下面的 cell 中输入你的解决方案，并在最后执行 `data.head()`以检查你的答案是否正确解决问题。

In [None]:
# 显示全部列
pd.set_option('display.max_columns', None)

# 显示全部行
pd.set_option('display.max_rows', None) 
data

### 2 显示指定行/列

<br>

指定让 `data` 在预览时显示10列，7行

In [None]:
# 不包含省略列
pd.set_option('display.max_columns', 10)

# 包含省略行
pd.set_option('display.max_rows', 7)

### 3 还原行/列显示数

<br>
还原上面的显示设置

In [None]:
# 还原列显示数
pd.reset_option("max_columns")

# 还原行显示数
pd.reset_option("max_rows")

data

### 4 修改每列最大字符宽度

<br>

即每列最多显示的字符长度，例如【每列最多显示10个字符，多余的会变成`...`】

In [None]:
pd.set_option('display.max_colwidth', 10)

In [None]:
import pandas as pd

df = pd.DataFrame({
    'A': ['A'*60, 'B'*60]
})
df

In [None]:
pd.set_option('display.max_colwidth', 10)
df

In [None]:
pd.set_option('display.max_colwidth', 100)
df

### 5 修改小数点精度

<br>

修改默认显示精度为小数点后5位

In [None]:
pd.set_option('precision',5)
data

### 6 还原所有显示设置

还原上面的全部显示设置

In [None]:
pd.reset_option("^display")
data

## 2-2 更多 option 相关设置

### 7 忽略警告
<br>

取消`pandas`相关`warning`提示

In [None]:
pd.set_option("mode.chained_assignment", None)

### 8 设置数值显示条件

如果数值小于 20 则显示为0

In [None]:
pd.set_option('chop_threshold', 20)
data

### 9 让 pandas 支持 LaTex

让`dataframe`中内容支持 `Latex` 显示（需要使用`$$`包住）

In [None]:
pd.set_option("display.html.use_mathjax", True)
data

### 10 修改默认绘图引擎

修改`pandas`默认绘图引擎为`plotly`（需要提前安装好`plotly`）

In [None]:
pd.set_option("plotting.backend", "plotly")

### 11 还原所有 option 设置

还原上面全部 option 设置

In [None]:
pd.reset_option("all")

### 彩蛋

如何设置在预览数据时，不换行显示每列内容？

![cnIt6I](https://upiclw.oss-cn-beijing.aliyuncs.com/uPic/cnIt6I.jpg)

## 2-3 基于 style  个性化设置

上面基于 `option` 的 `pandas` 相关设置是<font color=#E36C07>全局配置</font>，一次设置会在关闭notebook前一直有效

但相关常用的设置并不多，不能满足更多的个性化需求。

幸运的是在 `pandas` 中提供 `Styler` 对象让我们进一步个性化展示数据。

本节我就将一些常用的基于 `style` 个性化设置整理为习题模式方便大家学习、巩固。

注意：基于 `style` 个性化设置<font color=#E36C07>**同样不会修改数据**</font>，所有 `data.style.xxxx` 输出的数据均是<font color=#E36C07>一次性的（可以复用、导出）</font>，因此你应该在合适的时间选择使用该方法。

下面仅列举常用的方法，若想了解更多可以查阅[**pandas官方文档对应文章👉**](https://pandas.pydata.org/pandas-docs/stable/user_guide/style.html)

###  重新加载数据

为了方便理解，重新读取`data.csv`**前20行指定列**
- `'positionName'`
- `'createTime'`（设置为时间格式）
- `'salary'`
- `'subwayline'`
- `'matchScore'`

In [3]:
data = pd.read_csv("data.csv", usecols=[
                   'positionName', 'createTime', 'salary', 'subwayline', 'matchScore'], nrows=20, parse_dates=['createTime'])
data

Unnamed: 0,positionName,createTime,salary,subwayline,matchScore
0,数据分析,2020-03-16 11:00:00,37500,,15.101875
1,数据建模,2020-03-16 11:08:00,15000,,32.559414
2,数据分析,2020-03-16 10:33:00,3500,4号线,14.972357
3,数据分析,2020-03-16 10:10:00,45000,1号线,12.874153
4,数据分析,2020-03-16 09:56:00,30000,,12.755375
5,数据分析,2020-03-16 09:54:00,50000,,12.718732
6,数据分析,2020-03-16 09:41:00,30000,,12.615116
7,数据建模工程师,2020-03-16 11:18:00,35000,2号线,3.033237
8,数据分析专家,2020-03-16 10:57:00,60000,,1.141952
9,数据分析师,2020-03-16 11:18:00,40000,2号线,1.177361


### 12 隐藏索引

<br>

隐藏索引列

In [3]:
data.style.hide_index()

positionName,createTime,salary,subwayline,matchScore
数据分析,2020-03-16 11:00:00,37500,,15.101875
数据建模,2020-03-16 11:08:00,15000,,32.559414
数据分析,2020-03-16 10:33:00,3500,4号线,14.972357
数据分析,2020-03-16 10:10:00,45000,1号线,12.874153
数据分析,2020-03-16 09:56:00,30000,,12.755375
数据分析,2020-03-16 09:54:00,50000,,12.718732
数据分析,2020-03-16 09:41:00,30000,,12.615116
数据建模工程师,2020-03-16 11:18:00,35000,2号线,3.033237
数据分析专家,2020-03-16 10:57:00,60000,,1.141952
数据分析师,2020-03-16 11:18:00,40000,2号线,1.177361


### 13 调整精度

<br>

将带有小数点的列精度调整为小数点后2位

In [4]:
# data.style.set_precision(2)
data.style.format(precision = 2)

Unnamed: 0,positionName,createTime,salary,subwayline,matchScore
0,数据分析,2020-03-16 11:00:00,37500,,15.1
1,数据建模,2020-03-16 11:08:00,15000,,32.56
2,数据分析,2020-03-16 10:33:00,3500,4号线,14.97
3,数据分析,2020-03-16 10:10:00,45000,1号线,12.87
4,数据分析,2020-03-16 09:56:00,30000,,12.76
5,数据分析,2020-03-16 09:54:00,50000,,12.72
6,数据分析,2020-03-16 09:41:00,30000,,12.62
7,数据建模工程师,2020-03-16 11:18:00,35000,2号线,3.03
8,数据分析专家,2020-03-16 10:57:00,60000,,1.14
9,数据分析师,2020-03-16 11:18:00,40000,2号线,1.18


### 14 标记缺失值

将缺失值标记为`数据缺失`

In [6]:
# (data
# .style
# .set_na_rep("数据缺失"))
(data.style.format(na_rep = "数据缺失"))

Unnamed: 0,positionName,createTime,salary,subwayline,matchScore
0,数据分析,2020-03-16 11:00:00,37500,数据缺失,15.101875
1,数据建模,2020-03-16 11:08:00,15000,数据缺失,32.559414
2,数据分析,2020-03-16 10:33:00,3500,4号线,14.972357
3,数据分析,2020-03-16 10:10:00,45000,1号线,12.874153
4,数据分析,2020-03-16 09:56:00,30000,数据缺失,12.755375
5,数据分析,2020-03-16 09:54:00,50000,数据缺失,12.718732
6,数据分析,2020-03-16 09:41:00,30000,数据缺失,12.615116
7,数据建模工程师,2020-03-16 11:18:00,35000,2号线,3.033237
8,数据分析专家,2020-03-16 10:57:00,60000,数据缺失,1.141952
9,数据分析师,2020-03-16 11:18:00,40000,2号线,1.177361


### 15 高亮缺失值

<br>

将缺失值高亮，颜色名`skyblue`

In [None]:
# (data
# .style
# .set_na_rep("数据缺失")
# .highlight_null(null_color='skyblue'))
(data.style.format(na_rep = "数据缺失").highlight_null(null_color='skyblue'))

### 16 高亮数值列最大值
<br>
将 数值格式列的最大值进行高亮

In [15]:
# data.style.highlight_max(subset = ['salary', 'matchScore'])
data.style.highlight_max(
    subset = [
        col for col in data.select_dtypes(include=['int', 'float']).columns
    ]
)

TypeError: '>=' not supported between instances of 'float' and 'str'

<pandas.io.formats.style.Styler at 0x122bec3a0>

### 17 高亮数值列最小值
<br>
将 数值格式列的最小值进行高亮

In [11]:
data.style.highlight_min(
    subset = [
        col for col in data.select_dtypes(include=['int', 'float']).columns
    ]
)

Unnamed: 0,positionName,createTime,salary,subwayline,matchScore
0,数据分析,2020-03-16 11:00:00,37500,,15.101875
1,数据建模,2020-03-16 11:08:00,15000,,32.559414
2,数据分析,2020-03-16 10:33:00,3500,4号线,14.972357
3,数据分析,2020-03-16 10:10:00,45000,1号线,12.874153
4,数据分析,2020-03-16 09:56:00,30000,,12.755375
5,数据分析,2020-03-16 09:54:00,50000,,12.718732
6,数据分析,2020-03-16 09:41:00,30000,,12.615116
7,数据建模工程师,2020-03-16 11:18:00,35000,2号线,3.033237
8,数据分析专家,2020-03-16 10:57:00,60000,,1.141952
9,数据分析师,2020-03-16 11:18:00,40000,2号线,1.177361


### 18 同时高亮最大最小值

<br>

同时高亮最大值（颜色代码为`#F77802`）与最小值（颜色代码为`#26BE49`）

In [12]:
cols = [col for col in data.select_dtypes(include=['int', 'float']).columns]
(data
 .style
 .highlight_max(subset = cols, color='#F77802')
 .highlight_min(subset = cols, color='#26BE49'))


Unnamed: 0,positionName,createTime,salary,subwayline,matchScore
0,数据分析,2020-03-16 11:00:00,37500,,15.101875
1,数据建模,2020-03-16 11:08:00,15000,,32.559414
2,数据分析,2020-03-16 10:33:00,3500,4号线,14.972357
3,数据分析,2020-03-16 10:10:00,45000,1号线,12.874153
4,数据分析,2020-03-16 09:56:00,30000,,12.755375
5,数据分析,2020-03-16 09:54:00,50000,,12.718732
6,数据分析,2020-03-16 09:41:00,30000,,12.615116
7,数据建模工程师,2020-03-16 11:18:00,35000,2号线,3.033237
8,数据分析专家,2020-03-16 10:57:00,60000,,1.141952
9,数据分析师,2020-03-16 11:18:00,40000,2号线,1.177361


### 19 指定格式高亮

高亮 `salary` 列范围在 3000 - 10000 的数值

In [9]:
(data
 .style
 .highlight_between(left=3000, right=10000, subset=['salary']))

Unnamed: 0,positionName,createTime,salary,subwayline,matchScore
0,数据分析,2020-03-16 11:00:00,37500,,15.101875
1,数据建模,2020-03-16 11:08:00,15000,,32.559414
2,数据分析,2020-03-16 10:33:00,3500,4号线,14.972357
3,数据分析,2020-03-16 10:10:00,45000,1号线,12.874153
4,数据分析,2020-03-16 09:56:00,30000,,12.755375
5,数据分析,2020-03-16 09:54:00,50000,,12.718732
6,数据分析,2020-03-16 09:41:00,30000,,12.615116
7,数据建模工程师,2020-03-16 11:18:00,35000,2号线,3.033237
8,数据分析专家,2020-03-16 10:57:00,60000,,1.141952
9,数据分析师,2020-03-16 11:18:00,40000,2号线,1.177361


### 20 渐变显示数值列

将数值格式的列使用渐变色（绿色）进行显示，以突出趋势

In [11]:
import seaborn as sns

cm = sns.light_palette("green", as_cmap=True)

(data
 .style
 .background_gradient(cmap=cm)
)

Unnamed: 0,positionName,createTime,salary,subwayline,matchScore
0,数据分析,2020-03-16 11:00:00,37500,,15.101875
1,数据建模,2020-03-16 11:08:00,15000,,32.559414
2,数据分析,2020-03-16 10:33:00,3500,4号线,14.972357
3,数据分析,2020-03-16 10:10:00,45000,1号线,12.874153
4,数据分析,2020-03-16 09:56:00,30000,,12.755375
5,数据分析,2020-03-16 09:54:00,50000,,12.718732
6,数据分析,2020-03-16 09:41:00,30000,,12.615116
7,数据建模工程师,2020-03-16 11:18:00,35000,2号线,3.033237
8,数据分析专家,2020-03-16 10:57:00,60000,,1.141952
9,数据分析师,2020-03-16 11:18:00,40000,2号线,1.177361


### 21 修改字体颜色

<br>

将 `salary` 列修改为红色字体

In [12]:
(data
.style
.set_properties(
    subset=['salary'], **{'color': 'red'}))


Unnamed: 0,positionName,createTime,salary,subwayline,matchScore
0,数据分析,2020-03-16 11:00:00,37500,,15.101875
1,数据建模,2020-03-16 11:08:00,15000,,32.559414
2,数据分析,2020-03-16 10:33:00,3500,4号线,14.972357
3,数据分析,2020-03-16 10:10:00,45000,1号线,12.874153
4,数据分析,2020-03-16 09:56:00,30000,,12.755375
5,数据分析,2020-03-16 09:54:00,50000,,12.718732
6,数据分析,2020-03-16 09:41:00,30000,,12.615116
7,数据建模工程师,2020-03-16 11:18:00,35000,2号线,3.033237
8,数据分析专家,2020-03-16 10:57:00,60000,,1.141952
9,数据分析师,2020-03-16 11:18:00,40000,2号线,1.177361


### 22 修改背景颜色、对齐方式、字体大小
<br>

将整个 `dataframe` 进行如下设置：
- 居中
- 背景色修改为 `#F8F8FF`
- 字体:13px

In [13]:
(data
.style
.set_properties(**{'background-color': '#F8F8FF','text-align':'center', 'font-size': '13px'}))

Unnamed: 0,positionName,createTime,salary,subwayline,matchScore
0,数据分析,2020-03-16 11:00:00,37500,,15.101875
1,数据建模,2020-03-16 11:08:00,15000,,32.559414
2,数据分析,2020-03-16 10:33:00,3500,4号线,14.972357
3,数据分析,2020-03-16 10:10:00,45000,1号线,12.874153
4,数据分析,2020-03-16 09:56:00,30000,,12.755375
5,数据分析,2020-03-16 09:54:00,50000,,12.718732
6,数据分析,2020-03-16 09:41:00,30000,,12.615116
7,数据建模工程师,2020-03-16 11:18:00,35000,2号线,3.033237
8,数据分析专家,2020-03-16 10:57:00,60000,,1.141952
9,数据分析师,2020-03-16 11:18:00,40000,2号线,1.177361


### 23 综合(链式)设置
<br>

除了上面的单个设置，还可以将多个设置进行结合，下面对整个 `dataframe` 进行如下设置：
- 居中
- 背景色修改为 `#F8F8FF`
- 字体:13px

并将 `salary` 列字体修改为红色

In [14]:
(data
.style
.set_properties(**{'background-color': '#F8F8FF','text-align':'center', 'font-size': '13px'})
.set_properties(
    subset=['salary'], **{'color': 'red'}))


Unnamed: 0,positionName,createTime,salary,subwayline,matchScore
0,数据分析,2020-03-16 11:00:00,37500,,15.101875
1,数据建模,2020-03-16 11:08:00,15000,,32.559414
2,数据分析,2020-03-16 10:33:00,3500,4号线,14.972357
3,数据分析,2020-03-16 10:10:00,45000,1号线,12.874153
4,数据分析,2020-03-16 09:56:00,30000,,12.755375
5,数据分析,2020-03-16 09:54:00,50000,,12.718732
6,数据分析,2020-03-16 09:41:00,30000,,12.615116
7,数据建模工程师,2020-03-16 11:18:00,35000,2号线,3.033237
8,数据分析专家,2020-03-16 10:57:00,60000,,1.141952
9,数据分析师,2020-03-16 11:18:00,40000,2号线,1.177361


### 24 导出样式

将上一题带有样式的 `pandas` 数据框导出为本地 Excel(`.xlsx`格式)

In [15]:
(data
.style
.set_properties(**{'background-color': '#F8F8FF','text-align':'center', 'font-size': '13px'})
.set_properties(
    subset=['salary'], **{'color': 'red'})).to_excel('带有样式导出.xlsx')


### 25 制作指定列条形图

<br>

在 `pandas` 中对 `salary` 列使用条形图进行可视化，指定颜色`skyblue`

In [16]:
(data
.style
.bar(subset=['salary'],color='skyblue'))


Unnamed: 0,positionName,createTime,salary,subwayline,matchScore
0,数据分析,2020-03-16 11:00:00,37500,,15.101875
1,数据建模,2020-03-16 11:08:00,15000,,32.559414
2,数据分析,2020-03-16 10:33:00,3500,4号线,14.972357
3,数据分析,2020-03-16 10:10:00,45000,1号线,12.874153
4,数据分析,2020-03-16 09:56:00,30000,,12.755375
5,数据分析,2020-03-16 09:54:00,50000,,12.718732
6,数据分析,2020-03-16 09:41:00,30000,,12.615116
7,数据建模工程师,2020-03-16 11:18:00,35000,2号线,3.033237
8,数据分析专家,2020-03-16 10:57:00,60000,,1.141952
9,数据分析师,2020-03-16 11:18:00,40000,2号线,1.177361


### 26 带有条件的样式（自定义样式）

将 `salary` 列数值大于 30000 的单元格字体修改为红色

In [17]:
def my_style(val):
 
    color = 'red' if val > 30000 else 'black'
    return 'color: %s' % color
 
 
data.style.applymap(my_style, subset="salary")


Unnamed: 0,positionName,createTime,salary,subwayline,matchScore
0,数据分析,2020-03-16 11:00:00,37500,,15.101875
1,数据建模,2020-03-16 11:08:00,15000,,32.559414
2,数据分析,2020-03-16 10:33:00,3500,4号线,14.972357
3,数据分析,2020-03-16 10:10:00,45000,1号线,12.874153
4,数据分析,2020-03-16 09:56:00,30000,,12.755375
5,数据分析,2020-03-16 09:54:00,50000,,12.718732
6,数据分析,2020-03-16 09:41:00,30000,,12.615116
7,数据建模工程师,2020-03-16 11:18:00,35000,2号线,3.033237
8,数据分析专家,2020-03-16 10:57:00,60000,,1.141952
9,数据分析师,2020-03-16 11:18:00,40000,2号线,1.177361


### 27 格式化输出日期类型

<br>

将 `createTime` 列格式化输出为 `xx年xx月xx日` 

[链接](https://stackoverflow.com/questions/38067704/how-to-change-the-datetime-format-in-pandas/38067805)

In [18]:
data.style.format({"createTime": lambda t: t.strftime("%Y年%m月%d日")})


Unnamed: 0,positionName,createTime,salary,subwayline,matchScore
0,数据分析,2020年03月16日,37500,,15.101875
1,数据建模,2020年03月16日,15000,,32.559414
2,数据分析,2020年03月16日,3500,4号线,14.972357
3,数据分析,2020年03月16日,45000,1号线,12.874153
4,数据分析,2020年03月16日,30000,,12.755375
5,数据分析,2020年03月16日,50000,,12.718732
6,数据分析,2020年03月16日,30000,,12.615116
7,数据建模工程师,2020年03月16日,35000,2号线,3.033237
8,数据分析专家,2020年03月16日,60000,,1.141952
9,数据分析师,2020年03月16日,40000,2号线,1.177361


### 28 指定（自定义）格式化数据

<br>

- 在 `salary` 列后增加"元"
- 对 `matchScore` 列保留两位小数并增加"分"


In [19]:
(data
.style
.format("{0:,.2f}分", subset="matchScore")
.format("{""}元", subset="salary"))

Unnamed: 0,positionName,createTime,salary,subwayline,matchScore
0,数据分析,2020-03-16 11:00:00,37500元,,15.10分
1,数据建模,2020-03-16 11:08:00,15000元,,32.56分
2,数据分析,2020-03-16 10:33:00,3500元,4号线,14.97分
3,数据分析,2020-03-16 10:10:00,45000元,1号线,12.87分
4,数据分析,2020-03-16 09:56:00,30000元,,12.76分
5,数据分析,2020-03-16 09:54:00,50000元,,12.72分
6,数据分析,2020-03-16 09:41:00,30000元,,12.62分
7,数据建模工程师,2020-03-16 11:18:00,35000元,2号线,3.03分
8,数据分析专家,2020-03-16 10:57:00,60000元,,1.14分
9,数据分析师,2020-03-16 11:18:00,40000元,2号线,1.18分
