# pandas 进阶修炼 ｜早起Python
<br>

**本习题由公众号【早起Python & 可视化图鉴】 原创，转载及其他形式合作请与我们联系（微信号`sshs321`)，未经授权严禁搬运及二次创作，侵权必究！**



本习题基于 `pandas` 版本 `1.1.3`，所有内容应当在 `Jupyter Notebook` 中执行以获得最佳效果。

不同版本之间写法可能会有少许不同，如若碰到此情况，你应该学会如何自行检索解决。

# 2 - pandas 个性化显示设置
<br>

在使用 `pandas` 时，有时默认的配置方案并不能让我们舒服的进行数据分析。

幸运的是，`pandas` 也支持我们 <font color=#E36C07>**自定义显示、样式等个性化操作**</font>。

本节将部分常用的设置整理为习题形式，<font color=#E36C07>  **所有操作答案拿走即用。既可以刷一遍来了解有这样那样的设置，也可以保存用于速查手册** </font>  

注意：本习题中未提及的配置可以点击查阅 `pandas` 👉 [**官方文档对应文章**](https://pandas.pydata.org/pandas-docs/stable/user_guide/options.html)


 

## 初始化

<br>

该 `Notebook` 版本为**纯习题版**

如果需要答案或者提示，可以微信搜索公众号「早起Python」获取！

## 加载数据

导入 `pandas` 并读取当前目录下 `csv` 数据(`data.csv`)

In [3]:
import pandas as pd

In [4]:
data = pd.read_csv("data.csv")

## 主要讲 pd.set_option() 和 df.style [Style](https://pandas.pydata.org/pandas-docs/stable/reference/style.html)

## 2-1 基于 option 修改显示设置
<br>

在 `pandas` 中有一个 `option` 系统，可以通过 `set_option`方法进行进阶显示选项设置。

本小节主要整理了一些基于 `option` 修改数据显示的设置。

注意【**基于 option 修改显示设置**】并未修改数据，仅是在原有数据基础上优化显示状态，随时可以通过重置选项重置全部设置，恢复数据默认显示状态。

### 1 显示全部列

<br>
如下图所示👇，直接查看 `data` 会发现，由于数据维度较大，部分行列会被折叠，显示为`...`，现在需要显示全部的列方便预览。

![](http://liuzaoqi.oss-cn-beijing.aliyuncs.com/2021/08/19/16293397012946.jpg?域名/sample.jpg?x-oss-process=style/stylename)

在下面的 cell 中输入你的解决方案，并在最后执行 `data.head()`以检查你的答案是否正确解决问题。

In [None]:
'''
# display.date_dayfirst：boolean
当value设置为True，print出来时，会将日期放在最前面。（如：20/01/2005）[default: False] [currently: False]

# display.date_yearfirst：boolean
当value设置为True时，print出来时，会将年份放在最前面。（如：2005/01/20）[default: False] [currently: False]

'''


In [None]:
pd.set_option('display.max_columns', None) # 显示全部行
data

### 2 显示指定行/列

<br>

指定让 `data` 在预览时显示10列，7行

### 3 还原行/列显示数

<br>
还原上面的显示设置

In [10]:
pd.reset_option("max_rows")
pd.reset_option("max_columns")

### 4 修改每列最大字符宽度

<br>

即每列最多显示的字符长度，例如【每列最多显示10个字符，多余的会变成`...`】

### 5 修改小数点精度

<br>

修改默认显示精度为小数点后5位

### 6 还原所有显示设置

还原上面的全部显示设置

In [11]:
pd.reset_option("^display")

## 2-2 更多 option 相关设置

### 7 忽略警告
<br>

取消`pandas`相关`warning`提示

### 8 设置数值显示条件

如果数值小于 20 则显示为0

### 9 让 pandas 支持 LaTex

让`dataframe`中内容支持 `Latex` 显示（需要使用`$$`包住）

### 10 修改默认绘图引擎

修改`pandas`默认绘图引擎为`plotly`（需要提前安装好`plotly`）

### 11 还原所有 option 设置

还原上面全部 option 设置

### 彩蛋

如何设置在预览数据时，不换行显示每列内容？

![](http://liuzaoqi.oss-cn-beijing.aliyuncs.com/2021/08/19/16293394983242.jpg?域名/sample.jpg?x-oss-process=style/stylename)

## 2-3 基于 style  个性化设置

上面基于 `option` 的 `pandas` 相关设置是<font color=#E36C07>全局配置</font>，一次设置会在关闭notebook前一直有效

但相关常用的设置并不多，不能满足更多的个性化需求。

幸运的是在 `pandas` 中提供 `Styler` 对象让我们进一步个性化展示数据。

本节我就将一些常用的基于 `style` 个性化设置整理为习题模式方便大家学习、巩固。

注意：基于 `style` 个性化设置<font color=#E36C07>**同样不会修改数据**</font>，所有 `data.style.xxxx` 输出的数据均是<font color=#E36C07>一次性的（可以复用、导出）</font>，因此你应该在合适的时间选择使用该方法。

下面仅列举常用的方法，若想了解更多可以查阅[**pandas官方文档对应文章👉**](https://pandas.pydata.org/pandas-docs/stable/user_guide/style.html)

###  重新加载数据

为了方便理解，重新读取`data.csv`**前20行指定列**
- `'positionName'`
- `'createTime'`（设置为时间格式）
- `'salary'`
- `'subwayline'`
- `'matchScore'`

In [170]:
data = pd.read_csv("data.csv", usecols=[
                   'positionName', 'createTime', 'salary', 'subwayline', 'matchScore'], nrows=20, parse_dates=['createTime'])

### 12 隐藏索引

<br>

隐藏索引列

### 13 调整精度

<br>

将带有小数点的列精度调整为小数点后2位

### 14 标记缺失值

将缺失值标记为`数据缺失`

微信搜索公众号「早起Python」，关注后可以获得更多资源！

### 15 高亮缺失值

<br>

将缺失值高亮，颜色名`skyblue`

### 16 高亮数值列最大值
<br>
将 数值格式列的最大值进行高亮

### 17 高亮数值列最小值
<br>
将 数值格式列的最小值进行高亮

### 18 同时高亮最大最小值

<br>

同时高亮最大值（颜色代码为`#F77802`）与最小值（颜色代码为`#26BE49`）

### 19 指定格式高亮

高亮 `salary` 列范围在 3000 - 10000 的数值

### 20 渐变显示数值列

将数值格式的列使用渐变色（绿色）进行显示，以突出趋势

### 21 修改字体颜色

<br>

将 `salary` 列修改为红色字体

### 22 修改背景颜色、对齐方式、字体大小
<br>

将整个 `dataframe` 进行如下设置：
- 居中
- 背景色修改为 `#F8F8FF`
- 字体:13px

### 23 综合(链式)设置
<br>

除了上面的单个设置，还可以将多个设置进行结合，下面对整个 `dataframe` 进行如下设置：
- 居中
- 背景色修改为 `#F8F8FF`
- 字体:13px

并将 `salary` 列字体修改为红色

### 24 导出样式

将上一题带有样式的 `pandas` 数据框导出为本地 Excel(`.xlsx`格式)

### 25 制作指定列条形图

<br>

在 `pandas` 中对 `salary` 列使用条形图进行可视化，指定颜色`skyblue`

### 26 带有条件的样式（自定义样式）

将 `salary` 列数值大于 30000 的单元格字体修改为红色

### 27 格式化输出日期类型

<br>

将 `createTime` 列格式化输出为 `xx年xx月xx日` 

### 28 指定（自定义）格式化数据

<br>

- 在 `salary` 列后增加"元"
- 对 `matchScore` 列保留两位小数并增加"分"


![](http://liuzaoqi.oss-cn-beijing.aliyuncs.com/2021/09/16/16317972442543.jpg?域名/sample.jpg?x-oss-process=style/stylename)

In [14]:
import pandas as pd
import numpy as np

df = pd.DataFrame([[38.0, 2.0, 18.0, 22.0, 21, np.nan],[19, 439, 6, 452, 226,232]],
                  index=pd.Index(['Tumour (Positive)', 'Non-Tumour (Negative)'], name='Actual Label:'),
                  columns=pd.MultiIndex.from_product([['Decision Tree', 'Regression', 'Random'],['Tumour', 'Non-Tumour']], names=['Model:', 'Predicted:']))
# df.style
df

Model:,Decision Tree,Decision Tree,Regression,Regression,Random,Random
Predicted:,Tumour,Non-Tumour,Tumour,Non-Tumour,Tumour,Non-Tumour
Actual Label:,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Tumour (Positive),38.0,2.0,18.0,22.0,21,
Non-Tumour (Negative),19.0,439.0,6.0,452.0,226,232.0


In [15]:
df.style

Model:,Decision Tree,Decision Tree,Regression,Regression,Random,Random
Predicted:,Tumour,Non-Tumour,Tumour,Non-Tumour,Tumour,Non-Tumour
Actual Label:,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Tumour (Positive),38.0,2.0,18.0,22.0,21,
Non-Tumour (Negative),19.0,439.0,6.0,452.0,226,232.0


In [35]:
import numpy as np
np.random.seed(0)
df2 = pd.DataFrame(np.random.randn(10,4), columns=['A','B','C','D'])
df2.style

Unnamed: 0,A,B,C,D
0,1.764052,0.400157,0.978738,2.240893
1,1.867558,-0.977278,0.950088,-0.151357
2,-0.103219,0.410599,0.144044,1.454274
3,0.761038,0.121675,0.443863,0.333674
4,1.494079,-0.205158,0.313068,-0.854096
5,-2.55299,0.653619,0.864436,-0.742165
6,2.269755,-1.454366,0.045759,-0.187184
7,1.532779,1.469359,0.154947,0.378163
8,-0.887786,-1.980796,-0.347912,0.156349
9,1.230291,1.20238,-0.387327,-0.302303


### df.style.apply() and df.style.applymap()

In [29]:
def highlight_max(x, color):
    return np.where(x == np.nanmax(x.to_numpy()), f"color: {color};", None)
df = pd.DataFrame(np.random.randn(5, 2), columns=["A", "B"])
df.style.apply(highlight_max, color='red')
df.style.apply(highlight_max, color='blue', axis=1)
df.style.apply(highlight_max, color='green', axis=1)

Unnamed: 0,A,B
0,-0.403177,1.222445
1,0.208275,0.976639
2,0.356366,0.706573
3,0.0105,1.78587
4,0.126912,0.401989


Unnamed: 0,A,B
0,-0.403177,1.222445
1,0.208275,0.976639
2,0.356366,0.706573
3,0.0105,1.78587
4,0.126912,0.401989


Unnamed: 0,A,B
0,-0.403177,1.222445
1,0.208275,0.976639
2,0.356366,0.706573
3,0.0105,1.78587
4,0.126912,0.401989


## 2-5 基于 style  个性化设置 plus
### Export to Excel¶


In [19]:
def style_negative(v, props=''):
    return props if v < 0 else None
df2.style.\
    applymap(style_negative, props='color:red;').\
    highlight_max(axis=0).\
    to_excel('styled.xlsx', engine='openpyxl')

In [None]:
"""
background-color: 'green'

color

font-family

font-style

font-weight

text-align

text-decoration

vertical-align

white-space: nowrap
"""

In [23]:
def style_negative(v, props=''):
    return props if v > 0 else None
df2.style.\
    applymap(style_negative, props='background-color:blue;').\
    highlight_max(axis=0)

Unnamed: 0,A,B,C,D
0,1.764052,0.400157,0.978738,2.240893
1,1.867558,-0.977278,0.950088,-0.151357
2,-0.103219,0.410599,0.144044,1.454274
3,0.761038,0.121675,0.443863,0.333674
4,1.494079,-0.205158,0.313068,-0.854096
5,-2.55299,0.653619,0.864436,-0.742165
6,2.269755,-1.454366,0.045759,-0.187184
7,1.532779,1.469359,0.154947,0.378163
8,-0.887786,-1.980796,-0.347912,0.156349
9,1.230291,1.20238,-0.387327,-0.302303
