## pandas操作excel百问百答

- 本文旨在为出现同样疑点的小伙伴提供一种解决方法。

### pandas读取excel数据

相关模块：
> import pandas as pd;  
from pathlib import Path：  文件路径处理

In [1]:
# 读取单个excel单个sheet
import pandas as pd

path = './data/'
data = pd.read_excel(path+'ex1.xlsx')  # 默认读取第一个sheet数据
data

Unnamed: 0,No,City,Value
0,df1-1,PEK,100
1,df1-2,PEK,200
2,df1-3,PEK,300
3,df1-4,PEK,400
4,df1-5,PEK,500
5,df1-6,PEK,600


In [2]:
# 读取单个excel指定sheet
import pandas as pd

path = './data/'
data_dict = pd.read_excel(path+'ex1.xlsx', sheet_name=['df1', 'df2'])  # 使用list指定sheet名
data_dict  # 结果为字典形式，可使用键值对提取指定数据框

{'df1':       No City  Value
 0  df1-1  PEK    100
 1  df1-2  PEK    200
 2  df1-3  PEK    300
 3  df1-4  PEK    400
 4  df1-5  PEK    500
 5  df1-6  PEK    600,
 'df2':       No City  Value
 0  df2-1   GZ    100
 1  df2-2   GZ    200
 2  df2-3   GZ    300
 3  df2-4   GZ    400
 4  df2-5   GZ    500
 5  df2-6   GZ    600}

In [3]:
# 使用pd.concat纵向合并，生成的数据框有多级索引
data = pd.concat(data_dict, axis=0)  # axis指定合并方向，默认为axis=0，即纵向合并
data

Unnamed: 0,Unnamed: 1,No,City,Value
df1,0,df1-1,PEK,100
df1,1,df1-2,PEK,200
df1,2,df1-3,PEK,300
df1,3,df1-4,PEK,400
df1,4,df1-5,PEK,500
df1,5,df1-6,PEK,600
df2,0,df2-1,GZ,100
df2,1,df2-2,GZ,200
df2,2,df2-3,GZ,300
df2,3,df2-4,GZ,400


In [4]:
data = pd.concat(data_dict, ignore_index=True)  # ignore_index是否重置索引，默认为ignore_index=False
data

Unnamed: 0,No,City,Value
0,df1-1,PEK,100
1,df1-2,PEK,200
2,df1-3,PEK,300
3,df1-4,PEK,400
4,df1-5,PEK,500
5,df1-6,PEK,600
6,df2-1,GZ,100
7,df2-2,GZ,200
8,df2-3,GZ,300
9,df2-4,GZ,400


In [5]:
# 读取单个excel指定sheet
import pandas as pd

path = './data/'
data_dict = pd.read_excel(path+'ex1.xlsx', sheet_name=None)  # sheet_name=None所有sheet表
data_dict  # 结果为字典形式，可使用键值对提取指定数据框

{'df1':       No City  Value
 0  df1-1  PEK    100
 1  df1-2  PEK    200
 2  df1-3  PEK    300
 3  df1-4  PEK    400
 4  df1-5  PEK    500
 5  df1-6  PEK    600,
 'df2':       No City  Value
 0  df2-1   GZ    100
 1  df2-2   GZ    200
 2  df2-3   GZ    300
 3  df2-4   GZ    400
 4  df2-5   GZ    500
 5  df2-6   GZ    600,
 'df3':       No City  Value
 0  df3-1   GD    100
 1  df3-2   GD    200
 2  df3-3   GD    300
 3  df3-4   GD    400
 4  df3-5   GD    500
 5  df3-6   GD    600}

In [6]:
# 使用索引方式读取excel中指定sheet表，sheet_name 索引序号从0开始
import pandas as pd

path = './data/'
data = pd.read_excel(path+'ex1.xlsx', sheet_name=1)  # 默认sheet_name=0，即第一张sheet表
data

Unnamed: 0,No,City,Value
0,df2-1,GZ,100
1,df2-2,GZ,200
2,df2-3,GZ,300
3,df2-4,GZ,400
4,df2-5,GZ,500
5,df2-6,GZ,600


In [7]:
# 读取excel，以第2行开始，并不做为表头
import pandas as pd

path = './data/'
data = pd.read_excel(path+'ex1.xlsx', skiprows=1, header=None)  # 默认skiprows=None
data

Unnamed: 0,0,1,2
0,df1-1,PEK,100
1,df1-2,PEK,200
2,df1-3,PEK,300
3,df1-4,PEK,400
4,df1-5,PEK,500
5,df1-6,PEK,600


In [8]:
# 读取当前文件夹下的所有excel文件，获取每个excel中的第一张sheet表，并纵向合并
import pandas as pd
from pathlib import Path

path = './data'
path_list = Path(path).glob('[!~]*.xls*')  # [!~]: 跳过正在打开的excel生成的~缓存文件
data = pd.concat([pd.read_excel(i) for i in path_list])
data

Unnamed: 0,No,City,Value
0,df1-1,PEK,100
1,df1-2,PEK,200
2,df1-3,PEK,300
3,df1-4,PEK,400
4,df1-5,PEK,500
5,df1-6,PEK,600
0,df4-1,SH,100
1,df4-2,SH,200
2,df4-3,SH,300
3,df4-4,SH,400


In [9]:
# 读取当前文件夹及其子文件下的所有excel文件，获取每个excel中的第一张sheet表，并纵向合并
import pandas as pd
from pathlib import Path

path = './data'
path_list = Path(path).glob('**/[!~]*.xls*')  # **: 递归查询文件夹
data = pd.concat([pd.read_excel(i) for i in path_list])
data

Unnamed: 0,No,City,Value
0,df1-1,PEK,100
1,df1-2,PEK,200
2,df1-3,PEK,300
3,df1-4,PEK,400
4,df1-5,PEK,500
5,df1-6,PEK,600
0,df4-1,SH,100
1,df4-2,SH,200
2,df4-3,SH,300
3,df4-4,SH,400


In [10]:
# 读取当前文件夹下的所有excel文件，获取指定sheet名称的表，并纵向合并
import pandas as pd
from pathlib import Path

path = './data'
path_list = Path(path).glob('[!~]*.xls*')  # [!~]: 跳过正在打开的excel生成的~缓存文件
data = pd.concat([pd.read_excel(i, sheet_name='df2') for i in path_list])
data

Unnamed: 0,No,City,Value
0,df2-1,GZ,100
1,df2-2,GZ,200
2,df2-3,GZ,300
3,df2-4,GZ,400
4,df2-5,GZ,500
5,df2-6,GZ,600
0,df5-1,SZ,100
1,df5-2,SZ,200
2,df5-3,SZ,300
3,df5-4,SZ,400


In [11]:
# 读取当前文件夹下的所有excel文件，获取指定sheet索引的表，并纵向合并
import pandas as pd
from pathlib import Path

path = './data'
path_list = Path(path).glob('[!~]*.xls*') 
data = pd.concat([pd.read_excel(i, sheet_name=2) for i in path_list])  # 指定第三张sheet表
data

Unnamed: 0,No,City,Value
0,df3-1,GD,100
1,df3-2,GD,200
2,df3-3,GD,300
3,df3-4,GD,400
4,df3-5,GD,500
5,df3-6,GD,600
0,df6-1,LN,100
1,df6-2,LN,200
2,df6-3,LN,300
3,df6-4,LN,400


In [12]:
# 读取当前文件夹下的所有excel文件，剔除指定excel文件，纵向合并
import pandas as pd
from pathlib import Path

path = './data'
path_list = Path(path).glob('[!~]*.xls*') 
data = pd.concat([pd.read_excel(i) for i in path_list if i.stem != 'ex1'])  # i.stem: 获取文件名称，i.name: 获取文件名及后缀
# data = pd.concat([pd.read_excel(i) for i in path_list if i.name != 'ex1.xlsx'])
data

Unnamed: 0,No,City,Value
0,df4-1,SH,100
1,df4-2,SH,200
2,df4-3,SH,300
3,df4-4,SH,400
4,df4-5,SH,500
5,df4-6,SH,600
0,df7-1,DL,100
1,df7-2,DL,200
2,df7-3,DL,300
3,df7-4,DL,400


### excel数据操作

相关模块：
> import pandas as pd;  
from pathlib import Path  
import re

In [13]:
# 获取单excel中所有sheet表，并对所有sheet新增新增一列，值为sheet名
import pandas as pd

path = './data/'
data_dict = pd.read_excel(path+'ex1.xlsx', sheet_name=None)
data = pd.concat(data_dict)
data = data.reset_index(level=0).rename(columns={'level_0': 'sheet_name'})
data

Unnamed: 0,sheet_name,No,City,Value
0,df1,df1-1,PEK,100
1,df1,df1-2,PEK,200
2,df1,df1-3,PEK,300
3,df1,df1-4,PEK,400
4,df1,df1-5,PEK,500
5,df1,df1-6,PEK,600
0,df2,df2-1,GZ,100
1,df2,df2-2,GZ,200
2,df2,df2-3,GZ,300
3,df2,df2-4,GZ,400


In [14]:
# 获取该文件夹下所有excel中所有sheet表，并对所有sheet新增新增一列，值为excel名-sheet名
import pandas as pd
from pathlib import Path

path = Path('./data')
excel_dict = [(i.stem, pd.read_excel(i, sheet_name=None)) for i in path.glob('[!~]*.xls*')]
data_list = []
for excel_name, data_dict in excel_dict:
    data = pd.concat(data_dict)
    data = data.reset_index(level=0).rename(columns={'level_0': 'sheet_name'})
    data['sheet_name'] = excel_name + '-' + data['sheet_name']
    data_list.append(data)
pd.concat(data_list)

Unnamed: 0,sheet_name,No,City,Value
0,ex1-df1,df1-1,PEK,100
1,ex1-df1,df1-2,PEK,200
2,ex1-df1,df1-3,PEK,300
3,ex1-df1,df1-4,PEK,400
4,ex1-df1,df1-5,PEK,500
5,ex1-df1,df1-6,PEK,600
0,ex1-df2,df2-1,GZ,100
1,ex1-df2,df2-2,GZ,200
2,ex1-df2,df2-3,GZ,300
3,ex1-df2,df2-4,GZ,400


In [15]:
# 使用正则替换指定字符
import pandas as pd

path = './data2/'
data = pd.read_excel(path+'正则替换文本.xlsx', header=None).head(5)
data['正则替换英文字母为空'] = data[0].str.replace(r'[a-zA-Z]', '', regex=True)
data

Unnamed: 0,0,正则替换英文字母为空
0,职位描述 1、基于Android平台进行手机软件的设计、开发、需求分析等； 任职要求： 1、...,职位描述 1、基于平台进行手机软件的设计、开发、需求分析等； 任职要求： 1、熟练掌握技术，...
1,岗位描述1、前端框架的设计与实现 2. 各业务模块前端代码开发 3. 平台易用性与用户体验...,岗位描述1、前端框架的设计与实现 2. 各业务模块前端代码开发 3. 平台易用性与用户体验...
2,岗位职责： 1、负责日常款项支付，境内外网银转帐汇款，处理日常往来账核对； 2、负责公司及分...,岗位职责： 1、负责日常款项支付，境内外网银转帐汇款，处理日常往来账核对； 2、负责公司及分...
3,\n 岗位职责： \n 1、负责日常款项支付，境内外网银转帐汇款，处理日常往来账核对； \n...,\n 岗位职责： \n 1、负责日常款项支付，境内外网银转帐汇款，处理日常往来账核对； \n...
4,岗位职责： 1、无线通信系统性能测试与分析，包括常见标准无线通信系统与私有协议标准系统; ...,岗位职责： 1、无线通信系统性能测试与分析，包括常见标准无线通信系统与私有协议标准系统; ...


In [16]:
data['正则替换数字为空'] = data[0].str.replace(r'\d', '', regex=True)
data

Unnamed: 0,0,正则替换英文字母为空,正则替换数字为空
0,职位描述 1、基于Android平台进行手机软件的设计、开发、需求分析等； 任职要求： 1、...,职位描述 1、基于平台进行手机软件的设计、开发、需求分析等； 任职要求： 1、熟练掌握技术，...,职位描述 、基于Android平台进行手机软件的设计、开发、需求分析等； 任职要求： 、熟练...
1,岗位描述1、前端框架的设计与实现 2. 各业务模块前端代码开发 3. 平台易用性与用户体验...,岗位描述1、前端框架的设计与实现 2. 各业务模块前端代码开发 3. 平台易用性与用户体验...,岗位描述、前端框架的设计与实现 . 各业务模块前端代码开发 . 平台易用性与用户体验的持续...
2,岗位职责： 1、负责日常款项支付，境内外网银转帐汇款，处理日常往来账核对； 2、负责公司及分...,岗位职责： 1、负责日常款项支付，境内外网银转帐汇款，处理日常往来账核对； 2、负责公司及分...,岗位职责： 、负责日常款项支付，境内外网银转帐汇款，处理日常往来账核对； 、负责公司及分公司...
3,\n 岗位职责： \n 1、负责日常款项支付，境内外网银转帐汇款，处理日常往来账核对； \n...,\n 岗位职责： \n 1、负责日常款项支付，境内外网银转帐汇款，处理日常往来账核对； \n...,\n 岗位职责： \n 、负责日常款项支付，境内外网银转帐汇款，处理日常往来账核对； \n ...
4,岗位职责： 1、无线通信系统性能测试与分析，包括常见标准无线通信系统与私有协议标准系统; ...,岗位职责： 1、无线通信系统性能测试与分析，包括常见标准无线通信系统与私有协议标准系统; ...,岗位职责： 、无线通信系统性能测试与分析，包括常见标准无线通信系统与私有协议标准系统; 、...


In [17]:
data['正则替换空白符为空'] = data[0].str.replace(r'\s', '', regex=True)  # \s等价于[\n\r\t ]
data

Unnamed: 0,0,正则替换英文字母为空,正则替换数字为空,正则替换空白符为空
0,职位描述 1、基于Android平台进行手机软件的设计、开发、需求分析等； 任职要求： 1、...,职位描述 1、基于平台进行手机软件的设计、开发、需求分析等； 任职要求： 1、熟练掌握技术，...,职位描述 、基于Android平台进行手机软件的设计、开发、需求分析等； 任职要求： 、熟练...,职位描述1、基于Android平台进行手机软件的设计、开发、需求分析等；任职要求：1、熟练掌...
1,岗位描述1、前端框架的设计与实现 2. 各业务模块前端代码开发 3. 平台易用性与用户体验...,岗位描述1、前端框架的设计与实现 2. 各业务模块前端代码开发 3. 平台易用性与用户体验...,岗位描述、前端框架的设计与实现 . 各业务模块前端代码开发 . 平台易用性与用户体验的持续...,岗位描述1、前端框架的设计与实现2.各业务模块前端代码开发3.平台易用性与用户体验的持续改进...
2,岗位职责： 1、负责日常款项支付，境内外网银转帐汇款，处理日常往来账核对； 2、负责公司及分...,岗位职责： 1、负责日常款项支付，境内外网银转帐汇款，处理日常往来账核对； 2、负责公司及分...,岗位职责： 、负责日常款项支付，境内外网银转帐汇款，处理日常往来账核对； 、负责公司及分公司...,岗位职责：1、负责日常款项支付，境内外网银转帐汇款，处理日常往来账核对；2、负责公司及分公司...
3,\n 岗位职责： \n 1、负责日常款项支付，境内外网银转帐汇款，处理日常往来账核对； \n...,\n 岗位职责： \n 1、负责日常款项支付，境内外网银转帐汇款，处理日常往来账核对； \n...,\n 岗位职责： \n 、负责日常款项支付，境内外网银转帐汇款，处理日常往来账核对； \n ...,岗位职责：1、负责日常款项支付，境内外网银转帐汇款，处理日常往来账核对；2、负责公司及分公司...
4,岗位职责： 1、无线通信系统性能测试与分析，包括常见标准无线通信系统与私有协议标准系统; ...,岗位职责： 1、无线通信系统性能测试与分析，包括常见标准无线通信系统与私有协议标准系统; ...,岗位职责： 、无线通信系统性能测试与分析，包括常见标准无线通信系统与私有协议标准系统; 、...,岗位职责：1、无线通信系统性能测试与分析，包括常见标准无线通信系统与私有协议标准系统;2、射...


### 数据保存至excel  

相关模块：
> import pandas as pd  
from pathlib import Path  
import openpyxl

In [18]:
# 同一数据分发至多个excel文件, 多个sheet
import pandas as pd
from pathlib import Path

df = pd.DataFrame({'A': [], 'B': [], 'C': []})
for x in range(1, 4):
    path_name = f'./test/excel_test{x}.xlsx'
    # 生成上级文件夹
    Path(path_name).parent.mkdir(parents=True, exist_ok=True)  # 递归生成，文件夹不存在则生成
    with pd.ExcelWriter(path_name, engine='openpyxl', mode='w+') as writer:  # 显式调用openpyxl接口，当前python环境须有openpyxl模块，若无pip install openpyxl
        for y in range(1, 9):
            df.to_excel(writer, index=False, sheet_name=f'第{y}个sheet')

In [19]:
# 在同一个excel文件中保存不同dataframe数据
import pandas as pd
from pathlib import Path

# 构造测试数据
df1 = pd.DataFrame([['John',23],['Rose',20],['Mark',22]],columns=['Name','Age'])
df2 = pd.DataFrame([['John','A'],['Rose','B'],['Mark','C']],columns=['Name','Group'])

path_name = f'./test/test1.xlsx'
Path(path_name).parent.mkdir(parents=True, exist_ok=True)  # 生成上级文件夹，递归生成，文件夹不存在则生成
with pd.ExcelWriter(path_name, engine='openpyxl', mode='w+') as writer:
    df1.to_excel(writer, index=False, sheet_name='test_df1')
    df2.to_excel(writer, index=False, sheet_name='test_df2')

In [20]:
# 从test1.xlsx文件中逐次向另一个已存在的excel中添加sheet
import pandas as pd
from openpyxl import load_workbook
from pathlib import Path

## 先生成一个空白excel测试文件
pd.DataFrame().to_excel('./test/test2.xlsx')

## 读取test1.xlsx文件
data_dict = pd.read_excel('./test/test1.xlsx', sheet_name=None)

In [21]:
## 编写excel保存函数
def save2excel(df, path_name, sheet_name='Sheet1'):
    """
    将数据框数据保存至excel，excel存在则新增sheet_name，不存在则新增excel
    :param df: 要处理的数据框
    :param path_name: excel的文件链接，转换成Path()对象进行处理
    :param sheet_name: 默认`Sheet1`，sheet_name str类型
    return 
    """
    path_name = Path(path_name) if (path_name, str) else path_name
    path_exist = path_name.exists()
    if path_exist:
        # 如果excel存在，保存已有sheet
        book = load_workbook(path_name)
    with pd.ExcelWriter(path_name, engine='openpyxl', mode='w+') as writer:
        if path_exist:
            # 载入已存在sheet作为缓存，避免被新数据挤掉
            writer.book = book
        df.to_excel(writer, index=False, sheet_name=sheet_name)
    print('Save successfully.')

In [22]:
## 调用函数将test1.xlsx的sheet数据新增至test2.xlsx后面
for sheetname, df in data_dict.items():
    save2excel(df, './test/test2.xlsx', sheetname)

Save successfully.
Save successfully.
