- Task02 Python自动化之Excel
[20210617 created,20210620 last updated]

Excel是微软公司为windows操作系统开发的一款功能强大的电子表格应用.随着Windows操作系统在全世界的普及,现在这款软件也在全世界范围内广泛应用,现在这有windows版本和Mac版.
简单来说,Excel是能够处理电子表格文件的一种应用程序,它是微软的office套装中的重要一员.除了微软公司的excel程序之外,实际上还有一些和excel类似的其他可以处理电子表格的程序,比如国产的WPS,以及开源的open office,Librel office等等,他们都能够创建,打开和处理.xlsx后缀的excel文件.这种文件本质上是一种二进制形式存储的文件格式,如果使用记事本等文本编辑器直接打开会产生乱码.这是由于Excel文件格式和通常的最简单的文本文件如txt,csv等等在数据结构上和读写存储方式上都有很大的不同,它本质上是一个压缩后的xml文件,然后以二进制的形式保存到磁盘上.但现阶段我们不关注这些底层的实现过程,只将精力聚焦于涉及到自动化批量操作Excel的相关知识.   

参考资料:   
[1]Excel的xml表现格式 https://blog.csdn.net/lmhuanying1012/article/details/78753851     
[]

除了使用包括Excel在内的电子表格程序之外,使用编程语言Python的各种第三方多模块,也是可以打开和读取.xlsx格式文件中的数据,并对文件中的内容进行计算和格式调整等各种处理.    

为了从根本上深入地了解Python处理excel的过程,我们有必要对习以为常的excel文件进行一次再认识.   

一个.xlsx后缀的电子表格文件,就是一个用来存放数据的"仓库",一个不恰当的类比是,它和MySQL等数据库系统中的一个数据库实例类似.就像在一个数据库实例中我们可以创建多个表(table)来存放不同类别的数据类似,一个.xlsx文件也可以包含很多个工作表(sheet),每一个工作表都是一张二维的表格,数据处理工作人员可以根据自己的需要在这张二维表格里保存数据.    
在每一张电子表格里,都分割成了若干行和列,每一行或列的每个单元格都可以用来存储特定的数据.

日常工作中,经常会有不同电子表格之间的单元格的拷贝粘贴,以及对表格中的内容按某一列或某几列进行筛选,统计和计算,通常而言,人工做这些事情既琐碎无聊又效率低下.如果这种操作的频率特别高,还可能因为人工操作的低效和容易出错导致一些我们不希望出现的后果.   
因此,如果能够根据实际的工作任务来自动化实现这些操作,就能大大提升工作效率的同时,显著降低人工导致的错误率.    


为了这个目的,我们开始电子表格的自动化之路.   
首先,我们需要打开和读取电子表格中的内容.


# 读取excel文件
可以用于读取Excel文件的第三方Python库有很多,我们先从最基本的开始

#### 使用openpyxl打开和读取excel文件
使用openpyxl打开excel文件,可以分为几个步骤:
* 首先,打开已经存在的excel文件

In [10]:
from openpyxl import load_workbook

In [12]:
#把二进制的excel文件装载到一个wordbook数据类型的对象中
wb = load_workbook(filename = r'D:\Py\OfficeAutomation\data1\excel\test.xlsx')

这时,我们使用`load_workbook`函数基于电脑中存在的一个excel文件创建了一个workbook类型的数据对象`wb`.  
但现在我们还不能直接展示这个对象中的数据. 让我们先用一些方法来探索一下这个对象的特征.

In [13]:
# 获取该xlsx文件所包含的sheet的名称
wb.get_sheet_names()
#得到的返回值是一个 list,它只有一个元素,这是由于我们刚刚打开的那张表只有一个sheet.
#如果是包含多个sheet的 xlsx 文件,我们将得到一个多元素的list.

  wb.get_sheet_names()


['work']

In [14]:
#另一种探索xlsx文件所包含的sheet的方法
wb.sheetnames

['work']

* 接下来,把xlsx文件的名为"work"的工作表保存到一个对象中

In [15]:
sheet = wb['work']

In [16]:
#获取该 xlsx 文件的名为 "work" 的工作表中的内容占据的大小
print(sheet.dimensions)

A1:B51104


In [22]:
#读取指定横纵坐标的位置的单元格中的内容
cell = sheet.cell(row=1,column=2) #指定行列数

In [23]:
type(cell)
#这是一个新的数据类型-Cell

openpyxl.cell.cell.Cell

In [25]:
#使用该种数据类型的value属性获取其内容
cell.value

'人流数'

In [27]:
# 查看其他属性
print(dir(cell))

['__class__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__le__', '__lt__', '__module__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__slots__', '__str__', '__subclasshook__', '_bind_value', '_comment', '_hyperlink', '_style', '_value', 'alignment', 'base_date', 'border', 'check_error', 'check_string', 'col_idx', 'column', 'column_letter', 'comment', 'coordinate', 'data_type', 'encoding', 'fill', 'font', 'has_style', 'hyperlink', 'internal_value', 'is_date', 'number_format', 'offset', 'parent', 'pivotButton', 'protection', 'quotePrefix', 'row', 'style', 'style_id', 'value']


In [18]:
cell_1 = sheet['A1'] #指定坐标
print(cell_1.value)

时间点


In [19]:
#获取单元格对应的行、列和坐标
print(cell_1.row, cell_1.column, cell.coordinate)

1 1 B1


In [20]:
# 读取多个格子的值
# 1指定坐标范围
cells = sheet['A1:C8'] #A1到C8区域的值

In [28]:
# 和单个的cell不同,读取到的多个格子构成了一个tuple类型
type(cells)

tuple

In [29]:
print(cells)

((<Cell 'work'.A1>, <Cell 'work'.B1>, <Cell 'work'.C1>), (<Cell 'work'.A2>, <Cell 'work'.B2>, <Cell 'work'.C2>), (<Cell 'work'.A3>, <Cell 'work'.B3>, <Cell 'work'.C3>), (<Cell 'work'.A4>, <Cell 'work'.B4>, <Cell 'work'.C4>), (<Cell 'work'.A5>, <Cell 'work'.B5>, <Cell 'work'.C5>), (<Cell 'work'.A6>, <Cell 'work'.B6>, <Cell 'work'.C6>), (<Cell 'work'.A7>, <Cell 'work'.B7>, <Cell 'work'.C7>), (<Cell 'work'.A8>, <Cell 'work'.B8>, <Cell 'work'.C8>))


In [33]:
#cells是由tuple构成的嵌套tuple
print(type(cells[1]))
cells[1]

<class 'tuple'>


(<Cell 'work'.A2>, <Cell 'work'.B2>, <Cell 'work'.C2>)

In [34]:
#最内层的元素是Cell类型--因此,本质上读取到的一个矩形子区域,是由Cell作为基本对象构成的tuple,再由这些tuple作为元素构成的嵌套tuple.
print(type(cells[1][1]))
cells[1][1]

<class 'openpyxl.cell.cell.Cell'>


<Cell 'work'.B2>

In [37]:
#获取单元格的值
cells[1][1].value

63306.166000000005

In [38]:
#读取指定行的值
Row = sheet[1] #第1行的值
print(Row,type(Row))
#毫不意外,得到的还是由Cell类型作为元素构成的tuple

(<Cell 'work'.A1>, <Cell 'work'.B1>, <Cell 'work'.C1>) <class 'tuple'>


In [39]:
Rows = sheet[1:2] #第1到2行的值
print(Rows,type(Rows))
#同上

((<Cell 'work'.A1>, <Cell 'work'.B1>, <Cell 'work'.C1>), (<Cell 'work'.A2>, <Cell 'work'.B2>, <Cell 'work'.C2>)) <class 'tuple'>


In [41]:
#指定列的值
Column = sheet['A'] #第A列
type(Column),len(Column)
#行数=51104,由每一行的A列作为Cell构成的tuple

(tuple, 51104)

In [42]:
print(Column[:5])#查看所包含的前5个元素

(<Cell 'work'.A1>, <Cell 'work'.A2>, <Cell 'work'.A3>, <Cell 'work'.A4>, <Cell 'work'.A5>)


In [43]:
#多列的值
Columns = sheet['A:C'] #第A到C列
type(Columns),len(Columns)
#一共包含了三列

(tuple, 3)

In [44]:
#每列作为一个元素,构成了Columns这个嵌套tuple
len(Columns[1])

51104

In [None]:
#指定范围的值
# 行获取
for row in sheet.iter_rows(min_row = 1, max_row = 5,
                           min_col = 2, max_col = 6):
    print(row)
    # 一列由多个单元格组成，若需要获取每个单元格的值则循环获取即可
    for cell in row:
        print(cell.value)

# 列获取
for col in sheet.iter_cols(min_row = 1, max_row = 5,
                           min_col = 2, max_col = 6):
    print(col)

    for cell in col:
        print(cell.value)


#### 使用pandas打开和读取excel文件
作为数据分析最常使用的库之一,pandas对excel文件的读写具有很好的支持,当然它对excel文件的支持是基于openpyxl和xlrd等其他excel专用处理库中相关函数的封装,并将excel中的数据转换为了pandas中的数据结构.如果我们的目标是读取excel文件中的内容,并做一些计算,那pandas的处理方案就更加适合了.

In [45]:
from pandas import read_excel

In [47]:
read_excel??

[1;31mSignature:[0m
[0mread_excel[0m[1;33m([0m[1;33m
[0m    [0mio[0m[1;33m,[0m[1;33m
[0m    [0msheet_name[0m[1;33m=[0m[1;36m0[0m[1;33m,[0m[1;33m
[0m    [0mheader[0m[1;33m=[0m[1;36m0[0m[1;33m,[0m[1;33m
[0m    [0mnames[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mindex_col[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0musecols[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0msqueeze[0m[1;33m=[0m[1;32mFalse[0m[1;33m,[0m[1;33m
[0m    [0mdtype[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mengine[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mconverters[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mtrue_values[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mfalse_values[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mskiprows[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mnrows[0m[1;33m=[0m[1;32mNone[0m[1;33m

In [48]:
%time test = read_excel( r'D:\Py\OfficeAutomation\data1\excel\test.xlsx')
#读取到的结果是一个DataFrame类型的pandas对象

Wall time: 1.8 s


In [49]:
#这个对象可以很直观地展示电子表格中所包含的内容.
test.head()

Unnamed: 0,时间点,人流数
0,2020-09-01,63306.166
1,2020-09-01,40535.964
2,2020-09-01,30026.64
3,2020-09-01,46291.07
4,2020-09-01,38909.521


其他的使用pandas读取某个或某些单元格,某行或某列,都可以类似numpy中的那样使用索引来完成.详情参阅<joyful-pandas教程>的相关章节.

* 方案:使用xlrd打开和读取excel文件

#### 练习题
找出text_1.xlsx中sheet1表中空着的格子，并输出这些格子的坐标

from openpyxl import load_workbook

exl = load_workbood('test_1.xlsx')
sheet = exl.active
for row in sheet.iter_rows(min_row = 1, max_row = 29972,
                           min_col = 1, max_col = 10):
                           #具体查看对应表格的行列数
    for cell in row:
        if not cell.value:
            print(cell.coordinate)


# 写入Excel

#### 创建新的Excel文件
使用 openpyxl 创建新的Excel文件,是通过创建Workbook对象来实现的,

In [62]:
from openpyxl import Workbook

In [63]:
wb615 = Workbook()

In [58]:
# 如果只是创建一个空白的Excel文件,那么这一步没必要
# sheet = wb615.active

In [64]:
wb615.save(filename = 'test615.xlsx')

In [65]:
import os
os.listdir('.')

['.ipynb_checkpoints',
 '11-OS&file.ipynb',
 'Chinese.txt',
 'data',
 'data1',
 'English.txt',
 'readme.md',
 'Task01 文件自动化处理&邮件批量处理.md',
 'task01.ipynb',
 'Task02 Python与Excel.md',
 'task02.ipynb',
 'Task03 python与word.md',
 'Task04 Python操作PDF.md',
 'Task05 爬虫入门与综合应用.md',
 'test615.xlsx',
 '图片']

#### 创建新的工作表(sheet)
在创建了Excel文件之后,还可以为这个文件增加新的工作表(sheet),以便于将多个电子表格保存在一个xlsx文件中.

In [66]:
from openpyxl import load_workbook

In [68]:
wb = load_workbook(filename = 'test615.xlsx')
print(wb.sheetnames)

['Sheet']


In [69]:
# 为这个Excel文件增加新的工作表
wb.create_sheet('new_sheet')

<Worksheet "new_sheet">

In [70]:
#需要保存后再使用Excel或WPS打开,才能看到新的工作表
wb.save(filename = 'test615.xlsx')

#### 写入单元格并保存

In [None]:
from openpyxl import load_workbook

exl = load_workbook(filename = 'test.xlsx')
sheet = exl.active
sheet['A1'] = 'hello word'       
#或者cell = sheet['A1'] 
#cell.value = 'hello word'
exl.save(filename = 'test.xlsx') #存入原Excel表中，若创建新文件则可命名为不同名称


#### 写入一行数据并保存

In [None]:
import xlwt
workbook = xlwt.Workbook(encoding = 'utf-8')
# 创建一个sheet
sheet = workbook.add_sheet('My Worksheet')

# 写入excel
# 参数对应 行, 列, 值
sheet.write(1,0,label = 'this is test')

# 保存
workbook.save('new_test.xls')

#### 写入多行数据并保存

In [None]:
data = [['hello',22,'hi'],
        ['hell',23,'h'],
        ['he',25,'him']]
for i in range(len(data)):
    for j in range(len(data[i])):
        worksheet.write(i,j,data[i][j])
exl.save(filename = 'test.xlsx')


#### 将公式写入单元格保存

In [None]:
sheet['A2'] = 'SUM(A1:D1)'
exl.save(filename='test.xlsx')

In [None]:

插入列数据
插入一列
sheet.insert_cols(idx=2) #idx=2第2列，第2列前插入一列
插入多列
#第2列前插入5列作为举例
sheet.insert_cols(idx=2, amount=5)
插入行数据
第2行前上面插入一行(或多行)

#插入一行
sheet.insert_cols(idx=2)
#插入多行
sheet.insert_cols(idx=2, amount=5)
删除
删除多列
sheet.delete_cols(idx=5, amount=2) #第5列前删除2列
删除多行
sheet.delete_rows(idx=2, amount=5)
移动
当数字为正即向下或向右，为负即为向上或向左

sheet.move_range('C5:F10', row=2, cols=-3)
Sheet表操作


#### 复制已有的sheet

In [None]:
exl.copy_worksheet(sheet)

#### 修改工作表(sheet)的名称

In [None]:
sheet = exl.active
sheet.title = 'newname'

# Excel样式调整
尽管在对电子表格中的内容进行统计和计算的方面pandas等库游刃有余,但在调整excel样式方面却无能为力.   
在这种使用场景下,openpyxl和xlwings更加适合我们的需求.

#### 设置字体样式

In [None]:
from openpyxl import Workbook
from openpyxl.styles import Font
#Font(name字体名称,size大小,bold粗体,italic斜体,color颜色)

In [None]:
workbook = Workbook()
sheet = workbook.active
cell = sheet['A1']
font = Font(name='字体', sizee=10, bold=True, italic=True, color='FF0000')
cell.font = font
workbook.save(filename='new_test')


#### 设置多个格子的字体样式

In [None]:
workbook = Workbook()
sheet = workbook.active
cells = sheet[2]
font = Font(name='字体', sizee=10, bold=True, italic=True, color='FF000000')
for cell in cells:
    cell.font = font
workbook.save(filename='new_test')

#### 设置对其样式
水平对齐：distributed, justify, center, left, fill, centerContinuous, right, general

垂直对齐：bottom, distributed, justify, center, top


#### 设置单元格边框样式
Side(style变现样式， color边线颜色)

Border(左右上下边线)


In [None]:
workbook = Workbook()
sheet = workbook.active
cell = sheet['A1']
side = Side(style='thin', color='FF000000')
#先定好side的格式
border = Border(left=side, right=side, top=side, bottom=side)
#代入边线中
cell.border = border
workbook.save(filename='new_test')


#### 设置单元格边框样式
变现样式：double, mediumDashDotDot, slantDashDot, dashDotDot, dotted, hair, mediumDashed, dashed, dashDot, thin, mediumDashDot, medium, thick


In [None]:
workbook = Workbook()
sheet = workbook.active
cell = sheet['A1']
pattern_fill = PatternFill(fill_type='solid', fgColor 
cell1.fill = pattern_fill
#单色填充
cell2 = sheet['A3']
gradient_fill = GradientFill(stop=('FFFFFF', '99ccff','000000'))
cell2.fill = gradient_fill
#渐变填充
workbook.save(filename='new_test')


#### 设置行高与列宽

In [None]:
workbook = Workbook()
sheet = workbook.active
sheet.row_dimensions[1].height = 50
sheet.column_dimensions['C'].width = 20 workbook.save(filename='new_test')


#### 合并、取消合并单元格

In [None]:
sheet.merge_cells('A1:B2')
sheet.merge_cells(start_row=1, start_column=3,
                  end_row=2, end_column=4)

sheet.unmerge_cells('A1:B2')
sheet.unmerge_cells(start_row=1, start_column=3,
                    end_row=2, end_column=4)


In [None]:
练习题
打开test文件，找出文件中购买数量buy_mount超过5的行，并对其标红、加粗、附上边框。

from openpyxl import load_workbook
from openpyxl.styles import Font, Side, Border 

workbook = load_workbook('./test.xlsx') 
sheet = workbook.active
buy_mount = sheet['F'] 
row_lst = []

for cell in buy_mount:
    if isinstance(cell.value, int) and cell.value > 5: 
        print(cell.row)
        row_lst.append(cell.row)

side = Side(style='thin', color='FF000000')
border = Border(left=side, right=side, top=side, bottom=side) 
font = Font(bold=True, color='FF0000')
for row in row_lst:
    for cell in sheet[row]: 
        cell.font = font 
        cell.border = border
workbook.save('new_test'.xlsx')

# Excel计算

# 项目实践

#### 将Excel文件按某一列的取值拆分为多个excel
假设你是公司的财务工作人员.公司有很多个不同部门,每月你需要把各个部门每个人的工资情况发送给部门负责人,但你只有一份完整的公司所有人的工资文件.你需要按部门筛选,然后复制