Excel是金融行业最常使用的工具和应用，Excel的应用有以下几个特征和优点：
1. 组织结构：电子表格应用的工作簿文件将单独的工作表管理起来，而工作表是管理单元格的工具
2. 数据：数据通常使用表格的形式存储，而单元格中包含的是具体的数据点（例如浮点数或字符串），可以为了显示的目的加入格式化信息（例如字体，颜色等），也可以加入某些计算机代码（例如，格点中的数据来自于数值计算的结果）
3. 功能：给定单元格中存放的数据，你可以进行计算以及对数据进行操作，例如加和乘某个整数
4. 可视化：数据可以方便的进行可视化
5. 可编程：现代的电子表格应用允许较为灵活的编程，例如，通过Excel中内嵌的VBA
6. 可引用：完成功能或写入的主要工具是单元格引用，每个单元格有坐标（工作簿，工作表名称，列和行）来识别单元格
7. Excel中有一些接口可以用来从主要的数据服务提供商那里获取数据，例如Bloomberg以及Thomson Reuters，这些数据可以导入到Excel中

Excel也有一些缺点：
1. 不适用于存放大量的数据或者有复杂关系的数据
2. 仅仅是作为通用图形用户界面（GUI）来使用，主要用来显示和可视化数据以及综合信息，并完成一些初步的分析

Python与Excel的集成可以克服Excel的一些缺陷，Python可以发挥如下作用：
1. 处理工具：使用Python，你可以与Excel进行交互并操作Excel表格
2. 数据处理：Python可以向Excel中提供数据以及从电子表格中读入数据
3. 分析引擎：Python可以将它全部的分析功能提供给电子表格，称为一种VBA编程的完全替代

In [1]:
import numpy as np
import pandas as pd
import xlrd,xlwt#处理Excel电子表格文件的基础Python库是xlrd和xlwt，但是xlwt的一个主要的缺陷是其只能写入扩展名为.xls的文件
import xlsxwriter#我们还可以使用xlsxwriter和OpenPyxl，可以生成xlsx为扩展名的文件
path='data/'

In [54]:
wb=xlwt.Workbook()#建立Workbook对象wb。注意这仅仅是工作簿的一种内存内的形式。在路径中看不到。
wb

<xlwt.Workbook.Workbook at 0x21cc00cc860>

In [55]:
wb.add_sheet('first_sheet',cell_overwrite_ok=True)#创建一个或多个数据表到Workbook对象。这样我们就拥有了一个Worksheet对象，其下标为0。

<xlwt.Worksheet.Worksheet at 0x21cc00cc7f0>

In [56]:
wb.get_active_sheet()#返回active sheet下标

0

In [57]:
ws_1=wb.get_sheet(0)
ws_1

<xlwt.Worksheet.Worksheet at 0x21cc00cc7f0>

In [58]:
ws_2=wb.add_sheet('second_sheet')
ws_2

<xlwt.Worksheet.Worksheet at 0x21cc00ccba8>

In [59]:
data=np.arange(1,65).reshape((8,8))
data

array([[ 1,  2,  3,  4,  5,  6,  7,  8],
       [ 9, 10, 11, 12, 13, 14, 15, 16],
       [17, 18, 19, 20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29, 30, 31, 32],
       [33, 34, 35, 36, 37, 38, 39, 40],
       [41, 42, 43, 44, 45, 46, 47, 48],
       [49, 50, 51, 52, 53, 54, 55, 56],
       [57, 58, 59, 60, 61, 62, 63, 64]])

In [60]:
ws_1.write(0,0,100)#提供行和列信息（以0为起始点的下标），在0行0列写入100

In [61]:
for c in range(data.shape[0]):#纵向多少列
    for r in range(data.shape[1]):#横向多少行
        ws_1.write(r,c,int(data[c,r]))
        ws_2.write(r,c,int(data[r,c]))
#这里面，data[c,r]是不能直接用的，因为它的类型是numpy.int32
#但是write函数接收的输入值只有int,long,decimal.Decimal,unicode,datetime.datetime,bool,None

In [62]:
#使用Workbook类的save方法将整个Workbook对象保存到磁盘
wb.save(path+'workbook.xls')

In [63]:
#生成XLSX文件的步骤与之前基本相同
wb=xlsxwriter.Workbook(path+'workbook.xlsx')
ws_1=wb.add_worksheet('first_sheet')
ws_2=wb.add_worksheet('second_sheet')

In [64]:
for c in range(data.shape[0]):#纵向多少列
    for r in range(data.shape[1]):#横向多少行
        ws_1.write(r,c,int(data[c,r]))
        ws_2.write(r,c,int(data[r,c]))

In [65]:
wb.close()

In [66]:
#xlsxwriter有很多选项来生成Workbook对象，例如图表
wb=xlsxwriter.Workbook(path+'chart.xlsx')
ws=wb.add_worksheet()
values=np.random.standard_normal(15).cumsum()
ws.write_column('A1',values)#对列进行命名，并将value写入这一列
chart=wb.add_chart({'type':'line'})#创建图表，图表类型line
chart.add_series({'values':'=Sheet1!$A$1:$A$15','marker':{'type':'diamond'},})#给chart图表增加对应的数据series,是sheet1里面的A1-A15，用diamond marker类型
ws.insert_chart('C1',chart)#把创建的图表insert到C1的位置
wb.close()

In [67]:
book=xlrd.open_workbook(path+'workbook.xlsx')#xlrd负责从电子表格文件中读取数据
book

<xlrd.book.Book at 0x21cc01958d0>

In [68]:
book.sheet_names()#sheet_names方法可以提供某个特定workbook对象中所有工作表对象的名称

['first_sheet', 'second_sheet']

In [69]:
sheet_1=book.sheet_by_name('first_sheet')#通过名称索引sheet
sheet_2=book.sheet_by_index(1)#通过index索引sheet
sheet_1

<xlrd.sheet.Sheet at 0x21cc014dc50>

In [70]:
sheet_2.name

'second_sheet'

In [72]:
sheet_1.ncols,sheet_1.nrows#Worksheet对象的两个重要属性是ncols和nrows，代表表的列数和行数，这些行和列是包含数据的

(8, 8)

In [73]:
c1=sheet_1.cell(0,0)#单元格Cell对象可以通过cell方法来访问，这里需要提供行和列（再一次的，这里标记是0位开始点的）

In [75]:
c1.value

1.0

cell的属性value接着给出存储在某个单元格中的数据，属性ctype给出单元格的类型。下面的表格给出了所有的Excel单元格类型。

type     |number |python type 
 ------------- |:-------------:| -----:
XL_CELL_EMPTY|0|Empty string
XL_CELL_TEXT|1|A Unicode string
XL_CELL_NUMBER|2|float
XL_CELL_DATE|3|float
XL_CELL_BOOLEAN|4|int(1=TRUE,0=FALSE)
XL_CELL_ERORR|5|int(代表Excel内部代码)
XL_CELL_BLANK|6|Empty string，仅仅当formatting_info=True

In [77]:
sheet_2.row(3)#定位第四行

[number:25.0,
 number:26.0,
 number:27.0,
 number:28.0,
 number:29.0,
 number:30.0,
 number:31.0,
 number:32.0]

In [78]:
sheet_2.col(3)#定位第四列

[number:4.0,
 number:12.0,
 number:20.0,
 number:28.0,
 number:36.0,
 number:44.0,
 number:52.0,
 number:60.0]

In [79]:
sheet_1.col_values(3,start_rowx=3,end_rowx=7)#定位col列和行区域

[28.0, 29.0, 30.0, 31.0]

In [80]:
sheet_1.row_values(3,start_colx=3,end_colx=7)

[28.0, 36.0, 44.0, 52.0]

In [88]:
for c in range(sheet_1.ncols):#使用循环可以得到所有表格数据
    for r in range(sheet_1.nrows):
        print('%i' % sheet_1.cell(r,c).value)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64


In [89]:
import openpyxl as oxl
#使用OPENPYXL：生成和读取Excel表格文件（用.xlsx结尾）的库

In [94]:
wb=oxl.Workbook()
ws=wb.create_sheet(index=0,title='oxl_sheet')
for c in range(data.shape[0]):
    for r in range(data.shape[1]):
        ws.cell(row=r+1,column=c+1).value=data[c,r]#openpyxl的cell从1开始数的，而不是0，类似于Excel
wb.save(path+'oxl_book.xlsx')

In [95]:
wb=oxl.load_workbook(path+'oxl_book.xlsx')
ws=wb.get_active_sheet()    

In [96]:
cell=ws['B4']

In [97]:
cell.column

'B'

In [98]:
cell.row

4

In [99]:
cell.value

12

In [100]:
ws['B1':'B4']#类似于excel

((<Cell 'oxl_sheet'.B1>,),
 (<Cell 'oxl_sheet'.B2>,),
 (<Cell 'oxl_sheet'.B3>,),
 (<Cell 'oxl_sheet'.B4>,))

In [101]:
for cell in ws['B1':'B4']:
    print(cell[0].value)
#例如cell: (<Cell 'oxl_sheet'.B4>,),tuple,本身没有value方法
#cell[0]：<Cell 'oxl_sheet'.B4>,cell类，有value

9
10
11
12


In [115]:
df_1=pd.read_excel(path+'workbook.xlsx','first_sheet',header=None)
df_2=pd.read_excel(path+'workbook.xlsx','second_sheet',header=None)#使用header=None选项，pandas并不将数据的第一行解释为数据集的表头

In [119]:
import string
columns=[]
for c in range(data.shape[0]):
    columns.append(string.ascii_uppercase[c])
columns

['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H']

In [120]:
df_1.columns=columns
df_2.columns=columns

In [121]:
df_1.to_excel(path+'new_book_1.xlsx','my_sheet')#单独调用只能写一个表格

In [123]:
wbn=xlrd.open_workbook(path+'new_book_1.xlsx')
wbn.sheet_names()

['my_sheet']

In [127]:
wbw=pd.ExcelWriter(path+'new_book_2.xlsx')#如果要将多个DataFrame对象写入单一的电子表格文件，我们需要ExcelWriter对象
df_1.to_excel(wbw,'first_sheet')
df_2.to_excel(wbw,'second_sheet')
wbw.save()

In [128]:
#大量数据的情况
data=np.random.rand(20,100000)
data.nbytes

16000000

In [129]:
df=pd.DataFrame(data)

In [130]:
%time df.to_excel(path+'data.xlsx','data_sheet')#写入到磁盘Excel文件，这样会有一定的时间消耗

Wall time: 32.7 s


In [131]:
%time np.save(path+'data',data)#如果写入NumPy ndarray存储，非常快

Wall time: 16 ms


In [132]:
%time df=pd.read_excel(path+'data.xlsx','data_sheet')

Wall time: 4.06 s


In [133]:
%time data=np.load(path+'data.npy')

Wall time: 15 ms


将Python的分析功能应用到Excel工作簿上，是一个更为需要技术的工作。例如Python库PyXLL提供了通过Excel插件的方式应用Python函数的方法，DataNitro公司提供了一个解决方案，完全的整合了Python和Excel，使得Python完全成为了VBA的替代。

安装DataNitro：需要使用Windows操作系统，网站http://www.datanitro.com， 获取试用的授权。 在安装DataNitro的时候，可以选择安装Python，如果已经安装了Python或Anaconda，则可以不进行安装。如果不安装，需要在settings菜单中指定anaconda中的python路径。

DataNitro is no longer for purchase. 建议选择学习微软自带的VBA语言，以便于Excel高级操作，亦可全部改用Python。

xlwings也是一个集成Python和Excel的工具，http://www.xlwings.org ，提供用Python和Excel电子表格交互和编写脚本的功能。它是一个开源库，可以免费随任何电子表格发送。xlwing的接收者只需要（最小）Python安装就可以驱动电子表格，其优势之一就是可以和Windows和Apple/Mac操作系统的Excel一起使用。