In [1]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'

In [2]:
import pandas as pd
from pandas import DataFrame,Series
import matplotlib.pyplot as plt
import numpy as np
import re

# Pandas私房手册-IO工具

## Excel文件

### 读取Excel文件

#### `ExcelFile`类

为了方便处理来自同一个文件的多个工作表，可以使用`ExcelFile`类，`ExcelFile`类可用于包装Excel文件，并可传递到`read_excel`中。由于文件只被读入内存一次，因此读取多个工作表时将带来性能上的优势。

In [28]:
xlsx = pd.ExcelFile('excel_demo.xlsx')
df = pd.read_excel(xlsx, 'Sheet1')

`sheet_names`属性将生成文件中工作表名称的列表：

In [29]:
xlsx.sheet_names

['Sheet1', 'Sheet2']

`ExcelFile`也可以被用作上下文管理器：

In [25]:
with pd.ExcelFile('excel_demo.xlsx') as xl:
    df1 = pd.read_excel(xl, 'Sheet1')
    df2 = pd.read_excel(xl, 'Sheet2')

`ExcelFile`的主要的作用是解析具有不同参数的多个表(即不同的表，读取的时候需要输入`read_excel()`方法的参数不同)，如果多个表具有相同的参数，则可以直接向`pd.read_excel`传递一个表名组成的列表即可，返回一个`Ordered_Dict`，键是表名，值是`dataframe`对象：

In [88]:
data = pd.read_excel('excel_demo.xlsx', ['Sheet1', 'result'])
data['result']

OrderedDict([('Sheet1',   Unnamed: 0  col1  col2
              0       row1     1     2
              1       row2     3     4), ('result',   Unnamed: 0  col1  col2
              0       row1     5     6
              1       row2     7     8)])

Unnamed: 0.1,Unnamed: 0,col1,col2
0,row1,5,6
1,row2,7,8


#### 指定Sheets

`read_excel`的第二个参数是`sheet_name`，可以向它传递sheet的名称或者代表编号的整数，注意不要和`ExcelFile`的`sheet_names`属性弄混了。指定sheet有以下几点要注意：
- 参数`sheet_name`允许指定要读取的工作表。
- `sheet_name`的默认值为0，表示读取第一个工作表。
- 可以传递一个字符串来引用工作簿中特定工作表的名称。
- 传递一个整数，整数是工作表的索引，索引从0开始。
- 可以传递字符串或整数列表构成的列表，以返回指定工作表的字典，注意此时字典的键是字符串和整数。
- 传递一个`None`会返回所有可用工作表的字典。

In [8]:
pd.read_excel('excel_demo.xlsx', sheet_name=['Sheet1', 2])

OrderedDict([('Sheet1',   Unnamed: 0  col1  col2
              0       row1     1     2
              1       row2     3     4), (2,   Unnamed: 0  col1  col2
              0       row1     9    10
              1       row2    11    12)])

In [6]:
pd.read_excel('excel_demo.xlsx', sheet_name=None)

OrderedDict([('Sheet1',   Unnamed: 0  col1  col2
              0       row1     1     2
              1       row2     3     4), ('Sheet2',   Unnamed: 0  col1  col2
              0       row1     5     6
              1       row2     7     8), ('result',   Unnamed: 0  col1  col2
              0       row1     9    10
              1       row2    11    12)])

#### 读取一个层级索引

`read_excel`可以通过将列表传递给`index_col`来读取行的层级索引，通过将列表传递给`header`参数来读取列的多索引。如果行或者列的索引具有级别名称，那么也可以通过指定组成级别的行/列来读取这些名称。

In [25]:
df = pd.DataFrame(
    {
        'a': [1, 2, 3, 4],
        'b': [5, 6, 7, 8]
    },
    index=pd.MultiIndex.from_product([['a', 'b'], ['c', 'd']]))

df.to_excel('path_to_file.xlsx')

来看一下excel文件是什么样子的：
![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

此时可以通过`index_col`将前两列设置为行的`MultiIndex`索引：

In [26]:
pd.read_excel('path_to_file.xlsx', index_col=[0, 1])

Unnamed: 0,Unnamed: 1,a,b
a,c,1,5
a,d,2,6
b,c,3,7
b,d,4,8


多层索引可以有名称，注意`index_col`只能是整数或者是`slice`对象，不能是字符串，因此不能传入`['lvl1', 'lvl2']`:

In [27]:
df.index = df.index.set_names(['lvl1', 'lvl2'])
df.to_excel('path_to_file.xlsx')
pd.read_excel('path_to_file.xlsx', index_col=[0, 1])

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b
lvl1,lvl2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,c,1,5
a,d,2,6
b,c,3,7
b,d,4,8


可以设置`header`参数指定行为列的索引，和`index_col`一样，如果传递的是整数列表，则为列的层级索引：

In [30]:
df.columns = pd.MultiIndex.from_product([['a'], ['b', 'd']], names=['c1', 'c2'])
df.to_excel('path_to_file.xlsx')
pd.read_excel('path_to_file.xlsx', index_col=[0, 1], header=[0, 1])

Unnamed: 0_level_0,c1,a,a
Unnamed: 0_level_1,c2,b,d
lvl1,lvl2,Unnamed: 2_level_2,Unnamed: 3_level_2
a,c,1,5
a,d,2,6
b,c,3,7
b,d,4,8


此时的excel表长这样：
![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

#### 读取指定的列

有时候，我们只需要读取部分列，此时可以使用`usecols`参数，`usecols`参数可以有以下几种形式：
- 代表列的字母的字符串，可以是切片的形式。
- 代表列的整数组成的列表。
- 0.24版本以后，可以是代表列的索引的字符串组成的列表，此时第一行为列的索引。
- 0.24版本以后，还可以是一个可调用对象，可调用函数将根据列名计算，返回可调用函数计算为True的名称。

另外要注意的是，列的索引不能设置为层级索引（即使用`usecols`时，`header`不能是列表），否则会报错。

In [60]:
pd.read_excel('excel_demo.xlsx', usecols='A, B:D')
pd.read_excel('excel_demo.xlsx', usecols=[1, 3])
pd.read_excel('excel_demo.xlsx', usecols=['col1', 'col2'])
pd.read_excel('excel_demo.xlsx', usecols=lambda x: x == 'col1')

Unnamed: 0.1,Unnamed: 0,col1,col2
0,row1,1,2
1,row2,3,4


Unnamed: 0,col1
0,1
1,3


Unnamed: 0,col1,col2
0,1,2
1,3,4


Unnamed: 0,col1
0,1
1,3


#### `converters`单元转换器以及`dtype`参数

`read_excel`还有一个`converters`的参数，叫做单元转换器，虽然个人感觉这个参数没有太大的作用，完全可以读入以后再进行处理，但由于比较少见，还是进行说明。转换器接收一个字典，键是列名或者是代表列的整数，值是一个可调用对象，接收一个参数，返回处理过的值。要注意的是它是一个一个单元格的处理，而不是把整列视为一个整体，因此整列的`dtype`没有办法保证：

In [16]:
pd.read_excel(
    'excel_demo.xlsx', 'Sheet1', usecols='B:D', converters={'col1': bool})

Unnamed: 0,col1,col2
0,True,2
1,True,4


0.20以后，作为作为转换器的替代方案，可以使用`dtype`关键字指定整个列的类型，该关键字使用字典将列名映射到类型。若要解释没有类型推断的数据，请使用类型`str`或对象：

In [24]:
pd.read_excel(
    'excel_demo.xlsx', 'Sheet1', usecols='B:D', dtype={'col1': str}).info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 2 columns):
col1    2 non-null object
col2    2 non-null int64
dtypes: int64(1), object(1)
memory usage: 160.0+ bytes


## 写Excel文件

### 将Excel文件写入磁盘

`index_label`就是设置索引的名称，如果已经索引已经有名称了，会被覆盖掉。而`merge_cells`就是合并单元格的意思，这个参数主要是针对层级索引的，在默认的情况下，假如列的索引是层级索引，会以合并单元格的形式出现，但如果`merge_cells`设置为`False`，则层级索引索引会被压缩成一行：

In [59]:
df = DataFrame(
    [[1, 2, 3], [4, 5, 6]],
    index=['a', 'b'],
    columns=pd.MultiIndex.from_product([['Col'], ['col1', 'col2', 'col3']]))

df.index = df.index.set_names('Row')
df.to_excel('temp.xlsx', index_label='RowLabel', merge_cells=True)

此时excel表是这样的，注意行索引的名称是`RowLabel`而不是`Row`：
![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

In [62]:
df.to_excel('temp.xlsx', index_label='RowLabel', merge_cells=False)

将`merge_cells`设置为`False`，此时的excel是这样的（官网教程说此时行索引标签会在第一行，但是发现并不是这样，不知道是不是因为版本的原因）：
![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

### 写入不同的sheet

和读取多表的Excel可以使用`ExcelFile`类，同样，如果你想将多个`dataframe`写入不同的sheet，可以使用`ExcelWrite`类：

```
with pd.ExcelWriter('path_to_file.xlsx') as writer:
    df1.to_excel(writer, sheet_name='Sheet1')
    df2.to_excel(writer, sheet_name='Sheet2')
```

### 将Excel文件写入内存

有时候我们不需要将文件写入到磁盘，`pandas`支持使用`ExcelWriter`将Excel文件写入类似于缓冲区的对象，如`StringIO`或`BytesIO`（注意，虽然官网说可以使用`StringIO`，但是3.0+版本，测试的时候报错，只能写入`BytesIO`，只能是以字节的模式写入缓冲区对象）：

In [95]:
from io import BytesIO

bio = BytesIO()
writer = pd.ExcelWriter(bio)
df.to_excel(writer)
writer.save()
pd.read_excel(bio, index_col=0, header=[0, 1])

Unnamed: 0_level_0,Col,Col,Col
Unnamed: 0_level_1,col1,col2,col3
a,1,2,3
b,4,5,6


### 样式和格式

可以通过`to_excel`的`float_format`和`freeze_panes`来控制excel的样式和格式：
- `float_format`： 浮点数的格式字符串（默认是无）。
- `freeze_panes`： 由两个整数组成的元组，表示要冻结的最底部的行和最右侧的列（默认是无）。

`Xlsxwriter`引擎提供了很多选项控制样式和格式，可以参考`Xlswriter`文档。  
注意：引擎是可选的，设置`engine='xlrd'`将生成一个Excel 2003格式的工作簿(xls)。使用“openpyxl”或“xlsxwriter”将生成Excel 2007格式的工作簿(xlsx)。如果省略，将生成Excel 2007格式的工作簿。

## sql数据库

pandas可以直接与数据库进行交互，主要有以下几个方法：
1. 读取数据库
 - `read_sql_table(table_name, con[, schema, …])`：将数据库整个表读入一个dataframe。
 - `read_sql_query(sql, con[, index_col, …])`：将查询结果读入一个dataframe。
 - `read_sql(sql, con[, index_col, …])`：前两者的快捷方式，会根据传入的参数自动判断调用哪个函数。
2. 写入数据库
 - `DataFrame.to_sql(self, name, con[, schema, …])`：将dataframe写入数据库。

### sqlalchemy相关

pandas后台是使用sqlalchemy与数据库进行交互，因此这里记录使用sqlalchemy遇到的问题。

#### 创建engine时报`Unknown character set: 'utf8mb4'`错误

均采取默认设置的情况下，如：
```python
engine = create_engine('mysql+pymysql://root:root@localhost/test')
```
抛出`Unknown character set: 'utf8mb4'`错误，估计`sqlalchemy`默认设置编码为`utf8mb4`，而本地数据库不支持，只需要添加`charset`参数即可：
```python
engine = create_engine('mysql+pymysql://root:root@localhost/test?charset=utf8')
```

#### sqlalchemy传参方式

对于一些不返回结果的DML语句，最简单的是直接在`engine`上面调用`execute()`方法执行sql语句。比较常遇到的问题是，如果要给`sql`传递参数怎么办。有两种方法：
1. 使用字符串格式化占位符，举例如下：

```python
sql_1 = 'insert into userinfo value(%s, %s, %s);'
sql_2 = 'insert into userinfo value(%(id)s, %(name)s, %(pwd)s);'

# 插入单行数据：
engine.execute(sql_1, None, 'egon', '888')
engine.execute(sql_2, id=None, name='eva', pwd='999')

# 或者使用多行数据的写法
engine.execute(sql_1, [(None, 'egon', '888')])
engine.execute(sql_2, [{'id': None, 'name': 'eva2', 'pwd': '1010'}])

# 插入多行数据：
engine.execute(sql_1, [(None, 'egon', '888'), (None, 'alex', '666')]
engine.execute(sql_2, [{'id': None, 'name': 'eva2', 'pwd': '1010'}, {'id': None, 'name': 'eva3', 'pwd': '1212'}])
```
2. 使用sqlalchemy占位符
```python
sql = 'insert into userinfo value(:id, :name, :pwd);'
engine.execute(sqlalchemy.text(sql), id=None, name='eva2', pwd='1010')
```
使用sqlalchemy占位符，需要先使用`sqlalchemy.text`方法对原始sql进行转换。

如果想要自己控制连接，例子如下：
```python
with engine.connect() as conn, conn.begin():
    data = pd.read_sql_table('data', conn)
```