# 数据库读取与写入

除了使用硬盘上的文件来存储数据外，业界还是用数据库永久储存数据。实际上，在生产环境中，绝大多数的数据都是用数据库来储存管理的。相对于数据文件，数据库要复杂的多。Pandas 也提供与数据库相关的读写函数。业界的数据库系统非常多，常用的有如下一些：
- SQLite，轻型的嵌入式数据库
- Mysql，流行的关系型数据库管理系统
- PostgreSQL，免费的对象-关系数据库系统
- Oracle，甲骨文公司的一款商业关系数据库管理系统。
- Microsoft SQL，微软公司的商业关系数据库

使用 Pandas 库与这些数据库进行交互时，需要使用 SQLAlchemy 库建立对应的数据库连接。这意味着，除了安装 SQLAlchemy 软件包外，还需要安装与之交互数据库的 Python 连接工具。例如，与 Mysql 交互需要使用 mysqlclient 或 pymysql 库。可以使用 `pip` 工具进行安装这些库：
```sh
pip install sqlalchemy
```

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import sqlalchemy
%matplotlib inline

## 连接数据库

在使用 Pandas 与数据库交互之前，需要连接数据库。在 SQLAlchemy 中，可以使用`create_engine()`函数来初始化数据库连接，其使用语法为：
```python
sqlalchemy.create_engine(*args, **kwargs)
```

可以通过传入一个字符串来表示数据库连接信息：
```
"dialect+driver://username:password@host:port/database"
```
其中：
- `dialect`，表示数据库类型
- `driver`，`数据库驱动名称
- `user`，用户名
- `password`，口令
- `host`，服务器名字或IP地址
- `port`，端口号
- `database`，数据库名

例如 SQLAlchemy 支持的数据库：
- postgres  
```python
engine = create_engine('postgresql://scott:tiger@localhost/mydatabase')
```

- mysql  
```python
engine = create_engine('mysql://scott:tiger@localhost/foo')
```

- Oracle  
```python
engine = create_engine('oracle+cx_oracle://scott:tiger@tnsname')
```

- Microsoft SQL  
```python
engine = create_engine('mssql+pymssql://scott:tiger@hostname:port/dbname')
```
- SQLite  
```python
engine = create_engine('sqlite:///foo.db')
```

如果自己有可用的数据库，就是用上述方法建立连接。这里使用 sqlite 数据库来练习。

sqlite 数据库其实就是一个文件。示例使用的文件存放一个股票的交易数据，共有两个表`dailybar`与`min5bar`。下面来创建一个数据库连接：

In [47]:
import os
dbfile = os.path.join('..', 'data', 'XSHG_000001.db')
url = 'sqlite:///{}'.format(dbfile)
dbfile, url

('..\\data\\XSHG_000001.db', 'sqlite:///..\\data\\XSHG_000001.db')

In [48]:
engine = sqlalchemy.create_engine(url)

## 读取数据

Pandas 提供了如下函数用来读取数据库的数据：
- `pd.read_sql_table()`，读取数据库一个表格的数据；
- `pd.read_sql_query()`，读取数据库查询操作结果；
- `pd.read_sql()`，读取数据库查询或表格的数据。

`pd.read_sql()`的使用语法为：
```python
pd.read_sql(sql, con, index_col=None, coerce_float=True, params=None, parse_dates=None, columns=None, chunksize=None)
```
主要参数说明
- `sql`，数据库表名或SQL语句；
- `con`，数据库连接。
- `index_col`，用作行索引的列编号或列名。可以是名称/数字标量，也可以是分层索引。
- `coerce_float=True`，浮点数数据转换。
- `columns=None`，表示读取数据的列名。
- `parse_dates=False`，尝试将数据解析为日期。默认是`False`。如果为`True`，则尝试解析所有列。可以指定列号或列名列表对指定列进行解析。

下面使用`pd.read_sql()`来读取 sqlite 数据库中的

In [51]:
df = pd.read_sql('dailybar', con=engine)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6912 entries, 0 to 6911
Data columns (total 7 columns):
date      6912 non-null datetime64[ns]
open      6912 non-null float64
high      6912 non-null float64
low       6912 non-null float64
close     6912 non-null float64
volume    6912 non-null float64
amount    6912 non-null float64
dtypes: datetime64[ns](1), float64(6)
memory usage: 378.1 KB


In [57]:
df.head()

Unnamed: 0,date,open,high,low,close,volume,amount
0,1990-12-19,96.05,99.98,95.79,99.98,1260.0,494000.0
1,1990-12-20,104.3,104.39,99.98,104.39,197.0,84000.0
2,1990-12-21,109.07,109.13,103.73,109.13,28.0,16000.0
3,1990-12-24,113.57,114.55,109.13,114.55,32.0,31000.0
4,1990-12-25,120.09,120.25,114.55,120.25,15.0,6000.0


使用`pd.read_sql_query()`函数来使用SQL语句读取数据：

In [58]:
df = pd.read_sql_query("select * from dailybar where date > '2018-01-01'", engine)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 299 entries, 0 to 298
Data columns (total 7 columns):
date      299 non-null object
open      299 non-null float64
high      299 non-null float64
low       299 non-null float64
close     299 non-null float64
volume    299 non-null float64
amount    299 non-null float64
dtypes: float64(6), object(1)
memory usage: 16.4+ KB


In [59]:
df.head()

Unnamed: 0,date,open,high,low,close,volume,amount
0,2018-01-02,3314.03,3349.05,3314.03,3348.33,202278860.0,227788500000.0
1,2018-01-03,3347.74,3379.92,3345.29,3369.11,213836149.0,258366500000.0
2,2018-01-04,3371.0,3392.83,3365.3,3385.71,206955288.0,243090800000.0
3,2018-01-05,3386.46,3402.07,3380.25,3391.75,213060681.0,248187800000.0
4,2018-01-08,3391.55,3412.73,3384.56,3409.48,236165106.0,286213200000.0


## 导出到数据库

使用`DataFrame`对象的`to_sql()`方法可以把数据导出到数据库，其使用语法为：
```python
df.to_sql(name, con, schema=None, if_exists='fail', index=True, index_label=None, chunksize=None, dtype=None)
```
主要参数为：
- `name`，字符串，指定数据库表名。
- `con`，数据库连接。
- `if_exists='fail`，字符串：
    - `fail`，表示如果表名存在，则不执行写入操作；
    - `replace`，表示如果表名存在，则将元数据表删除，重新创建；
    - `append`，表示在表的基础上，追加数据；
- `index`，是否将行索引导入到数据库。
- `index_label`，表示是否引用索引名称。
- `dtype`，字典，表示写入的数据类型。

这里直接使用 Python 内置模块 sqlite3 来创建数据库连接：

In [61]:
import sqlite3
    
conn = sqlite3.connect('output01.db')

In [62]:
# 导出到数据库
df.to_sql('dailybar', conn)

In [63]:
%ls *.db

 驱动器 D 中的卷是 user
 卷的序列号是 9EFE-2364

 D:\training\python-basics-book\Python数据分析\第07章 Pandas数据读取和导出 的目录

2019-04-20  19:34            32,768 output01.db
               1 个文件         32,768 字节
               0 个目录 13,370,429,440 可用字节


## 小结

使用 pandas 从数据库读取数据非常快捷方便，但是在写入数据到数据库中去，操作并不那么灵活，容易把数据库数据给覆盖掉。使用须谨慎。