## 与数据库交互
### python对数据库的基本操作
**以sqlserver为例**
步骤：
1. 导入pymssql库
2. 使用`connect`建立连接对象conn，常用参数：  
  
 - host：主机
 - user：用户名
 - password：密码
 - database：数据库
 - charset：字符集，'utf8'
 - as_dict：查询结果list列表中的元素是否以字典返回（默认False，列表中元素为元组）
 - autocommit：自动提交事务（默认False，需要使用commit()提交事务）
3. 通过conn的`cursor`方法建立游标对象cur（返回None失败）
4. 游标对象cur使用`execute`方法执行sql语句
5. 成功执行sql语句后有多种方法获取查询结果rs  
  
 - `cursor.fetchall()`获取所有未获取的记录
 - `cursor.fetchone()`获取第一条记录
 - `cursor.fetchmany(i)`获取前i条记录   
**注：**每次获取数据后游标位置均会改变，下次获取数据时都是从游标当前位置开始，游标之前的数据无法再次获取。  
  
查询结果中的每条记录都是元组格式，若有多条记录，则结果为由多个元组组成的列表；若在建立连接时添加参数`as_dict=True`，查询结果列表里的元素则为字典类型。
6. insert，update，delete操作后，需要`conn.commit()`提交事务，保存操作
7. 操作结束，`conn.close()`关闭数据库连接
8. 可以使用with语句简化操作，无需进行close()操作

更多数据库操作请参考[https://blog.csdn.net/jewely/article/details/83084578](https://blog.csdn.net/jewely/article/details/83084578)

In [1]:
import pymssql
# 建立连接对象
conn=pymssql.connect(host='HOST',user='USERNAME',password='PASSWORD',database='DATABASE_NAME',charset='utf8')
cur=conn.cursor() # 建立游标对象
cur.execute('select * from test1') # 执行sql查询语句
rs=cur.fetchone() # 从游标位置开始获取第一条记录
print(rs) # 注意格式是元组

(1, 'A         ')


In [2]:
# 获取多条记录，注意是从游标位置开始获取，因此第一条记录无法获取
rs=cur.fetchmany(2)
print(rs) # 注意格式是由元组组成的列表

[(2, 'B         '), (3, 'C         ')]


In [3]:
rs=cur.fetchall()
print(rs)

[(4, 'D         '), (5, 'E         '), (6, 'F         '), (7, 'G         '), (8, 'H         '), (9, 'I         '), (10, 'J         '), (11, 'k         ')]


In [4]:
# 只有fetchall()获取记录后才能获取行数，未获取记录或者fetchone()和fetchmany()的rowcount都是-1
# rowcount不仅仅是fetchall()所获取的行数，还包括之前fetchone()和fetchmany()获取的行数，即整个查询结果的所有行数
cur.rowcount

11

In [5]:
# 使用with语句简化操作，无需进行close()操作
with pymssql.connect(host='HOST',user='USERNAME',password='PASSWORD',database='DATABASE_NAME',charset='utf8') as conn:
     with conn.cursor() as cur:
        cur.execute('select * from test1')
        rs=cur.fetchall()
        for row in rs:
            print(row[0],row[1])

1 A         
2 B         
3 C         
4 D         
5 E         
6 F         
7 G         
8 H         
9 I         
10 J         
11 k         


### 数据库查询结果转换为DataFrame
由于查询结果返回的都是元组列表，并不包含列名，因此需要使用`cursor.description`属性获取列名，然后将元组列表传递给DataFrame并设置columns，得到DataFrame数据。

In [6]:
import pandas as pd

In [7]:
conn=pymssql.connect(host='HOST',user='USERNAME',password='PASSWORD',database='DATABASE_NAME',charset='utf8')
cur=conn.cursor()
cur.execute('select * from test1')
rs=cur.fetchall()
rs # 元组列表

[(1, 'A         '),
 (2, 'B         '),
 (3, 'C         '),
 (4, 'D         '),
 (5, 'E         '),
 (6, 'F         '),
 (7, 'G         '),
 (8, 'H         '),
 (9, 'I         '),
 (10, 'J         '),
 (11, 'k         ')]

In [8]:
cur.description # 列名，元组里的第一个元素内容就是列名

(('id', 3, None, None, None, None, None),
 ('value', 1, None, None, None, None, None))

In [9]:
data=pd.DataFrame(rs,columns=[x[0] for x in cur.description])
data # 转换为DataFrame

Unnamed: 0,id,value
0,1,A
1,2,B
2,3,C
3,4,D
4,5,E
5,6,F
6,7,G
7,8,H
8,9,I
9,10,J


### 使用SQLAlchemy库来简化操作
上面对数据库的操作方法，需要先进行数据库查询，得到结果后要对结果和列名再进行转换，最后得到DataFrame，较为繁琐，可以使用SQLAlchemy来进行简化操作。
SQLAlchemy项目是一个流行的Python SQL工具，它抽象出了SQL数据库中的许多常见差异，可以兼容各种常用数据库。pandas有一个read_sql函数，可以轻松的从SQLAlchemy连接读取数据。  
步骤：
1. `create_engine()`初始化数据库连接，使用指定格式的字符串来表示连接信息
  >'数据库类型+数据库驱动名称://用户名:口令@机器地址:端口号/数据库名'
2. 将数据库连接和sql命令传入pandas的read_sql函数，返回DataFrame

In [10]:
import sqlalchemy as sqla

In [11]:
conn=sqla.create_engine('mssql+pymssql://USERNAME:PASSWORD@HOST:PORT/DATABASE_NAME') # 默认端口号1433可省略

In [12]:
pd.read_sql('select * from test1',conn)

Unnamed: 0,id,value
0,1,A
1,2,B
2,3,C
3,4,D
4,5,E
5,6,F
6,7,G
7,8,H
8,9,I
9,10,J
