# sqlalchemy基本操作

### sqlalchemy简介

SQLAlchemy是Python编程语言下的一款ORM框架，该框架建立在数据库API之上，使用关系对象映射进行数据库操作.

支持各种主流的数据库，如SQLite、MySQL、Postgres、Oracle、MS-SQL、SQLServer 和 Firebird。

简言之便是：将对象转换成SQL，然后使用数据API执行SQL并获取执行结果。

![](images/1.png)

ORM方法论基于三个核心原则：

1. 简单：以最基本的形式建模数据。
2. 传达性：数据库结构被任何人都能理解的语言文档化。
3. 精确性：基于数据模型创建正确标准化了的结构。

Dialect用于和数据API进行交流，根据配置文件的不同调用不同的数据库API，从而实现对数据库的操作，如：`数据库类型+数据库驱动名称://用户名:口令@机器地址:端口号/数据库名`

注意：
* SQLAlchemy无法修改表结构，如果需要可以使用SQLAlchemy开发者开源的另外一个软件Alembic来完成。
* sqlalchemy的数据库迁移/升级有两个库支持alembic和sqlalchemy-migrate
由于sqlalchemy-migrate在2011年发布了0.7.2版本后，就已经停止更新了，并且已经不维护了，也积累了很多bug，而alembic是较后来才出现，而且是sqlalchemy的作者开发的，有良好的社区支持，所以在这里只学习alembic这个库.

### 基本概念

1. SQLAlchemy操作时最高单位是以数据库为准的，不能跨库操作数据。
2. 

### 数据库连接

* pymysql
    `mysql+pymysql://{}:{}@{}/{}?charset=utf8'.format(MYSQL['user'], MYSQL['passwd'],MYSQL['host'], MYSQL['dbname'])`
    
更多: 参见[http://docs.sqlalchemy.org/en/latest/core/engines.html?highlight=create_engine#database-urls](http://docs.sqlalchemy.org/en/latest/core/engines.html?highlight=create_engine#database-urls)

### Column构造函数相关设置

* name：名称
* type_：列类型
* autoincrement：自增
* default：默认值
* index：索引
* nullable：可空
* primary_key：外键

更多介绍参见这里: [http://docs.sqlalchemy.org/en/latest/core/metadata.html?highlight=column%20autoincrement#sqlalchemy.schema.Column.__init__](http://docs.sqlalchemy.org/en/latest/core/metadata.html?highlight=column%20autoincrement#sqlalchemy.schema.Column.__init__)

### 创建数据库连接: create_engine

```python
engine = create_engine("mysql+mysqldb://user:password@127.0.0.1:3306/dbname", max_overflow=10, echo=False)
``` 

* create_engine(): 会返回一个数据库引擎
* mysql+mysqldb: 指定使用 MySQL-Python 来连接
* max_overflow: 连接池最大连接数,默认为10
* echo: 为 True 时，会显示每条执行的 SQL 语句，生产环境下可关闭。

### 字段和数据类型及操作方法

在sqlalchemy.schema包里有数据库关系的描述，列举几个最常用的：
* 字段：Column
* 索引：Index
* 表：Table

数据类型在sqlalchemy.types包，列举几个最常用的:
* 二进制：BIGINT
* 布尔：BOOLEAN
* 字符：CHAR
* 可变字符：VARCHAR
* 日期：DATETIME

方法:
* execute
* update
* insert
* select
* delete,
* join
* ...

### 表的表示

SQLAlchemy操作的主要对象就是表. SQLAlchemy将表抽象成一个类。比如下面这样:

```python
from sqlalchemy import create_engine
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy import  String,Column,Integer

engine = create_engine("mysql+mysqldb://xxx:123456@192.168.1.101:3306/flask_DB")
Session = sessionmaker(bind=engine)

Base = declarative_base()


class Student(Base): # 必须继承declaraive_base得到的那个基类
    # 必须要有__tablename__来指出这个类对应什么表，这个表可以暂时在库中不存在，SQLAlchemy会帮我们创建这个表
    __tablename__ = "Students"    
    # Column类创建一个字段
    no = Column(String(10),primary_key=True)    
    # nullable就是决定是否not null，unique就是决定是否unique。。这里假定没人重名，设置index可以让系统自动根据这个字段为基础建立索引
    name = Column(String(20),nullable=False,unique=True,index=True)    
    sex = Column(String(2),nullable=False)
    age = Column(Integer,nullable=False)
    dept = Column(String(20))

    def __repr__(self):
        return "<Student>{}:{}".format(self.name,self.no)
```

Student类中的`__repr__`方法不是必须的，但是可以写在这里来使得调试时更加容易分辨清楚谁是谁。

注意: 
1. 所有的表必须都继承上面的Base类，否则它们将会是一个孤立于SQLAlchemy的一个类，不会和数据库发生实质联系。
2. 创建表类的时候可以添加一个id字段，这个字段必须是id = Column(Integer, primary_key=True)，然后每次初始化的时候就不用管它，SQLAlchemy会为我们自动维护这个id字段，给每个初始化出来的数据对象都赋予一个独特的id。据观察id是从1开始逐渐网上+1的，而且这个id是不会回头的，也就是说即使把前面10条记录都删掉了，只要表还在，新增记录的id是从11开始的。

### 启动实际连接

In [None]:
# 这就是为什么表类一定要继承Base，因为Base会通过一些方法来通过引擎初始化数据库结构。不继承Base自然就没有办法和数据库发生联系了。
# 寻找Base的所有子类，按照子类的结构在数据库中生成对应的数据表信息
Base.metadata.create_all(engine)    

# 实例化了一个会话（或叫事务），之后的所有操作都是基于这个对象的
session = Session()    

#既然是事务对象，session必然有以下这些方法
session.commit()    #提交会话（事务）
session.rollback()  #回滚会话
session.close()     #关闭会话

### 关于数据库中数据的对象在session中的四种状态

ORM模型将数据库中的一条条记录转变成了python中的一个个对象，有时候我们会想当然地把两者完全等同起来，但是不要忘了，两者之间还**必须有session这个中间的桥梁**。

因为有session在中间做控制，所以必须注明对象和记录之间一个状态上的差别。

一般而言，一个数据的对象可以有四种不同和session关联的状态。从代码的流程上看：

```python
# 创建session对象
session = Session()    
# 数据对象得到创建，此时为Transient状态
bob = Person(name='Bob')    
# 数据对象被关联到session上，此时为Pending状态
session.add(bob)    
# 数据对象被推到数据库中，此时为Persistent状态
session.commit()   
# 关闭session对象
session.close()    
# 此时会报错DetachedInstanceError，因为此时是Detached状态。所以必须在session close之前将数据保存到一个变量中去.
print(bob.name)    

new_session = Session()
print new_session.query(Person).get(1).name    #可以查询到数据
new_session.close()
```

四个对象的状态分别是上面四种:
1. Transient
2. Pending
3. Persistent
4. Detached。

注意Detached状态, 并不是在python中创建了一个数据记录的对象就可以没有限制地访问它，必须使其处于一个session的上下文中，否则报错！

### filter于filter_by区别

filter_by和filter的区别在于:
* filter_by里面写得是kwargs形式的参数，且参数不用带表名。比如上面的filter(Student.Sname=='Frank')可以改写成filter_by(Sname="Frank")。

* 个人感觉filter_by更加符合常规思维一点。不过它只能用于等值查询，要不等值，大于，小于查询的时候还是得用filter。

### 过滤方法

* like方法进行模糊查询
    用法: `filter(Student.Sname.like("F%"))`，这个是查找所有F开头名字的学生的记录。

* `in_`方法来进行“包括”过滤
    用法: `filter(Student.Sname.in_(['Frank','Takanashi']))`。如果在filter方法所有参数最前面加上一个`~`，就是“非包括”过滤，比如刚才那个加上的话就是查询所有不叫Frank和Takanashi的学生了。

* `is_`方法主要用来进行判空操作。
    用法: `filter(Student.Sdept.is_(None))`, 就选择出了所有未填写院系信息的学生的记录，如果是`filter(Student.Sdept.isnot(None))`就是选择非空记录。其实`is_`和`isnot`可以通过filter中的`==`和`!=`来实现，两种方法效果是一样的。

* `~`在filter参数中表示非逻辑

* and_和or_两个方法来表示并或逻辑，两者不是filter返回对象自带的方法，需要额外从sqlalchemy导入：
    ```python
        from sqlalchemy import and_, or_
        session.query(Student).filter(and_(Student.Sdept == 'SFS' , Student.Sage < 22)).all()
    ```
过滤器方法除了filter_by还有filter，limit，offset，order_by，group_by等。

### 查询返回部分字段的值,而不是整条记录

查询中query中只有一个参数（而且基本上都是表名），这其实相当于是`SELECT 表名.* FROM 表名 [WHERE xxx]`。
其实在query方法参数中可以写子级字段，也可以写多个参数。比如:

#查询了所有名字F开头的学生的学号和姓名
`session.query(Student.id, Student.name).filter(Student.name.like("F%")).all()`    

* 如果query参数写的只是一个表名，返回的list,其中list每个元素是整条记录对象。
* 如果query参数是若干个字段名，返回list,其中list每个元素是一个tuple, 一个tuple里面就是一行内指定字段的值了。

### sqlalchemy增加

In [None]:
user = User(name='a')
session.add(user)
session.commit()

### sqlalchemy删除

In [None]:
query.filter(User.id == 1).delete()

target = session.query(Student).get("10001")
session.delete(target)
session.commit()

### sqlalchemy查询

In [None]:
#简单查询
session.query(User).all()
session.query(User.name, User.fullname).all()
session.query(User, User.name).all()

# 根据主键查询
session.query(User).get(2) # 以主键获取，等效于上句

#带条件查询
session.query(User).filter_by(name='user1').all()
session.query(User).filter(User.name == "user").all()
session.query(User).filter(User.name.like("user%")).all()

#多条件查询
session.query(User).filter(and_(User.name.like("user%"), User.fullname.like("first%"))).all()
session.query(User).filter(or_(User.name.like("user%"), User.password != None)).all()

#sql过滤
session.query(User).filter("id>:id").params(id=1).all()
session.query(User)..offset(1).all() # 从第 2 条记录开始返回

#关联查询 
session.query(User, Address).filter(User.id == Address.user_id).all()
session.query(User).join(User.addresses).all()
session.query(User).outerjoin(User.addresses).all()

#聚合查询
session.query(User.name, func.count('*').label("user_count")).group_by(User.name).all()
session.query(User.name, func.sum(User.id).label("user_id_sum")).group_by(User.name).all()

#子查询
stmt = session.query(Address.user_id, func.count('*').label("address_count")).group_by(Address.user_id).subquery()
session.query(User, stmt.c.address_count).outerjoin((stmt, User.id == stmt.c.user_id)).order_by(User.id).all()

#exists
session.query(User).filter(exists().where(Address.user_id == User.id))
session.query(User).filter(User.addresses.any())

# 限制返回字段查询
person = session.query(Person.name, Person.created_at, Person.updated_at).filter_by(name="zhongwei").order_by(            
             Person.created_at).first()

# 记录总数查询：
from sqlalchemy import func

# count User records, without
# using a subquery.
session.query(func.count(User.id))

# return count of user "id" grouped
# by "name"
session.query(func.count(User.id)).group_by(User.name)

from sqlalchemy import distinct

# count distinct "name" values
session.query(func.count(distinct(User.name)))

### sqlalchemy更新

In [None]:
query.filter(User.id == 1).update({User.name: 'c'})

# 修改的话直接在对象身上修改，修改可以反映到数据库中去
ed_user = session.query(User).filter_by(name='ed').first()
ed_user.name = 'Tom'
session.commit()
session.close()

### ORM查询时有用的一些方法

session.query(xxx)得到的是一个query对象，上面说过很多后面可以接上的方法，实际上还有更多如下：

one()　　返回1条记录, 如果没有命中记录，那么就报错；若刚好返回结果就一条就返回这条记录的对象

limit(n)　　最多只返回n条结果

offset(n)　　直接跳过前n条记录，从n+1条开始返回

order_by(Table.attribute 或者 'attribute')　　返回结果按照给出的字段排序。

order_by(User.name.desc()) 或者 order_by('name desc')

filter(condition1).filter(condition2)　　多个拼接的filter就相当于and_(condition1,condition2...)

请注意以上所有方法都要在all()之前调用，all出来已经是一个列表了，不能在作为调用方调用这些方法了。

还可以些数据库自带的函数，在用之前记得from sqlalchemy import func，就可以通过func来调用了。这些函数不是放在调用链中，大多数时候都是放在query方法的参数位置，

比如func.count()　　统计一共有多少条记录作为结果等等

## sqlalchemy进阶

### 如何指定一个字段使用无符号整数？

In [None]:
from sqlalchemy.dialects.mysql import INTEGER

id = Column(INTEGER(unsigned=True), primary_key=True)

### 模型的属性名和表的字段名不一样怎么办？

如果有一个表包含了一个“from”字段，但是from字段在Python里是关键字，于是在模型里只能这样处理：

`from_ = Column('from', CHAR(10))`

### 如何获取字段的长度？

Column 会生成一个很复杂的对象，想获取长度比较麻烦，这里以 User.name 为例：
`User.name.property.columns[0].type.length`

### 如何指定使用 InnoDB，以及使用 UTF-8 编码？

最简单的方式就是修改数据库的默认配置。如果非要在代码里指定的话，可以这样：
```python
class User(BaseModel):
    __table_args__ = {
        'mysql_engine': 'InnoDB',
        'mysql_charset': 'utf8'
    }
```    

* MySQL 5.5 开始支持存储 4 字节的 UTF-8 编码的字符了，iOS 里自带的 emoji（如 �� 字符）就属于这种。
* 如果是对表来设置的话，可以把上面代码中的 utf8 改成 utf8mb4，DB_CONNECT_STRING 里的 charset 也这样更改。
* 如果对库或字段来设置，则还是自己写 SQL 语句比较方便，具体细节可参考《How to support full Unicode in MySQL databases》。
* 不建议全用 utf8mb4 代替 utf8，因为前者更慢，索引会占用更多空间。

### 如何连接表？

In [None]:
from sqlalchemy import distinct
from sqlalchemy.orm import aliased
 
Friendship = aliased(User, name='Friend')

# 所有有朋友的用户
session.query(User.id).join(Friendship, User.id == Friendship.user_id1).all() 
# 所有有朋友的用户（去掉重复的）
session.query(distinct(User.id)).join(Friendship, User.id == Friendship.user_id1).all() 
# 同上
session.query(User.id).join(Friendship, User.id == Friendship.user_id1).distinct().all() 
# 所有被别人当成朋友的用户
session.query(Friendship.user_id2).join(User, User.id == Friendship.user_id1).order_by(Friendship.user_id2).distinct().all() 
# 同上，join 的方向相反，但因为不是 STRAIGHT_JOIN，所以 MySQL 可以自己选择顺序
session.query(Friendship.user_id2).select_from(User).join(Friendship, User.id == Friendship.user_id1).order_by(Friendship.user_id2).distinct().all() 
# 用户及其朋友
session.query(User.id, Friendship.user_id2).join(Friendship, User.id == Friendship.user_id1).all() 
# id 小于 10 的用户及其朋友
session.query(User.id, Friendship.user_id2).join(Friendship, User.id == Friendship.user_id1).filter(User.id < 10).all() 
# 两次 join，由于使用到相同的表，因此需要别名
session.query(User.id, Friend.id).join(Friendship, User.id == Friendship.user_id1).join(Friend, Friend.id == Friendship.user_id2).all() 
session.query(User.id, Friendship.user_id2).outerjoin(Friendship, User.id == Friendship.user_id1).all()

###  如何扩充模型的基类的属性和方法？

declarative_base()会生成一个class对象，这个对象的子类一般都和一张表对应。如果想增加这个基类的方法或属性，让所有子类都能使用，可以有三种方法：
1. 定义一个新类，将它的方法设置为基类的方法
    ```python
        class ModelMixin(object):
            @classmethod
            def get_by_id(cls, session, id, columns=None, lock_mode=None):
                pass
            BaseModel.get_by_id = get_by_id
    ```
2. 设置 declarative_base() 的 cls 参数
    `BaseModel = declarative_base(cls=ModelMixin)`
    这种方法不需要执行`BaseModel.get_by_id = get_by_id`之类的代码。不足之处就是 PyCharm 仍然无法找到这些方法的位置。
3. 设置 __abstract__ 属性：这种方法最简单，也可以继承出多个类。
    ```python
        class BaseModel(BaseModel):
            __abstract__ = True
            __table_args__ = { 
                # 可以省掉子类的 __table_args__ 了
                'mysql_engine': 'InnoDB',
                'mysql_charset': 'utf8'
            }
    # ...
    ```

### 如何正确使用事务？

### 如何对一个字段进行自增操作？

最简单的办法就是获取时加上写锁：
```python
user = session.query(User).with_lockmode('update').get(1)
user.age += 1
session.commit()
```
如果不想多一次读的话，这样写也是可以的：
```python
session.query(User).filter(User.id == 1).update({ User.age: User.age + 1 })
session.commit()
# 其实字段之间也可以做运算：
session.query(User).filter(User.id == 1).update({User.age: User.age + User.id })
```

### 分页(skip和limit)

In [None]:
query.order_by(LogModel.id.desc()).limit(limit_num).offset(skip_num).all()

### 获取总数目

In [None]:
data['total'] = query.count()

query(Material).filter(Material.run_id == run_id, Material.generation == generation).count() 