# 物化视图

视图基本是所有关系数据库的标配,但[物化视图](http://postgres.cn/docs/10/rules-materializedviews.html)算是pg的特色功能了.PG中的所谓物化视图实际是一种缓存机制,与一般的view由本质上的不同,物化视图是物理实际存在的表.我们可以通过使用语句`REFRESH MATERIALIZED VIEW`手动刷新更新这张表中的内容.这个特性在目标表特别大查询效率特别低而且使用传统方法(例如索引)无法显著提高效率;但对查询速度有要求,对数据的时效性没有那么敏感的情况下十分有用.

当然了另一个更加通用的方法是将数据缓存到redis中通过设置过期时间实现类似功能.这个是后话咱会在后面介绍redis时详细说.

## 创建物化视图的语句

物化视图[使用`CREATE MATERIALIZED VIEW`语句](http://postgres.cn/docs/11/SQL-CREATEMATERIALIZEDVIEW.html)创建

```sql
CREATE MATERIALIZED VIEW [ IF NOT EXISTS ] table_name
    [ (column_name [, ...] ) ]
    [ USING method ]
    [ WITH ( storage_parameter [= value] [, ... ] ) ]
    [ TABLESPACE tablespace_name ]
    AS query
    [ WITH [ NO ] DATA ]
```

物化视图有很多和表相同的属性,但是不支持临时物化视图以及自动生成OID.

物化视图的更改[使用`ALTER MATERIALIZED VIEW`语句](http://postgres.cn/docs/10/sql-altermaterializedview.html)其规则也和修改表类似

物化视图的删除[使用`DROP MATERIALIZED VIEW`语句](http://postgres.cn/docs/10/sql-dropmaterializedview.html)其规则也和删除表表类似


## 物化视图刷新数据

物化视图中的数据[使用`REFRESH MATERIALIZED VIEW`语句刷新](http://postgres.cn/docs/10/sql-refreshmaterializedview.html)

pg的物化视图按刷新的方式可以分为如下几种:

物化视图类型|特点
---|---
快照物化视图(snapshot materialized view)|最容易实现,物化视图中的数据需要手动刷新
积极物化视图(Eager materialized view)|物化视图在数据库被更新时同步更新,可以通过系统触发器实现
惰性物化视图(Lazy materialized view)|物化视图在事务提交时更新
非常消极物化视图(Very Lazy materialized view)|类似快照物化视图,区别在于变化都会被增量式地记录下来并在手动刷新时被应用


### 阻塞更新与非阻塞更新

物化视图的更新是阻塞操作,在更行的同时不能进行查询.虽然刷新够快就没太大问题,但要知道物化视图很多时候就是缓存大查询结果用的,我们可以使用
`refresh materialized view concurrently {viewname}`这个语句,注意关键是增加了`concurrently`命令,这个命令的使用是有条件的--这个物化视图上必须有唯一索引.

## 例子

下面是一个简单的例子,有Tom,Jack,Lucy3个人,我们用一张随机生成的表模拟他们一年时间购买15种糖果的行为记录.假设Tom每天40%的几率会在15种糖果种买一个,Jack则为20%,Lucy则为55%.我们用pandas生成这样一张表然后填入pg

ps:这个部分使用的是python

In [2]:
import pandas as pd
from random import random,choice
def make_row(name,rate):
    b = random()
    if b<rate:
        return {"name":name,"buy":choice(range(15))}
    else:
        return None
res = []
for i in pd.date_range(start='20190101',end='20200101'):
    rows = [make_row("Tom",0.4),make_row("Jack",0.2),make_row("Lucy",0.55)]
    for row in rows:
        if row:
            row.update({"date":i})
            res.append(row)
        
pdf = pd.DataFrame(res)
from sqlalchemy import create_engine
conn = create_engine("postgres://postgres:postgres@localhost:5432/test")
pdf.to_sql('buy_candy', conn,if_exists="append")

### 使用pg构建查询

In [1]:
-- connection: postgres://postgres:postgres@localhost:5432/test

In [2]:
-- autocommit: true

switched autocommit mode to True

我们来构建一个物化视图`buy_candy_mview`,用它来统计每种糖果被谁买了多少次,首先是简单的查询

In [4]:
SELECT buy,name,count(*) AS times FROM buy_candy GROUP BY buy,name ORDER BY times DESC

45 row(s) returned.


buy,name,times
0,Lucy,18
7,Lucy,17
13,Lucy,16
2,Lucy,16
3,Lucy,16
9,Lucy,16
5,Lucy,15
7,Tom,15
12,Lucy,15
2,Tom,13


然后我们利用这个查询语句构建一个物化视图

In [6]:
CREATE MATERIALIZED VIEW IF NOT EXISTS buy_candy_mview
    AS SELECT buy,name,count(*) AS times FROM buy_candy GROUP BY buy,name ORDER BY times DESC

In [8]:
SELECT * FROM buy_candy_mview limit 10

10 row(s) returned.


buy,name,times
0,Lucy,18
7,Lucy,17
13,Lucy,16
2,Lucy,16
3,Lucy,16
9,Lucy,16
5,Lucy,15
7,Tom,15
12,Lucy,15
2,Tom,13


我们甚至可以给这个物化视图创建索引来提高查询效率

In [10]:
CREATE INDEX IF NOT EXISTS buy_candy_mview_name_buy ON buy_candy_mview (name, buy)

NOTICE:  relation "buy_candy_mview_name_buy" already exists, skipping


接着我们切换回python,为其新增2个月的数据

In [1]:
import pandas as pd
from random import random,choice
def make_row(name,rate):
    b = random()
    if b<rate:
        return {"name":name,"buy":choice(range(15))}
    else:
        return None
res = []
for i in pd.date_range(start='20200102',end='20200301'):
    rows = [make_row("Tom",0.4),make_row("Jack",0.2),make_row("Lucy",0.55)]
    for row in rows:
        if row:
            row.update({"date":i})
            res.append(row)
        
pdf = pd.DataFrame(res)
from sqlalchemy import create_engine
conn = create_engine("postgres://postgres:postgres@localhost:5432/test")
pdf.to_sql('buy_candy', conn,if_exists="append")

In [1]:
-- connection: postgres://postgres:postgres@localhost:5432/test

In [2]:
-- autocommit: true

switched autocommit mode to True

我们来观察下原表和这个物化视图的变化

In [3]:
SELECT buy,name,count(*) AS times FROM buy_candy GROUP BY buy,name ORDER BY times DESC limit 10

10 row(s) returned.


buy,name,times
0,Lucy,20
2,Lucy,20
7,Lucy,20
12,Lucy,19
9,Lucy,18
3,Lucy,18
7,Tom,17
13,Tom,17
13,Lucy,17
5,Lucy,16


In [4]:
SELECT * FROM buy_candy_mview limit 10

10 row(s) returned.


buy,name,times
0,Lucy,18
7,Lucy,17
13,Lucy,16
2,Lucy,16
3,Lucy,16
9,Lucy,16
5,Lucy,15
7,Tom,15
12,Lucy,15
2,Tom,13


可以清晰的看到原表的变化不会引起物化视图的变化.我们这会儿刷新下物化视图

In [5]:
REFRESH MATERIALIZED VIEW buy_candy_mview

In [6]:
SELECT * FROM buy_candy_mview limit 10

10 row(s) returned.


buy,name,times
0,Lucy,20
2,Lucy,20
7,Lucy,20
12,Lucy,19
9,Lucy,18
3,Lucy,18
13,Lucy,17
13,Tom,17
7,Tom,17
5,Lucy,16


这样数据就是最新的了