# postgresql的基本概念和使用

postgresql在根上来说是一个关系型数据库.它在使用上还是和一般关系数据库一样的.pg支持完整的SQL语法.通常关系数据库中的概念:

+ database
+ schema
+ 表
+ 行
+ 索引
+ 约束
+ 视图

这些它都支持.除此之外pg还支持触发器

通用的部分可以查看我之前写的[SQL攻略](https://blog.hszofficial.site/TutorialForSQL/#/)本文将只讲pg的特殊概念和概念中的特殊部分

In [1]:
-- connection: postgres://postgres:postgres@localhost:5432/postgres

In [2]:
-- autocommit: true

switched autocommit mode to True

## 无主键约束的表

postgresql是允许表没有主键约束的,

## 序列号生成器

序列号生成器用于实现`serial`数据类型值的自动递增分配.在创建serial字段时PostgreSQL会自动为其创建一个相应的序列号生成器,但用户也可以很方便地更改其初始值,步长和下一个值.因为序列号生成器是独立对象,所以多个表可以共享同一个序列号生成器.基于该机制用户可以实现跨越多个表的唯一键.

## 种类繁多的索引

索引是用来加快表查找速度的对象,它必须依赖表和字段,使用`CREATE INDEX {index_name} ON {table_name} [USING {index_type}] ({字段名}[,{字段名}])`语法创建.

pg提供了多种索引类型:

+ `B-tree`可以在可排序数据上的处理等值和范围查询.特别地pg的查询规划器会在任何一种涉及到以下操作符的已索引列上考虑使用B-tree索引:

    + `<`
    + `<=`
    + `=`
    + `>=`
    + `>`
    + 将上述操作符组合起来的操作,例如`BETWEEN`和`IN`
    + `IS NULL`或`IS NOT NULL`判断操作
    + `like`和`~`等在模式是一个常量且被固定在字符串的开头时
    
    B-tree索引也可以用于检索排序数据.这并不会总是比简单扫描和排序更快但是总是有用的
    
+ `Hash`只能处理简单等值比较

+ `GiST`二维几何图形信息的基础索引.可以使用基本的[二维几何图形操作符](http://www.postgres.cn/docs/11/functions-geometry.html),如:

    + `<<`
    + `&<`
    + `&>`
    + `>>`
    + `<<|`
    + `&<|`
    + `|&>`
    + `|>>`
    + `@>`
    + `<@`
    + `~=`
    + `&&`

    同时也有能力优化最近邻搜索
 

+ `SP-GiST`,和GiST相似,`SP-GiST`索引为支持多种搜索提供了一种基础结构.`SP-GiST`允许实现众多不同的非平衡的基于磁盘的数据结构例如四叉树,k-d树和radix树,比如下面的操作符:

    + `<<`
    + `>>`
    + `~=`
    + `<@`
    + `<^`
    + `>^`
    
+ `GIN`,`倒排索引`,它适合于包含多个组成值的数据值,例如数组.倒排索引中为每一个组成值都包含一个单独的项,它可以高效地处理测试指定组成值是否存在的查询.`GIN`可以用于支持数组使用下列操作符的索引化[查询](http://www.postgres.cn/docs/11/functions-array.html)：

    + `<@`
    + `@>`
    + `=`
    + `&&`

+ `BRIN`块范围索引,存储有关存放在一个表的连续物理块范围上的值摘要信息.对于具有线性排序顺序的数据类型,被索引的数据对应于每个块范围的列中值的最小值和最大值,`BRIN`支持的操作符可以在[http://www.postgres.cn/docs/11/brin-builtin-opclasses.html#BRIN-BUILTIN-OPCLASSES-TABLE]查看

每一种索引类型使用了 一种不同的算法来适应不同类型的查询.默认情况下`CREATE INDEX`命令创建适合于大部分情况的`B-tree`索引.

`B-tree`,`GiST`,`GIN`和`BRIN`支持多列索引,最多可以指定32个列.一个B-tree索引可以用于条件中涉及到任意索引列子集的查询,但是当先导列(即最左边的那些列)上有约束条件时索引最为有效;一个GIN索引可以用于条件中涉及到任意索引列子集的查询.GIN的搜索效率与查询条件中使用哪些索引列无关;多列`BRIN`索引可以被用于涉及该索引被索引列的任意子集的查询条件.同样索引搜索效率与查询条件使用哪个索引列无关.


In [14]:
CREATE INDEX test1_id_index ON mytest1 (a);

接下来的部分类似元编程一样,是用户可以对pg做自定义的部分

### 扩展

开发人员可以通过该机制将一组相关的函数,数据类型,数据类型转换器,用户自定义索引,表以及属性变量等对象打包成一个功能扩展包,该扩展包可以整体安装和删除.许多工具如piplinedb,timescaledb都是以扩展包的形式存在的.从 PostgreSQL 9.1版本之后一般推荐使用该机制来为数据库提供功能扩展.


安装扩展包时可以指定该包中所含有的成员对象安装到哪个schema,若不指定则默认会安装到 public schema 中。不建议采用默认设置,因为这会导致 public schema变得庞大复杂且难以管理,尤其是如果你将自己的数据表对象也都存入 public schema 中,那么情况会变得更糟糕.我们建议你创建一个独立的 schema 用于存放所有扩展包的对象,甚至为规模较大的扩展包单独创建一个 schema.为避免出现找不到新增扩展包对象的问题,请将这些新增的 schema 名称加入`search_path`变量中,这样就可以直接使用扩展包的功能而无须关注它到底安装到了哪个schema中.

也有一些扩展包明确要求必须安装到某个 schema 下,这种情况下你就不能自行指定了.

多个扩展包之间可能存在依赖关系.在PostgreSQL 9.6之前,我们需要了解这个依赖关系并把被依赖包先装好,但从9.6版开始,只需在安装时加上 `cascade`关键字PostgreSQL 就会自动安装当前扩展包所依赖的扩展包.

### 函数

pg内置了大量函数用于字符串处理,时间处理,或者统计数据,都保存在默认的 postgres 库中,同时用户可以编写自定义函数来对数据进行新增,修改,删除和复杂计算等操作.可以使用 PostgreSQL所支持的各种过程式语言来编码.函数支持返回以下数据类型:

+ 标量值(也就是单个值)
+ 数组
+ 单条记录以及记录集

其他数据库(比如mysql)将对数据进行增删改操作的函数称为"存储过程",把不进行增删改的函数叫作"函数",但 PostgreSQL 中并不区分.

### 内置编程语言

函数是以过程式语言编写的.PostgreSQL 默认支持三种内置编程语言:SQL,PL/pgSQL 以及 C 语言.可以通过`CREATE EXTENSION`或者`CREATE PRODCEDURAL LANGUAGE`命令来添加其他语言.目前较常用的语言是 PL/Python,PL/V8(即 JavaScript)以及 PL/R.



### 运算符

运算符本质上是以简单符号形式呈现的函数别名,例如 =,&& 等.PostgreSQL 支持自定义运算符.如果用户定义了自己的数据类型，那么一般来说需要再自定义一些运算符来与之配合工作.比如你定义了一个复数类型,那么你很有可能需要自定义` +、-、*、/ `这几个运算符来对复数进行运算.



### 外部表和外部数据封装器

外部表是一些虚拟表,通过它们可以直接在本地数据库中访问来自外部数据源的数据.只要数据映射关系配置正确外部表的用法就与普通表没有任何区别.外部表支持映射到以下类型的数据源：

+ CSV 文件
+ 另一个服务器上的 PostgreSQL 表
+ SQL Server 或 Oracle 这些异构数据库中的表
+ Redis 这样的 NoSQL 数据库
+ 甚至像 Twitter 或 Salesforce 这样的 Web 服务。

外部表映射关系的建立是通过配置外部数据封装器(foreign data wrapper，FDW)实现的.FDW是 PostgreSQL和外部数据源之间的一架"魔法桥",可实现两边数据的互联互通.其内部实现机制遵循 SQL 标准中的 MED(Management of External Data)规范。

许多无私的开发者已经为当下大部分流行的数据源开发了FDW 并已免费共享出来.你也可以通过创建自己的FDW来练习.FDW是通过扩展包机制实现的

### 触发器和触发器函数

绝大多数企业级数据库都支持触发器机制,该机制可以侦测到数据修改事件的发生.在 PostgreSQL 中当一个触发器被触发后系统会自动调用用户定义好的触发器函数.触发器的触发时机是可设置的,可以是语句级触发或者记录级触发也可以是修改前触发或修改后触发.


定义触发器时需要定义对应的触发器函数,这类函数与前面介绍过的普通函数有所不同,主要差异在于触发器函数可以通过系统内置变量来同时访问到修改前和修改后的数据.这样就可以实现对于非法的数据修改行为的识别和拦截.因此触发器函数一般会用于编写复杂校验逻辑,这类复杂逻辑通过check 约束是无法实现的.

PostgreSQL的触发器技术正在快速的演进之中.9.0 版引入了对`WITH`子句的支持,通过它可以实现带条件的记录级触发,即只有当某条记录符合指定的 `WHEN`条件时触发器才会被调用.9.0 版还引入了`UPDATE OF`子句.通过它可以实现精确到字段级的触发条件设置.仅当指定的字段内容被更改时才会激活触发器.9.1 版支持了针对视图的触发器.9.3 版支持了针对`DDL`的触发器.最后值得一提的是从 9.4 版开始针对外部表的触发器也获得了支持.


### catalog

catalog 的译法与 schema 存在相同的问题,翻译为"目录"后并不能让读者准确地理解其原意,反而容易造成混淆.catalog是系统级的schema,用于存储系统函数和系统元数据.每个database创建好以后默认都会含有两个catalog:

+ 一个名为 pg_catalog,用于存储 PostgreSQL 系统自带的函数,表,系统视图,数据类型转换器以及数据类型定义等元数据
+ 另一个是 information_schema,用于存储 ANSI 标准中所要求提供的元数据查询视图,这些视图遵从 ANSI SQL 标准的要求,以指定的格式向外界提供 PostgreSQL 元数据信息.

一直以来,PostgreSQL数据库的发展都严格地遵循着其"自由与开放"的核心理念.如果你足够了解这款数据库,会发现它几乎是一种可以"自我生长"的数据库.比如,它所有的核心设置都保存在系统表中,用户可以不受限地查看和修改这些数据,这为PostgreSQL提供了远超任何一种商业数据库的巨大灵活性(不过从另一个角度看,将这种灵活性称为"可破坏性"也未尝不可).只要仔细地研究一下pg_catalog你就可以了解到 PostgreSQL 这样一个庞大的系统是如何基于各种部件构建起来的.如果你有超级用户权限,那么可以直接修改`pg_catalog`的内容(当然,如果改得不对,那你的行为就跟搞破坏没什么两样了).

Information_schema catalog 在 MySQL 和 SQL Server 中也有.PostgreSQL 的 Information_schema 中最常用的视图一般有以下几个:columns 视图,列出了数据库中的所有字段;tables视图,列出了数据库中的所有表(包括视图);views 视图,列出了所有视图以及用于创建该视图的原始 SQL.


### 类型

类型是数据类型的简称.每种数据库产品和每种编程语言都会支持一系列的数据类型,比如整型,字符型,数组,二进制大对象(blob)等.除前述常见类型外,PostgreSQL还支持复合数据类型,这种类型可以是多种数据类型的一个组合,比如复数,极坐标,向量,张量等都是复合数据类型.

PostgreSQL 会自动为用户自己创建的表定义一个同名的复合数据类型.这样就可以把表记录当作对象实例来处理.当用户需要在函数中遍历表记录时,该特性特别有用.

### 数据类型转换器

数据类型转换器可以将一种数据类型转换为另一种,其底层通过调用转换函数来实现真正的转换逻辑.PostgreSQL支持用户自定义转换器或者重载,加强默认的转换器.

转换器可以被隐式调用也可以被显式调用.隐式转换是系统自动执行的,一般来说将一种特定数据类型转为更通用的数据类型(比如数字转换为字符串)时就会发生隐式类型转换.如果进行隐式转换时系统找不到合适的转换器你就必须显式执行转换动作.

