# DDL建表高阶语法

# 1 Hive Bucketed Tables 事务表

## 1.1 Hive事务背景知识

Hive本身从设计之初时，就是不支持事务的，因为Hive的核心目标是**将已经存在的结构化数据文件映射成为表，然后提供基于表的SQL分析处理，是一款面向分析的工具。** 且映射的数据通常存储于HDFS上，而HDFS是不支持随机修改文件数据的。

这个定位就意味着在早期的Hive的SQL语法中是没有update，delete操作的，也就没有所谓的事务支持了，因为都是select查询分析操作。

从Hive0.14版本开始，具有ACID语义的事务已添加到Hive中，以解决以下场景下遇到的问题：

- 流式传输数据
    - 使用如Apache Flume、Apache Kafka之类的工具将数据流式传输到Hadoop集群中。虽然这些工具可以每秒数百行或更多行的速度写入数据，但是Hive只能每隔15分钟到一个小时添加一次分区。如果每分甚至每秒频繁添加分区会很快导致表中大量的分区,并将许多小文件留在目录中，这将给NameNode带来压力。
    - 因此通常使用这些工具将数据流式传输到已有分区中，但这有可能会造成**脏读（数据传输一半失败，回滚了）**。需要通过事务功能，允许用户获得一致的数据视图并避免过多的小文件产生。
    
- 尺寸变化缓慢
    - 星型模式数据仓库中，维度表随时间缓慢变化。例如，零售商将开设新商店，需要将其添加到商店表中，或者现有商店可能会更改其平方英尺或某些其他跟踪的特征。这些更改导致需要插入单个记录或更新单条记录（取决于所选策略）。

- 数据重述
    - 有时发现收集的数据不正确，需要更正。


**局限性** 

虽然Hive支持了具有ACID语义的事务，但是在使用起来，并没有像在MySQL中使用那样方便，有很多局限性。原因很简单，毕竟Hive的设计目标不是为了支持事务操作，而是支持分析操作，且最终基于HDFS的底层存储机制使得文件的增加删除修改操作需要动一些小心思。
    
    - 尚不支持BEGIN，COMMIT和ROLLBACK。所有语言操作都是自动提交的。
    - 仅支持ORC文件格式（STORED AS ORC）。
    - 默认情况下事务配置为关闭。需要配置参数开启使用。
    - 表必须是分桶表（Bucketed）才可以使用事务功能。
    - 表参数transactional必须为true；
    - 外部表不能成为ACID表，不允许从非ACID会话读取/写入ACID表。

## 1.2 创建使用Hive事务表

在Hive中创建一张具备事务功能的表，并尝试进行增删改操作。体验一下Hive的增删改操作和MySQL比较起来，性能如何？

### 1.2.1 前置

如果不做任何配置修改，直接针对Hive中已有的表进行Update、Delete、Insert操作，可以发现，只有insert语句可以执行，Update和Delete操作会报错。

Insert插入操作能够成功的原因在于，底层是直接把数据写在一个新的文件中的。

![%E4%BA%8B%E5%8A%A1%E8%A1%A8%E5%89%8D%E7%BD%AE.png](attachment:%E4%BA%8B%E5%8A%A1%E8%A1%A8%E5%89%8D%E7%BD%AE.png)

### 1.3 配置开启事务、创建事务表

![%E4%BA%8B%E5%8A%A1%E8%A1%A8%E9%85%8D%E7%BD%AE.png](attachment:%E4%BA%8B%E5%8A%A1%E8%A1%A8%E9%85%8D%E7%BD%AE.png)

### 1.4 insert、update、delete

![%E4%BA%8B%E5%8A%A1%E8%A1%A8%E7%9A%84%E6%93%8D%E4%BD%9C.png](attachment:%E4%BA%8B%E5%8A%A1%E8%A1%A8%E7%9A%84%E6%93%8D%E4%BD%9C.png)