# DDL建表高阶语法

# 1 Hive内、外部表

## 1.1 什么是内部表

- 内部表（Internal table）也称为被Hive拥有和管理的托管表（Managed table）。
- 默认情况下创建的表就是内部表，Hive拥有该表的结构和文件。换句话说，Hive完全管理表（元数据和数据）的生命周期，类似于RDBMS中的表。
- 当您删除内部表时，它会删除数据以及表的元数据。

可以使用DESCRIBE FORMATTED tablename,来获取表的元数据描述信息，从中可以看出表的类型。

![%E5%86%85%E9%83%A8%E8%A1%A81.png](attachment:%E5%86%85%E9%83%A8%E8%A1%A81.png)

## 1.2 什么是外部表

- 外部表（External table）中的数据不是Hive拥有或管理的，只管理表元数据的生命周期。
- 要创建一个外部表，需要使用EXTERNAL语法关键字。
- 删除外部表只会删除元数据，而不会删除实际数据。在Hive外部仍然可以访问实际数据。
- 实际场景中，外部表搭配location语法指定数据的路径，可以让数据更安全。

![%E5%A4%96%E9%83%A8%E8%A1%A81.png](attachment:%E5%A4%96%E9%83%A8%E8%A1%A81.png)

![%E5%A4%96%E9%83%A8%E8%A1%A82.png](attachment:%E5%A4%96%E9%83%A8%E8%A1%A82.png)

## 1.3 内、外部表差异

- 无论内部表还是外部表，Hive都在Hive Metastore中管理表定义、字段类型等元数据信息。
- 删除内部表时，除了会从Metastore中删除表元数据，还会从HDFS中删除其所有数据文件。
- 删除外部表时，只会从Metastore中删除表的元数据，并保持HDFS位置中的实际数据不变。

![%E5%86%85%E5%A4%96%E9%83%A8%E8%A1%A8%E5%B7%AE%E5%BC%82-2.png](attachment:%E5%86%85%E5%A4%96%E9%83%A8%E8%A1%A8%E5%B7%AE%E5%BC%82-2.png)

    执行drop table tablename 命令，分别在Hive中和HDFS中查看效果。
    Hive中的表信息全被删除，不管是内部表还是外部表。
    而HDFS上，外部表对应的数据文件原封不动，内部表对应的数据文件连同文件夹一起被删除。

![%E5%86%85%E5%A4%96%E8%A1%A8%E5%B7%AE%E5%BC%82.png](attachment:%E5%86%85%E5%A4%96%E8%A1%A8%E5%B7%AE%E5%BC%82.png)

## 1.4 如何选择内、外部表

当需要通过Hive完全管理控制表的整个生命周期时，请使用内部表。

当数据来之不易，防止误删，请使用外部表，因为即使删除表，文件也会被保留。

# 2 Hive表对应的数据在HDFS上的存储位置

## 2.1 Location关键字的作用

- 在创建外部表的时候，可以使用location指定存储位置路径，如果不指定会如何？

        如果不指定location，外部表的默认路径也是位于/user/hive/warehouse，由默认参数控制。
        
- 创建内部表的时候，是否可以使用location指定？

        内部表可以使用location指定位置的。
        
- 是否意味着Hive表的数据在HDFS上的位置不是一定要在/user/hive/warehouse下？

        不一定，Hive中表数据存储位置，不管内部表还是外部表，默认都是在/user/hive/warehouse，当然可以在建表的时候通过location关键字指定存储位置在HDFS的任意路径。

# 3 Hive Partitioned Tables 分区表

## 3.1 分区表产生背景

现有6份结构化数据文件，分别记录了《王者荣耀》中6种位置的英雄相关信息。
现要求通过建立一张表t_all_hero，把6份文件同时映射加载。

       建表并且加载数据文件到HDFS指定路径下:

![%E5%88%86%E5%8C%BA%E8%A1%A8%E4%BA%A7%E7%94%9F%E8%83%8C%E6%99%AF1.png](attachment:%E5%88%86%E5%8C%BA%E8%A1%A8%E4%BA%A7%E7%94%9F%E8%83%8C%E6%99%AF1.png)

    现要求查询role_main主要定位是射手并且hp_max最大生命大于6000的有几个，sql语句如下：

![%E5%88%86%E5%8C%BA%E8%A1%A8%E4%BA%A7%E7%94%9F%E8%83%8C%E6%99%AF2.png](attachment:%E5%88%86%E5%8C%BA%E8%A1%A8%E4%BA%A7%E7%94%9F%E8%83%8C%E6%99%AF2.png)

思考：

- where语句的背后需要进行全表扫描才能过滤出结果，对于hive来说需要扫描每一个文件。如果数据文件个数特别多的话，扫描效率很慢也没必要。
- 本需求中，只需要扫描archer.txt文件即可，如何优化可以加快查询，减少全表扫描呢？
- 指定文件扫描和全表扫描，效率还是存在差异的。

## 3.2 概念

当Hive表对应的数据量大、文件个数多时，为了避免查询时全表扫描数据，Hive支持根据指定的字段对表进行分区，分区的字段可以是日期、地域、种类等具有标识意义的字段。

比如把一整年的数据根据月份划分12个月（12个分区），后续就可以查询指定月份分区的数据，尽可能避免了全表扫描查询。

![%E5%88%86%E5%8C%BA%E8%A1%A8%E6%A6%82%E5%BF%B51.png](attachment:%E5%88%86%E5%8C%BA%E8%A1%A8%E6%A6%82%E5%BF%B51.png)

## 3.3 创建

分区表语法：[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]

**注意：分区字段不能是表中已经存在的字段，因为分区字段最终也会以虚拟字段的形式显示在表结构上。**

![%E5%88%86%E5%8C%BA%E8%A1%A8%E8%AF%AD%E6%B3%95.png](attachment:%E5%88%86%E5%8C%BA%E8%A1%A8%E8%AF%AD%E6%B3%95.png)

## 3.4 分区表数据加载--静态分区

所谓**静态分区**指的是分区的属性值是由用户在加载数据的时候手动指定的。

语法如下：

![%E9%9D%99%E6%80%81%E5%88%86%E5%8C%BA%E5%8A%A0%E8%BD%BD.png](attachment:%E9%9D%99%E6%80%81%E5%88%86%E5%8C%BA%E5%8A%A0%E8%BD%BD.png)

Local参数用于指定待加载的数据是位于**本地文件系统**还是**HDFS文件系统**。

静态加载数据操作如下，文件都位于Hive服务器所在机器本地文件系统上（node1）。

![%E9%9D%99%E6%80%81%E5%88%86%E5%8C%BA%E5%8A%A0%E8%BD%BD%E6%95%B0%E6%8D%AE.png](attachment:%E9%9D%99%E6%80%81%E5%88%86%E5%8C%BA%E5%8A%A0%E8%BD%BD%E6%95%B0%E6%8D%AE.png)

## 3.4 本质

外表上看起来分区表好像没多大变化，只不过多了一个分区字段。实际上分区表在底层管理数据的方式发生了改变。这里直接去HDFS查看区别。

![%E5%88%86%E5%8C%BA%E8%A1%A8%E6%9C%AC%E8%B4%A8%20.png](attachment:%E5%88%86%E5%8C%BA%E8%A1%A8%E6%9C%AC%E8%B4%A8%20.png)

- 分区的概念提供了一种将Hive表数据分离为多个文件/目录的方法。

- 不同分区对应着不同的文件夹，同一分区的数据存储在同一个文件夹下。

- 查询过滤的时候只需要根据分区值找到对应的文件夹，扫描本文件夹下本分区下的文件即可，避免全表数据扫描。

- 这种**指定分区**查询的方式叫做**分区裁剪**。

## 3.5 使用

分区表的使用重点在于：

   - 建表时根据业务场景设置合适的分区字段。比如日期、地域、类别等；
   - 查询的时候尽量先使用where进行分区过滤，查询指定分区的数据，避免全表扫描。


## 3.6 多重分区表

通过建表语句中关于分区的相关语法可以发现，Hive支持多个分区字段：
        
        PARTITIONED BY (partition1 data_type, partition2 data_type,….)。

多重分区下，分区之间是一种递进关系，可以理解为在前一个分区的基础上继续分区。

从HDFS的角度来看就是文件夹下继续划分子文件夹。比如：把全国人口数据首先根据省进行分区，然后根据市进行划分，如果你需要甚至可以继续根据区县再划分，此时就是3分区表。


![%E5%A4%9A%E9%87%8D%E5%88%86%E5%8C%BA%E8%A1%A8.png](attachment:%E5%A4%9A%E9%87%8D%E5%88%86%E5%8C%BA%E8%A1%A8.png)

![%E5%A4%9A%E9%87%8D%E5%88%86%E5%8C%BA%E8%A1%A8%E5%BB%BA%E8%A1%A8.png](attachment:%E5%A4%9A%E9%87%8D%E5%88%86%E5%8C%BA%E8%A1%A8%E5%BB%BA%E8%A1%A8.png)

![%E5%A4%9A%E9%87%8D%E5%88%86%E5%8C%BA%E8%A1%A8%E4%BD%BF%E7%94%A8.png](attachment:%E5%A4%9A%E9%87%8D%E5%88%86%E5%8C%BA%E8%A1%A8%E4%BD%BF%E7%94%A8.png)

## 3.7 分区表数据加载--动态分区

所谓动态分区指的是分区的字段值是基于查询结果（参数位置）自动推断出来的。核心语法就是insert+select。

启用hive动态分区，需要在hive会话中设置两个参数：

![%E5%8A%A8%E6%80%81%E5%88%86%E5%8C%BA%E5%8F%82%E6%95%B0%E8%AE%BE%E7%BD%AE.png](attachment:%E5%8A%A8%E6%80%81%E5%88%86%E5%8C%BA%E5%8F%82%E6%95%B0%E8%AE%BE%E7%BD%AE.png)

    创建一张新的分区表，执行动态分区插入。
    动态分区插入时，分区值是根据查询返回字段位置自动推断的。

![%E5%88%9B%E5%BB%BA%E5%8A%A8%E6%80%81%E5%88%86%E5%8C%BA%E8%A1%A8.png](attachment:%E5%88%9B%E5%BB%BA%E5%8A%A8%E6%80%81%E5%88%86%E5%8C%BA%E8%A1%A8.png)

**总结：**

- **分区表不是建表的必要语法规则，是一种优化手段表，可选；**
- **分区字段不能是表中已有的字段，不能重复；**
- **分区字段是虚拟字段，其数据并不存储在底层的文件中；**
- **分区字段值的确定来自于用户价值数据手动指定（静态分区）或者根据查询结果位置自动推断（动态分区）**
- **Hive支持多重分区，也就是说在分区的基础上继续分区，划分更加细粒度**