# 数据定义语言DDL概述

# 1 SQL中DDL语法的作用

- <font color="#86BD77">数据定义语言</font>(Data Definition Language,DDL)，是SQL语言集中对数据库内部的<font color="#FF2121">对象结构进行创建，删除，修改</font>等的操作语言，这些数据库对象包括database、table等。

- DDL核心语法由CREATE、ALTER与DROP三个所组成。<font color="#FF2121">**DDL并不涉及表内部数据的操作**</font>。

- 在某些上下文中，该术语也称为数据描述语言，因为它描述了数据库表中的字段和记录。

# 2 Hive SQL DDL建表语法

## 2.1 完整语法树

- <font color=#66CCFF>蓝色字体</font>是建表语法的关键字，用于指定某些功能。
- [ ]中括号的语法表示可选。
- |表示使用的时候，左右语法二选一。
- 建表语句中的语法顺序要和语法树中顺序保持一致。


<font color=#66CCFF>CREATE</font> [TEMPORARY] [EXTERNAL] <font color=#66CCFF>TABLE</font> [IF NOT EXISTS] [db_name.]table_name

[(col_name data_type [COMMENT col_comment], ... ]

[COMMENT table_comment]

[<font color=#66CCFF>PARTITIONED BY</font> (col_name data_type [COMMENT col_comment], ...)]

[<font color=#66CCFF>CLUSTERED BY</font> (col_name, col_name, ...) [<font color=#66CCFF>SORTED BY</font> (col_name [ASC|DESC], ...)] <font color=#66CCFF>INTO</font> num_buckets <font color=#66CCFF>BUCKETS</font>]

[<font color=#66CCFF>ROW FORMAT DELIMITED|SERDE</font> serde_name WITH SERDEPROPERTIES (property_name=property_value,...)]

[<font color=#66CCFF>STORED</font> AS file_format]

[<font color=#66CCFF>LOCATION</font> hdfs_path]

[<font color=#66CCFF>TBLPROPERTIES</font> (property_name=property_value, ...)];


# 3 HIVE数据类型

Hive数据类型指的是表中列的字段类型；

整体分为两类：原生数据类型（primitive data type）和复杂数据类型（complex data type）。

    - 原生数据类型包括：数值类型、时间日期类型、字符串类型、杂项数据类型；
    - 复杂数据类型包括：array数组、map映射、struct结构、union联合体。


## 3.1 原生数据类型

![%E5%8E%9F%E7%94%9F%E6%95%B0%E6%8D%AE%E7%B1%BB%E5%9E%8B.png](attachment:%E5%8E%9F%E7%94%9F%E6%95%B0%E6%8D%AE%E7%B1%BB%E5%9E%8B.png)

## 3.2 复杂数据类型

![%E5%A4%8D%E6%9D%82%E6%95%B0%E6%8D%AE%E7%B1%BB%E5%9E%8B.png](attachment:%E5%A4%8D%E6%9D%82%E6%95%B0%E6%8D%AE%E7%B1%BB%E5%9E%8B.png)

# 4 Hive读写文件机制

## 4.1 SerDe是什么

SerDe是Serializer、Deserializer的简称，目的是用于序列化和反序列化。

序列化是对象转化为字节码的过程；而反序列化是字节码转换为对象的过程。

Hive使用SerDe（包括FileFormat）读取和写入表行对象。需要注意的是，“key”部分在读取时会被忽略，而在写入时key始终是常数。基本上行对象存储在“value”中。

![Serde.png](attachment:Serde.png)

可以通过desc formatted tablename查看表的相关SerDe信息。

![Serde%E4%BF%A1%E6%81%AF.png](attachment:Serde%E4%BF%A1%E6%81%AF.png)

## 4.2 Hive读写文件流程

Hive读取文件机制：
    
    首先调用InputFormat（默认TextInputFormat），返回一条一条kv键值对记录（默认是一行对应一条键值对）。然后调用SerDe（默认LazySimpleSerDe）的Deserializer，将一条记录中的value根据分隔符切分为各个字段。

Hive写文件机制：
    
    将Row写入文件时，首先调用SerDe（默认LazySimpleSerDe）的Serializer将对象转换成字节序列，然后调用OutputFormat将数据写入HDFS文件中。


## 4.3 SerDe相关语法

- ROW FORMAT这一行所代表的是跟读写文件、序列化SerDe相关的语法，功能有二：

    - 使用哪个SerDe类进行序列化；
    - 如何指定分隔符。
    
[<font color=#66CCFF>ROW FORMAT DELIMITED|SERDE</font> serde_name WITH SERDEPROPERTIES (property_name=property_value,...)]


- 其中ROW FORMAT是语法关键字，DELIMITED和SERDE二选其一。

- 如果使用delimited表示使用默认的LazySimpleSerDe类来处理数据。

- 如果数据文件格式比较特殊可以使用ROW FORMAT SERDE serde_name指定其他的Serde类来处理数据,甚至支持用户自定义SerDe类。

![Serde%E7%94%A8%E6%B3%95.png](attachment:Serde%E7%94%A8%E6%B3%95.png)

### 4.3.1 LazySimpleSerDe分隔符指定

- LazySimpleSerDe是Hive默认的序列化类，包含4种子语法，分别用于指定字段之间、集合元素之间、map映射 kv之间、换行的分隔符号。
- 在建表的时候可以根据数据的特点灵活搭配使用。

![LazySimpleSerDe.png](attachment:LazySimpleSerDe.png)

## 4.4 Hive默认分隔符

- Hive建表时如果没有row format语法指定分隔符，则采用默认分隔符；
- 默认的分割符是'\001'，是一种特殊的字符，使用的是ASCII编码的值，键盘是打不出来的。


![hive%E9%BB%98%E8%AE%A4%E5%88%86%E9%9A%94%E7%AC%A6.png](attachment:hive%E9%BB%98%E8%AE%A4%E5%88%86%E9%9A%94%E7%AC%A6.png)

- 在vim编辑器中，连续按下Ctrl+v/Ctrl+a即可输入'\001' ，显示^A


![hive%E9%BB%98%E8%AE%A4%E5%88%86%E9%9A%94%E7%AC%A62.png](attachment:hive%E9%BB%98%E8%AE%A4%E5%88%86%E9%9A%94%E7%AC%A62.png)

- 在一些文本编辑器中将以SOH的形式显示：


![hive%E9%BB%98%E8%AE%A4%E5%88%86%E9%9A%94%E7%AC%A63.png](attachment:hive%E9%BB%98%E8%AE%A4%E5%88%86%E9%9A%94%E7%AC%A63.png)

# 5 Hive数据存储路径

## 5.1 默认存储路径

- Hive表默认存储路径是由${HIVE_HOME}/conf/hive-site.xml配置文件的hive.metastore.warehouse.dir属性指定，默认值是：/user/hive/warehouse。
- 在该路径下，文件将根据所属的库、表，有规律的存储在对应的文件夹下。

![%E9%BB%98%E8%AE%A4%E5%AD%98%E5%82%A8%E8%B7%AF%E5%BE%84.png](attachment:%E9%BB%98%E8%AE%A4%E5%AD%98%E5%82%A8%E8%B7%AF%E5%BE%84.png)

## 5.2 指定存储路径

- 在Hive建表的时候，可以通过location语法来更改数据在HDFS上的存储路径，使得建表加载数据更加灵活方便。
- 语法：LOCATION  '\<hdfs_location\>'。
- 对于已经生成好的数据文件，使用location指定路径将会很方便。

![%E6%8C%87%E5%AE%9A%E5%AD%98%E5%82%A8%E8%B7%AF%E5%BE%84.png](attachment:%E6%8C%87%E5%AE%9A%E5%AD%98%E5%82%A8%E8%B7%AF%E5%BE%84.png)

# 6 HiveSQL DDL建表基础语法

## 6.1 原生数据类型使用

文件archer.txt中记录了手游《王者荣耀》射手的相关信息，包括生命、物防、物攻等属性信息，其中字段之间分隔符为制表符\t,要求在Hive中建表映射成功该文件。

数据文件 

    - 字段含义：id、name（英雄名称）、hp_max（最大生命）、mp_max（最大法力）、attack_max（最高物攻）、defense_max（最大物防）、attack_range（攻击范围）、role_main（主要定位）、role_assist（次要定位）。
    - 分析一下：字段都是基本类型，字段的顺序需要注意一下。
    - 字段之间的分隔符是制表符，需要使用row format语法进行指定。

建表语句

![%E5%BB%BA%E8%A1%A8%E8%AF%AD%E5%8F%A5.png](attachment:%E5%BB%BA%E8%A1%A8%E8%AF%AD%E5%8F%A5.png)

    - 建表成功之后，在Hive的默认存储路径下就生成了表对应的文件夹；
    - 把archer.txt文件上传到对应的表文件夹下。


![%E5%BB%BA%E8%A1%A8%E8%AF%AD%E5%8F%A52.png](attachment:%E5%BB%BA%E8%A1%A8%E8%AF%AD%E5%8F%A52.png)

## 6.2 复杂数据类型使用

文件hot_hero_skin_price.txt中记录了手游《王者荣耀》热门英雄的相关皮肤价格信息,要求在Hive中建表映射成功该文件。

数据文件

    - 字段：id、name（英雄名称）、win_rate（胜率）、skin_price（皮肤及价格）；
    - 分析一下：前3个字段原生数据类型、最后一个字段复杂类型map。
    - 需要指定字段之间分隔符、集合元素之间分隔符、map kv之间分隔符。

![%E5%A4%8D%E6%9D%82%E6%95%B0%E6%8D%AE%E7%B1%BB%E5%9E%8B%E5%BB%BA%E8%A1%A8.png](attachment:%E5%A4%8D%E6%9D%82%E6%95%B0%E6%8D%AE%E7%B1%BB%E5%9E%8B%E5%BB%BA%E8%A1%A8.png)

建表语句

![%E5%A4%8D%E6%9D%82%E6%95%B0%E6%8D%AE%E7%B1%BB%E5%9E%8B%E5%BB%BA%E8%A1%A82.png](attachment:%E5%A4%8D%E6%9D%82%E6%95%B0%E6%8D%AE%E7%B1%BB%E5%9E%8B%E5%BB%BA%E8%A1%A82.png)

    - 建表成功之后，在Hive的默认存储路径下就生成了表对应的文件夹；
    - 把hot_hero_skin_price.txt文件上传到对应的表文件夹下。

![%E5%A4%8D%E6%9D%82%E6%95%B0%E6%8D%AE%E7%B1%BB%E5%9E%8B%E5%BB%BA%E8%A1%A83.png](attachment:%E5%A4%8D%E6%9D%82%E6%95%B0%E6%8D%AE%E7%B1%BB%E5%9E%8B%E5%BB%BA%E8%A1%A83.png)

## 6.3 指定数据存储路径

![%E5%BB%BA%E8%A1%A8%E6%8C%87%E5%AE%9A%E8%B7%AF%E5%BE%84.png](attachment:%E5%BB%BA%E8%A1%A8%E6%8C%87%E5%AE%9A%E8%B7%AF%E5%BE%84.png)