# Hive 基础





李丰

feng.li@cufe.edu.cn

中央财经大学


### Hive背景

- Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能。

- Hive可以将SQL语句转换为MapReduce任务进行运行，Hive将作业提交到Hadoop 集群上，Hadoop 监控作业执行过程，然后返回作业执行结果给用户。


### Hive 适用场景

- Hive优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

- Hive 构建在基于静态批处理的Hadoop 之上，有较高的延迟且作业提交调度需要大量的开销。Hive 并不能够在大规模数据集上实现低延迟快速的查询。

- 所有Hive 的数据都存储在Hadoop 的文件系统中。Hive 在加载数据过程中不会对数据进行任何的修改，只是将数据移动到HDFS 中Hive 设定的目录下。



### Hive 非交互操作


- 从终端执行一条Hive命令并退出

    $ hive -e "dfs -ls /;"
    
    
- 从终端运行一个Hive查询脚本

    $ hive -f /path/to/file/withqueries.hql

### Hive 交互操作 

- 从终端启动Hive

    $ hive

- 在Hive中执行一条HDFS命令

    hive> dfs -ls /;
    
- 跳出Hive

    hive> exit;

## Hive 交互操作 (via Jupyter HiveQL)


如果从Jupyter中运行Hive交互命令，需要首先指定并连接到 Hive Server

In [1]:
$$ url=hive://localhost

create_engine('hive://localhost', )
Connection established to database!


然后就可以进行Hive操作了，比如在Hive里执行一个HDFS命令

In [2]:
dfs -ls /;

Unnamed: 0,DFS Output
0,Found 7 items
1,drwxr-x--x - hadoop hadoop 0 201...
2,drwxrwxrwx - flowagent hadoop 0 201...
3,drwxr-x--x - student hadoop 0 201...
4,drwxr-x--x - hadoop hadoop 0 201...
5,drwxrwxrwx - root hadoop 0 201...
6,drwxr-x--t - hadoop hadoop 0 201...
7,-rw-r----- 2 student hadoop 19904316 201...


### Hive 数据库操作

- 列出数据库名称

In [3]:
SHOW DATABASES;

Unnamed: 0,database_name
0,default
1,mydb


In [4]:
SHOW DATABASES Like 'd*';

Unnamed: 0,database_name
0,default


- 创建数据库

In [None]:
CREATE DATABASE IF NOT EXISTS mydb;

Table created!

In [None]:
CREATE DATABASE IF NOT EXISTS financials LOCATION '/user/lifeng/hive';

Table created!

In [7]:
SHOW DATABASES;

Unnamed: 0,database_name
0,default
1,financials
2,mydb


- 删除数据库

In [None]:
DROP DATABASE IF EXISTS financials;

In [9]:
SHOW DATABASES;

Unnamed: 0,database_name
0,default
1,mydb


- 使用某个数据库

In [None]:
USE mydb;

- 创建表

In [None]:
CREATE TABLE IF NOT EXISTS mydb.employees (
    name
        STRING COMMENT 'Employee name',
    salary
        FLOAT COMMENT 'Employee salary',
    subordinates ARRAY<STRING> COMMENT 'Names of subordinates',
    deductions MAP<STRING, FLOAT>
        COMMENT 'Keys are deductions names, values are percentages',
    address
        STRUCT<street:STRING, city:STRING, state:STRING, zip:INT>
        COMMENT 'Home address')
COMMENT 'Description of the table'
TBLPROPERTIES ('creator'='me', 'created_at'='2012-01-02 10:00:00');

Table created!

In [14]:
SHOW TABLES;

Unnamed: 0,tab_name
0,employees


- 创建外部表

假设我们已经有一个`stocks.txt` 存在于HDFS的`/user/lifeng/data`下面，我们可以很容易的将其链接为一个Hive外部表。

In [None]:
create external table if not exists stocks (
    symbol string, 
    ymd string, 
    price_open float, 
    price_high float, 
    price_low float, 
    price_close float, 
    volume int, 
    price_adj_close float )
row format delimited fields terminated by ',' 
location '/user/lifeng/data';

Table created!

- 对表进行基本的统计

In [22]:
SELECT avg(price_close) FROM stocks WHERE symbol = 'AAPL';

Unnamed: 0,_c0
0,69.363


## 上机实践

- 利用现有的CSV数据创建一个Hive外部表

- 并对利用[Hive内置函数](https://www.tutorialspoint.com/hive/hive_built_in_functions.htm)实现基本的数据统计

- 课外阅读材料

    Capriolo, Edward, Dean Wampler, and Jason Rutherglen. Programming Hive: Data warehouse and query language for Hadoop. ” O’Reilly Media, Inc.”, 2012.