# Hive

### Мотивация 
- Написание Hadoop-задач на Java нетривиально
- Хочется использовать возможность Hadoop для обработки слишком больших для обычной реляционной БД данных
- Хочется иметь определенную схему данных
- SQL? Да - HiveSQL

### Архитектура

![](https://cwiki.apache.org/confluence/download/attachments/27362072/system_architecture.png)

- `Metastore` хранит метаинформацию о таблицах, колонках и их типах, где и как они хранятся и т.д.
    - В качестве хранилища может использоваться реляционная БД
- `Driver`- компонент, который обслуживает жизненный цикл запроса к `Hive`.
- `Query Compiler` - компонент, который обрабатывает запроса на `HiveSQL` и преобразует его в последовательность MapReduce-задач
- `Execution Engine` - компонент, который непосредственно запускает MapReduce-задачи. 

### Клиент Python


Под `Windows` используйте рецепт отсюда https://stackoverflow.com/a/51023150 . Под `Linux` установите `libsasl`:

```bash 
sudo apt install libsasl2-dev
```

Затем:
```bash
python3 -m pip install --user -U PyHive[hive]
```

In [1]:
from pyhive import hive  
with hive.connect('localhost', username='root') as conn:
    with conn.cursor() as cursor:        
        cursor.execute('''
            CREATE TABLE IF NOT EXISTS person (               
                           n STRING, 
                           age INT)
            ''')
        
    with conn.cursor() as cursor:
        cursor.execute('''
            INSERT INTO TABLE person VALUES ("John", 25), ("Mike", 50)
        ''')
     
    with conn.cursor() as cursor:
        cursor.execute('''
            SELECT * FROM person
        ''')
        
        print(cursor.fetchall())


OperationalError: TExecuteStatementResp(status=TStatus(statusCode=3, infoMessages=['*org.apache.hive.service.cli.HiveSQLException:Error while processing statement: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask:28:27', 'org.apache.hive.service.cli.operation.Operation:toSQLException:Operation.java:316', 'org.apache.hive.service.cli.operation.SQLOperation:runQuery:SQLOperation.java:156', 'org.apache.hive.service.cli.operation.SQLOperation:runInternal:SQLOperation.java:183', 'org.apache.hive.service.cli.operation.Operation:run:Operation.java:257', 'org.apache.hive.service.cli.session.HiveSessionImpl:executeStatementInternal:HiveSessionImpl.java:388', 'org.apache.hive.service.cli.session.HiveSessionImpl:executeStatement:HiveSessionImpl.java:369', 'sun.reflect.GeneratedMethodAccessor12:invoke::-1', 'sun.reflect.DelegatingMethodAccessorImpl:invoke:DelegatingMethodAccessorImpl.java:43', 'java.lang.reflect.Method:invoke:Method.java:498', 'org.apache.hive.service.cli.session.HiveSessionProxy:invoke:HiveSessionProxy.java:78', 'org.apache.hive.service.cli.session.HiveSessionProxy:access$000:HiveSessionProxy.java:36', 'org.apache.hive.service.cli.session.HiveSessionProxy$1:run:HiveSessionProxy.java:63', 'java.security.AccessController:doPrivileged:AccessController.java:-2', 'javax.security.auth.Subject:doAs:Subject.java:422', 'org.apache.hadoop.security.UserGroupInformation:doAs:UserGroupInformation.java:1698', 'org.apache.hive.service.cli.session.HiveSessionProxy:invoke:HiveSessionProxy.java:59', 'com.sun.proxy.$Proxy19:executeStatement::-1', 'org.apache.hive.service.cli.CLIService:executeStatement:CLIService.java:262', 'org.apache.hive.service.cli.thrift.ThriftCLIService:ExecuteStatement:ThriftCLIService.java:488', 'org.apache.hive.service.cli.thrift.TCLIService$Processor$ExecuteStatement:getResult:TCLIService.java:1313', 'org.apache.hive.service.cli.thrift.TCLIService$Processor$ExecuteStatement:getResult:TCLIService.java:1298', 'org.apache.thrift.ProcessFunction:process:ProcessFunction.java:39', 'org.apache.thrift.TBaseProcessor:process:TBaseProcessor.java:39', 'org.apache.hive.service.auth.TSetIpAddressProcessor:process:TSetIpAddressProcessor.java:56', 'org.apache.thrift.server.TThreadPoolServer$WorkerProcess:run:TThreadPoolServer.java:285', 'java.util.concurrent.ThreadPoolExecutor:runWorker:ThreadPoolExecutor.java:1149', 'java.util.concurrent.ThreadPoolExecutor$Worker:run:ThreadPoolExecutor.java:624', 'java.lang.Thread:run:Thread.java:748'], sqlState='08S01', errorCode=2, errorMessage='Error while processing statement: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask'), operationHandle=None)

### Хранение данных

- База Данных - это набор Hive-таблиц
    - физически представляет собой директорию на HDFS
- Таблицы в базе данных 
    - таблицы физически хранятся в поддиректориях
    - метаинформация о таблице хранится в `Metastore`

Создать базу дынных:
```sql 
CREATE DATABASE test_db;
```
   
Создать таблицу:
```sql
CREATE TABLE weather ( 
               dt TIMESTAMP, 
               t FLOAT, 
               po FLOAT,
               p FLOAT, 
               u FLOAT, 
               vv FLOAT, 
               td float, 
               n STRING) 
           ROW FORMAT DELIMITED FIELDS TERMINATED BY ','; 
               
LOAD DATA LOCAL INPATH '/course/data/weather_stat.csv' INTO TABLE weather;               
```


```sql
CREATE TABLE cik ( 
               region STRING, 
               tik STRING, 
               uik STRING, 
               voters_total INT,
               total INT, 
               total_ahead INT,
               total_inside INT, 
               total_outside INT, 
               total_removed INT,
               outside INT,
               inside INT, 
               invalid INT,
               valid INT, 
               lost INT,
               unkwn INT,
    
               baburin INT,
               grudinin INT, 
               zhirinovsky INT, 
               putin INT, 
               sobchak INT,
               suraykin INT,
               titov INT, 
               yavlinsky INT
) ROW FORMAT DELIMITED FIELDS TERMINATED BY ','; 
               
LOAD DATA LOCAL INPATH '/course/data/cik_trunc.csv' INTO TABLE cik;               
```

### Типы данных

##### Numeric Types

    TINYINT (1-byte signed integer)
    SMALLINT (2-byte signed integer)
    INT/INTEGER (4-byte signed integer)
    BIGINT (8-byte signed integer)
    FLOAT (4-byte single precision floating point number)
    DOUBLE (8-byte double precision floating point number)
    DECIMAL
    NUMERIC 

##### Date/Time Types

    TIMESTAMP 
    DATE 
    INTERVAL

##### String Types

    STRING
    VARCHAR 
    CHAR 

##### Misc Types

    BOOLEAN
    BINARY 

##### Complex Types
    
    arrays: ARRAY<data_type> 
    maps: MAP<primitive_type, data_type> 
    structs: STRUCT<col_name : data_type [COMMENT col_comment], ...>
    union: UNIONTYPE<data_type, data_type, ...> 



### Создание таблиц

Колонки можно разделять с помощью регулярных выражений

```sql
CREATE TABLE apachelog (
      host STRING,
      identity STRING,
      user STRING,
      time STRING,
      request STRING,
      status STRING,
      size STRING,
      referer STRING,
      agent STRING)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe'
WITH SERDEPROPERTIES (
  "input.regex" = "([^]*) ([^]*) ([^]*) (-|\\[^\\]*\\]) ([^ \"]*|\"[^\"]*\") (-|[0-9]*) (-|[0-9]*)(?: ([^ \"]*|\".*\") ([^ \"]*|\".*\"))?"
)
STORED AS TEXTFILE;
```

Для кастомного CSV

```sql
CREATE TABLE my_table(a string, b string, ...)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES (
   "separatorChar" = "\t",
   "quoteChar"     = "'",
   "escapeChar"    = "\\"
)  
```

### Partitioning

Физически партиции хранятся в разных директориях

```sql 

CREATE TABLE page_view(viewTime INT, userid BIGINT,
     page_url STRING, referrer_url STRING,
     ip STRING COMMENT 'IP Address of the User')
 COMMENT 'This is the page view table'
 PARTITIONED BY(dt STRING, country STRING)
 STORED AS SEQUENCEFILE;
```

Можно использовать динамическое партиционирование 

```sql
SET hive.exec.dynamic.partition.mode=nonstrict;

CREATE TABLE cik_ext(
    uik string, 
    valid INT, 
    putin INT, 
    grudinin INT) 
 partitioned BY (region string);
 
INSERT overwrite TABLE cik_ext partition(region) 
SELECT region, uik 
FROM cik
```

### Skewed tables

```sql
CREATE TABLE skewed_table (col1 STRING, col2 INT, col3 STRING)
  SKEWED BY (col1, col2) ON (('s1',1), ('s3',3), ('s13',13), ('s78',78)) STORED AS DIRECTORIES;
```                                                              

### Bucketed table

```sql
CREATE TABLE page_view(
    viewTime INT, 
    userid BIGINT,
    page_url STRING, 
    referrer_url STRING,
    p STRING COMMENT) 
 PARTITIONED BY(dt STRING, country STRING)
 CLUSTERED BY(userid) SORTED BY(viewTime) INTO 32 BUCKETS
 STORED AS SEQUENCEFILE;
 ```
 