Lenguaje de Definición de Datos
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia

---

Haga click [aquí](https://github.com/jdvelasq/apache-hive-course) para acceder al repositorio en GitHub.

Haga click [aquí](http://nbviewer.jupyter.org/github/jdvelasq/apache-hive-course/tree/master/) para explorar el repositorio usando en `nbviewer`. 

---

## Ejecución de Hive

**Ejecución de Hive en la consola de comandos.--** Esta es la forma más común de trabajo. La bodega de datos debe ser creada en la carpeta donde se invocará `hive` con el siguiente comando:

     $HIVE_HOME/bin/schematool -dbType derby -initSchema
     
Note que si invoca `hive` desde otra carpeta se generará un error. En otras palabras, use el comando anterior en la carpeta donde descargo esta serie de tutoriales para que los comandos puedan ejecutarse desde Jupyter.

La primera vez que se ejecuta Hive, crea en la carpeta actual, las carpetas:

* metastore_db: contiene los metadatos


* warehouse: contiene las bases de datos y las tablas

También es posible enviar comandos y salir inmediatamente de `hive`. Para ello, use la opción `-e`; por ejemplo, en Terminal digite:

    hive -e "SHOW DATABASES;"
    
La opción `-S` corresponde al modo silencioso, en el que se suprime información adicional. En conjunción con el operador `>` hace posible la generación de archivos de texto con los resultados de la ejecución de uno o más comandos:

    hive -S -e "SELECT * FROM table LIMIT 3;" > result.txt
    
    
Adicionalmente, es posible almacenar secuencias de comandos en archivos (usualmente con extensión ".q" o ".hql" que pueden ejecutarse desde `hive`. En el prompt de `hive` use el comando `source`:

    hive> source miprog.hql
    
    
y en la línea de comandos

    hive -S -e "source miprog.hql"




**Ejecución de comandos del sistema operativo desde Hive.--** `hive` permite la ejecución de comandos del sistema operativo usando `!`; por ejemplo:

     hive> ! ls
     
También es posible usar comandos del sistema HDFS; el comando `hadoop dfs -ls /` se escribiría en `hive` como

     hive> dfs -ls / ;
     

**Comentarios.--** Se usan los dos guiones `--`.

**Ejecución de Hive en Jupyter.--** A continuación se describe como ejecutar comandos de Hive en Jupyter. El archivo `hivemagic.py` contiene el codigo para ejecutar comandos de Hive directamente en las celdas de un libro de Jupyter. Para instalar el magic, simplemente ejecute el código de dicho archivo.

Modifique el archivo `hivemagic.py` indicando el directorio de instalación de Hive.

In [1]:
%run hivemagic.py

SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/Users/jdvelasq/hive/lib/log4j-slf4j-impl-2.10.0.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/Users/jdvelasq/hadoop/share/hadoop/common/lib/slf4j-log4j12-1.7.25.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.apache.logging.slf4j.Log4jLoggerFactory]
Hive Session ID = a9c41b53-6d99-41df-a7cb-19d7c7983335

Logging initialized using configuration in jar:file:/Users/jdvelasq/hive/lib/hive-common-3.1.0.jar!/hive-log4j2.properties Async: true
Hive Session ID = 5cf2071b-29b2-4791-860a-16194ec10678
Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.



---

**CREATE DATABASE**

    CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name
       [COMMENT database_comment]
       [LOCATION hdfs_path]
       [WITH DBPROPERTIES (property_name=property_value, ...)];

In [2]:
%%hive
-- 
-- Crea la base de datos mydb.
--
CREATE DATABASE mydb;

-- 
-- Crea la base de datos mydb.
--
CREATE DATABASE mydb;
OK
Time taken: 0.985 seconds


In [3]:
%%hive
--
-- crea la base de datos mydb únicamente si no existe
-- (note que aparece un warning)
--
CREATE DATABASE IF NOT EXISTS mydb COMMENT 'Database de prueba';

--
-- crea la base de datos mydb únicamente si no existe
--
CREATE DATABASE IF NOT EXISTS mydb COMMENT 'Database de prueba';
OK
Time taken: 0.009 seconds


---
**Ejercicio.--** Describa el efecto del siguiente comando:
  
     CREATE DATABASE demo LOCATION ~/temp/directory ;
     
---

**SHOW DATABASES**

In [4]:
%%hive
--
-- muestra las bases de datos existentes
-- 
SHOW DATABASES;

--
-- muestra las bases de datos existentes
-- 
SHOW DATABASES;
OK
db
default
mydb
Time taken: 0.133 seconds, Fetched: 3 row(s)


In [5]:
%%hive
SHOW DATABASES LIKE 'm*';

SHOW DATABASES LIKE 'm*';
OK
mydb
Time taken: 0.038 seconds, Fetched: 1 row(s)


**USE**

In [6]:
%%hive
--
-- Se conecta a la base de datos llamada mydb
--
USE mydb;

--
-- Se conecta a la base de datos llamada mydb
--
USE mydb;
OK
Time taken: 0.008 seconds


---
**Ejercicio.--** Cuál es el resultado de los siguientes comandos:

    DESCRIBE DATABASE mydb;
    
    DESCRIBE DATABASE EXTENDED mydb;
    
---

**DROP DATABASE**

    DROP (DATABASE|SCHEMA) [IF EXISTS] database_name [RESTRICT|CASCADE];
    
Por defecto se usa RESTRICT; esta opción genera un error si la base de datos no esta vacía. Si desea borrar también las tablas use la opción CASCADE.   

In [7]:
%%hive
--
-- Borra la base de datos
--
DROP DATABASE IF EXISTS mydb CASCADE;
SHOW DATABASES;

--
-- Borra la base de datos
--
DROP DATABASE IF EXISTS mydb CASCADE;
OK
Time taken: 0.152 seconds
SHOW DATABASES;
OK
db
default
Time taken: 0.029 seconds, Fetched: 2 row(s)


---
**Ejercicio.--** Cuál es el significado de la opción CASCADE?.

**Ejercicio.--** Cree las bases de datos llamadas db1 y db2.

**Ejercicio.--** Conectese a la base de datos db1.

**Ejercicio.--** Conectese a la base de datos db2.

**Ejercicio.--** Borre las bases de datos db1 y db2.

---

Las bases de datos se componen de tablas relacionadas por uno o mas campos, lo que permite gestionar diferentes fuentes de información.

A continuación se presentan algunas funciones necesarias para la gestión de tablas:

**CREATE TABLE**


* Forma 1:

      CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name    
        [(col_name data_type [COMMENT col_comment], ... [constraint_specification])]
        [COMMENT table_comment]
        [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]
        [CLUSTERED BY (col_name, col_name, ...) [SORTED BY (col_name [ASC|DESC], ...)] 
          INTO num_buckets BUCKETS]
        [SKEWED BY (col_name, col_name, ...)
           ON ((col_value, col_value, ...), (col_value, col_value, ...), ...)
           [STORED AS DIRECTORIES]
        [
          [ROW FORMAT row_format] 
          [STORED AS file_format]
             | STORED BY 'storage.handler.class.name' [WITH SERDEPROPERTIES (...)]  
        ]
        [LOCATION hdfs_path]
        [TBLPROPERTIES (property_name=property_value, ...)]  
        [AS select_statement];
 
 
* Forma 2:

      CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name
      LIKE existing_table_or_view_name
      [LOCATION hdfs_path];
 
Detalles:  https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-Create/Drop/Alter/UseDatabase
 
 

In [2]:
%%hive
DROP DATABASE IF EXISTS db CASCADE;
CREATE DATABASE db;
USE db;

DROP DATABASE IF EXISTS db CASCADE;
OK
Time taken: 1.582 seconds
CREATE DATABASE db;
OK
Time taken: 0.098 seconds
USE db;
OK
Time taken: 0.007 seconds


In [3]:
%%hive
--
-- crea la tabla
--
CREATE TABLE persons (
    id INT,
    ssn VARCHAR(11),
    phone VARCHAR(14),
    city VARCHAR(30),
    maritalstatus VARCHAR(10),
    fullname VARCHAR(30),
    birthday TIMESTAMP);

--
-- crea la tabla
--
CREATE TABLE persons (
    id INT,
    ssn VARCHAR(11),
    phone VARCHAR(14),
    city VARCHAR(30),
    maritalstatus VARCHAR(10),
    fullname VARCHAR(30),
    birthday TIMESTAMP);
OK
Time taken: 0.231 seconds


---
**Ejercicio.--** Describa que devuelve el comando:

    SHOW TABLES;
    
**Ejercicio.--** Describa que devuelve el comando:

    SHOW CREATE TABLE persons;
    
**Ejercicio.--** Describa que devuelve el comando:

    DESCRIBE persons;
    
    
**Ejercicio.--** Cuáles son los siguientes tipos de datos? Existen en MySQL?

* `STRUCT`


* `MAP`


* `ARRAY`

**Ejercicio.--** De ejemplos de uso de los tipos de datos anteriores.


---

In [4]:
%%hive
CREATE TABLE persons1 (
    id INT,
    ssn VARCHAR(11),
    phone VARCHAR(14),
    city VARCHAR(30),
    maritalstatus VARCHAR(10),
    fullname VARCHAR(30),
    birthday TIMESTAMP)
COMMENT 'Esta es mi primera tabla'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ';'
LINES TERMINATED BY '\n'
STORED AS TEXTFILE;

CREATE TABLE persons1 (
    id INT,
    ssn VARCHAR(11),
    phone VARCHAR(14),
    city VARCHAR(30),
    maritalstatus VARCHAR(10),
    fullname VARCHAR(30),
    birthday TIMESTAMP)
COMMENT 'Esta es mi primera tabla'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ';'
LINES TERMINATED BY '\n'
STORED AS TEXTFILE;
OK
Time taken: 0.037 seconds


---
**Ejercicio.--** Donde se almacenó la tabla anteior?


**Ejercicio.--** Cuál es el resultado del comando:

     SHOW TBLPROPERTIES persons1

---


`LIKE`  permite copiar la estructura de una tabla (pero no sus datos).

In [5]:
%%hive
CREATE TABLE IF NOT EXISTS mydb.persons2 LIKE persons1;

CREATE TABLE IF NOT EXISTS mydb.persons2 LIKE persons1;
OK
Time taken: 0.019 seconds


In [6]:
%%hive
SHOW TABLES IN mydb;

SHOW TABLES IN mydb;
OK
persons
persons2
Time taken: 0.098 seconds, Fetched: 2 row(s)


**ALTER TABLE**

    ALTER TABLE table_name RENAME TO new_table_name;

    ALTER TABLE table_name ADD COLUMNS (col_name data_type [COMMENT col_comment], ...)

    ALTER TABLE table_name REPLACE COLUMNS (col_name data_type [COMMENT col_comment], ...)


In [7]:
%%hive
-- 
-- Agrega una nueva columna especificando su posición.
--
ALTER TABLE persons ADD COLUMNS (state VARCHAR(8));
DESCRIBE persons;

-- 
-- Agrega una nueva columna especificando su posición.
--
ALTER TABLE persons ADD COLUMNS (state VARCHAR(8));
OK
Time taken: 0.072 seconds
DESCRIBE persons;
OK
id                  	int                 	                    
ssn                 	varchar(11)         	                    
phone               	varchar(14)         	                    
city                	varchar(30)         	                    
maritalstatus       	varchar(10)         	                    
fullname            	varchar(30)         	                    
birthday            	timestamp           	                    
state               	varchar(8)          	                    
Time taken: 0.048 seconds, Fetched: 8 row(s)


---
**Ejercicio.--** Cuál es el resultado de los siguientes comandos?

     DESCRIBE persons;
     
     DESCRIBE EXTENDED persons;
     
     DESCRIBE FORMATED persons;
     
---

In [8]:
%%hive
-- 
-- Modifica el tipo de campo de una columna.
--
ALTER TABLE persons CHANGE phone phone VARCHAR(12);
DESCRIBE persons;

-- 
-- Modifica el tipo de campo de una columna.
--
ALTER TABLE persons CHANGE phone phone VARCHAR(12);
OK
Time taken: 0.07 seconds
DESCRIBE persons;
OK
id                  	int                 	                    
ssn                 	varchar(11)         	                    
phone               	varchar(12)         	                    
city                	varchar(30)         	                    
maritalstatus       	varchar(10)         	                    
fullname            	varchar(30)         	                    
birthday            	timestamp           	                    
state               	varchar(8)          	                    
Time taken: 0.047 seconds, Fetched: 8 row(s)


In [9]:
%%hive
--
-- Borra columnas.
--
--ALTER TABLE persons REPLACE COLUMNS (id INT, ssn VARCHAR(11));
DESCRIBE persons;

--
-- Borra columnas.
--
--ALTER TABLE persons REPLACE COLUMNS (id INT, ssn VARCHAR(11));
DESCRIBE persons;
OK
id                  	int                 	                    
ssn                 	varchar(11)         	                    
phone               	varchar(12)         	                    
city                	varchar(30)         	                    
maritalstatus       	varchar(10)         	                    
fullname            	varchar(30)         	                    
birthday            	timestamp           	                    
state               	varchar(8)          	                    
Time taken: 0.045 seconds, Fetched: 8 row(s)


In [10]:
%%hive
--
-- Borrado de tablas:
--
DROP TABLE IF EXISTS persons;
DROP TABLE IF EXISTS persons1;

--
-- Borrado de tablas:
--
DROP TABLE IF EXISTS persons;
OK
Time taken: 0.062 seconds
DROP TABLE IF EXISTS persons1;
OK
Time taken: 0.053 seconds


**EXTERNAL TABLES**

Las tablas creadas hasta el momento son completamente manejadas por `Hive` y almacenadas en el directorio especificado en la propiedad `hive.metastore.warehouse.dir` del archivo `hive-site.xml`. Sin embargo, estas tablas no son convenientes para compartir directamente información con otras aplicaciones, ya que `Hive` administra los datos. Para analizar info generada por otras aplicaciones resulta más conveniente usar tablas externas. A continuación se presentan dos ejemplos:

    CREATE EXTERNAL TABLE IF NOT EXISTS mydb.table1 
    LIKE mydb.table
    LOCATION '/path/to/data';
    
    CREATE EXTERNAL TABLE IF NOT EXISTS table1 (
       col1 STRING,
       col2 STRING)
    ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' 
    LOCATION '/path/to/data';

**TABLAS PARTICIONADAS**

Permiten dividir físicamente los datos para agilizar procesos de búsqueda y gestión de información. Por ejemplo:

    CREATE TABLE IF NOT EXISTS table (
       col1 STRING,
       col2 STRING,
       col3 STRING)
    PARTITIONED BY (col4 STRING, col5 STRING);
    
---
**Ejercicio.--** Cómo cambia la estrucutura en disco para una tabla particionada?

---

Para ver las particiones:

    SHOW PARTITIONS table;
    
    SHOW PARTITIONS table PARTITION (col4='x');
    
    
Las particiones también pueden crearse después de haber creado la tabla.

    ALTER TABLE table ADD PARTITION(col5 = xxx, col6 = xxxx)
    LOCATION '/path/to/data';
    
La partición también puede lograrse al momento de cargar los datos:

    LOAD DATA INPATH 'path/to/data'
    INTO TABLE table
    PARTITION(col4 = val, col5 = val);
    
También es posible usar este tipo de tablas con tablas externas:

    CREATE EXTERNAL TABLE IF NOT EXISTS table1 (
       col1 STRING,
       col2 STRING)
    PARTITIONED BY (col3 INT)
    ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' 
    LOCATION '/path/to/data';

---

Lenguaje de Definición de Datos
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia

---

Haga click [aquí](https://github.com/jdvelasq/apache-hive-course) para acceder al repositorio en GitHub.

Haga click [aquí](http://nbviewer.jupyter.org/github/jdvelasq/apache-hive-course/tree/master/) para explorar el repositorio usando en `nbviewer`. 

---