Gestión de las Bases de Datos
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia

---

Haga click [aquí](https://github.com/jdvelasq/apache-hive-course) para acceder al repositorio en GitHub.

Haga click [aquí](http://nbviewer.jupyter.org/github/jdvelasq/apache-hive-course/tree/master/) para explorar el repositorio usando en `nbviewer`. 

---

**Ejecución de Hive en la consola de comandos.--** Esta es la forma más común de trabajo. La bodega de datos debe ser creada en la carpeta donde se invocará `hive` con el siguiente comando:

     $HIVE_HOME/bin/schematool -dbType derby -initSchema
     
Note que si invoca `hive` desde otra carpeta se generará un error. En otras palabras, use el comando anterior en la carpeta donde descargo esta serie de tutoriales para que los comandos puedan ejecutarse desde Jupyter.

También es posible enviar comandos y salir inmediatamente de `hive`. Para ello, use la opción `-e`; por ejemplo, en Terminal digite:

    hive -e "SHOW DATABASES;"
    
La opción `-S` corresponde al modo silencioso, en el que se suprime información adicional. En conjunción con el operador `>` hace posible la generación de archivos de texto con los resultados de la ejecución de uno o más comandos:

    hive -S -e "SELECT * FROM table LIMIT 3;" > result.txt
    
    
Adicionalmente, es posible almacenar secuencias de comandos en archivos (usualmente con extensión ".q" o ".hql" que pueden ejecutarse desde `hive`. En el prompt de `hive` use el comando `source`:

    hive> source miprog.hql
    
    
y en la línea de comandos

    hive -S -e "source miprog.hql"




**Ejecución de comandos del sistema operativo desde Hive.--** `hive` permite la ejecución de comandos del sistema operativo usando `!`; por ejemplo:

     hive> ! ls
     
También es posible usar comandos del sistema HDFS; el comando `hadoop dfs -ls /` se escribiría en `hive` como

     hive> dfs -ls / ;
     

**Comentarios.--** Se usan los dos guiones `--`.

**Ejecución de Hive en Jupyter.--** A continuación se describe como ejecutar comandos de Hive en Jupyter. El archivo `hivemagic.py` contiene el codigo para ejecutar comandos de Hive directamente en las celdas de un libro de Jupyter. Para instalar el magic, simplemente ejecute el código de dicho archivo.

Modifique el archivo `hivemagic.py` indicando el directorio de instalación de Hive.

In [1]:
%run hivemagic.py

SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/Users/jdvelasq/hive/lib/log4j-slf4j-impl-2.10.0.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/Users/jdvelasq/hadoop/share/hadoop/common/lib/slf4j-log4j12-1.7.25.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.apache.logging.slf4j.Log4jLoggerFactory]
Hive Session ID = a9c41b53-6d99-41df-a7cb-19d7c7983335

Logging initialized using configuration in jar:file:/Users/jdvelasq/hive/lib/hive-common-3.1.0.jar!/hive-log4j2.properties Async: true
Hive Session ID = 5cf2071b-29b2-4791-860a-16194ec10678
Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.



---

# Introducción

La primera vez que se ejecuta Hive, crea en la carpeta actual, las carpetas:


* metastore_db: contiene los metadatos


* warehouse: contiene las bases de datos y las tablas

**CREATE DATABASE**

    CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name
       [COMMENT database_comment]
       [LOCATION hdfs_path]
       [WITH DBPROPERTIES (property_name=property_value, ...)];

In [2]:
%%hive
-- 
-- Crea la base de datos mydb.
--
CREATE DATABASE mydb;

-- 
-- Crea la base de datos mydb.
--
CREATE DATABASE mydb;
OK
Time taken: 0.985 seconds


In [3]:
%%hive
--
-- crea la base de datos mydb únicamente si no existe
-- (note que aparece un warning)
--
CREATE DATABASE IF NOT EXISTS mydb COMMENT 'Database de prueba';

--
-- crea la base de datos mydb únicamente si no existe
--
CREATE DATABASE IF NOT EXISTS mydb COMMENT 'Database de prueba';
OK
Time taken: 0.009 seconds


---
**Ejercicio.--** Describa el efecto del siguiente comando:
  
     CREATE DATABASE demo LOCATION ~/temp/directory ;
     
---

**SHOW DATABASES**

In [4]:
%%hive
--
-- muestra las bases de datos existentes
-- 
SHOW DATABASES;

--
-- muestra las bases de datos existentes
-- 
SHOW DATABASES;
OK
db
default
mydb
Time taken: 0.133 seconds, Fetched: 3 row(s)


In [5]:
%%hive
SHOW DATABASES LIKE 'm*';

SHOW DATABASES LIKE 'm*';
OK
mydb
Time taken: 0.038 seconds, Fetched: 1 row(s)


**USE**

In [6]:
%%hive
--
-- Se conecta a la base de datos llamada mydb
--
USE mydb;

--
-- Se conecta a la base de datos llamada mydb
--
USE mydb;
OK
Time taken: 0.008 seconds


---
**Ejercicio.--** Cuál es el resultado de los siguientes comandos:

    DESCRIBE DATABASE mydb;
    
    DESCRIBE DATABASE EXTENDED mydb;
    
---

**DROP DATABASE**

    DROP (DATABASE|SCHEMA) [IF EXISTS] database_name [RESTRICT|CASCADE];
    
Por defecto se usa RESTRICT; esta opción genera un error si la base de datos no esta vacía. Si desea borrar también las tablas use la opción CASCADE.   

In [7]:
%%hive
--
-- Borra la base de datos
--
DROP DATABASE IF EXISTS mydb CASCADE;
SHOW DATABASES;

--
-- Borra la base de datos
--
DROP DATABASE IF EXISTS mydb CASCADE;
OK
Time taken: 0.152 seconds
SHOW DATABASES;
OK
db
default
Time taken: 0.029 seconds, Fetched: 2 row(s)


---
**Ejercicio.--** Cuál es el significado de la opción CASCADE?.

**Ejercicio.--** Cree las bases de datos llamadas db1 y db2.

**Ejercicio.--** Conectese a la base de datos db1.

**Ejercicio.--** Conectese a la base de datos db2.

**Ejercicio.--** Borre las bases de datos db1 y db2.

---

Gestión de las Bases de Datos
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia

---

Haga click [aquí](https://github.com/jdvelasq/apache-hive-course) para acceder al repositorio en GitHub.

Haga click [aquí](http://nbviewer.jupyter.org/github/jdvelasq/apache-hive-course/tree/master/) para explorar el repositorio usando en `nbviewer`. 

---