## Repaso Hive
---

## Analítica de Grandes Datos
* ##### Facultad de Minas
* ##### Universidad Nacional de Colombia
* ##### Autor: Valentina Vásquez Hernandez

#### 0. ¿Cómo ejecuto el código de este taller?

* **Paso 1.** Ejecutar la imagen de docker `jdvelasq/hive:2.3.9` [click aquí para ver el comando](https://jdvelasq.github.io/courses/analitica_de_grandes_datos/index.html)
* **Paso 2.** Una vez se encuentren dentro de la imágen, pueden seguir cualquiera de las siguientes opciones: 
    > **Paso 2.1.** Clonar el repositorio de los talleres dentro de su máquina e inicializar jupyter [lab o notebook] en el directorio donde se encuentre este libro .ipynb
    
    > **Paso 2.2.** Guardar comandos en un archivo `.hql` y luego ejecutarlo con el comando `hive -f`

---

### 1. ¿Qué es Apache Hive?

Apache Hive es un sistema de almacen de datos *OpenSource* basado en Hadoop y que se ha especializado en operaciones de extracción, transformación y carga de datos (ETL, por sus siglas en ingles), facilitando el análisis de los mismos a gran escala. Es posible interactuar con Hive a través del command-line, Java™ Database Connectivity (JDBC) driver o Open Database Connectivity (ODBC) driver, usando lenguaje Hive query Language (HQL). [1](https://hive.apache.org/) [2](https://www.ibm.com/analytics/hadoop/hive) [3](https://aws.amazon.com/es/big-data/what-is-hive/)
 
 
> **Arquitectura Hive** [4](https://www.javatpoint.com/hive-architecture)


<img src="hivearq.jpg" alt="drawing" width="500"/>


Con respecto a `Pig` (Yahoo) y  lo que se ha explorado dentro de las funciones MapReduce, `Hive` (Facebook) presenta las siguientes ventajas: 


* Hive ofrece la ejecución de tareas MapReduce a través de un lenguaje SQL mientras que Pig lo hace a través de un lenguaje propio basado en el flujo de información
* Hive es ampliamente usado para el análisis de dato, generación de reportes y soporta funciones OLAP.
* Existen implementaciones comerciales que brindan soporte como Amazon EMR (Apache Spark, Apache Hive y Presto) y IBM Db2 Big SQL. La comunidad es considerablemente mas amplia.

> **Haddop Ecosystem** [5](https://mdivk.gitbooks.io/hadoop-practice-for-beginners-with-illustration/content/appendix_10_the_hadoop_ecosystem_in_a_nutshell.html)

<img src="haddopeco.jpg" alt="drawing" width="600"/>


**Principales comandos:**

Estructura básica

> `SELECT` [*|fields] 
`FROM` table-name
    [where condition] 
    [AND condition]

Cargar datos locales al HDFS
> `LOAD DATA LOCAL INPATH` 'local-file' `OVERWRITE INTO TABLE` table-name


Guardar datos en una ubicación específica
> `INSERT OVERWRITE DIRECTORY` 'output'
`ROW FORMAT DELIMITED FIELDS TERMINATED BY` 'delimeter'
-- QUERY SQL

*Manual del lenguaje*: https://cwiki.apache.org/confluence/display/Hive//LanguageManual

*Cheat Sheet (se encuentra descargado en este repo)*: http://hortonworks.com/wp-content/uploads/2016/05/Hortonworks.CheatSheet.SQLtoHive.pdf 

> **Particionamiento:** [6](https://www.javatpoint.com/hive-architecture)

<img src="patitioning.jpg" alt="drawing" width="600"/>


### 1. ¿Cómo uso Hive?

Es posible ejecutar Hive de manera local o usando el HDFS.

In [1]:
!hive --help

Usage ./hive <parameters> --service serviceName <service parameters>
Service List: beeline cleardanglingscratchdir cli hbaseimport hbaseschematool help hiveburninclient hiveserver2 hplsql jar lineage llap llapdump llapstatus metastore metatool orcfiledump rcfilecat schemaTool version 
Parameters parsed:
  --auxpath : Auxiliary jars 
  --config : Hive configuration directory
  --service : Starts specific service/component. cli is default
Parameters used:
  HADOOP_HOME or HADOOP_PREFIX : Hadoop install directory
  HIVE_OPT : Hive options
For help on a particular service:
  ./hive --service serviceName --help
Debug help:  ./hive --debug --help


A continuación se crea la tabla a usar:

In [18]:
%%writefile create_table_cars.hql

DROP TABLE IF EXISTS cars;

CREATE TABLE cars (
    make STRING, 
    fuel_type STRING,
    num_of_doors STRING,
    length FLOAT,
    width FLOAT, 
    price INT
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';

Overwriting create_table_cars.hql


In [19]:
!hive -f create_table_cars.hql


Logging initialized using configuration in jar:file:/opt/hive/lib/hive-common-2.3.9.jar!/hive-log4j2.properties Async: true
OK
Time taken: 7.999 seconds
OK
Time taken: 1.024 seconds


In [20]:
%%writefile load_data_cars.hql
LOAD DATA LOCAL INPATH "data/cars_subset.csv" OVERWRITE INTO TABLE cars;

Overwriting load_data_cars.hql


In [21]:
!hive -f load_data_cars.hql


Logging initialized using configuration in jar:file:/opt/hive/lib/hive-common-2.3.9.jar!/hive-log4j2.properties Async: true
Loading data to table default.cars
OK
Time taken: 9.385 seconds


In [43]:
%%writefile describe_cars.hql
DESCRIBE cars;
SELECT * FROM cars LIMIT 5;
SHOW TBLPROPERTIES cars;

Overwriting describe_cars.hql


In [44]:
!hive -f describe_cars.hql


Logging initialized using configuration in jar:file:/opt/hive/lib/hive-common-2.3.9.jar!/hive-log4j2.properties Async: true
OK
make                	string              	                    
fuel_type           	string              	                    
num_of_doors        	string              	                    
length              	float               	                    
width               	float               	                    
price               	int                 	                    
Time taken: 8.253 seconds, Fetched: 6 row(s)
OK
audi	gas	four	176.6	66.2	13950
audi	gas	four	176.6	66.4	17450
audi	gas	four	192.7	71.4	17710
audi	gas	four	192.7	71.4	23875
bmw	gas	two	176.8	64.8	16430
Time taken: 2.184 seconds, Fetched: 5 row(s)
OK
numFiles	1
numRows	0
rawDataSize	0
totalSize	5505
transient_lastDdlTime	1655221394
Time taken: 0.078 seconds, Fetched: 5 row(s)


---