# Guía práctica de uso de Hive y Pig

En la sesión práctica se presentarán los siguientes contenidos:

* Presentación del `dataset` que vamos a utilizar.
* Conceptos básicos de Hive.
* Resolución de consulta compleja con HQL en el `dataset` de vuelos.
* Conceptos básicos de Pig.
* Resolución de la misma consulta compleja con Pig Latin en el `dataset` de vuelos.
  
# Dataset de retrasos en vuelos

Vamos a usar [este](https://www.kaggle.com/datasets/tylerx/flights-and-airports-data) de Kaggle
para aprender a usar tanto Hive como Pig. Kaggle es un sitio muy popular en ciencia de datos. En este sitio los científicos de datos pueden publicar y compartir sus trabajos. Además también se pueden proponer concursos en los que los participantes compiten en la construcción del mejor modelo para el problema propuesto.

El `dataset` contiene información sobre retrasos en vuelos en EEUU. Hay dos ficheros de interés: `airports.csv` y `flights.csv`.

El primero tiene información sobre los aeropuertos y consta de los siguientes campos:
   * airport_id: identificador del aeropuerto. Numérico, aunque se utilizará un campo `string` en Hive.
   * city: ciudad del aeropuerto.
   * state: estado del aeropuerto.
   * name: nombre del aeropuerto.
   
El fichero `flights` tiene la siguiente estructura:
   * DayofMonth: día del mes del vuelo.
   * DayOfWeek: día de la semana del vuelo.
   * Carrier: Identificador de la compañía aérea.
   * OriginAirportID: Identificador del aeropuerto de origen.
   * DestAirportID: Identificador del aeropuerto de destino.
   * DepDelay: Minutos de retraso en la salida de un vuelo (puede ser negativo si el vuelo sale antes de lo previsto).
   * ArrDelay: Minutos de retraso en la llegada de un vuelo (puede ser negativo si el vuelo sale antes de lo previsto).

El directorio `notebooks` contiene el `archiv.zip` con los dos ficheros. Para descargarlo de Kaggle hay que estar registrado y se ha incluido para que no tengas que hacerlo. 

Extraemos los ficheros que nos interesan. El fichero tiene extensión `zip`. Tenemos que instalar el paquete `unzip` ya que no está disponible en el contenedor.

Primero tenemos que actualizar los repositorios de paquetes del contenedor.

In [1]:
! apt update

Get:1 http://archive.ubuntu.com/ubuntu focal InRelease [265 kB]
Get:2 http://security.ubuntu.com/ubuntu focal-security InRelease [114 kB]
Get:3 http://archive.ubuntu.com/ubuntu focal-updates InRelease [114 kB][33m
Get:4 http://archive.ubuntu.com/ubuntu focal-backports InRelease [108 kB]
Get:5 http://security.ubuntu.com/ubuntu focal-security/universe amd64 Packages [991 kB]
Get:6 http://security.ubuntu.com/ubuntu focal-security/multiverse amd64 Packages [28.5 kB]
Get:7 http://security.ubuntu.com/ubuntu focal-security/restricted amd64 Packages [1882 kB]
Get:8 http://security.ubuntu.com/ubuntu focal-security/main amd64 Packages [2448 kB]
Get:9 http://archive.ubuntu.com/ubuntu focal/restricted amd64 Packages [33.4 kB][0m
Get:10 http://archive.ubuntu.com/ubuntu focal/main amd64 Packages [1275 kB]    [0m[33m
Get:11 http://archive.ubuntu.com/ubuntu focal/multiverse amd64 Packages [177 kB][0m[33m[33m
Get:12 http://archive.ubuntu.com/ubuntu focal/universe amd64 Packages [11.3 MB]
Get:13 ht

Luego instalamos el paquete `unzip`.

In [2]:
! apt install unzip

Reading package lists... Done
Building dependency tree       
Reading state information... Done
Suggested packages:
  zip
The following NEW packages will be installed:
  unzip
0 upgraded, 1 newly installed, 0 to remove and 190 not upgraded.
Need to get 168 kB of archives.
After this operation, 593 kB of additional disk space will be used.
Get:1 http://archive.ubuntu.com/ubuntu focal-updates/main amd64 unzip amd64 6.0-25ubuntu1.1 [168 kB]
Fetched 168 kB in 0s (576 kB/s)0m[33m
debconf: delaying package configuration, since apt-utils is not installed

7[0;23r8[1ASelecting previously unselected package unzip.
(Reading database ... 43749 files and directories currently installed.)
Preparing to unpack .../unzip_6.0-25ubuntu1.1_amd64.deb ...
7[24;0f[42m[30mProgress: [  0%][49m[39m [..........................................................] 87[24;0f[42m[30mProgress: [ 20%][49m[39m [###########...............................................] 8Unpacking unzip (6.0-25ubuntu1.1

Extraemos los ficheros que nos interesan.

In [None]:
! unzip -j -o archive.zip  airports.csv flights.csv

Mostramos el número de líneas y las primeras líneas del fichero de aeropuertos, `airports.csv`:

In [None]:
! wc -l airports.csv && head airports.csv 

Mostramos el número de líneas y las primeras líneas del fichero de aeropuertos, `flights.csv`:

In [None]:
! wc -l flights.csv && head flights.csv

Es decir, hay 365 aeropuertos (descontada la línea de cabecera) y cerca de tres millones de vuelos.

Copiamos los ficheros para hacerlos accesibles en Hadoop. Observa que hemos usado el comando `hdfs` en lugar del comando `hadoop`. Es equivalente hacerlo de una u otra forma.

In [None]:
! hdfs dfs -mkdir -p /user/root/flights
! hdfs dfs -put -f ./airports.csv /user/root/flights/
! hdfs dfs -put -f ./flights.csv /user/root/flights/
! hdfs dfs -ls /user/root/flights/

# Hive

Ya tenemos instalado un servidor de Hive en nuestro `clúster` Hadoop. Hive es probablemente la herramienta más utilizada en el ecosistema Hadoop. La razón es que utiliza un lenguaje de consultas llamado HQL muy similar a SQL.

También hay instalado un cliente de Hive llamado `beeline`. Podemos ejecutar comandos de `beeline` en celdas de Jupyter. Por ejemplo, el siguiente comando se conectaría a Hive y mostraría las bases de datos disponibles.

In [None]:
! beeline -u "jdbc:hive2://localhost:10000" -e "SHOW DATABASES"

Podemos crear una nueva base de datos con la siguiente instrucción.

In [None]:
! beeline -u "jdbc:hive2://localhost:10000/" -e "\
CREATE DATABASE IF NOT EXISTS bda03 \
COMMENT 'Base de datos de la unidad BDA03' \
WITH DBPROPERTIES ('Creada por' = 'Javier Pérez', 'Fecha' = '20/12/22');"

El siguiente paso sería crear las tablas para almacenar los datos de los aeropuertos y de los vuelos. En Hive hay dos tipos de tablas:

* Internas: Son manejadas completamente por Hive. Hive copiará los datos de los ficheros usados para crear las tablas en el almacenamiento de Hive. Por defecto usará el directorio: `/user/hive/warehouse/database_name.db/`. Cuando se borre la tabla, Hive borrará tanto los datos como los metadatos.
* Externas: Los datos no los maneja Hive. Hive únicamente se ocupa de mantener los metadatos. Para crear una tabla externa hay que añadir la opción EXTERNAL. Las tablas que crearemos en este ejercicio son externas.

Para mejorar el rendimiento de Hive, las tablas se pueden particionar por el valor de una columna. Hive creará un directorio por cada valor de la columna particionada. La columna de particionamiento realmente no se almacena como un campo, pero en las consultas se mostrará como si realmente existiera ese campo. 

Por último, hay que tener en cuenta los tipos de datos que soporta Hive. Puedes consultar los tipos soportados [aquí](https://cwiki.apache.org/confluence/display/hive/languagemanual+types).

La tabla que almacenará los datos de los aeropuertos se crea así:

In [None]:
! beeline -u "jdbc:hive2://localhost:10000/bda03" -e "\
DROP TABLE IF EXISTS airports; \
CREATE EXTERNAL TABLE IF NOT EXISTS airports (airportid STRING, city STRING, state STRING, airportname STRING) \
COMMENT 'USA Airports' \
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\,' \
TBLPROPERTIES ('Autor' = 'Javier Pérez', 'Fecha' = '20/12/2022', 'skip.header.line.count'='1');"

Hay varias cuestiones que son interesantes comentar en la anterior instrucción:

* En primer lugar, observa que hemos añadido el nombre de la base de datos a la cadena de conexión del cliente `beeline`.
* El nombre de la tabla creada se llama `airports`.
* La tabla es externa. Eso quiere decir que los datos permanecerán en HDFS y no se moverán al almacenamiento interno de Hive.
* La tabla consta de cuatro campos de tipo texto y se corresponden con la descripción que hicimos del fichero `airports.csv`.
* Se ha especificado que el delimitador de campos es el carácter coma (,).
* Por último, se añade una propiedad que permite eliminar la cabecera del fichero `csv`.

La tabla de vuelos es similar.

In [None]:
! beeline -u "jdbc:hive2://localhost:10000/bda03" -e "\
DROP TABLE IF EXISTS flights; \
CREATE EXTERNAL TABLE IF NOT EXISTS flights (dayofmonth TINYINT, dayofweek TINYINT, carrier STRING, \
    depairportid STRING, arrairportid STRING, depdelay SMALLINT, arrdelay SMALLINT) \
COMMENT 'Flights' \
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\,' \
TBLPROPERTIES ('Autor' = 'Javier Pérez', 'Fecha' = '20/12/2022', 'skip.header.line.count'='1');"

En la tabla `flights` se han ajustado los tipos de datos numéricos para que ocupen lo menos posible. El siguiente paso será cargar los datos. Al tratarse tablas externas, Hive no moverá realmente los datos y será un proceso muy rápido.

Antes de cargar los datos tenemos que dar permisos al directorio de HDFS en el que hemos copiado los ficheros `cvs`.

In [None]:
! hdfs dfs -chmod 777 /user/root/flights

In [None]:
! beeline -u "jdbc:hive2://localhost:10000/bda03" -e "\
LOAD DATA INPATH '/user/root/flights/airports.csv' OVERWRITE INTO TABLE airports;"

In [None]:
! beeline -u "jdbc:hive2://localhost:10000/bda03" -e "\
LOAD DATA INPATH '/user/root/flights/flights.csv' OVERWRITE INTO TABLE flights;"

Si has ejecutado las celdas anteriores, habrás comprobado que el proceso de incorporar datos ha sido muy rápido. Esto es así porque, al tratarse de tablas externas, Hive no necesita copiar los datos y porque Hive no realiza comprobaciones de integridad.

Ya podemos hacer consultas. Por ejemplo, la siguiente consulta muestra 10 aeropuertos.

In [None]:
! beeline -u "jdbc:hive2://localhost:10000/bda03" -e "\
SELECT * FROM airports LIMIT 10"

Y la siguiente muestra 10 vuelos:

In [None]:
! beeline -u "jdbc:hive2://localhost:10000/bda03" -e "\
SELECT * FROM flights LIMIT 10"

Vamos a hacer una consulta para aprender como usar Hive.

## Consulta en Hive: Nombre de los 5 aeropuertos con mayor número de operaciones (llegadas y salidas).

Empezamos mostrando las salidas que se producen agrupadas por aeropuerto.

In [None]:
! beeline -u "jdbc:hive2://localhost:10000/bda03" -e "\
SELECT depairportid as airportid, count(*) AS flights FROM flights GROUP BY depairportid \
ORDER BY flights DESC LIMIT 5;"

Podemos hacer lo mismo con las llegadas y unir las dos consultas.

In [None]:
! beeline -u "jdbc:hive2://localhost:10000/bda03" -e "\
SELECT airportid, COUNT(*) as flights FROM ( \
    SELECT depairportid as airportid FROM flights \
    UNION ALL \
    SELECT arrairportid as airportid FROM flights \
) f GROUP BY airportid \
ORDER BY flights DESC LIMIT 5;"

Ya tenemos los códigos de los 5 aeropuertos con más operaciones. Lo único que queda por hacer es obtener el nombre del aeropuerto. Para ello hacemos un `join` con la tabla `airports`. Para hacerlo más inteligible creamos una tabla temporal con los resultados anteriores y el `join` lo hacemos sobre esta tabla temporal.

In [None]:
! beeline -u "jdbc:hive2://localhost:10000/bda03" -e "\
CREATE TEMPORARY TABLE airport_operations AS \
SELECT airportid, COUNT(*) as flights FROM ( \
    SELECT depairportid as airportid FROM flights \
    UNION ALL \
    SELECT arrairportid as airportid FROM flights \
) f GROUP BY airportid \
ORDER BY flights DESC LIMIT 5; \
\
SELECT airportname, flights \
FROM airport_operations JOIN airports ON airport_operations.airportid = airports.airportid \
ORDER BY flights DESC;"

# Pig

Como en el caso de Hive, también tenemos instalado el cliente de Pig en nuestro `cluster` de Hadoop (Pig no tiene servidor). Mientras que Hive es una herramienta pensada para trabajar sobre información estructurada de forma declarativa, Pig puede trabajar sobre información semiestructurada y es una mezcla de programación declarativa y procedimental. Es, por lo tanto, más flexible que Hive. Pig usa un lenguaje de consultas llamado Pig Latin.

Al igual que Hive, Pig tiene sus propios tipos de datos. Puedes consultarlos [aquí](https://pig.apache.org/docs/latest/basic.html#data-types).

Para ejecutar Pig en Jupyter debemos crear un `script` y ejecutarlo con Pig.

Por ejemplo, para leer los ficheros `airports.csv` y `flights.csv` escribimos:

In [None]:
%%writefile flights.pig

-- resgistramos la librería PiggyBank para poder usar la función de carga CSVExcelStorage.
REGISTER piggybank.jar

/*
Leemos el fichero de airports.csv.

Usamos el loader CSVExcelStorage indicando el delimitador (,) y que se debe excluir la cabecera.
*/

AIRPORTS = LOAD '$airports_file' USING
       org.apache.pig.piggybank.storage.CSVExcelStorage(',', 'NO_MULTILINE', 'UNIX', 'SKIP_INPUT_HEADER')
       AS (airportid:chararray, city:chararray, state:chararray, airportname:chararray);

-- Leemos el fichero fligths.csv

FLIGHTS = LOAD '$flights_file' USING
       org.apache.pig.piggybank.storage.CSVExcelStorage(',', 'NO_MULTILINE', 'UNIX', 'SKIP_INPUT_HEADER')
       AS (dayofmonth:int, dayofweek:int, carrier:chararray, 
               depairportid:chararray, arrairportid:chararray, depdelay:int, arrdelay:int);


-- Probamos que podemos recuperar datos.
      
-- Nos quedamos con 10 aeropuertos
AIRPORTS_10 = LIMIT AIRPORTS 10;

-- Mostramos 10 aeropuertos
DUMP AIRPORTS_10;

-- Hacemos lo mismo con los vuelos
FLIGHTS_10 = LIMIT FLIGHTS 10;
DUMP FLIGHTS_10;

In [None]:
! pig -x local -f flights.pig -param airports_file='airports.csv' -param flights_file='flights.csv' -param output_dir='pig/output/flights'

Observa varias cuestiones interesantes:

* Los `scripts` de Pig admiten dos tipos de comentarios: orientados a línea y orientados a bloque.
* Hemos tenido que registrar la librería `piggybank.jar` para poder usar el `loader` `CSVExcelStorage`. Este `loader` es más potente que el que se usa por defecto en Pig y que se llama `PigStorage`. Concretamente en este ejemplo lo hemos usado para eliminar las líneas de cabecera de los ficheros `csv`.
* Cada comando de Pig Latin es atómico (hace una sola operación) y no se pueden componer, con lo que hay que ir haciendo asignaciones sucesivas. Es habitual que las asignaciones se hagan sobre la misma variable sobrescribiéndola. Desde mi punto de vista esa técnica resta claridad y prefiero ir creando nuevas variables según avanza el proceso.
* Al ejecutar Pig podemos pasar variables que son accesibles desde el `script`.
* He tenido que ejecutar Pig en modo local con la opción `-x local` ya que mi equipo se queda sin memoria si trato de ejecutarlo en Hadoop. Puedes probar a cambiar esta opción y probar si tu equipo soporta la ejecución en el `clúster` de Hadoop.
* Observa que la salida del `script` muestra 10 aeropuertos y 10 vuelos con una estructura de datos de tupla. La tupla es uno de los tipos complejos que soporta Pig. Los otros dos tipos complejos son `map` y `bag`. Usaremos el último más adelante.

## Consulta en Pig: Nombre de los 5 aeropuertos con mayor número de operaciones (llegadas y salidas).

Vamos a resolver la misma consulta que hicimos en Hive pero esta vez utilizando Pig. Seguimos una estrategia parecida a la de Hive: unimos las salidas y las llegadas y agrupamos por aeropuerto. El `script` siguiente está incompleto ya que tan sólo llega hasta hacer la agrupación, pero falta el `join` con aeropuertos para obtener el nombre. Se ha hecho así para explicar que la relación creada con GROUP no tiene a misma estructura que la equivalente con GROUP BY en Hive. Más adelante resolveremos la consulta completamente.

In [None]:
%%writefile flights.pig

-- resgistramos la librería PiggyBank para poder usar la función de carga CSVExcelStorage.
REGISTER piggybank.jar

/*
Leemos el fichero de airports.csv.

Usamos el loader CSVExcelStorage indicando el delimitador (,) y que se debe excluir la cabecera.
*/

AIRPORTS = LOAD '$airports_file' USING
       org.apache.pig.piggybank.storage.CSVExcelStorage(',', 'NO_MULTILINE', 'UNIX', 'SKIP_INPUT_HEADER')
       AS (airportid:chararray, city:chararray, state:chararray, airportname:chararray);

-- Leemos el fichero fligths.csv

FLIGHTS = LOAD '$flights_file' USING
       org.apache.pig.piggybank.storage.CSVExcelStorage(',', 'NO_MULTILINE', 'UNIX', 'SKIP_INPUT_HEADER')
       AS (dayofmonth:int, dayofweek:int, carrier:chararray, 
               depairportid:chararray, arrairportid:chararray, depdelay:int, arrdelay:int);


/*
    FOREACH ... GENERATE es similar al SELECT de SQL
*/
DEPARTURES = FOREACH FLIGHTS GENERATE depairportid AS airportid;
ARRIVES    = FOREACH FLIGHTS GENERATE arrairportid AS airportid;

OPERATIONS = UNION DEPARTURES, ARRIVES;

TOTAL_OPERATIONS = GROUP OPERATIONS BY airportid;

-- Mostramos el esquema de la relación para que se entienda cómo funciona GROUP
DESCRIBE TOTAL_OPERATIONS;

In [None]:
! pig -x local -f flights.pig -param airports_file='airports.csv' -param flights_file='flights.csv' -param output_dir='pig/output/flights'

Observa varias cosas:

* La consulta ha tardado muy poco tiempo. Esto es debido a que Pig no realiza la consulta hasta que no se muestren los datos por pantalla o se almacenen en un fichero.
* La relación TOTAL_OPERATIONS está formada por tuplas con dos campos: `group` y OPERATIONS. El nombre `group` lo ha asignado PIG y contiene el valor del campo por el que hemos agrupado (en este caso el código de aeropuerto). OPERATIONS es un `bag` (lista de tuplas) con las tuplas agrupadas. Es decir, que si mostráramos los datos agrupados, veríamos tuplas con datos similares a estos:
    (1, (1,1,1,1,1)), donde 1 sería el código de aeropuerto.
    
Continuamos con el `script` contando y renombrando campos:

In [None]:
%%writefile flights.pig

-- resgistramos la librería PiggyBank para poder usar la función de carga CSVExcelStorage.
REGISTER piggybank.jar

/*
Leemos el fichero de airports.csv.

Usamos el loader CSVExcelStorage indicando el delimitador (,) y que se debe excluir la cabecera.
*/

AIRPORTS = LOAD '$airports_file' USING
       org.apache.pig.piggybank.storage.CSVExcelStorage(',', 'NO_MULTILINE', 'UNIX', 'SKIP_INPUT_HEADER')
       AS (airportid:chararray, city:chararray, state:chararray, airportname:chararray);

-- Leemos el fichero fligths.csv

FLIGHTS = LOAD '$flights_file' USING
       org.apache.pig.piggybank.storage.CSVExcelStorage(',', 'NO_MULTILINE', 'UNIX', 'SKIP_INPUT_HEADER')
       AS (dayofmonth:int, dayofweek:int, carrier:chararray, 
               depairportid:chararray, arrairportid:chararray, depdelay:int, arrdelay:int);


/*
    FOREACH ... GENERATE es similar al SELECT de SQL
*/
DEPARTURES = FOREACH FLIGHTS GENERATE depairportid AS airportid;
ARRIVES    = FOREACH FLIGHTS GENERATE arrairportid AS airportid;

OPERATIONS = UNION DEPARTURES, ARRIVES;

TOTAL_OPERATIONS = GROUP OPERATIONS BY airportid;

-- Mostramos el esquema de la relación para que se entienda cómo funciona GROUP
DESCRIBE TOTAL_OPERATIONS;

-- Renombramos campos y contamos vuelos
TOTAL_OPERATIONS = FOREACH TOTAL_OPERATIONS GENERATE group AS airportid, COUNT(OPERATIONS) AS flights;

-- Ordenamos de forma descendente por vuelos
TOTAL_OPERATIONS = ORDER TOTAL_OPERATIONS BY flights DESC;

-- Limitamos a 5 aeropuertos
TOP_TOTAL_OPERATIONS = LIMIT TOTAL_OPERATIONS 5;

-- Hacemos un join con la relación de aeropuertos para obtener el nombre
TOP_TOTAL_OPERATIONS = JOIN TOP_TOTAL_OPERATIONS BY airportid, AIRPORTS BY airportid;

DESCRIBE TOP_TOTAL_OPERATIONS;

-- Seleccionamos los campos que nos interesan
TOP_TOTAL_OPERATIONS = FOREACH TOP_TOTAL_OPERATIONS GENERATE airportname, flights;

-- Volvemos a ordenar por el número de vuelos
TOP_TOTAL_OPERATIONS = ORDER TOP_TOTAL_OPERATIONS BY flights DESC;

DUMP TOP_TOTAL_OPERATIONS;

In [None]:
! pig -x local -f flights.pig -param airports_file='airports.csv' -param flights_file='flights.csv' -param output_dir='pig/output/flights'

Vemos que en esencia con Pig pordemos hacer lo mismo que con Hive (lo contrario no es siempre cierto), con una sintaxis diferente. Particularmente a mí, en consultas complejas, me parece más fácil entender Pig Latin que HQL.