Hadoop/MapReduce -- Ejercicios
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia

---

Haga click [aquí](https://github.com/jdvelasq/big-data-analytics/tree/master/) para acceder al repositorio online.

Haga click [aquí](http://nbviewer.jupyter.org/github/jdvelasq/big-data-analytics/tree/master/) para explorar el repositorio usando `nbviewer`.

---

# Introducción

Existen distintos tipos de cómputos que se realizan frecuentemente usando sistemas de gestión de datos; estos tipos pueden ser agrupados en categorías de acuerdo con el patrón del algoritmo usado para su solución. Estos patrones requieren el uso de claves o valores con estructuras más complejas. En la primera parte se discuten los elementos básicos sobre la construcción de claves o valores más complejos; en la segunda parte se presentan ejercicios que permiten ejemplificar cada tipo de patrón. 

---

# Construcción de clave y valores compuestos (o complejos)

Uno de los elementos claves en la construcción de aplicaciones en Big Data es el procesamiento de datos donde los valores y las claves pueden ser una estructura de datos. El proceso de conversión entre datos procesables por Hadoop (o Spark) y Python (o el lenguaje de programación que se este usando) se conoce como *serialization* y *deserialization*. A continuación se presentan ejempos de la conversión de diferentes representaciones. 

In [1]:
##
## Se requiere una clave compuesta que agrupa tres
## campos diferentes del a entrada. Como estrategia
## se usa una tupla para la clave. Para generar 
## la salida del mapper, la tupla se convierte 
## directamente a un string.
##
key = (12, 17, 23) ## clave compuesta
value = 128.3      ## valor asociado a la clave
##
## emisión del mapper:
##
print("{}\t{}".format(str(key), value))

(12, 17, 23)	128.3


In [2]:
##
## El reducer convierte nuevamente el string
## en una tupla.
##

## esto es lo que lee el reducer en el flujo de entrada
txt = "{}\t{}".format(str(key), value) 

txt = txt.split("\t")
print(txt)

['(12, 17, 23)', '128.3']


In [3]:
key = eval(txt[0])
key

(12, 17, 23)

In [4]:
## note que la conversión es correcta
type(key)

tuple

Este proceso también puede realizarse para los valores asociados a una clave.

# Pairs / Stripes

Son dos estrategias para representar matrices y estructuras similares. Suponga que se tiene la siguiente secuencia de letras:
```
a b c c b c
```

La matriz de co-ocurrencias sería la siguiente (representación como pairs):
  
    (a, b), 2
    (a, c), 3
    (b, a), 2
    (b, b), 1
    (b, c), 6  
    (c, a), 3
    (c, b), 6
    (c, c), 6

La representación como stripes es la siguiente:

    a, ((b, 2), (c, 3))
    b, ((a, 2), (b, 1), (c, 6))
    c, ((a, 3), (b, 6), (c, 6))
    

# Patrones de resumen

El archivo `data/flights.tsv` contiene información sobre los vuelos realizados en diferentes aeropuestos en EEUU. Las columnas son las siguientes:

* Fecha del vuelo.
* ID de la aerolínea.
* Número del vuelo.
* Aeropuestos de origen y destino.
* Hola de salida.
* Tiempo de retrazo en minutos.
* Tiempo en el aire.
* Distancia total en millas.

Usando la información anterior, realice los siguientes ejercicios.

**Ejercicio (record count).--** Calcule el número de registros por cada aeropuerto.

**Ejercicio (record count).--** Calcule el número de registros por cada mes.

**Ejercicio (min/max/count).--** Calcule el retrazo mínimo y máximo en cada aeropuerto. `data/flights.tsv`. 

**Ejercicio (avg/median/sd).--** Calcule la media y la desviación estándar de los retrasos por aeropuerto.

**Ejercicio (Sort).--** Ordene el archivo por retrazos.

**Ejercicio (Sort).--** Ordene el archivo por aeropuerto y por retrazos.

**Ejercicio (Top K).--** Encuentre los 10 mayores retrazos.

**Ejercicio (Top K).--** Encuentre los 10 mayores retrazos por aeropuerto.

---

El archivo `data/scopus.csv` contiene información bibliográfica sobre un conjunto de artículos publicados. La información del archivo es la siguiente:

* Authors.
* Title.
* Year.
* Source title.
* Volume.
* Issue.
* Art. No.
* Page start.
* Page end.
* Page count.
* Cited by. 
* DOI.
* Link. 
* Author Keywords.
* Index Keywords.
* Language of Original Document.
* Document Type.
* Access Type.
* Source.
* EID.

Use este archivo resolver los siguientes ejercicios.

**Ejercicio (Sort).--** Organice el archivo por cantidad de citas.

**Ejercicio (Inverted Index).--**  Con el fin de agilizar la búsqueda sobre el sistema, se desea construir un índice inverso basado en las palabras claves del documento (columnas `Author Keywords` e `Index Keywords`. Un índice inverso consiste en una clave (Author Keywords / Index Keywords) y los documentos asociados (DOI). *Sugerencia.* En este tipo de problemas, el mapper retorna los campos deseados como clave y un identificador único como valor. El reducer genera la clave y una lista de identificadores únicos.

**Ejercicio (Bloom Filtering).--** Obtenga el subconjunto de artículos que contienen las mismas palabras claves que los diez artículos más citados.

**Ejercicio (Distinct).--** Obtenga un listado de las revistas (Sources) en que se publicaron artículos (valores únicos).

**Ejercicio (Shuffling).--** Reordene el archivo de forma aleatoria.

---

**Ejercicio.--** El archivo `NYSE-dividends`  contiene las siguientes columnas: bolsa de Valores, acción (stock ticker symbol), fecha, dividendo. Compute el dividendo promedio por acción y ordenelo de mayor a menor..

**Ejercicio.--** Para el archivo del ejercicio anterior, calcule el dividendo promedio por mes para cada acción.

**Ejercicio.--** El archivo `NYSE_daily` contiene los siguientes campos: bolsa, símbolo, fecha, precio de apertura (open), precio más alto (high), precio más bajo (low), precio de cierre (close), volumen (vol) y precio de cierre ajustado (adj_close). Genere columnas con los siguientes calculos:

* Diferencia entre el precio de cierre y el precio de apertura.


* Diferencia entre el precio más alto y el más bajo.

---

Hadoop/MapReduce -- Ejercicios
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia

---

Haga click [aquí](https://github.com/jdvelasq/big-data-analytics/tree/master/) para acceder al repositorio online.

Haga click [aquí](http://nbviewer.jupyter.org/github/jdvelasq/big-data-analytics/tree/master/) para explorar el repositorio usando `nbviewer`.