Tipos de datos complejos
===


In [1]:
%run bd.py
%pig_init




## Datos simples

Los siguientes son los tipos de datos soportados por Pig:

     int      long      float       double      chararray  
     boolean  datetime  biginteger  bigdecimal  bytearray


## Datos complejos

Apache Pig trabaja con la siguiente jerarquía de relaciones (http://pig.apache.org/docs/r0.17.0/basic.html#relations):

* Una *tuple* es un ser de campos ordenados: (field1, field2, ....).
* Una *bag* es un conjunto de tuplas: {(...), (...), ...}
* Un *map* es un conjunto de parejas [key#value, ....]



### Tuples

In [2]:
%%writefile data.tsv
A	10	(1, 2)
B	20	(3, 4)
C	30	(5, 6)
D	40	(7, 8)

Writing data.tsv


In [3]:
%%pig
--
-- Los campos del archivo están separados por 
-- tabuladores.
--
u = LOAD 'data.tsv'
    AS (f1:chararray, f2:int, f3:tuple(p:int, q:int));
DUMP u;

u: {f1: chararray,f2: int,f3: (p: int,q: int)}
(A,10,(1,2))
(B,20,(3,4))
(C,30,(5,6))
(D,40,(7,8))


In [4]:
%%pig
--
-- Los campos de la tupla pueden ser accesados
-- por nombre o por posición.
--
r = foreach u generate f3.p, f3.$1 ;   
dump r;

(1,2)
(3,4)
(5,6)
(7,8)


In [5]:
%%pig
--
-- Aquí se accesan los campos de la tupla por 
-- posición ya que no tienen nombre.
--
u = LOAD 'data.tsv' AS (f1:chararray, f2:int, f3:tuple(int, int));
r = foreach u generate $2.$0, $2.$1;
DUMP r;

u: {f1: chararray,f2: int,f3: (val_0: int,val_1: int)}
(1,2)
(3,4)
(5,6)
(7,8)


In [6]:
%%writefile data.tsv
A	(1,  2)	(3,  4)
B	(5,  6)	(7,  8)
C	(9, 10)	(11, 12)

Overwriting data.tsv


In [9]:
%%pig
--
-- Se seleccionan los campos por nombre
--
u = LOAD 'data.tsv'
    AS (f1: chararray, 
        t1: tuple(t1a: int, t1b: int), 
        t2: tuple(t2a: int, t2b: int)); 
r = foreach u generate f1, t2.t2b;

### Bags

In [10]:
%%writefile data.tsv
A	10	{( 1,  2),( 3,  4)}
B	20	{( 5,  6),( 7,  8)}
C	30	{( 9, 10),(11, 12)}
D	40	{(13, 14),(15, 16)}

Overwriting data.tsv


In [19]:
%%pig
--
-- Se selecciona el `bag` por nombre
--
u = LOAD 'data.tsv'
    AS (f1:chararray, f2:int, f3:bag{t: tuple(p:int, q:int)});
r = foreach u generate f3;
dump r;

({(1,2),(3,4)})
({(5,6),(7,8)})
({(9,10),(11,12)})
({(13,14),(15,16)})


In [20]:
%%pig
r = foreach u generate f3.p;
dump r;

({(1),(3)})
({(5),(7)})
({(9),(11)})
({(13),(15)})


### Map

In [21]:
%%writefile data.tsv
A	10	[a#1,b#2]
B	20	[a#3,c#4]
C	30	[b#5,c#6]
D	40	[b#7,c#8]

Overwriting data.tsv


In [23]:
%%pig
u = LOAD 'data.tsv'
    AS (f1:chararray, f2:int, f3:map[]);
r = foreach u generate f3#'a', f3#'c';
dump r

(1,)
(3,4)
(,6)
(,8)


---

In [None]:
!rm attempt_local* pig_* persons.* data.* demo.py jointable.*