# Joins en Apache Spark

El siguiente notebook fue realizado para tener un punto de comparacion con lo visto anteriormente en analisis exploratorio con pandas. 

Para tener una comparativa, revisar el notebook [https://github.com/idontdomath/datos-exploratory-data-analysis/blob/master/2018-01/02-joins-in-pandas.ipynb](https://github.com/idontdomath/datos-exploratory-data-analysis/blob/master/2018-01/02-joins-in-pandas.ipynb)

Como referencia en la [Programming Guide de Apache Spark](https://spark.apache.org/docs/latest/programming-guide.html) podemos saber sobre join:

```
join(otherDataset, [numTasks])

When called on datasets of type (K, V) and (K, W), returns a dataset of (K, (V, W)) pairs with all pairs of elements for each key. Outer joins are supported through leftOuterJoin, rightOuterJoin, and fullOuterJoin.
```

In [1]:
import pyspark

try: 
    type(sc)
except NameError:
    sc = pyspark.SparkContext('local[*]')

In [2]:
people_data = [
    (1,'People A'),
    (2,'People B'),
    (3,'People C'),
    (4,'People D'),
    (5,'People E')
]

a = sc.parallelize(people_data)

In [3]:
a.collect()

[(1, 'People A'),
 (2, 'People B'),
 (3, 'People C'),
 (4, 'People D'),
 (5, 'People E')]

In [4]:
subject_data = [(1, 'Subject 1'),
               (2, 'Subject 2'),
               (200, 'Subject 1500'),
               (2, 'Subject 2 Repetido')]

b = sc.parallelize(subject_data)

In [5]:
b.collect()

[(1, 'Subject 1'),
 (2, 'Subject 2'),
 (200, 'Subject 1500'),
 (2, 'Subject 2 Repetido')]

## Inner Join (Join)

Cuando se llama para sets de datos del tipo (K,V) y (K,W) devuelve un set de datos del tipo (K, (V,W)) con todos los pares de elementos para cada key. (especificamente los que hay en comun por esa clave en ambos sets de datos)

In [None]:
a.join(b).collect()

## Left Outer Join

Cuando se llama para sets de datos del tipo (K,V) y (K,W) devuelve un set de datos del tipo (K, (V,W)) asegurandonos que todos los datos del set de datos izquierdo estaran en el resultado del join.

In [None]:
a.leftOuterJoin(b).collect()

## Right Outer Join
Cuando se llama para sets de datos del tipo (K,V) y (K,W) devuelve un set de datos del tipo (K, (V,W)) asegurandonos que todos los datos del set de datos derecho estaran en el resultado del join.

In [None]:
a.rightOuterJoin(b).collect()

## Outer/Full Join

Cuando se llama para sets de datos del tipo (K,V) y (K,W) devuelve un set de datos del tipo (K, (V,W)) asegurandonos que todos los datos de ambos set de datos estaran aunque no haya match de keys. 

In [None]:
a.fullOuterJoin(b).collect()