## JOIN
Neste notebook veremos como unir dados de mais de um Dataframe

### Importando as bibliotecas
Nesta etapa iremos apenas importar todas as bibliotecas e funções necessárias para rodar o programa

In [3]:
from pyspark.sql import SparkSession, Row
from pyspark.sql.functions import col, lit, expr

### Criando uma SparkSession
Por meio de uma SparkSession terei acesso ao SparkContext da minha aplicação.

In [5]:
# Inicia uma sparkSession
spark = SparkSession \
    .builder \
    .appName("Meu curso de pyspark") \
    .getOrCreate()

### Criando alguns Dataframes de exemplo

In [7]:
# Define as linhas
newRows = [(1, "Mateus", 0, [300]),(2, "Patricia", 2, [500, 400]),(3, "Rafaela", 1, [500]),(4, "Henrique", -1, [-1])]

# Cria um RDD de Rows
parallelizedRows = spark.sparkContext.parallelize(newRows)

# Cria um dataframe a partir do RDD que criamos anteriormente
pessoa = spark.createDataFrame(parallelizedRows, ["id", "nome", "curso", "id_funcoes"])

# Mostra as informações do dataframe
pessoa.show()

In [8]:
# Define as linhas
newRows = [(0, "Bacharelado"),(1, "Mestrado"),(2, "Doutorado"),(3, "Tecnólogo")]

# Cria um RDD de Rows
parallelizedRows = spark.sparkContext.parallelize(newRows)

# Cria um dataframe a partir do RDD que criamos anteriormente
curso = spark.createDataFrame(parallelizedRows, ["id", "curso"])

# Mostra as informações do dataframe
curso.show()

In [9]:
# Define as linhas
newRows = [(500, "Gerente"),(400, "Dono"),(300, "Funcionário")]

# Cria um RDD de Rows
parallelizedRows = spark.sparkContext.parallelize(newRows)

# Cria um dataframe a partir do RDD que criamos anteriormente
funcao = spark.createDataFrame(parallelizedRows, ["id", "funcao"])

# Mostra as informações do dataframe
funcao.show()

### Inner join

In [11]:
joinExpression = pessoa.curso == curso.id
joinType = "inner"
pessoa.join(curso, joinExpression, joinType).show()

### Left join

In [13]:
joinExpression = pessoa.curso == curso.id
joinType = "left"
pessoa.join(curso, joinExpression, joinType).show()

### Right join

In [15]:
joinExpression = pessoa.curso == curso.id
joinType = "right"
pessoa.join(curso, joinExpression, joinType).show()

### Outer join

In [17]:
joinExpression = pessoa.curso == curso.id
joinType = "outer"
pessoa.join(curso, joinExpression, joinType).show()

### Cross join

In [19]:
pessoa.crossJoin(curso).show()

### Left semi join
Lista todos os registros do dataframe da esquerda que possuem match no dataframe da direita.<br>
Podemos olhar para este JOIN como uma espécie de filtro (não é efetivamente um JOIN como estamos acostumados)

In [21]:
joinExpression = pessoa.curso == curso.id
joinType = "left_semi"
pessoa.join(curso, joinExpression, joinType).show()

### Left anti join
É o oposto do SEMI JOIN, no sentido de que apenas os registros que NÃO possuem match no dataframe da direta serão retornados

In [23]:
joinExpression = pessoa.curso == curso.id
joinType = "left_anti"
pessoa.join(curso, joinExpression, joinType).show()

### JOIN em tipos de dados complexos

In [25]:
pessoa.withColumnRenamed("id", "pessoaId").join(funcao, expr("array_contains(id_funcoes, id)")).show()

### Tratado possível problema de nome de coluna duplicado

In [27]:
joinExpression = pessoa.curso == curso.id
joinType = "inner"
resultado = pessoa.join(curso, joinExpression, joinType)

**Note que o resultado é um dataframe com duas colunas com o mesmo nome (curso)**

In [29]:
resultado.show(5)

**Erro: Neste cenário, o comando abaixo não vai funcionar porque spark não saberá quais das duas colunas devem ser retornadas**

In [31]:
resultado.select("curso").show()

**Podemos excluir uma das colunas após a junçao**

In [33]:
resultado = pessoa.join(curso, joinExpression, joinType).drop(pessoa["curso"])
resultado.select("curso").show()

### Obrigado!
Quer construir uma carreira em Data Science? Acesse meu blog pessoal em https://www.hackinganalytics.com/