In [0]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col
from pyspark.sql.types import StructType,StructField, StringType, IntegerType, FloatType
import pyspark.sql.functions as F

In [0]:

spark = SparkSession.builder \
    .master('local[*]') \
    .appName("Iniciando com Spark") \
    .getOrCreate()

### Lendo Csv

In [0]:
path_countries = '/FileStore/transient/departments/countries'
df_countries = spark.read.format('csv')\
.option("header", True)\
.option("sep", ",")\
.option("quote","\'")\
.option("inferSchema",True)\
.load(path_countries)
#transient\csv\olist

In [0]:
path_regions = '/FileStore/transient/departments/regions'
df_regions = spark.read.format('csv')\
.option("header", True)\
.option("sep", ",")\
.option("quote","\'")\
.option("inferSchema",True)\
.load(path_regions)

In [0]:
path_jobs = '/FileStore/transient/departments/jobs'
df_jobs = spark.read.format('csv')\
.option("header", True)\
.option("sep", ",")\
.option("quote","\'")\
.option("inferSchema",True)\
.load(path_jobs)

In [0]:
path_employees = '/FileStore/transient/departments/employees'
df_employees = spark.read.format('csv')\
.option("header", True)\
.option("sep", ",")\
.option("quote","\'")\
.option("inferSchema",True)\
.load(path_employees)

In [0]:
df_countries.display()

country_id,country_name,region_id
AR,Argentina,2
AU,Australia,3
BE,Belgium,1
BR,Brazil,2
CA,Canada,2
CH,Switzerland,1
CN,China,3
DE,Germany,1
DK,Denmark,1
EG,Egypt,4


In [0]:
df_regions.display()

region_id,region_name
1,Europe
2,Americas
3,Asia
4,Middle East and Africa


In [0]:
data = [(97,"Terra Média"),(98,"Westeros"),(98,"Esteros"),(100,"Sistema Solar")]


schema = StructType([ \
    StructField("region_id",IntegerType(),True), \
    StructField("region_name",StringType(),True)
  ])

df_region2 = spark.createDataFrame(data=data,schema=schema)

In [0]:
data = [(50,"Valfenda",91),(51,"Kings Landing",98),(51,"Terra",101)]

#country_id|country_name|region_id
schema = StructType([ \
    StructField("country_id",IntegerType(),True), \
    StructField("country_name",StringType(),True), \
    StructField("region_id",IntegerType(),True),
  ])

df_countries2 = spark.createDataFrame(data=data,schema=schema)

### **Union** ###
Podemos unir dataframes que tenham o mesmo schema, o efeito seria o mesmo de empilhar os dataframes <br>


In [0]:
df_regions3 = df_regions.union(df_region2)

In [0]:
df_regions3.display()

region_id,region_name
1,Europe
2,Americas
3,Asia
4,Middle East and Africa
97,Terra Média
98,Westeros
98,Esteros
100,Sistema Solar


In [0]:
df_countries3 = df_countries.union(df_countries2)

In [0]:
df_countries3.display()

country_id,country_name,region_id
AR,Argentina,2
AU,Australia,3
BE,Belgium,1
BR,Brazil,2
CA,Canada,2
CH,Switzerland,1
CN,China,3
DE,Germany,1
DK,Denmark,1
EG,Egypt,4


### **Join** ###
Outra possibilidade muito utilizada é a **junção** ou **join** entre dataframes, a junção necessita que os dataframes envolvidos tenham um campo em comum, semelhante a relação de chaves primarias e estrageiras do SQL tradicional<br>
**Tipos de junções**;<br>
• inner - Junção padrão, só realiza a junção se a mesma chave exista em todos os dataframes envolvidos ;<br>
• left - Sempre retorna os elementos do dataframe da esquerda, os caso os elementos do dataframe da esquerda não sejam encontrados, as colunas desse dataframe ;<br>
• full - ;<br>
• anti - ;<br>

### **Inner Join** ###
Outra possibilidade muito utilizada é a **junção** ou **join** entre dataframes, a junção necessita que os dataframes envolvidos tenham um campo em comum, semelhante a relação de chaves primarias e estrageiras do SQL tradicional<br>

In [0]:
condicao = df_regions3.region_id == df_countries3.region_id
df_join = df_regions3.join(df_countries3, condicao ,'inner')

In [0]:
df_join.display()

region_id,region_name,country_id,country_name,region_id.1
1,Europe,BE,Belgium,1
1,Europe,CH,Switzerland,1
1,Europe,DE,Germany,1
1,Europe,DK,Denmark,1
1,Europe,FR,France,1
1,Europe,IT,Italy,1
1,Europe,NL,Netherlands,1
1,Europe,UK,United Kingdom,1
2,Americas,AR,Argentina,2
2,Americas,BR,Brazil,2


### **Left Join** ###
Sempre retorna os elementos do dataframe da esquerda, os caso os elementos do dataframe da direita não sejam encontrados, as colunas desse dataframe aparecem como nulas;<br>

In [0]:
condicao = df_regions3.region_id == df_countries3.region_id
df_join = df_regions3.join(df_countries3, condicao ,'left')

In [0]:
df_join.display()

region_id,region_name,country_id,country_name,region_id.1
1,Europe,UK,United Kingdom,1.0
1,Europe,NL,Netherlands,1.0
1,Europe,IT,Italy,1.0
1,Europe,FR,France,1.0
1,Europe,DK,Denmark,1.0
1,Europe,DE,Germany,1.0
1,Europe,CH,Switzerland,1.0
1,Europe,BE,Belgium,1.0
3,Asia,SG,Singapore,3.0
3,Asia,JP,Japan,3.0


### **Full Join** ###
Sempre retorna os elementos do dataframe da esquerda, os caso os elementos do dataframe da direita não sejam encontrados, as colunas desse dataframe aparecem como nulas;<br>

In [0]:
condicao = df_regions3.region_id == df_countries3.region_id
df_join = df_regions3.join(df_countries3, condicao ,'full')

In [0]:
df_join.display()

region_id,region_name,country_id,country_name,region_id.1
1.0,Europe,BE,Belgium,1.0
1.0,Europe,CH,Switzerland,1.0
1.0,Europe,DE,Germany,1.0
1.0,Europe,DK,Denmark,1.0
1.0,Europe,FR,France,1.0
1.0,Europe,IT,Italy,1.0
1.0,Europe,NL,Netherlands,1.0
1.0,Europe,UK,United Kingdom,1.0
2.0,Americas,AR,Argentina,2.0
2.0,Americas,BR,Brazil,2.0


### **Anti Join** ###
Sempre retorna os elementos do dataframe da direita, quem não sejam encontrados no dataframe da esquerda;<br>

In [0]:
condicao = df_regions3.region_id == df_countries.region_id
df_join = df_regions3.join(df_countries, condicao ,'anti')

In [0]:
df_join.display()

region_id,region_name
97,Terra Média
98,Westeros
98,Esteros
100,Sistema Solar


### **Pivot** ###
A função PySpark pivot() é usada para girar/transpor os dados de uma coluna para várias colunas do Dataframe e vice-versa usando unpivot().</br> 
Pivot() É uma agregação onde um dos valores das colunas do agrupamento é transposto em colunas individuais com dados distintos.

In [0]:
data = [(1,"Profit",100.0),
        (2,"Profit",100.0),
        (3,"Profit",100.0),
        (4,"Profit",100.0),
        (5,"Profit",100.0),
        (6,"Profit",100.0),
        (7,"Profit",100.0),
        (8,"Profit",100.0),
        (9,"Profit",100.0),
       (10,"Profit",100.0),
       (11,"Profit",100.0),
       (12,"Profit",100.0),
         (1,"Revenue",500.0),
        (2,"Revenue",500.0),
        (3,"Revenue",500.0),
        (4,"Revenue",500.0),
        (5,"Revenue",555.0),
        (6,"Revenue",777.0),
        (7,"Revenue",800.0),
        (8,"Revenue",900.0),
        (9,"Revenue",1000.0),
       (10,"Revenue",300.0),
       (12,"Revenue",400.0)
      ]

#country_id|country_name|region_id
schema = StructType([ \
    StructField("Month",IntegerType(),True), \
    StructField("Indicator",StringType(),True), \
    StructField("Amount",FloatType(),True),
  ])

df_profit = spark.createDataFrame(data=data,schema=schema)

In [0]:
df_profit.display()

Month,Indicator,Amount
1,Profit,100.0
2,Profit,100.0
3,Profit,100.0
4,Profit,100.0
5,Profit,100.0
6,Profit,100.0
7,Profit,100.0
8,Profit,100.0
9,Profit,100.0
10,Profit,100.0


In [0]:
df_pivot = df_profit.groupBy("Indicator").pivot("Month").sum("Amount")
df_pivot.printSchema()


root
 |-- Indicator: string (nullable = true)
 |-- 1: double (nullable = true)
 |-- 2: double (nullable = true)
 |-- 3: double (nullable = true)
 |-- 4: double (nullable = true)
 |-- 5: double (nullable = true)
 |-- 6: double (nullable = true)
 |-- 7: double (nullable = true)
 |-- 8: double (nullable = true)
 |-- 9: double (nullable = true)
 |-- 10: double (nullable = true)
 |-- 11: double (nullable = true)
 |-- 12: double (nullable = true)



In [0]:
df_pivot.display()

Indicator,1,2,3,4,5,6,7,8,9,10,11,12
Profit,100.0,100.0,100.0,100.0,100.0,100.0,100.0,100.0,100.0,100.0,100.0,100.0
Revenue,500.0,500.0,500.0,500.0,555.0,777.0,800.0,900.0,1000.0,300.0,,400.0


In [0]:
months = [1,2,3,4,5,6,7,8,9,10,11,12]
df_pivot = df_profit.groupBy("Indicator").pivot("Month", months).sum("Amount")
df_pivot.printSchema()


root
 |-- Indicator: string (nullable = true)
 |-- 1: double (nullable = true)
 |-- 2: double (nullable = true)
 |-- 3: double (nullable = true)
 |-- 4: double (nullable = true)
 |-- 5: double (nullable = true)
 |-- 6: double (nullable = true)
 |-- 7: double (nullable = true)
 |-- 8: double (nullable = true)
 |-- 9: double (nullable = true)
 |-- 10: double (nullable = true)
 |-- 11: double (nullable = true)
 |-- 12: double (nullable = true)



In [0]:
df_pivot.display()

Indicator,1,2,3,4,5,6,7,8,9,10,11,12
Profit,100.0,100.0,100.0,100.0,100.0,100.0,100.0,100.0,100.0,100.0,100.0,100.0
Revenue,500.0,500.0,500.0,500.0,555.0,777.0,800.0,900.0,1000.0,300.0,,400.0


###UnPivot
Unpivot é uma operação reversa que podemos conseguir girando os valores das colunas em valores das linhas. <br>
Versões mais antigas do PySpark SQL não tem função unpivot, portanto, usará a função stack().<br>
Nas versões mais modernas do Pyspark a funçao baixo realiza o Unpivot.

In [0]:
from pyspark.sql.functions import expr
unPivotDF = df_pivot.unpivot(['Indicator'], ['1','2','3','4','5','6','7','8','9','10','11','12'],\
                             'Month', 'Amount')

unPivotDF.display()


Indicator,Month,Amount
Profit,1,100.0
Profit,2,100.0
Profit,3,100.0
Profit,4,100.0
Profit,5,100.0
Profit,6,100.0
Profit,7,100.0
Profit,8,100.0
Profit,9,100.0
Profit,10,100.0
