<a href="https://colab.research.google.com/github/cruz-marco/pyspark_course/blob/main/pyspark_DataFrame.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Instalação e configuração Spark

In [1]:
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q https://dlcdn.apache.org/spark/spark-3.2.3/spark-3.2.3-bin-hadoop3.2.tgz
!tar xf spark-3.2.3-bin-hadoop3.2.tgz

import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64" 
os.environ["SPARK_HOME"] = '/content/spark-3.2.3-bin-hadoop3.2'

!pip install -q findspark

import findspark
findspark.init()
findspark.find()

from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").getOrCreate()
sc = spark.sparkContext

# DataFrames

- Tabelas com linhas e colunas;
- Imutáveis;
- Schema conhecido;
- Linhagem Preservada;
- Colunas podem ter tipos diferentes;
- Podemos agrupar, ordenar e filtrar;
- Spark otimiza análises usando planos de execução (DAG's)

## Lazy Evaluation
> O processamento da transformação só ocorre quando há uma ação: 

## Ações:
> (reduce, collect, count, first, take, takeSample, takeOrdered, saveAsTestFile, saveAsSequenceFile, saveAsObjectFile, countByKey, foreach)

## Transformações:
> (map, filter, flatMap, mapPartitions, mapPartitionsWithIndex, sample, union, intersection, distinct, groupByKey, reduceByKey, aggregateByKey, sortByKey, join, cogroup, cartesian, pipe, coalesce, repartition, repartitionAndSortWithinPartitions)


### Criando um [DataFrame](https://spark.apache.org/docs/3.1.1/api/python/reference/api/pyspark.sql.DataFrame.html#pyspark.sql.DataFrame) de exemplo:
- [spark.createDataFrame()](https://spark.apache.org/docs/3.1.1/api/python/reference/api/pyspark.sql.SparkSession.createDataFrame.html)

In [7]:
data = [("Pedro", 10), ("Maria", 20), ("José", 40)] #Dados a serem inseridos na tabela
df1 = spark.createDataFrame(data) #instanciando o DataFrame
df1.show() #Comando para mostar o frame, pode recer um parâmetro com o número.

+-----+---+
|   _1| _2|
+-----+---+
|Pedro| 10|
|Maria| 20|
| José| 40|
+-----+---+



In [8]:
schema = "Id INT, Nome STRING" #definindo um schema a ser usado no DataFrame
data_2 = [(1, "Pedro"), (2, "Maria")]

df2 = spark.createDataFrame(data_2, schema=schema)

df2.show()

+---+-----+
| Id| Nome|
+---+-----+
|  1|Pedro|
|  2|Maria|
+---+-----+



### Pacote de [funções](https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql/functions.html):

In [16]:
from pyspark.sql.functions import sum, expr #Importando a função SUM e EXPR
schema_2 = "produtos STRING, vendas INT"
vendas = [("Caneta", 10), ("Lápis", 20), ("Caneta", 40)]

df3 = spark.createDataFrame(vendas, schema_2)

df3.show()

+--------+------+
|produtos|vendas|
+--------+------+
|  Caneta|    10|
|   Lápis|    20|
|  Caneta|    40|
+--------+------+



In [14]:
"""
Diferente do Pandas, as funções ficam em um pacote a parte, 
logo, temos que fazer o import ou do pacote, ou da função 
específica. Por exemplo, a sum() utilizada com o método de 
agregação, conforme mostrado abaixo.
"""

agrupado = df3.groupBy("produtos")\
            .agg(sum("vendas"))

agrupado.show()

+--------+-----------+
|produtos|sum(vendas)|
+--------+-----------+
|  Caneta|         50|
|   Lápis|         20|
+--------+-----------+



In [13]:
df3.select("produtos").show() # Selecionando uma única coluna no DataFrame, por exemplo.

+--------+
|produtos|
+--------+
|  Caneta|
|   Lápis|
|  Caneta|
+--------+



In [18]:
df3.select("produtos", "vendas", expr("vendas * 0.2")).show() 
"""
A Função EXPR cria uma expressão que pode ser usada para criar mais uma linha
no dataframe, enriquecendo a nossa análise. Ela recebe uma string com a
expressão a ser processada.
"""

+--------+------+--------------+
|produtos|vendas|(vendas * 0.2)|
+--------+------+--------------+
|  Caneta|    10|           2.0|
|   Lápis|    20|           4.0|
|  Caneta|    40|           8.0|
+--------+------+--------------+



'\nA Função EXPR cria uma expressão que pode ser usada para criar mais uma linha\nno dataframe, enriquecendo a nossa análise. Ela recebe uma string com a\nexpressão a ser processada.\n'