In [2]:
# Carregando libs e iniciando Session
from pyspark.sql import SparkSession
from pyspark.sql.functions import sum, expr

spark = SparkSession.builder.getOrCreate()

In [3]:
# Criando DataFrame
df1 = spark.createDataFrame([('Pedro', 15),('Mariana', 20),('Marcos', 30)])
df1.show()

[Stage 0:>                                                          (0 + 0) / 1][Stage 0:>                                                          (0 + 1) / 1]

+-------+---+
|     _1| _2|
+-------+---+
|  Pedro| 15|
|Mariana| 20|
| Marcos| 30|
+-------+---+



                                                                                

In [4]:
# Analisando Schema
df1.schema

StructType([StructField('_1', StringType(), True), StructField('_2', LongType(), True)])

In [5]:
# Analisando Colunas
df1.columns

['_1', '_2']

In [6]:
# Criando DataFrame (com SCHEMA)
schema = 'Id INT, Nome STRING, Idade INT'
dados = [[1, 'Pedro', 32],[ 2, 'Maria', 26], [ 3, 'Cesar', 37],[ 4, 'Marcos', 26]]
df2 = spark.createDataFrame(dados, schema)
df2.show()

+---+------+-----+
| Id|  Nome|Idade|
+---+------+-----+
|  1| Pedro|   32|
|  2| Maria|   26|
|  3| Cesar|   37|
|  4|Marcos|   26|
+---+------+-----+



In [7]:
# Agrupamentos
schema2 = 'Produto STRING, Vendas INT, Ano INT'
vendas = [['Geladeira', 3, 2022],['Liquidificador', 6, 2022], ['Geladeira', 2, 2023], ['Liquidificador', 4, 2023]]
df3 = spark.createDataFrame(vendas, schema2)
df3.show()

[Stage 2:>                                                          (0 + 1) / 1]

+--------------+------+----+
|       Produto|Vendas| Ano|
+--------------+------+----+
|     Geladeira|     3|2022|
|Liquidificador|     6|2022|
|     Geladeira|     2|2023|
|Liquidificador|     4|2023|
+--------------+------+----+



                                                                                

In [8]:
# Agrupando Produtos por vendas
somatorio_vendas = df3.groupBy('Produto').agg(sum('vendas'))
somatorio_vendas.show()

[Stage 3:>                                                          (0 + 1) / 1]

+--------------+-----------+
|       Produto|sum(vendas)|
+--------------+-----------+
|     Geladeira|          5|
|Liquidificador|         10|
+--------------+-----------+



                                                                                

In [9]:
# Agrupando Vendas por ano (sem criar um novo objeto)
df3.groupBy('Ano').agg(sum('vendas')).show()

+----+-----------+
| Ano|sum(vendas)|
+----+-----------+
|2023|          6|
|2022|          9|
+----+-----------+



In [10]:
# Select em colunas especificas
df3.select('Produto', 'Vendas').show()

[Stage 9:>                                                          (0 + 1) / 1]

+--------------+------+
|       Produto|Vendas|
+--------------+------+
|     Geladeira|     3|
|Liquidificador|     6|
|     Geladeira|     2|
|Liquidificador|     4|
+--------------+------+



                                                                                

In [11]:
# Select em colunas especificas com criacao de novas colunas com expr
df3.select('Produto', 'Vendas', expr('Vendas * 0.2 as Vinte_porcento')).show()

+--------------+------+--------------+
|       Produto|Vendas|Vinte_porcento|
+--------------+------+--------------+
|     Geladeira|     3|           0.6|
|Liquidificador|     6|           1.2|
|     Geladeira|     2|           0.4|
|Liquidificador|     4|           0.8|
+--------------+------+--------------+

