In [1]:
# Imports

from pyspark.sql import SparkSession
from pyspark.sql.functions import sum, expr

# 1 - Criando um DataFrame sem schema definido

In [2]:
df1 = spark.createDataFrame([("Pedro", 10), ("Maria", 20), ("Jose", 40)])
df1.show()

+-----+---+
|   _1| _2|
+-----+---+
|Pedro| 10|
|Maria| 20|
| Jose| 40|
+-----+---+



# 2- Criando um DataFrame com schema definido

In [3]:
schema = "Id INT, Nome STRING"
dados = [[1, "Pedro"], [2, "Maria"]]
df2 = spark.createDataFrame(dados, schema)
df2.show()

+---+-----+
| Id| Nome|
+---+-----+
|  1|Pedro|
|  2|Maria|
+---+-----+



## 2.1 - Definindo a quantidade de linhas a serem apresentadas

In [4]:
df2.show(1)

+---+-----+
| Id| Nome|
+---+-----+
|  1|Pedro|
+---+-----+
only showing top 1 row



# 3 - Algumas manipulações com DataFrames

## 3.1 - Agregações

In [5]:
schema2 = "Produtos STRING, Vendas INT"
vendas = [["Caneta", 10], ["lapis", 20], ["Caneta", 40]]
df3 = spark.createDataFrame(vendas, schema2)
df3.show()

+--------+------+
|Produtos|Vendas|
+--------+------+
|  Caneta|    10|
|   lapis|    20|
|  Caneta|    40|
+--------+------+



In [6]:
agrupado = df3.groupBy("Produtos").agg(sum("Vendas"))
agrupado.show()
# Necessário importar a função "sum"

+--------+-----------+
|Produtos|sum(Vendas)|
+--------+-----------+
|  Caneta|         50|
|   lapis|         20|
+--------+-----------+



## 3.2 - Seleção de colunas

In [7]:
df3.select("Produtos").show()

+--------+
|Produtos|
+--------+
|  Caneta|
|   lapis|
|  Caneta|
+--------+



In [8]:
# Invertendo a ordem das colunas
df3.select("Vendas", "Produtos").show()

+------+--------+
|Vendas|Produtos|
+------+--------+
|    10|  Caneta|
|    20|   lapis|
|    40|  Caneta|
+------+--------+



## 3.3 - Criando uma nova coluna baseada em alguma expressão

In [9]:
# Criando uma nova coluna que retorna 20% do valor de venda
df3.select("Produtos", "Vendas", expr("Vendas * 0.2")).show()
# Necessário importar a função expr

+--------+------+--------------+
|Produtos|Vendas|(Vendas * 0.2)|
+--------+------+--------------+
|  Caneta|    10|           2.0|
|   lapis|    20|           4.0|
|  Caneta|    40|           8.0|
+--------+------+--------------+



# 4 - Verificações com DataFrames

## 4.1 - Schema do DataFrame

In [10]:
df3.schema

StructType([StructField('Produtos', StringType(), True), StructField('Vendas', IntegerType(), True)])

## 4.2 - Colunas do DataFrame

In [11]:
df3.columns

['Produtos', 'Vendas']

## 4.3 - Tipos dos Dados

In [12]:
df3.dtypes

[('Produtos', 'string'), ('Vendas', 'int')]