In [0]:
%python

#databricks já é criado automaticado a seção no spark 
# --> spark.SessionOrCreate

#criando um datafarme com uma lista de dupla
df1 = spark.createDataFrame([("Pedro",10),("Maria",20),("José",40)])

#show é ação, então tudo o que foi feito anteriormente é executado, lazzy
df1.show()

+-----+---+
|   _1| _2|
+-----+---+
|Pedro| 10|
|Maria| 20|
| José| 40|
+-----+---+



In [0]:
#ao executar o script anterior, o spark identificou a tipo da coluna, "nome": string | "idade":long, mas não foi passo um schema fixo para esse dataframe.

#imprimindo o schema do dataframe
df1.printSchema()

root
 |-- _1: string (nullable = true)
 |-- _2: long (nullable = true)



In [0]:
#criar df com schema

#criando um variavel passando o schema
schema = "Id INT, Nome STRING"

#dados em lista
dados = [[1,"Pedro"],[2,"Maria"]]

#criando um novo dataframe 
df2 = spark.createDataFrame(dados, schema)

#imprimindo o dataframe completo
df2.show()

#imprimindo apenas uma linha dataframe 
df2.show(1)

#cria tabela temporária
df2.createOrReplaceTempView("df2")

+---+-----+
| Id| Nome|
+---+-----+
|  1|Pedro|
|  2|Maria|
+---+-----+

+---+-----+
| Id| Nome|
+---+-----+
|  1|Pedro|
+---+-----+
only showing top 1 row



In [0]:
%sql
select * from df2

Id,Nome
1,Pedro
2,Maria


In [0]:
#com transformação
from pyspark.sql.functions import sum

schema2 = "Produtos STRING, Vendas INT"

vendas = [["Caneta",10],["Lápis",20],["Caneta",40]]

df3 = spark.createDataFrame(vendas , schema2 )

#"criando/atribuindo" dataframe para um objeto "é um dataframe também"

#diferança que nesse dataframe estoua alterando o nomeda coluna que vai ser criado apartir de uma ação.
agrupado = df3.groupBy("Produtos").agg(sum("Vendas").alias('Somas Vendas'))

agrupado.show()

#podemos contatenar as operações, neste caso sem persitir
df3.groupBy("Produtos").agg(sum("Vendas")).show()

+--------+------------+
|Produtos|Somas Vendas|
+--------+------------+
|  Caneta|          50|
|   Lápis|          20|
+--------+------------+

+--------+-----------+
|Produtos|sum(Vendas)|
+--------+-----------+
|  Caneta|         50|
|   Lápis|         20|
+--------+-----------+



In [0]:
#selecionar colunas específicas
df3.select("Produtos").show()
df3.select("Produtos","Vendas").show()

+--------+
|Produtos|
+--------+
|  Caneta|
|   Lápis|
|  Caneta|
+--------+

+--------+------+
|Produtos|Vendas|
+--------+------+
|  Caneta|    10|
|   Lápis|    20|
|  Caneta|    40|
+--------+------+



In [0]:
#expressões e select
from pyspark.sql.functions import expr

#Para passar um type para coluna, pode está usando .cast('INT') 
df3.select("Produtos", "Vendas", expr("Vendas * 0.2")).show()

+--------+------+--------------+
|Produtos|Vendas|(Vendas * 0.2)|
+--------+------+--------------+
|  Caneta|    10|           2.0|
|   Lápis|    20|           4.0|
|  Caneta|    40|           8.0|
+--------+------+--------------+



In [0]:
#ver schema
from pyspark.sql.types import StructType
schema = df3.schema
print(schema)