## Criando um DataFrame sem Schema.

## Importando a SparkSession

In [1]:
from pyspark.sql import SparkSession

In [2]:
df1 = spark.createDataFrame([("Pedro",10),("Maria",20),("José",40)])

In [3]:
df1.show()

+-----+---+
|   _1| _2|
+-----+---+
|Pedro| 10|
|Maria| 20|
| José| 40|
+-----+---+



## Definindo o Schema.

In [4]:
schema = "Id INT, Nome STRING"

In [5]:
dados = [[1, "Pedro"],[2,"Maria"]]

In [6]:
df2 = spark.createDataFrame(dados, schema)

In [7]:
df2.show()

+---+-----+
| Id| Nome|
+---+-----+
|  1|Pedro|
|  2|Maria|
+---+-----+



In [8]:
df2.show(1)

+---+-----+
| Id| Nome|
+---+-----+
|  1|Pedro|
+---+-----+
only showing top 1 row



## Importando a biblioteca sum

In [9]:
from pyspark.sql.functions import sum

In [10]:
schema2 = "Produtos STRING, Vendas INT"

In [11]:
vendas = [["Caneta",10], ["Lápis",20],["Caneta",40]]

In [12]:
df3 = spark.createDataFrame(vendas, schema2)

In [13]:
df3.show(1)

+--------+------+
|Produtos|Vendas|
+--------+------+
|  Caneta|    10|
+--------+------+
only showing top 1 row



In [14]:
agrupado = df3.groupBy("Produtos").agg(sum("Vendas"))

In [15]:
agrupado.show()

+--------+-----------+
|Produtos|sum(Vendas)|
+--------+-----------+
|  Caneta|         50|
|   Lápis|         20|
+--------+-----------+



In [16]:
df3.groupBy("Produtos").agg(sum("Vendas")).show()

+--------+-----------+
|Produtos|sum(Vendas)|
+--------+-----------+
|  Caneta|         50|
|   Lápis|         20|
+--------+-----------+



In [17]:
df3.select("Produtos").show()

+--------+
|Produtos|
+--------+
|  Caneta|
|   Lápis|
|  Caneta|
+--------+



In [18]:
df3.select("Produtos","Vendas").show()

+--------+------+
|Produtos|Vendas|
+--------+------+
|  Caneta|    10|
|   Lápis|    20|
|  Caneta|    40|
+--------+------+



In [19]:
df3.select("Vendas","Produtos").show()

+------+--------+
|Vendas|Produtos|
+------+--------+
|    10|  Caneta|
|    20|   Lápis|
|    40|  Caneta|
+------+--------+



## Expressões

## Importando a biblioteca expr

In [20]:
from pyspark.sql.functions import expr

In [21]:
df3.select("Produtos", "Vendas", expr("Vendas * 0.2")).show()

+--------+------+--------------+
|Produtos|Vendas|(Vendas * 0.2)|
+--------+------+--------------+
|  Caneta|    10|           2.0|
|   Lápis|    20|           4.0|
|  Caneta|    40|           8.0|
+--------+------+--------------+



## Visualizando o Schema.

In [22]:
df3.schema

StructType(List(StructField(Produtos,StringType,true),StructField(Vendas,IntegerType,true)))

## Visualizando colunas.

In [23]:
df3.columns

['Produtos', 'Vendas']