In [None]:
from pyspark.sql import SparkSession # Importando a classe SparkSession do módulo pyspark.sql
from pyspark.sql.functions import avg # Importando a função col do módulo pyspark.sql.functions
# Criando uma sessão Spark.
# Se uma sessão com o nome "Livraria" já existir, ele a retornará.
# Caso contrário, ele criará uma nova sessão Spark.
spark = SparkSession.builder.appName("Livraria").getOrCreate()

# Definindo os dados de vendas que serão usados para criar o DataFrame.
# Cada tupla representa uma venda com: id, gênero, preço e quantidade.
vendas = [
            (1, "Ficção", 25.00, 2),
            (2, "Não-Ficção", 30.00, 1),
            (3, "Ficção", 15.00, 3),
            (4, "Fantasia", 20.00, 2),
            (5, "Não-Ficção", 40.00, 1),
            (6, "Fantasia", 25.00, 4),
            (7, "Ficção", 10.00, 5)
        ]

# Definindo os nomes das colunas para o DataFrame de vendas.
columns = ["id", "genero", "preco", "quantidade"]

# Criando um DataFrame do Spark a partir dos dados de vendas e dos nomes das colunas definidos.
df = spark.createDataFrame(vendas, columns)

# Criando uma view temporária SQL chamada "Vendas" a partir do DataFrame.
# Isso permite que você execute consultas SQL diretamente no DataFrame como se fosse uma tabela de banco de dados.
df.createOrReplaceTempView("Vendas")

# Executando uma consulta SQL na view temporária "Vendas".
# Esta consulta seleciona apenas a coluna 'genero' de todas as vendas.
resultado = spark.sql("SELECT genero FROM Vendas")

# Exibindo o conteúdo completo do DataFrame 'df' no console.
# Isso mostrará a tabela com todas as colunas (id, genero, preco, quantidade) e os dados correspondentes.
df.show()

# Exibindo o resultado da consulta SQL, que contém apenas a coluna 'genero'.
resultado.show()

# Executando uma consulta SQL para calcular o total vendido.
# Isso é feito multiplicando 'preco' por 'quantidade' para cada linha e, em seguida, somando todos esses valores.
# O resultado é apresentado em uma nova coluna chamada 'total_vendido'.
resultadoTotal = spark.sql("SELECT SUM(preco * quantidade) AS total_vendido FROM Vendas")

# Exibindo o resultado da consulta de soma total.
resultadoTotal.show()


resultadoPorGenero = spark.sql("SELECT genero, SUM(preco * quantidade) AS total_vendido_genero FROM Vendas GROUP BY genero")

resultadoPorGenero.show()
# Parando a sessão Spark.
# É uma boa prática parar a sessão Spark quando não for mais necessária para liberar os recursos do cluster.
spark.stop()


+---+----------+-----+----------+
| id|    genero|preco|quantidade|
+---+----------+-----+----------+
|  1|    Ficção| 25.0|         2|
|  2|Não-Ficção| 30.0|         1|
|  3|    Ficção| 15.0|         3|
|  4|  Fantasia| 20.0|         2|
|  5|Não-Ficção| 40.0|         1|
|  6|  Fantasia| 25.0|         4|
|  7|    Ficção| 10.0|         5|
+---+----------+-----+----------+

+----------+
|    genero|
+----------+
|    Ficção|
|Não-Ficção|
|    Ficção|
|  Fantasia|
|Não-Ficção|
|  Fantasia|
|    Ficção|
+----------+

+-------------+
|total_vendido|
+-------------+
|        355.0|
+-------------+

+----------+--------------------+
|    genero|total_vendido_genero|
+----------+--------------------+
|    Ficção|               145.0|
|Não-Ficção|                70.0|
|  Fantasia|               140.0|
+----------+--------------------+



In [None]:
from pyspark.sql import SparkSession # Importando a classe SparkSession do módulo pyspark.sql
from pyspark.sql.functions import avg # Importando a função col do módulo pyspark.sql.functions
# Criando uma sessão Spark.
# Se uma sessão com o nome "Livraria" já existir, ele a retornará.
# Caso contrário, ele criará uma nova sessão Spark.
spark = SparkSession.builder.appName("Livraria").getOrCreate()

# Definindo os dados de vendas que serão usados para criar o DataFrame.
# Cada tupla representa uma venda com: id, gênero, preço e quantidade.
vendas = [
            (1, "Ficção", 25.00, 2),
            (2, "Não-Ficção", 30.00, 1),
            (3, "Ficção", 15.00, 3),
            (4, "Fantasia", 20.00, 2),
            (5, "Não-Ficção", 40.00, 1),
            (6, "Fantasia", 25.00, 4),
            (7, "Ficção", 10.00, 5)
        ]

# Definindo os nomes das colunas para o DataFrame de vendas.
columns = ["id", "genero", "preco", "quantidade"]

# Criando um DataFrame do Spark a partir dos dados de vendas e dos nomes das colunas definidos.
df = spark.createDataFrame(vendas, columns)

# Criando uma view temporária SQL chamada "Vendas" a partir do DataFrame.
# Isso permite que você execute consultas SQL diretamente no DataFrame como se fosse uma tabela de banco de dados.
df.createOrReplaceTempView("Vendas")

# Executando uma consulta SQL na view temporária "Vendas".
# Esta consulta seleciona apenas a coluna 'genero' de todas as vendas.
resultado = spark.sql("SELECT genero FROM Vendas")

# Exibindo o conteúdo completo do DataFrame 'df' no console.
# Isso mostrará a tabela com todas as colunas (id, genero, preco, quantidade) e os dados correspondentes.
df.show()

# Exibindo o resultado da consulta SQL, que contém apenas a coluna 'genero'.
resultado.show()

# Executando uma consulta SQL para calcular o total vendido.
# Isso é feito multiplicando 'preco' por 'quantidade' para cada linha e, em seguida, somando todos esses valores.
# O resultado é apresentado em uma nova coluna chamada 'total_vendido'.
resultadoTotal = spark.sql("SELECT SUM(preco * quantidade) AS total_vendido FROM Vendas")

# Exibindo o resultado da consulta de soma total.
resultadoTotal.show()

# Preço por GENERO
resultadoPorGenero = spark.sql("SELECT genero, SUM(preco * quantidade) AS total_vendido_genero FROM Vendas GROUP BY genero")
#Vai exibir o resultado atraves dos generos
resultadoPorGenero.show()



# Parando a sessão Spark.
# É uma boa prática parar a sessão Spark quando não for mais necessária para liberar os recursos do cluster.
spark.stop()


+---+----------+-----+----------+
| id|    genero|preco|quantidade|
+---+----------+-----+----------+
|  1|    Ficção| 25.0|         2|
|  2|Não-Ficção| 30.0|         1|
|  3|    Ficção| 15.0|         3|
|  4|  Fantasia| 20.0|         2|
|  5|Não-Ficção| 40.0|         1|
|  6|  Fantasia| 25.0|         4|
|  7|    Ficção| 10.0|         5|
+---+----------+-----+----------+

+----------+
|    genero|
+----------+
|    Ficção|
|Não-Ficção|
|    Ficção|
|  Fantasia|
|Não-Ficção|
|  Fantasia|
|    Ficção|
+----------+

+-------------+
|total_vendido|
+-------------+
|        355.0|
+-------------+

+----------+--------------------+
|    genero|total_vendido_genero|
+----------+--------------------+
|    Ficção|               145.0|
|Não-Ficção|                70.0|
|  Fantasia|               140.0|
+----------+--------------------+



In [10]:
from pyspark.sql import SparkSession # Importando a classe SparkSession do módulo pyspark.sql
from pyspark.sql.functions import avg # Importando a função col do módulo pyspark.sql.functions
# Criando uma sessão Spark.
# Se uma sessão com o nome "Livraria" já existir, ele a retornará.
# Caso contrário, ele criará uma nova sessão Spark.
spark = SparkSession.builder.appName("Livraria").getOrCreate()

# Definindo os dados de vendas que serão usados para criar o DataFrame.
# Cada tupla representa uma venda com: id, gênero, preço e quantidade.
vendas = [
            (1, "Ficção", 25.00, 2),
            (2, "Não-Ficção", 30.00, 1),
            (3, "Ficção", 15.00, 3),
            (4, "Fantasia", 20.00, 2),
            (5, "Não-Ficção", 40.00, 1),
            (6, "Fantasia", 25.00, 4),
            (7, "Ficção", 10.00, 5)
        ]

# Definindo os nomes das colunas para o DataFrame de vendas.
columns = ["id", "genero", "preco", "quantidade"]

# Criando um DataFrame do Spark a partir dos dados de vendas e dos nomes das colunas definidos.
df = spark.createDataFrame(vendas, columns)

# Criando uma view temporária SQL chamada "Vendas" a partir do DataFrame.
# Isso permite que você execute consultas SQL diretamente no DataFrame como se fosse uma tabela de banco de dados.
df.createOrReplaceTempView("Vendas")

# Executando uma consulta SQL na view temporária "Vendas".
# Esta consulta seleciona apenas a coluna 'genero' de todas as vendas.
resultado = spark.sql("SELECT genero FROM Vendas")

# Exibindo o conteúdo completo do DataFrame 'df' no console.
# Isso mostrará a tabela com todas as colunas (id, genero, preco, quantidade) e os dados correspondentes.
df.show()

# Exibindo o resultado da consulta SQL, que contém apenas a coluna 'genero'.
resultado.show()

# Executando uma consulta SQL para calcular o total vendido.
# Isso é feito multiplicando 'preco' por 'quantidade' para cada linha e, em seguida, somando todos esses valores.
# O resultado é apresentado em uma nova coluna chamada 'total_vendido'.
resultadoTotal = spark.sql("SELECT SUM(preco * quantidade) AS total_vendido FROM Vendas")

# Exibindo o resultado da consulta de soma total.
resultadoTotal.show()


resultadoPorGenero = spark.sql("SELECT genero, SUM(preco * quantidade) AS total_vendido_genero FROM Vendas GROUP BY genero")

resultadoPorGenero.show()
# Parando a sessão Spark.
# É uma boa prática parar a sessão Spark quando não for mais necessária para liberar os recursos do cluster.
spark.stop()


+---+----------+-----+----------+
| id|    genero|preco|quantidade|
+---+----------+-----+----------+
|  1|    Ficção| 25.0|         2|
|  2|Não-Ficção| 30.0|         1|
|  3|    Ficção| 15.0|         3|
|  4|  Fantasia| 20.0|         2|
|  5|Não-Ficção| 40.0|         1|
|  6|  Fantasia| 25.0|         4|
|  7|    Ficção| 10.0|         5|
+---+----------+-----+----------+

+----------+
|    genero|
+----------+
|    Ficção|
|Não-Ficção|
|    Ficção|
|  Fantasia|
|Não-Ficção|
|  Fantasia|
|    Ficção|
+----------+

+-------------+
|total_vendido|
+-------------+
|        355.0|
+-------------+

+----------+--------------------+
|    genero|total_vendido_genero|
+----------+--------------------+
|    Ficção|               145.0|
|Não-Ficção|                70.0|
|  Fantasia|               140.0|
+----------+--------------------+

