In [1]:
# Importar as bibliotecas necessárias do PySpark
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

In [2]:
# Iniciar a sessão do Spark
spark = SparkSession.builder \
    .appName("ExercicioPySpark") \
    .getOrCreate()

In [3]:
# 1. Leitura do Conjunto de Dados
# Substitua "caminho_para_o_arquivo" pelo caminho onde o arquivo "vendas.csv" está localizado
df = spark.read.csv("caminho_para_o_arquivo/vendas.csv", header=True, inferSchema=True)

In [4]:
# 2. Verificação dos Tipos de Dados das Colunas (Esquema)
df.printSchema()

In [5]:
# 3. Seleção de Colunas e Indexação
df_indexado = df.withColumn("numero_venda", col("numero_venda").cast("int"))  # Garantir que o número da venda é do tipo inteiro
df_selecionado = df_indexado.select("data_venda", "produto", "quantidade", "preco_unitario", "numero_venda")

In [6]:
# 4. Descrição dos Dados (Similar ao Describe do Pandas)
df_selecionado.describe().show()

In [7]:
# 5. Adição de Colunas
df_total_venda = df_selecionado.withColumn("total_venda", col("quantidade") * col("preco_unitario"))

In [8]:
# 6. Remoção de Colunas
df_sem_preco_unitario = df_total_venda.drop("preco_unitario")

In [9]:
# 7. Renomeação de Colunas
df_renomeado = df_sem_preco_unitario.withColumnRenamed("produto", "nome_produto") \
    .withColumnRenamed("quantidade", "qtd_vendida")

In [10]:
# Exibir o DataFrame final
df_renomeado.show()

In [None]:
# Encerrar a sessão do Spark
spark.stop()