# Exercicios 1

Vocês são cientistas de dados em uma empresa que está analisando dados de vendas de uma loja de varejo. O objetivo é realizar algumas análises iniciais usando o PySpark DataFrame para entender melhor os dados.

Leitura do Conjunto de Dados:
Vocês receberam um arquivo CSV chamado "vendas.csv" que contém os dados das vendas da loja. Este arquivo está localizado no diretório "/caminho/para/o/arquivo/vendas.csv" no sistema de arquivos.

Utilizem o PySpark para ler esse arquivo e criar um DataFrame.

Verificação dos Tipos de Dados das Colunas (Esquema):
Após ler o arquivo, verifiquem o esquema do DataFrame para entender quais são os tipos de dados de cada coluna.

Seleção de Colunas e Indexação:
Selecione as seguintes colunas do DataFrame: "data_venda", "produto", "quantidade", "preco_unitario". Além disso, indexem o DataFrame pelo número da venda.

Descrição dos Dados (Similar ao Describe do Pandas):
Utilizem a função describe() para obter estatísticas descritivas das colunas numéricas do DataFrame, como média, desvio padrão, mínimo, máximo, etc.

Adição de Colunas:
Adicionem uma nova coluna ao DataFrame chamada "total_venda", que representará o valor total de cada venda (quantidade * preço unitário).

Remoção de Colunas:
Removam a coluna "preco_unitario" do DataFrame, pois ela não será mais necessária para as análises subsequentes.

Renomeação de Colunas:
Renomeiem a coluna "produto" para "nome_produto" e a coluna "quantidade" para "qtd_vendida".

Instruções adicionais:

Certifiquem-se de importar corretamente todas as bibliotecas necessárias do PySpark.
Documentem cada passo do processo utilizando comentários no código.
Testem cada operação para garantir que o DataFrame está sendo manipulado corretamente.


# Resolução

In [1]:
# Importar as bibliotecas necessárias do PySpark
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

In [2]:
# Iniciar a sessão do Spark
spark = SparkSession.builder \
    .appName("ExercicioPySpark") \
    .getOrCreate()

In [3]:
# 1. Leitura do Conjunto de Dados
# Substitua "caminho_para_o_arquivo" pelo caminho onde o arquivo "vendas.csv" está localizado
df = spark.read.csv("caminho_para_o_arquivo/vendas.csv", header=True, inferSchema=True)

In [4]:
# 2. Verificação dos Tipos de Dados das Colunas (Esquema)
df.printSchema()

In [5]:
# 3. Seleção de Colunas e Indexação
df_indexado = df.withColumn("numero_venda", col("numero_venda").cast("int"))  # Garantir que o número da venda é do tipo inteiro
df_selecionado = df_indexado.select("data_venda", "produto", "quantidade", "preco_unitario", "numero_venda")

In [6]:
# 4. Descrição dos Dados (Similar ao Describe do Pandas)
df_selecionado.describe().show()

In [7]:
# 5. Adição de Colunas
df_total_venda = df_selecionado.withColumn("total_venda", col("quantidade") * col("preco_unitario"))

In [8]:
# 6. Remoção de Colunas
df_sem_preco_unitario = df_total_venda.drop("preco_unitario")

In [9]:
# 7. Renomeação de Colunas
df_renomeado = df_sem_preco_unitario.withColumnRenamed("produto", "nome_produto") \
    .withColumnRenamed("quantidade", "qtd_vendida")

In [10]:
# Exibir o DataFrame final
df_renomeado.show()

In [None]:
# Encerrar a sessão do Spark
spark.stop()