In [None]:
📌 Exercício TP1: Análise de Compras e Gestão de Funcionários do Governo com PySpark 🚔
O Governo adquiriu veículos para várias entidades públicas e precisa de analisar não só as compras, mas também a gestão dos funcionários responsáveis por conduzir ou manter os veículos.
1️⃣ Criar a base de dados e as tabelas
O teu objetivo é criar duas tabelas relacionadas dentro da base de dados compras_governo:
📊 Tabela 1: compras_veiculos (Registo das compras de veículos)
Nome da Coluna
Tipo de Dados
Descrição
id_compra
INT
Identificador único da compra
entidade
STRING
Nome da entidade governamental
marca
STRING
Marca do veículo comprado
modelo
STRING
Modelo do veículo
ano
INT
Ano de fabrico
preco
FLOAT
Preço unitário do veículo (€)
quantidade
INT
Número de unidades compradas
fonte_financiamento
STRING
Fonte de financiamento utilizada

🔹 Exemplo de dados:
id_compra
entidade
marca
modelo
ano
preco
quantidade
fonte_financiamento
1
Polícia Nacional
BMW
Série 5
2023
55000.0
5
Orçamento do Estado
2
Bombeiros Municipais
Renault
Master
2022
35000.0
3
Fundo Europeu
3
Ministério da Saúde
Mercedes
Sprinter
2023
45000.0
8
Parceria Público-Privada


📊 Tabela 2: funcionarios (Gestão dos funcionários responsáveis pelos veículos)
Nome da Coluna
Tipo de Dados
Descrição
id_funcionario
INT
Identificador único do funcionário
nome
STRING
Nome do funcionário
cargo
STRING
Cargo do funcionário
entidade
STRING
Entidade onde trabalha (ligação com compras_veiculos)
veiculo_designado
STRING
Modelo do veículo designado para o funcionário

🔹 Exemplo de dados:
id_funcionario
nome
cargo
entidade
veiculo_designado
101
Manuel Silva
Motorista
Polícia Nacional
BMW Série 5
102
Sofia Mendes
Bombeira
Bombeiros Municipais
Renault Master
103
João Ferreira
Técnico de Manutenção
Ministério da Saúde
Mercedes Sprinter












2️⃣ Consultas sobre os dados
Agora, com base nas tabelas compras_veiculos e funcionarios, resolve os seguintes desafios utilizando SQL no PySpark.
a) Listar todas as compras feitas pelo Governo com veículos designados para motoristas específicos.
📝 Dica: Faz um JOIN entre compras_veiculos e funcionarios usando a coluna entidade.
b) Contar quantos veículos foram comprados por cada entidade governamental.
📝 Dica: Usa GROUP BY para contar o número total de veículos por entidade.
c) Listar os funcionários que trabalham em entidades que adquiriram veículos acima de 50.000€.
📝 Dica: Junta as duas tabelas e filtra os dados pelo preco.
d) Calcular o valor total gasto por cada entidade governamental.
📝 Dica: Multiplica preco * quantidade e usa GROUP BY para agrupar por entidade.
e) Adicionar uma coluna que indica se a entidade comprou veículos elétricos.
📝 Dica: Usa CASE WHEN para verificar se a marca é "Tesla".



🔹 Nível 1: Consultas Simples
1️⃣ Listar todas as compras feitas pelo Governo.
📝 Dica: Usa SELECT * FROM compras_veiculos.
2️⃣ Mostrar todas as compras financiadas pelo "Fundo Europeu".
📝 Dica: Filtra os resultados com WHERE fonte_financiamento = 'Fundo Europeu'.
3️⃣ Ordenar as compras pelo preço dos veículos em ordem decrescente.
📝 Dica: Usa ORDER BY preco DESC.
4️⃣ Contar quantos veículos foram comprados por cada entidade.
📝 Dica: Usa GROUP BY entidade e COUNT(*).
5️⃣ Calcular o valor total gasto por cada entidade governamental.
📝 Dica: Multiplica preco * quantidade e usa GROUP BY entidade.




🔹 Nível 2: Consultas com Junções e Funções
6️⃣ Listar os funcionários e os veículos que lhes foram designados.
📝 Dica: Faz um JOIN entre funcionarios e compras_veiculos usando entidade.
7️⃣ Contar quantos funcionários estão alocados a cada entidade governamental.
📝 Dica: Usa COUNT(id_funcionario) com GROUP BY entidade.
8️⃣ Mostrar todas as compras feitas por entidades que têm mais de 5 funcionários registados.
📝 Dica: Junta as tabelas e usa HAVING COUNT(id_funcionario) > 5.
9️⃣ Listar as compras feitas apenas por entidades que adquiriram veículos elétricos.
📝 Dica: Filtra pela marca = 'Tesla' ou outros veículos elétricos.
🔟 Mostrar os funcionários que utilizam veículos comprados após 2022.
📝 Dica: Usa JOIN e filtra por ano > 2022.















🔹 Nível 3: Consultas Mais Avançadas
1️⃣1️⃣ Identificar entidades que gastaram mais do que 200.000€ em compras de veículos.
📝 Dica: Usa SUM(preco * quantidade) > 200000 com GROUP BY entidade.
1️⃣2️⃣ Determinar qual foi a compra mais cara feita pelo Governo e qual entidade a realizou.
📝 Dica: Usa MAX(preco * quantidade) e relaciona com a entidade correspondente.
1️⃣3️⃣ Listar todas as entidades que compraram veículos, mas não têm funcionários registados.
📝 Dica: Usa um LEFT JOIN e verifica valores NULL na tabela funcionarios.
1️⃣4️⃣ Para cada entidade, calcular a média de preços dos veículos adquiridos.
📝 Dica: Usa AVG(preco) GROUP BY entidade.
1️⃣5️⃣ Criar um ranking das entidades que mais gastaram com compras de veículos.
📝 Dica: Usa SUM(preco * quantidade), GROUP BY entidade e ORDER BY DESC para ranquear os gastos.

📌 Relação entre tabelas:
A tabela compras_veiculos regista as compras de veículos por diferentes entidades governamentais.
A tabela funcionarios contém os funcionários responsáveis pelos veículos, e está relacionada com a tabela compras_veiculos através do campo entidade.



            ┌───────────────────────────┐
            │      compras_veiculos      │
            ├───────────────────────────┤
            │ id_compra (PK)            │
            │ entidade                   │◄──┐
            │ marca                      │   │
            │ modelo                     │   │
            │ ano                         │   │
            │ preco                       │   │
            │ quantidade                  │   │
            │ fonte_financiamento         │   │
            └───────────────────────────┘   │
                                            │  RELAÇÃO 1:N
            ┌───────────────────────────┐   │
            │      funcionarios          │   │
            ├───────────────────────────┤   │
            │ id_funcionario (PK)       │   │
            │ nome                      │   │
            │ cargo                     │   │
            │ entidade                   │◄──┘
            │ veiculo_designado         │
            └───────────────────────────┘






📌 Resolução 🚔

 ……. Resolução 
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, sum, count, avg, max, when

# Criar sessão do Spark
spark = SparkSession.builder.appName("Compras_Governo").getOrCreate()

# Criar dados para compras_veiculos
dados_veiculos = [
    (1, "Polícia Nacional", "BMW", "Série 5", 2023, 55000.0, 5, "Orçamento do Estado"),
    (2, "Bombeiros Municipais", "Renault", "Master", 2022, 35000.0, 3, "Fundo Europeu"),
    (3, "Ministério da Saúde", "Mercedes", "Sprinter", 2023, 45000.0, 8, "Parceria Público-Privada")
]
colunas_veiculos = ["id_compra", "entidade", "marca", "modelo", "ano", "preco", "quantidade", "fonte_financiamento"]
df_veiculos = spark.createDataFrame(dados_veiculos, colunas_veiculos)

dados_funcionarios = [
    (101, "Manuel Silva", "Motorista", "Polícia Nacional", "BMW Série 5"),
    (102, "Sofia Mendes", "Bombeira", "Bombeiros Municipais", "Renault Master"),
    (103, "João Ferreira", "Técnico de Manutenção", "Ministério da Saúde", "Mercedes Sprinter")
]
colunas_funcionarios = ["id_funcionario", "nome", "cargo", "entidade", "veiculo_designado"]
df_funcionarios = spark.createDataFrame(dados_funcionarios, colunas_funcionarios)

# Consultas
print("1️⃣ Listar todas as compras feitas pelo Governo:")
df_veiculos.show()

print("2️⃣ Mostrar todas as compras financiadas pelo 'Fundo Europeu':")
df_veiculos.filter(col("fonte_financiamento") == "Fundo Europeu").show()

print("3️⃣ Ordenar as compras pelo preço dos veículos em ordem decrescente:")
df_veiculos.orderBy(col("preco").desc()).show()

print("4️⃣ Contar quantos veículos foram comprados por cada entidade:")
df_veiculos.groupBy("entidade").sum("quantidade").show()

print("5️⃣ Calcular o valor total gasto por cada entidade governamental:")
df_veiculos.groupBy("entidade").agg(sum(col("preco") * col("quantidade")).alias("total_gasto")).show()

print("6️⃣ Listar os funcionários e os veículos que lhes foram designados:")
df_funcionarios.join(df_veiculos, "entidade").select("nome", "cargo", "entidade", "veiculo_designado").show()

print("7️⃣ Contar quantos funcionários estão alocados a cada entidade governamental:")
df_funcionarios.groupBy("entidade").count().show()

print("8️⃣ Mostrar todas as compras feitas por entidades que têm mais de 5 funcionários registados:")
df_funcionarios.groupBy("entidade").count().filter(col("count") > 5).join(df_veiculos, "entidade").show()

print("9️⃣ Listar as compras feitas apenas por entidades que adquiriram veículos elétricos:")
df_veiculos.filter(col("marca") == "Tesla").show()

print("🔟 Mostrar os funcionários que utilizam veículos comprados após 2022:")
df_funcionarios.join(df_veiculos, "entidade").filter(col("ano") > 2022).select("nome", "cargo", "modelo").show()

print("1️⃣1️⃣ Identificar entidades que gastaram mais do que 200.000€ em compras de veículos:")
df_veiculos.groupBy("entidade").agg(sum(col("preco") * col("quantidade")).alias("total_gasto")).filter(col("total_gasto") > 200000).show()

print("1️⃣2️⃣ Determinar qual foi a compra mais cara feita pelo Governo e qual entidade a realizou:")
df_veiculos.withColumn("total", col("preco") * col("quantidade")).orderBy(col("total").desc()).limit(1).show()

print("1️⃣3️⃣ Listar todas as entidades que compraram veículos, mas não têm funcionários registados:")
df_veiculos.join(df_funcionarios, "entidade", "left_anti").show()

print("1️⃣4️⃣ Para cada entidade, calcular a média de preços dos veículos adquiridos:")
df_veiculos.groupBy("entidade").agg(avg("preco").alias("media_preco")).show()

print("1️⃣5️⃣ Criar um ranking das entidades que mais gastaram com compras de veículos:")
df_veiculos.groupBy("entidade").agg(sum(col("preco") * col("quantidade")).alias("total_gasto")).orderBy(col("total_gasto").desc()).show()

# Fechar a sessão
spark.stop()



