In [None]:
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName('Transacoes').getOrCreate()
transacoes = spark.read.csv('transacoes.csv', header=True, inferSchema=True)

transacoes.printSchema()
transacoes.show(5)

root
 |-- id_transacao: integer (nullable = true)
 |-- id_cliente: integer (nullable = true)
 |-- valor: double (nullable = true)
 |-- data_transacao: date (nullable = true)
 |-- categoria: string (nullable = true)

+------------+----------+-----+--------------+-----------+
|id_transacao|id_cliente|valor|data_transacao|  categoria|
+------------+----------+-----+--------------+-----------+
|           1|         1|100.0|    2023-11-01|    Compras|
|           2|         2|200.0|    2023-11-02|Alimentação|
|           3|         3|150.0|    2023-11-03|    Compras|
|           4|         4|300.0|    2023-11-01|     Viagem|
|           5|         5| 50.0|    2023-11-04|Alimentação|
+------------+----------+-----+--------------+-----------+



In [None]:
from pyspark.sql.functions import year, col

transacoes = transacoes.withColumn('ano_transacao', year(col('data_transacao')))
transacoes.show(5)

+------------+----------+-----+--------------+-----------+-------------+
|id_transacao|id_cliente|valor|data_transacao|  categoria|ano_transacao|
+------------+----------+-----+--------------+-----------+-------------+
|           1|         1|100.0|    2023-11-01|    Compras|         2023|
|           2|         2|200.0|    2023-11-02|Alimentação|         2023|
|           3|         3|150.0|    2023-11-03|    Compras|         2023|
|           4|         4|300.0|    2023-11-01|     Viagem|         2023|
|           5|         5| 50.0|    2023-11-04|Alimentação|         2023|
+------------+----------+-----+--------------+-----------+-------------+



In [None]:
from pyspark.sql.functions import sum as _sum, avg

agrupado = transacoes.groupBy('categoria').agg(
    _sum('valor').alias('valor_total'),
    avg('valor').alias('valor_medio')
)
agrupado.show(5)

+-----------+-----------+-----------+
|  categoria|valor_total|valor_medio|
+-----------+-----------+-----------+
|     Viagem|      300.0|      300.0|
|    Compras|      250.0|      125.0|
|Alimentação|      250.0|      125.0|
+-----------+-----------+-----------+



In [None]:
agrupado = agrupado.orderBy(col('valor_total').desc())
agrupado.show(5)

+-----------+-----------+-----------+
|  categoria|valor_total|valor_medio|
+-----------+-----------+-----------+
|     Viagem|      300.0|      300.0|
|    Compras|      250.0|      125.0|
|Alimentação|      250.0|      125.0|
+-----------+-----------+-----------+

