In [1]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

# Inicijalizacija Spark sesije
# (Ovdje se stvara SparkSession objekat, koji je početna tačka za rad s podacima u Sparku. 
# appName se koristi za davanje imena aplikaciji Spark sesije.)
spark = SparkSession.builder.appName("PotrosnjaProizvoda").getOrCreate()

# Učitavanje CSV fajla kao DataFrame
# (Ova linija kodu učitava CSV datoteku "kupovina.csv" kao DataFrame (df). header=False označava da CSV datoteka nema zaglavlje, 
# a inferSchema=True pokušava automatski odrediti tipove podataka u DataFrame-u.)
df = spark.read.csv("kupovina.csv", header=False, inferSchema=True)

# Definisanje imena kolona
# (Ovdje se imena kolona u DataFrame-u mijenjaju. Kolone se preimenuju u "customer_id", "product_id" i "cena" 
# koristeći withColumnRenamed metodu.)
df = df.withColumnRenamed("_c0", "customer_id").withColumnRenamed("_c1", "product_id").withColumnRenamed("_c2", "cena")

# Računanje ukupne potrošnje po potrošaču
# (Ova linija grupiše podatke po "customer_id" i zatim računa sumu vrijednosti iz kolone "cena" za svakog potrošača. 
# Rezultat se čuva u DataFrame-u total_spent_df. Takođe se mijenja ime rezultujuće kolone sa sumom na "ukupna_potrosnja".)
total_spent_df = df.groupBy("customer_id").sum("cena").withColumnRenamed("sum(cena)", "ukupna_potrosnja")

# Prikaz rezultata
# (show() metoda se koristi za prikaz rezultata. total_spent_df.count() se koristi kako bi se prikazali svi redovi u 
# DataFrame-u. Opcija truncate=False sprječava skraćivanje dugih vrijednosti pri prikazu.)
total_spent_df.show(total_spent_df.count(), truncate=False)

# Zaustavljanje Spark sesije
# (Linija koda završava Spark sesiju kako bi se oslobodili resursi nakon što su operacije završene.)
spark.stop()

+-----------+------------------+
|customer_id|ukupna_potrosnja  |
+-----------+------------------+
|31         |4765.05           |
|85         |5503.43           |
|65         |5140.3499999999985|
|53         |4945.299999999999 |
|78         |4524.509999999999 |
|34         |5330.8            |
|81         |5112.709999999999 |
|28         |5000.709999999998 |
|76         |4904.209999999999 |
|27         |4915.889999999999 |
|26         |5250.4            |
|44         |4756.8899999999985|
|12         |4664.589999999998 |
|91         |4642.259999999999 |
|22         |5019.449999999999 |
|93         |5265.750000000001 |
|47         |4316.299999999999 |
|1          |4958.600000000001 |
|52         |5245.059999999999 |
|13         |4367.62           |
|86         |4908.81           |
|6          |5397.879999999998 |
|16         |4979.06           |
|3          |4659.63           |
|20         |4836.859999999999 |
|40         |5186.429999999999 |
|94         |4475.569999999999 |
|57       