In [1]:
import findspark
findspark.init()

In [2]:
from pyspark.sql import SparkSession

# Inicijalizacija Spark sesije
# (Ovdje se stvara SparkSession objekat, koji je početna tačka za rad s podacima u Sparku. 
# appName se koristi za davanje imena aplikaciji Spark sesije.)
spark = SparkSession.builder.appName("PotrosnjaProizvoda").getOrCreate()

# Učitavanje podataka iz CSV fajla kao RDD
# (Linija koda čita tekstualnu datoteku "kupovina.csv" kao RDD linija. Svaka linija iz datoteke postaje jedan element u RDD-u.)
lines = spark.sparkContext.textFile("kupovina.csv")

# Pretvaranje linija u tuple oblika (customer ID, cena proizvoda)
# (Ovdje se svaka linija razdvaja po zarezu (,) kako bi se dobili pojedinačni elementi, a zatim se stvara RDD parova u obliku 
# tuple-a koji sadrže "customer ID" i cenu proizvoda kao float vrijednost.)
pairs = lines.map(lambda line: line.split(",")).map(lambda x: (x[0], float(x[2])))

# Računanje ukupne potrošnje po potrošaču
# (Koristi se reduceByKey da bi se izračunala ukupna potrošnja za svakog potrošača. Ova operacija sabira sve vrijednosti 
# (cenu proizvoda) za istog potrošača.)
total_spent = pairs.reduceByKey(lambda x, y: x + y)

# Prikaz rezultata
# (Rezultat se prikazuje petljom koja prolazi kroz rezultujući RDD (total_spent). Metoda collect() se koristi za prikupljanje 
# rezultata sa različitih čvorova klastera i vraćanje u Python proces gdje se mogu prikazati rezultati.)
for customer, total in total_spent.collect():
    print(f"Potrošač {customer} je potrošio ukupno {total} dinara.")

# Zaustavljanje Spark sesije
# (Ova linija završava Spark sesiju i oslobađa resurse nakon završetka obrade.)
spark.stop()

Potrošač 44 je potrošio ukupno 4756.890000000001 dinara.
Potrošač 29 je potrošio ukupno 5032.530000000001 dinara.
Potrošač 91 je potrošio ukupno 4642.26 dinara.
Potrošač 70 je potrošio ukupno 5368.249999999999 dinara.
Potrošač 53 je potrošio ukupno 4945.300000000001 dinara.
Potrošač 14 je potrošio ukupno 4735.030000000001 dinara.
Potrošač 50 je potrošio ukupno 4517.2699999999995 dinara.
Potrošač 20 je potrošio ukupno 4836.860000000001 dinara.
Potrošač 48 je potrošio ukupno 4384.33 dinara.
Potrošač 4 je potrošio ukupno 4815.050000000001 dinara.
Potrošač 57 je potrošio ukupno 4628.4 dinara.
Potrošač 12 je potrošio ukupno 4664.589999999999 dinara.
Potrošač 22 je potrošio ukupno 5019.449999999999 dinara.
Potrošač 54 je potrošio ukupno 6065.390000000001 dinara.
Potrošač 0 je potrošio ukupno 5524.949999999999 dinara.
Potrošač 88 je potrošio ukupno 4830.55 dinara.
Potrošač 86 je potrošio ukupno 4908.810000000001 dinara.
Potrošač 40 je potrošio ukupno 5186.429999999999 dinara.
Potrošač 98 je p