# Data Processing dengan Apache Spark

### Tugas 1
Buat DataFrame sederhana di Spark dan eksplorasi beberapa fungsi dasar yang tersedia.

In [1]:
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('HandsOnPertemuan6').getOrCreate()

data = [('Joko', 'Penjualan', 4500000),
        ('Siti', 'Keuangan', 6000000),
        ('Budi', 'Pemasaran', 5200000),
        ('Dewi', 'IT', 4800000),
        ('Andi', 'HRD', 4100000),
        ('Rina', 'Operasional', 5700000),
        ('Toni', 'Produksi', 4300000),
        ('Lina', 'Produksi', 4900000),
        ('Asep', 'Logistik', 4100000),
        ('Nina', 'IT', 6500000)]

kolom = ['NamaKaryawan', 'Departemen', 'Gaji']

df = spark.createDataFrame(data, schema=kolom)
df.show()


+------------+-----------+-------+
|NamaKaryawan| Departemen|   Gaji|
+------------+-----------+-------+
|        Joko|  Penjualan|4500000|
|        Siti|   Keuangan|6000000|
|        Budi|  Pemasaran|5200000|
|        Dewi|         IT|4800000|
|        Andi|        HRD|4100000|
|        Rina|Operasional|5700000|
|        Toni|   Produksi|4300000|
|        Lina|   Produksi|4900000|
|        Asep|   Logistik|4100000|
|        Nina|         IT|6500000|
+------------+-----------+-------+



### Tugas 2
Gunakan operasi filter, select, groupBy untuk mengekstrak informasi dari data, serta lakukan agregasi data untuk mendapatkan insight tentang dataset menggunakan perintah seperti mean, max, sum. 

In [2]:
# Operasi Filter
df.filter(df['Gaji'] > 4600000).show()

+------------+-----------+-------+
|NamaKaryawan| Departemen|   Gaji|
+------------+-----------+-------+
|        Siti|   Keuangan|6000000|
|        Budi|  Pemasaran|5200000|
|        Dewi|         IT|4800000|
|        Rina|Operasional|5700000|
|        Lina|   Produksi|4900000|
|        Nina|         IT|6500000|
+------------+-----------+-------+



In [3]:
# Operasi Select
df.select('NamaKaryawan', 'Gaji').show()

+------------+-------+
|NamaKaryawan|   Gaji|
+------------+-------+
|        Joko|4500000|
|        Siti|6000000|
|        Budi|5200000|
|        Dewi|4800000|
|        Andi|4100000|
|        Rina|5700000|
|        Toni|4300000|
|        Lina|4900000|
|        Asep|4100000|
|        Nina|6500000|
+------------+-------+



In [4]:
# Operasi GroupBy

df.groupBy('Departemen').count().show()

+-----------+-----+
| Departemen|count|
+-----------+-----+
|  Penjualan|    1|
|   Keuangan|    1|
|  Pemasaran|    1|
|         IT|    2|
|        HRD|    1|
|Operasional|    1|
|   Produksi|    2|
|   Logistik|    1|
+-----------+-----+



In [5]:
# Operasi Mean

df_grouped_avg = df.groupBy('Departemen').mean('Gaji')
df_grouped_avg.show()

+-----------+---------+
| Departemen|avg(Gaji)|
+-----------+---------+
|  Penjualan|4500000.0|
|   Keuangan|6000000.0|
|  Pemasaran|5200000.0|
|         IT|5650000.0|
|        HRD|4100000.0|
|Operasional|5700000.0|
|   Produksi|4600000.0|
|   Logistik|4100000.0|
+-----------+---------+



In [6]:
# Operasi Max

df_grouped_max = df.groupBy('Departemen').max('Gaji')
df_grouped_max.show()

+-----------+---------+
| Departemen|max(Gaji)|
+-----------+---------+
|  Penjualan|  4500000|
|   Keuangan|  6000000|
|  Pemasaran|  5200000|
|         IT|  6500000|
|        HRD|  4100000|
|Operasional|  5700000|
|   Produksi|  4900000|
|   Logistik|  4100000|
+-----------+---------+



In [10]:
# Operasi Sum

df_grouped_sum = df.groupBy('Departemen').sum('Gaji')
df_grouped_sum.show()

+-----------+---------+
| Departemen|sum(Gaji)|
+-----------+---------+
|  Penjualan|  4500000|
|   Keuangan|  6000000|
|  Pemasaran|  5200000|
|         IT| 11300000|
|        HRD|  4100000|
|Operasional|  5700000|
|   Produksi|  9200000|
|   Logistik|  4100000|
+-----------+---------+



### Tugas 3
Eksplorasi bagaimana mengolah tipe data kompleks dalam Spark DataFrames.

In [9]:
# Manipulasi tipe data kompleks

df = df.withColumn('BonusGaji', df['Gaji'] * 0.1)
df = df.withColumn('TotalCompensation', df['Gaji'] + df['BonusGaji'])
df.show()


+------------+-----------+-------+---------+-----------------+
|NamaKaryawan| Departemen|   Gaji|BonusGaji|TotalCompensation|
+------------+-----------+-------+---------+-----------------+
|        Joko|  Penjualan|4500000| 450000.0|        4950000.0|
|        Siti|   Keuangan|6000000| 600000.0|        6600000.0|
|        Budi|  Pemasaran|5200000| 520000.0|        5720000.0|
|        Dewi|         IT|4800000| 480000.0|        5280000.0|
|        Andi|        HRD|4100000| 410000.0|        4510000.0|
|        Rina|Operasional|5700000| 570000.0|        6270000.0|
|        Toni|   Produksi|4300000| 430000.0|        4730000.0|
|        Lina|   Produksi|4900000| 490000.0|        5390000.0|
|        Asep|   Logistik|4100000| 410000.0|        4510000.0|
|        Nina|         IT|6500000| 650000.0|        7150000.0|
+------------+-----------+-------+---------+-----------------+



### Tugas 4
Implementasikan window function untuk menghitung running totals atau rangkings.

In [12]:
# Menggunakan window functions
from pyspark.sql.window import Window
from pyspark.sql import functions as F

windowSpec = Window.partitionBy('Departemen').orderBy('Gaji')
df.withColumn('Rank', F.rank().over(windowSpec)).show()

+------------+-----------+-------+---------+-----------------+----+
|NamaKaryawan| Departemen|   Gaji|BonusGaji|TotalCompensation|Rank|
+------------+-----------+-------+---------+-----------------+----+
|        Andi|        HRD|4100000| 410000.0|        4510000.0|   1|
|        Dewi|         IT|4800000| 480000.0|        5280000.0|   1|
|        Nina|         IT|6500000| 650000.0|        7150000.0|   2|
|        Siti|   Keuangan|6000000| 600000.0|        6600000.0|   1|
|        Asep|   Logistik|4100000| 410000.0|        4510000.0|   1|
|        Rina|Operasional|5700000| 570000.0|        6270000.0|   1|
|        Budi|  Pemasaran|5200000| 520000.0|        5720000.0|   1|
|        Joko|  Penjualan|4500000| 450000.0|        4950000.0|   1|
|        Toni|   Produksi|4300000| 430000.0|        4730000.0|   1|
|        Lina|   Produksi|4900000| 490000.0|        5390000.0|   2|
+------------+-----------+-------+---------+-----------------+----+



### Tugas 5 
Buat ringkasan dari semua operasi yang telah dilakukan dan bagaimana teknik ini dapat diterapkan pada proyek data Anda.