# Hands-On Pertemuan 6: Data Processing dengan Apache Spark

## Tujuan:
- Memahami dan mempraktikkan data processing menggunakan Apache Spark.
- Menggunakan Spark untuk operasi data yang efisien pada dataset besar.
- Menerapkan teknik canggih dalam Spark untuk mengatasi kasus penggunaan nyata.

### 1. Pengenalan Spark DataFrames
Spark DataFrame menyediakan struktur data yang optimal dengan operasi yang dioptimalkan untuk pemrosesan data besar, yang sangat mirip dengan DataFrame di Pandas atau di RDBMS.

- **Tugas 1**: Buat DataFrame sederhana di Spark dan eksplorasi beberapa fungsi dasar yang tersedia.

In [4]:
# Contoh membuat DataFrame sederhana dan operasi dasar
import findspark
findspark.init()

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('HandsOnPertemuan6').getOrCreate()

data = [('Diva', 'IT', 60000),
        ('Ravi', 'Finance', 40000),
        ('Robert', 'Sales', 41000),
        ('Maria', 'Finance', 30000),
        ('Muria', 'IT', 50000),
        ('Marji', 'Finance', 10000)]
columns = ['EmployeeName', 'Department', 'Salary']

df = spark.createDataFrame(data, schema=columns)
df.show()

+------------+----------+------+
|EmployeeName|Department|Salary|
+------------+----------+------+
|        Diva|        IT| 60000|
|        Ravi|   Finance| 40000|
|      Robert|     Sales| 41000|
|       Maria|   Finance| 30000|
|       Muria|        IT| 50000|
|       Marji|   Finance| 10000|
+------------+----------+------+



### 2. Transformasi Dasar dengan DataFrames
Pemrosesan data meliputi transformasi seperti filtering, selections, dan aggregations. Spark menyediakan cara efisien untuk melaksanakan operasi ini.

- **Tugas 2**: Gunakan operasi filter, select, groupBy untuk mengekstrak informasi dari data, serta lakukan agregasi data untuk mendapatkan insight tentang dataset menggunakan perintah seperti mean, max, sum.

In [5]:
# Contoh operasi transformasi DataFrame
df.select('EmployeeName', 'Salary').show()
df.filter(df['Salary'] > 40000).show()
df.groupBy('Department').avg('Salary').show()

+------------+------+
|EmployeeName|Salary|
+------------+------+
|        Diva| 60000|
|        Ravi| 40000|
|      Robert| 41000|
|       Maria| 30000|
|       Muria| 50000|
|       Marji| 10000|
+------------+------+

+------------+----------+------+
|EmployeeName|Department|Salary|
+------------+----------+------+
|        Diva|        IT| 60000|
|      Robert|     Sales| 41000|
|       Muria|        IT| 50000|
+------------+----------+------+

+----------+------------------+
|Department|       avg(Salary)|
+----------+------------------+
|     Sales|           41000.0|
|   Finance|26666.666666666668|
|        IT|           55000.0|
+----------+------------------+



### 3. Bekerja dengan Tipe Data Kompleks
Spark mendukung tipe data yang kompleks seperti maps, arrays, dan structs yang memungkinkan operasi yang lebih kompleks pada dataset yang kompleks.

- **Tugas 3**: Eksplorasi bagaimana mengolah tipe data kompleks dalam Spark DataFrames.

In [6]:
# Contoh manipulasi tipe data kompleks
df = df.withColumn('SalaryBonus', df['Salary'] * 0.3)
df = df.withColumn('TotalCompensation', df['Salary'] + df['SalaryBonus'])
df.show()

+------------+----------+------+-----------+-----------------+
|EmployeeName|Department|Salary|SalaryBonus|TotalCompensation|
+------------+----------+------+-----------+-----------------+
|        Diva|        IT| 60000|    18000.0|          78000.0|
|        Ravi|   Finance| 40000|    12000.0|          52000.0|
|      Robert|     Sales| 41000|    12300.0|          53300.0|
|       Maria|   Finance| 30000|     9000.0|          39000.0|
|       Muria|        IT| 50000|    15000.0|          65000.0|
|       Marji|   Finance| 10000|     3000.0|          13000.0|
+------------+----------+------+-----------+-----------------+



### 4. Operasi Data Lanjutan
Menggunakan Spark untuk operasi lanjutan seperti window functions, user-defined functions (UDFs), dan mengoptimalkan query.

- **Tugas 4**: Implementasikan window function untuk menghitung running totals atau rangkings.

In [7]:
# Contoh menggunakan window functions
from pyspark.sql.window import Window
from pyspark.sql import functions as F

windowSpec = Window.partitionBy('Department').orderBy('Salary')
df.withColumn('Rank', F.rank().over(windowSpec)).show()

+------------+----------+------+-----------+-----------------+----+
|EmployeeName|Department|Salary|SalaryBonus|TotalCompensation|Rank|
+------------+----------+------+-----------+-----------------+----+
|       Marji|   Finance| 10000|     3000.0|          13000.0|   1|
|       Maria|   Finance| 30000|     9000.0|          39000.0|   2|
|        Ravi|   Finance| 40000|    12000.0|          52000.0|   3|
|       Muria|        IT| 50000|    15000.0|          65000.0|   1|
|        Diva|        IT| 60000|    18000.0|          78000.0|   2|
|      Robert|     Sales| 41000|    12300.0|          53300.0|   1|
+------------+----------+------+-----------+-----------------+----+



### 5. Kesimpulan dan Eksplorasi Lebih Lanjut
Review apa yang telah dipelajari tentang pemrosesan data menggunakan Spark dan eksplorasi teknik lebih lanjut untuk mengoptimalkan pemrosesan data Anda.
- **Tugas 5**: Buat ringkasan dari semua operasi yang telah dilakukan dan bagaimana teknik ini dapat diterapkan pada proyek data Anda.