# Hands-On Pertemuan 6: Data Processing dengan Apache Spark

## Tujuan:
- Memahami dan mempraktikkan data processing menggunakan Apache Spark.
- Menggunakan Spark untuk operasi data yang efisien pada dataset besar.
- Menerapkan teknik canggih dalam Spark untuk mengatasi kasus penggunaan nyata.

### 1. Pengenalan Spark DataFrames
Spark DataFrame menyediakan struktur data yang optimal dengan operasi yang dioptimalkan untuk pemrosesan data besar, yang sangat mirip dengan DataFrame di Pandas atau di RDBMS.

- **Tugas 1**: Buat DataFrame sederhana di Spark dan eksplorasi beberapa fungsi dasar yang tersedia.

In [10]:
# Contoh membuat DataFrame sederhana dan operasi dasar
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('HandsOnPertemuan6').getOrCreate()

data = [('Iwan', 'Manager', 30000000),
        ('Fadzil', 'Karyawan', 7000000),
        ('Restu', 'Direktur', 25000000),
        ('Rio', 'CEO', 52000000)]
columns = ['EmployeeName', 'Department', 'Salary']

df = spark.createDataFrame(data, schema=columns)
df.show()

+------------+----------+--------+
|EmployeeName|Department|  Salary|
+------------+----------+--------+
|        Iwan|   Manager|30000000|
|      Fadzil|  Karyawan| 7000000|
|       Restu|  Direktur|25000000|
|         Rio|       CEO|52000000|
+------------+----------+--------+



### 2. Transformasi Dasar dengan DataFrames
Pemrosesan data meliputi transformasi seperti filtering, selections, dan aggregations. Spark menyediakan cara efisien untuk melaksanakan operasi ini.

- **Tugas 2**: Gunakan operasi filter, select, groupBy untuk mengekstrak informasi dari data, serta lakukan agregasi data untuk mendapatkan insight tentang dataset menggunakan perintah seperti mean, max, sum.

In [11]:
# Contoh operasi transformasi DataFrame
df.select('EmployeeName', 'Salary').show()
df.filter(df['Salary'] > 3000).show()
df.groupBy('Department').avg('Salary').show()

+------------+--------+
|EmployeeName|  Salary|
+------------+--------+
|        Iwan|30000000|
|      Fadzil| 7000000|
|       Restu|25000000|
|         Rio|52000000|
+------------+--------+

+------------+----------+--------+
|EmployeeName|Department|  Salary|
+------------+----------+--------+
|        Iwan|   Manager|30000000|
|      Fadzil|  Karyawan| 7000000|
|       Restu|  Direktur|25000000|
|         Rio|       CEO|52000000|
+------------+----------+--------+

+----------+-----------+
|Department|avg(Salary)|
+----------+-----------+
|   Manager|      3.0E7|
|  Karyawan|  7000000.0|
|  Direktur|      2.5E7|
|       CEO|      5.2E7|
+----------+-----------+



### 3. Bekerja dengan Tipe Data Kompleks
Spark mendukung tipe data yang kompleks seperti maps, arrays, dan structs yang memungkinkan operasi yang lebih kompleks pada dataset yang kompleks.

- **Tugas 3**: Eksplorasi bagaimana mengolah tipe data kompleks dalam Spark DataFrames.

In [12]:
# Tambahkan kolom 'SalaryBonus'
df_with_bonus = df.withColumn('SalaryBonus', df['Salary'] * 0.1)

# Tambahkan kolom 'TotalCompensation' berdasarkan 'Salary' dan 'SalaryBonus'
df_with_compensation = df_with_bonus.withColumn('TotalCompensation', df_with_bonus['Salary'] + df_with_bonus['SalaryBonus'])

# Tampilkan hasil akhir
df_with_compensation.show()


+------------+----------+--------+-----------+-----------------+
|EmployeeName|Department|  Salary|SalaryBonus|TotalCompensation|
+------------+----------+--------+-----------+-----------------+
|        Iwan|   Manager|30000000|  3000000.0|            3.3E7|
|      Fadzil|  Karyawan| 7000000|   700000.0|        7700000.0|
|       Restu|  Direktur|25000000|  2500000.0|           2.75E7|
|         Rio|       CEO|52000000|  5200000.0|           5.72E7|
+------------+----------+--------+-----------+-----------------+



### 4. Operasi Data Lanjutan
Menggunakan Spark untuk operasi lanjutan seperti window functions, user-defined functions (UDFs), dan mengoptimalkan query.

- **Tugas 4**: Implementasikan window function untuk menghitung running totals atau rangkings.

In [13]:
# Contoh menggunakan window functions
from pyspark.sql.window import Window
from pyspark.sql import functions as F

windowSpec = Window.partitionBy('Department').orderBy('Salary')
df.withColumn('Rank', F.rank().over(windowSpec)).show()

+------------+----------+--------+----+
|EmployeeName|Department|  Salary|Rank|
+------------+----------+--------+----+
|         Rio|       CEO|52000000|   1|
|       Restu|  Direktur|25000000|   1|
|      Fadzil|  Karyawan| 7000000|   1|
|        Iwan|   Manager|30000000|   1|
+------------+----------+--------+----+



### 5. Kesimpulan dan Eksplorasi Lebih Lanjut
Review apa yang telah dipelajari tentang pemrosesan data menggunakan Spark dan eksplorasi teknik lebih lanjut untuk mengoptimalkan pemrosesan data Anda.
- **Tugas 5**: Buat ringkasan dari semua operasi yang telah dilakukan dan bagaimana teknik ini dapat diterapkan pada proyek data Anda.

In [None]:
Ringkasan Operasi:
Pembuatan DataFrame Dasar:
Membuat DataFrame Spark dari daftar tuple.
Ini termasuk data dasar seperti EmployeeName, Department, dan Salary.
Transformasi Dasar:

Seleksi dan Penyaringan:
Memilih kolom tertentu dari DataFrame.
Menyaring baris di mana Salary lebih besar dari nilai tertentu.

Agregasi:
Menggunakan groupBy untuk menghitung rata-rata gaji untuk setiap departemen.

Tipe Data Kompleks:
Operasi Kolom:
Menambahkan kolom baru seperti SalaryBonus (10% dari Salary).
Membuat kolom lain TotalCompensation, yang merupakan jumlah dari Salary dan SalaryBonus.

Operasi Lanjutan:
Window Functions:
Menggunakan window functions untuk memberikan peringkat kepada karyawan berdasarkan gaji mereka di dalam departemen.
Hal ini memungkinkan perhitungan peringkat, total berjalan, dan komputasi terpartisi.

Bagaimana Teknik Ini Dapat Diterapkan pada Proyek Nyata:
Transformasi Data:
Kemampuan untuk mentransformasi data secara efisien (penyaringan, seleksi, dan penambahan kolom) sangat penting untuk pembersihan dan persiapan data dalam proyek seperti analisis keuangan atau segmentasi pelanggan.

Agregasi dan Pengelompokan:
Teknik agregasi (misalnya, groupBy, avg) sangat penting dalam menghasilkan wawasan dari dataset besar dalam analitik real-time atau sistem pelaporan.

Penanganan Tipe Data Kompleks:
Memanipulasi tipe data kompleks memungkinkan pemodelan data yang lebih rinci, seperti menangani data hierarkis atau bersarang dalam format seperti JSON, yang sering ditemukan dalam aliran data web atau IoT.

Window Functions:
Window functions sangat kuat dalam analisis deret waktu, untuk menghitung rata-rata bergerak, total berjalan, atau peringkat dalam dasbor intelijen bisnis.