# Hands-On Pertemuan 6: Data Processing dengan Apache Spark

## Tujuan:
- Memahami dan mempraktikkan data processing menggunakan Apache Spark.
- Menggunakan Spark untuk operasi data yang efisien pada dataset besar.
- Menerapkan teknik canggih dalam Spark untuk mengatasi kasus penggunaan nyata.

### 1. Pengenalan Spark DataFrames
Spark DataFrame menyediakan struktur data yang optimal dengan operasi yang dioptimalkan untuk pemrosesan data besar, yang sangat mirip dengan DataFrame di Pandas atau di RDBMS.

- **Tugas 1**: Buat DataFrame sederhana di Spark dan eksplorasi beberapa fungsi dasar yang tersedia.

In [None]:
pip install pyspark

In [1]:
import findspark
findspark.init()

In [6]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

# Membuat Spark session
spark = SparkSession.builder.appName('HandsOnPertemuan6').getOrCreate()

# Data dan skema
data = [('James', 'Sales', 3000),
        ('Michael', 'Sales', 4600),
        ('Robert', 'Sales', 4100),
        ('Maria', 'Finance', 3000)]
columns = ['EmployeeName', 'Department', 'Salary']

# Membuat DataFrame
df = spark.createDataFrame(data, schema=columns)

# Menampilkan DataFrame awal
df.show()


+------------+----------+------+
|EmployeeName|Department|Salary|
+------------+----------+------+
|       James|     Sales|  3000|
|     Michael|     Sales|  4600|
|      Robert|     Sales|  4100|
|       Maria|   Finance|  3000|
+------------+----------+------+



### 2. Transformasi Dasar dengan DataFrames
Pemrosesan data meliputi transformasi seperti filtering, selections, dan aggregations. Spark menyediakan cara efisien untuk melaksanakan operasi ini.

- **Tugas 2**: Gunakan operasi filter, select, groupBy untuk mengekstrak informasi dari data, serta lakukan agregasi data untuk mendapatkan insight tentang dataset menggunakan perintah seperti mean, max, sum.

In [11]:
# Contoh operasi transformasi DataFrame

filtered_df = df.filter(df['Salary'] > 3000)
print("DataFrame yang difillter (Salary > 3000):")
filtered_df.show()


selected_df = df.select('EmployeeName', 'Salary')
print("DataFrame yang dipilih (EmployeeName and Salary):")
selected_df.show()


grouped_df = df.groupBy('Department').agg(
    F.mean('Salary').alias('AverageSalary'),
    F.max('Salary').alias('MaxSalary'),
    F.sum('Salary').alias('TotalSalary')
)

print("Agregasi DataFrame (Group by Department):")
grouped_df.show()

DataFrame yang difillter (Salary > 3000):
+------------+----------+------+
|EmployeeName|Department|Salary|
+------------+----------+------+
|     Michael|     Sales|  4600|
|      Robert|     Sales|  4100|
+------------+----------+------+

DataFrame yang dipilih (EmployeeName and Salary):
+------------+------+
|EmployeeName|Salary|
+------------+------+
|       James|  3000|
|     Michael|  4600|
|      Robert|  4100|
|       Maria|  3000|
+------------+------+

Agregasi DataFrame (Group by Department):
+----------+-------------+---------+-----------+
|Department|AverageSalary|MaxSalary|TotalSalary|
+----------+-------------+---------+-----------+
|     Sales|       3900.0|     4600|      11700|
|   Finance|       3000.0|     3000|       3000|
+----------+-------------+---------+-----------+



### 3. Bekerja dengan Tipe Data Kompleks
Spark mendukung tipe data yang kompleks seperti maps, arrays, dan structs yang memungkinkan operasi yang lebih kompleks pada dataset yang kompleks.

- **Tugas 3**: Eksplorasi bagaimana mengolah tipe data kompleks dalam Spark DataFrames.

In [7]:
# Contoh manipulasi tipe data kompleks
# Menambahkan kolom SalaryBonus (10% dari Salary)
df_with_bonus = df.withColumn('SalaryBonus', (col('Salary') * 0.1))

# Menampilkan DataFrame dengan SalaryBonus
df_with_bonus.show()

# Menambahkan kolom TotalCompensation (Salary + SalaryBonus)
df_with_total_compensation = df_with_bonus.withColumn('TotalCompensation', col('Salary') + col('SalaryBonus'))

# Menampilkan DataFrame akhir dengan TotalCompensation
df_with_total_compensation.show()


+------------+----------+------+-----------+
|EmployeeName|Department|Salary|SalaryBonus|
+------------+----------+------+-----------+
|       James|     Sales|  3000|      300.0|
|     Michael|     Sales|  4600|      460.0|
|      Robert|     Sales|  4100|      410.0|
|       Maria|   Finance|  3000|      300.0|
+------------+----------+------+-----------+

+------------+----------+------+-----------+-----------------+
|EmployeeName|Department|Salary|SalaryBonus|TotalCompensation|
+------------+----------+------+-----------+-----------------+
|       James|     Sales|  3000|      300.0|           3300.0|
|     Michael|     Sales|  4600|      460.0|           5060.0|
|      Robert|     Sales|  4100|      410.0|           4510.0|
|       Maria|   Finance|  3000|      300.0|           3300.0|
+------------+----------+------+-----------+-----------------+



### 4. Operasi Data Lanjutan
Menggunakan Spark untuk operasi lanjutan seperti window functions, user-defined functions (UDFs), dan mengoptimalkan query.

- **Tugas 4**: Implementasikan window function untuk menghitung running totals atau rangkings.

In [9]:
# Contoh menggunakan window functions
from pyspark.sql.window import Window
from pyspark.sql import functions as F


windowSpec = Window.partitionBy('Department').orderBy('Salary')


df_with_rank = df.withColumn('Rank', F.rank().over(windowSpec))


df_with_rank.show()

+------------+----------+------+----+
|EmployeeName|Department|Salary|Rank|
+------------+----------+------+----+
|       Maria|   Finance|  3000|   1|
|       James|     Sales|  3000|   1|
|      Robert|     Sales|  4100|   2|
|     Michael|     Sales|  4600|   3|
+------------+----------+------+----+



### 5. Kesimpulan dan Eksplorasi Lebih Lanjut
Review apa yang telah dipelajari tentang pemrosesan data menggunakan Spark dan eksplorasi teknik lebih lanjut untuk mengoptimalkan pemrosesan data Anda.
- **Tugas 5**: Buat ringkasan dari semua operasi yang telah dilakukan dan bagaimana teknik ini dapat diterapkan pada proyek data Anda.