# Hands-O Pertemuan 6: Data Processing dengan Apache Spark

**Tugas 1**

Buat DataFrame sederhana di spark dan eksplorasi beberapa fungsi dasar yang tersedia

In [4]:
import findspark
findspark.init()

In [7]:
from pyspark.sql import SparkSession
from pyspark.sql import functions as F
spark = SparkSession.builder.appName('HandsOnPertemuan^').getOrCreate()

data = [('Vania', 'Desainer', 10000),
        ('Febri', 'Marketing', 6600),
        ('Junior', 'Desainer', 9900),
        ('Ling', 'Desainer', 9800)]
columns = ['EmployeeName', 'Department', 'Salary']
df = spark.createDataFrame(data, schema=columns)
df.show()

+------------+----------+------+
|EmployeeName|Department|Salary|
+------------+----------+------+
|       Vania|  Desainer| 10000|
|       Febri| Marketing|  6600|
|      Junior|  Desainer|  9900|
|        Ling|  Desainer|  9800|
+------------+----------+------+



**Tugas 2**

  Gunakan operasi filter, select, groupBy untuk mengekstrak informasi dari data, serta lakukan agregasi data untuk mendapatkan insight tentang dataset menggunakan perintah seperti mean, max, dan sum

In [8]:
df.select('employeeName', 'Salary').show()
df.filter(df['Salary'] > 7000).show()
df.groupBy('Department').avg('Salary').show()
df.groupBy('Department').agg(
    F.mean('Salary').alias('mean_salary'),
    F.max('Salary').alias('max_salary'),
    F.sum('Salary').alias('total_salary'),
).show()

+------------+------+
|employeeName|Salary|
+------------+------+
|       Vania| 10000|
|       Febri|  6600|
|      Junior|  9900|
|        Ling|  9800|
+------------+------+

+------------+----------+------+
|EmployeeName|Department|Salary|
+------------+----------+------+
|       Vania|  Desainer| 10000|
|      Junior|  Desainer|  9900|
|        Ling|  Desainer|  9800|
+------------+----------+------+

+----------+-----------+
|Department|avg(Salary)|
+----------+-----------+
|  Desainer|     9900.0|
| Marketing|     6600.0|
+----------+-----------+

+----------+-----------+----------+------------+
|Department|mean_salary|max_salary|total_salary|
+----------+-----------+----------+------------+
|  Desainer|     9900.0|     10000|       29700|
| Marketing|     6600.0|      6600|        6600|
+----------+-----------+----------+------------+



**Tugas 3**
Eksplorasi bagaimana mengolah tipe data kompleks dalam Spark DataFrames.

In [9]:
df = df.withColumn('SalaryBonus', df['Salary'] * 0.1)
df = df.withColumn('TotalCompensation', df['Salary'] + df['Salarybonus'])
df.show()

+------------+----------+------+-----------+-----------------+
|EmployeeName|Department|Salary|SalaryBonus|TotalCompensation|
+------------+----------+------+-----------+-----------------+
|       Vania|  Desainer| 10000|     1000.0|          11000.0|
|       Febri| Marketing|  6600|      660.0|           7260.0|
|      Junior|  Desainer|  9900|      990.0|          10890.0|
|        Ling|  Desainer|  9800|      980.0|          10780.0|
+------------+----------+------+-----------+-----------------+



**Tugas 4**

Implementasi window function untuk menghitung running totals atau rangkings.

In [16]:
from pyspark.sql.window import Window
from pyspark.sql import functions as F

windowSpec = Window.partitionBy('Department').orderBy('Salary')
df.withColumn('Rank', F.rank().over(windowSpec)).show()

+------------+----------+------+-----------+-----------------+----+
|EmployeeName|Department|Salary|SalaryBonus|TotalCompensation|Rank|
+------------+----------+------+-----------+-----------------+----+
|        Ling|  Desainer|  9800|      980.0|          10780.0|   1|
|      Junior|  Desainer|  9900|      990.0|          10890.0|   2|
|       Vania|  Desainer| 10000|     1000.0|          11000.0|   3|
|       Febri| Marketing|  6600|      660.0|           7260.0|   1|
+------------+----------+------+-----------+-----------------+----+



**Tugas 5**

Buat ringkasan dari semua operasi yang telah dilakukan dan bagaimana teknik ini dapat diterapkan pada proyek data anda.

**Operasi Transformasi**

*  map(): Menerapkan fungsi ke setiap elemen dalam DataFrame dan menghasilkan DataFrame baru.* 
filter(): Memilih elemen-elemen yang memenuhi kondisi tertentu
* 
filterMap(): Sama seperti map() setiap elemen dapat diubah menjadi beberapa eleme
* .
distinct(): Menghapus duplikasi elemen dalam DataFra
* e.
sample(): Mengambil sampel acak dari Dataf.
* me.
union(): Menggabungkan dua DataFrame menjadi.
* atu.
groupBy(): Mengelompokan elemen berdasarkan kunci yang diten
* ukan.
join(): Menggabungkan dus DataFrame berdasarkan
* kunci.
sortBy(): Mengurutkan elemen-elemen berdasarkan kondisi t
  

**Operasi Aksi**

* collect(): Menggambil semua elemen dari DataFrame dan mengembalikan ke driver.
* 
count(): Menghitung jumlah elemen dalam DataFrame
* 
reduce(): Menggabungkan elemen-elemen DataFrame menggunakan fungsi asosiatif (misalnya, untuk menghitung tota-l atau maksimum
* .
take(n): Mengambil n elemen pertama dari DataFra
* e.
saveAsTextFile(): Menyimpan elemen DataFrame ke file teks.ertentu.