# Hands-On Pertemuan 6: Data Processing dengan Apache Spark

## Tujuan:
- Memahami dan mempraktikkan data processing menggunakan Apache Spark.
- Menggunakan Spark untuk operasi data yang efisien pada dataset besar.
- Menerapkan teknik canggih dalam Spark untuk mengatasi kasus penggunaan nyata.

### 1. Pengenalan Spark DataFrames
Spark DataFrame menyediakan struktur data yang optimal dengan operasi yang dioptimalkan untuk pemrosesan data besar, yang sangat mirip dengan DataFrame di Pandas atau di RDBMS.

- **Tugas 1**: Buat DataFrame sederhana di Spark dan eksplorasi beberapa fungsi dasar yang tersedia.

In [11]:
pip install pyspark



In [12]:
# Contoh membuat DataFrame sederhana dan operasi dasar
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('HandsOnPertemuan6').getOrCreate()

data = [('James', 'Sales', 3000),
        ('Michael', 'Sales', 4600),
        ('Robert', 'Sales', 4100),
        ('Maria', 'Finance', 3000)]
columns = ['EmployeeName', 'Department', 'Salary']

df = spark.createDataFrame(data, schema=columns)
df.show()

+------------+----------+------+
|EmployeeName|Department|Salary|
+------------+----------+------+
|       James|     Sales|  3000|
|     Michael|     Sales|  4600|
|      Robert|     Sales|  4100|
|       Maria|   Finance|  3000|
+------------+----------+------+



### 2. Transformasi Dasar dengan DataFrames
Pemrosesan data meliputi transformasi seperti filtering, selections, dan aggregations. Spark menyediakan cara efisien untuk melaksanakan operasi ini.

- **Tugas 2**: Gunakan operasi filter, select, groupBy untuk mengekstrak informasi dari data, serta lakukan agregasi data untuk mendapatkan insight tentang dataset menggunakan perintah seperti mean, max, sum.

In [3]:
# Contoh operasi transformasi DataFrame
df.select('EmployeeName', 'Salary').show()
df.filter(df['Salary'] > 3000).show()
df.groupBy('Department').avg('Salary').show()

+------------+------+
|EmployeeName|Salary|
+------------+------+
|       James|  3000|
|     Michael|  4600|
|      Robert|  4100|
|       Maria|  3000|
+------------+------+

+------------+----------+------+
|EmployeeName|Department|Salary|
+------------+----------+------+
|     Michael|     Sales|  4600|
|      Robert|     Sales|  4100|
+------------+----------+------+

+----------+-----------+
|Department|avg(Salary)|
+----------+-----------+
|     Sales|     3900.0|
|   Finance|     3000.0|
+----------+-----------+



### 3. Bekerja dengan Tipe Data Kompleks
Spark mendukung tipe data yang kompleks seperti maps, arrays, dan structs yang memungkinkan operasi yang lebih kompleks pada dataset yang kompleks.

- **Tugas 3**: Eksplorasi bagaimana mengolah tipe data kompleks dalam Spark DataFrames.

In [6]:
# Contoh manipulasi tipe data kompleks
print("Tabel Salary Bonus")
df = df.withColumn('SalaryBonus', df['Salary'] * 0.1)
df.show()
print("Tabel Total Compensation")
df.withColumn('TotalCompensation', df['Salary'] + df['SalaryBonus']).show()

Tabel Salary Bonus
+------------+----------+------+-----------+
|EmployeeName|Department|Salary|SalaryBonus|
+------------+----------+------+-----------+
|       James|     Sales|  3000|      300.0|
|     Michael|     Sales|  4600|      460.0|
|      Robert|     Sales|  4100|      410.0|
|       Maria|   Finance|  3000|      300.0|
+------------+----------+------+-----------+

Tabel Total Compensation
+------------+----------+------+-----------+-----------------+
|EmployeeName|Department|Salary|SalaryBonus|TotalCompensation|
+------------+----------+------+-----------+-----------------+
|       James|     Sales|  3000|      300.0|           3300.0|
|     Michael|     Sales|  4600|      460.0|           5060.0|
|      Robert|     Sales|  4100|      410.0|           4510.0|
|       Maria|   Finance|  3000|      300.0|           3300.0|
+------------+----------+------+-----------+-----------------+



### 4. Operasi Data Lanjutan
Menggunakan Spark untuk operasi lanjutan seperti window functions, user-defined functions (UDFs), dan mengoptimalkan query.

- **Tugas 4**: Implementasikan window function untuk menghitung running totals atau rangkings.

In [7]:
# Contoh menggunakan window functions
from pyspark.sql.window import Window
from pyspark.sql import functions as F

windowSpec = Window.partitionBy('Department').orderBy('Salary')
df.withColumn('Rank', F.rank().over(windowSpec)).show()

+------------+----------+------+-----------+----+
|EmployeeName|Department|Salary|SalaryBonus|Rank|
+------------+----------+------+-----------+----+
|       Maria|   Finance|  3000|      300.0|   1|
|       James|     Sales|  3000|      300.0|   1|
|      Robert|     Sales|  4100|      410.0|   2|
|     Michael|     Sales|  4600|      460.0|   3|
+------------+----------+------+-----------+----+



### 5. Kesimpulan dan Eksplorasi Lebih Lanjut
Review apa yang telah dipelajari tentang pemrosesan data menggunakan Spark dan eksplorasi teknik lebih lanjut untuk mengoptimalkan pemrosesan data Anda.
- **Tugas 5**: Buat ringkasan dari semua operasi yang telah dilakukan dan bagaimana teknik ini dapat diterapkan pada proyek data Anda.

# **Eksplorasi Lebih Lanjut**

In [8]:
!pip install pyspark



### Menghapus Duplikat dengan dropDuplicates

In [27]:
from pyspark.sql import SparkSession, functions as F
spark = SparkSession.builder.appName('Tugas Eksplorasi 6').getOrCreate()

# Menambahkan beberapa data duplikat
data_duplikat = [
    ('Rina', 'Teknik Informatika', 5, 'Shonen', 3.5),
    ('Rina', 'Teknik Informatika', 5, 'Shonen', 3.5)
]
columns_duplikat = ['Nama', 'Jurusan', 'JumlahGamePerMinggu', 'GenreAnimeFavorit', 'GPA']
df_duplikat = spark.createDataFrame(data_duplikat, schema=columns_duplikat)

# Menampilkan DataFrame dengan duplikat
df_duplikat.show()


+----+------------------+-------------------+-----------------+---+
|Nama|           Jurusan|JumlahGamePerMinggu|GenreAnimeFavorit|GPA|
+----+------------------+-------------------+-----------------+---+
|Rina|Teknik Informatika|                  5|           Shonen|3.5|
|Rina|Teknik Informatika|                  5|           Shonen|3.5|
+----+------------------+-------------------+-----------------+---+



In [15]:
# Menghapus duplikat berdasarkan semua kolom
df_duplikat_clean = df_duplikat.dropDuplicates()
df_duplikat_clean.show()

+----+------------------+-------------------+-----------------+---+
|Nama|           Jurusan|JumlahGamePerMinggu|GenreAnimeFavorit|GPA|
+----+------------------+-------------------+-----------------+---+
|Rina|Teknik Informatika|                  5|           Shonen|3.5|
+----+------------------+-------------------+-----------------+---+



### Menangani Nilai Null dengan dropna dan fillna

In [16]:
# Membuat DataFrame dengan nilai null
data_null = [
    ('Rina', 'Teknik Informatika', 5, 'Shonen', 3.5),
    ('Budi', 'Ilmu Komputer', 7, 'Slice of Life', 3.7),
    ('Tono', 'Sistem Informasi', None, 'Isekai', 3.2),
    ('Susi', 'Teknik Elektro', 3, None, 3.8),
    ('Rika', 'Teknik Informatika', 4, 'Shounen', 3.6),
    ('Dewi', 'Ilmu Komputer', 6, 'Mecha', 3.9),
    ('Andi', 'Sistem Informasi', 2, 'Shonen', None),
    ('Lina', 'Teknik Elektro', 4, 'Isekai', 3.4)
]
columns_null = ['Nama', 'Jurusan', 'JumlahGamePerMinggu', 'GenreAnimeFavorit', 'GPA']
df_null = spark.createDataFrame(data_null, schema=columns_null)

# Menampilkan DataFrame dengan nilai null
df_null.show()


+----+------------------+-------------------+-----------------+----+
|Nama|           Jurusan|JumlahGamePerMinggu|GenreAnimeFavorit| GPA|
+----+------------------+-------------------+-----------------+----+
|Rina|Teknik Informatika|                  5|           Shonen| 3.5|
|Budi|     Ilmu Komputer|                  7|    Slice of Life| 3.7|
|Tono|  Sistem Informasi|               NULL|           Isekai| 3.2|
|Susi|    Teknik Elektro|                  3|             NULL| 3.8|
|Rika|Teknik Informatika|                  4|          Shounen| 3.6|
|Dewi|     Ilmu Komputer|                  6|            Mecha| 3.9|
|Andi|  Sistem Informasi|                  2|           Shonen|NULL|
|Lina|    Teknik Elektro|                  4|           Isekai| 3.4|
+----+------------------+-------------------+-----------------+----+



Menghapus Baris dengan Nilai Null menggunakan dropn

In [24]:
# Menghapus baris yang memiliki nilai null di kolom 'GPA'
df_null_drop = df_null.dropna(subset=['GPA'])
df_null_drop.show()

+----+------------------+-------------------+-----------------+---+
|Nama|           Jurusan|JumlahGamePerMinggu|GenreAnimeFavorit|GPA|
+----+------------------+-------------------+-----------------+---+
|Rina|Teknik Informatika|                  5|           Shonen|3.5|
|Budi|     Ilmu Komputer|                  7|    Slice of Life|3.7|
|Tono|  Sistem Informasi|               NULL|           Isekai|3.2|
|Susi|    Teknik Elektro|                  3|             NULL|3.8|
|Rika|Teknik Informatika|                  4|          Shounen|3.6|
|Dewi|     Ilmu Komputer|                  6|            Mecha|3.9|
|Lina|    Teknik Elektro|                  4|           Isekai|3.4|
+----+------------------+-------------------+-----------------+---+



Mengisi Nilai Null dengan Nilai Default menggunakan fillna

In [28]:
# Mengisi nilai null di kolom 'GPA' dengan rata-rata GPA
avg_gpa = df_null.select(F.avg('GPA')).first()[0] # Now F is defined and can be used
df_null_filled = df_null.fillna({'GPA': avg_gpa})
df_null_filled.show()

+----+------------------+-------------------+-----------------+-----------------+
|Nama|           Jurusan|JumlahGamePerMinggu|GenreAnimeFavorit|              GPA|
+----+------------------+-------------------+-----------------+-----------------+
|Rina|Teknik Informatika|                  5|           Shonen|              3.5|
|Budi|     Ilmu Komputer|                  7|    Slice of Life|              3.7|
|Tono|  Sistem Informasi|               NULL|           Isekai|              3.2|
|Susi|    Teknik Elektro|                  3|             NULL|              3.8|
|Rika|Teknik Informatika|                  4|          Shounen|              3.6|
|Dewi|     Ilmu Komputer|                  6|            Mecha|              3.9|
|Andi|  Sistem Informasi|                  2|           Shonen|3.585714285714286|
|Lina|    Teknik Elektro|                  4|           Isekai|              3.4|
+----+------------------+-------------------+-----------------+-----------------+



### Menggunakan Fungsi String: concat, substring, dan upper

In [29]:
from pyspark.sql.functions import concat, col, substring, upper

# Menggabungkan nama dan jurusan menjadi satu kolom baru
df_null_filled = df_null_filled.withColumn('Info', concat(col('Nama'), F.lit(' - '), col('Jurusan')))
df_null_filled.show(truncate=False)

+----+------------------+-------------------+-----------------+-----------------+-------------------------+
|Nama|Jurusan           |JumlahGamePerMinggu|GenreAnimeFavorit|GPA              |Info                     |
+----+------------------+-------------------+-----------------+-----------------+-------------------------+
|Rina|Teknik Informatika|5                  |Shonen           |3.5              |Rina - Teknik Informatika|
|Budi|Ilmu Komputer     |7                  |Slice of Life    |3.7              |Budi - Ilmu Komputer     |
|Tono|Sistem Informasi  |NULL               |Isekai           |3.2              |Tono - Sistem Informasi  |
|Susi|Teknik Elektro    |3                  |NULL             |3.8              |Susi - Teknik Elektro    |
|Rika|Teknik Informatika|4                  |Shounen          |3.6              |Rika - Teknik Informatika|
|Dewi|Ilmu Komputer     |6                  |Mecha            |3.9              |Dewi - Ilmu Komputer     |
|Andi|Sistem Informasi  |2  

Mengambil substring dari kolom 'GenreAnimeFavorit':

In [34]:
# Mengambil 3 karakter pertama dari 'GenreAnimeFavorit'
df_null_filled = df_null_filled.withColumn('GenrePrefShort', substring('GenreAnimeFavorit', 1, 3))
df_null_filled.show()

+----+------------------+-------------------+-----------------+-----------------+--------------------+--------------+
|Nama|           Jurusan|JumlahGamePerMinggu|GenreAnimeFavorit|              GPA|                Info|GenrePrefShort|
+----+------------------+-------------------+-----------------+-----------------+--------------------+--------------+
|Rina|Teknik Informatika|                  5|           Shonen|              3.5|Rina - Teknik Inf...|           Sho|
|Budi|     Ilmu Komputer|                  7|    Slice of Life|              3.7|Budi - Ilmu Komputer|           Sli|
|Tono|  Sistem Informasi|               NULL|           Isekai|              3.2|Tono - Sistem Inf...|           Ise|
|Susi|    Teknik Elektro|                  3|             NULL|              3.8|Susi - Teknik Ele...|          NULL|
|Rika|Teknik Informatika|                  4|          Shounen|              3.6|Rika - Teknik Inf...|           Sho|
|Dewi|     Ilmu Komputer|                  6|           

### Menggunakan Fungsi Array: explode

In [30]:
from pyspark.sql.functions import explode, split

# Menambahkan kolom 'Hobi' sebagai array string
data_hobi = [
    ('Rina', 'Teknik Informatika', 5, ['Game', 'Anime'], 3.5),
    ('Budi', 'Ilmu Komputer', 7, ['Anime', 'Membaca'], 3.7),
    ('Tono', 'Sistem Informasi', None, ['Isekai'], 3.2),
    ('Susi', 'Teknik Elektro', 3, ['Game'], 3.8),
    ('Rika', 'Teknik Informatika', 4, ['Anime', 'Bermain Musik'], 3.6),
    ('Dewi', 'Ilmu Komputer', 6, ['Game', 'Anime', 'Olahraga'], 3.9),
    ('Andi', 'Sistem Informasi', 2, ['Game'], None),
    ('Lina', 'Teknik Elektro', 4, ['Anime'], 3.4)
]
columns_hobi = ['Nama', 'Jurusan', 'JumlahGamePerMinggu', 'Hobi', 'GPA']
df_hobi = spark.createDataFrame(data_hobi, schema=columns_hobi)

# Menampilkan DataFrame dengan kolom array 'Hobi'
df_hobi.show(truncate=False)

+----+------------------+-------------------+-----------------------+----+
|Nama|Jurusan           |JumlahGamePerMinggu|Hobi                   |GPA |
+----+------------------+-------------------+-----------------------+----+
|Rina|Teknik Informatika|5                  |[Game, Anime]          |3.5 |
|Budi|Ilmu Komputer     |7                  |[Anime, Membaca]       |3.7 |
|Tono|Sistem Informasi  |NULL               |[Isekai]               |3.2 |
|Susi|Teknik Elektro    |3                  |[Game]                 |3.8 |
|Rika|Teknik Informatika|4                  |[Anime, Bermain Musik] |3.6 |
|Dewi|Ilmu Komputer     |6                  |[Game, Anime, Olahraga]|3.9 |
|Andi|Sistem Informasi  |2                  |[Game]                 |NULL|
|Lina|Teknik Elektro    |4                  |[Anime]                |3.4 |
+----+------------------+-------------------+-----------------------+----+



Menggunakan explode untuk memecah array 'Hobi' menjadi baris terpisah:

In [31]:
# Menggunakan explode untuk memecah kolom array 'Hobi'
df_exploded = df_hobi.withColumn('Hobi', explode('Hobi'))
df_exploded.show()

+----+------------------+-------------------+-------------+----+
|Nama|           Jurusan|JumlahGamePerMinggu|         Hobi| GPA|
+----+------------------+-------------------+-------------+----+
|Rina|Teknik Informatika|                  5|         Game| 3.5|
|Rina|Teknik Informatika|                  5|        Anime| 3.5|
|Budi|     Ilmu Komputer|                  7|        Anime| 3.7|
|Budi|     Ilmu Komputer|                  7|      Membaca| 3.7|
|Tono|  Sistem Informasi|               NULL|       Isekai| 3.2|
|Susi|    Teknik Elektro|                  3|         Game| 3.8|
|Rika|Teknik Informatika|                  4|        Anime| 3.6|
|Rika|Teknik Informatika|                  4|Bermain Musik| 3.6|
|Dewi|     Ilmu Komputer|                  6|         Game| 3.9|
|Dewi|     Ilmu Komputer|                  6|        Anime| 3.9|
|Dewi|     Ilmu Komputer|                  6|     Olahraga| 3.9|
|Andi|  Sistem Informasi|                  2|         Game|NULL|
|Lina|    Teknik Elektro|

### Mengurutkan Data dengan orderBy dan sort

In [32]:
# Mengurutkan berdasarkan 'GPA' secara menurun
df_hobi.orderBy(F.desc('GPA')).show()

+----+------------------+-------------------+--------------------+----+
|Nama|           Jurusan|JumlahGamePerMinggu|                Hobi| GPA|
+----+------------------+-------------------+--------------------+----+
|Dewi|     Ilmu Komputer|                  6|[Game, Anime, Ola...| 3.9|
|Susi|    Teknik Elektro|                  3|              [Game]| 3.8|
|Budi|     Ilmu Komputer|                  7|    [Anime, Membaca]| 3.7|
|Rika|Teknik Informatika|                  4|[Anime, Bermain M...| 3.6|
|Rina|Teknik Informatika|                  5|       [Game, Anime]| 3.5|
|Lina|    Teknik Elektro|                  4|             [Anime]| 3.4|
|Tono|  Sistem Informasi|               NULL|            [Isekai]| 3.2|
|Andi|  Sistem Informasi|                  2|              [Game]|NULL|
+----+------------------+-------------------+--------------------+----+



### Mendapatkan Statistik Deskriptif dengan describe

In [33]:
# Mendapatkan statistik deskriptif dari kolom 'JumlahGamePerMinggu' dan 'GPA'
df_hobi.describe(['JumlahGamePerMinggu', 'GPA']).show()

+-------+-------------------+-------------------+
|summary|JumlahGamePerMinggu|                GPA|
+-------+-------------------+-------------------+
|  count|                  7|                  7|
|   mean|  4.428571428571429|  3.585714285714286|
| stddev| 1.7182493859684491|0.24102953780654784|
|    min|                  2|                3.2|
|    max|                  7|                3.9|
+-------+-------------------+-------------------+

