# Hands-On Pertemuan 6: Data Processing dengan Apache Spark

## Tujuan:
- Memahami dan mempraktikkan data processing menggunakan Apache Spark.
- Menggunakan Spark untuk operasi data yang efisien pada dataset besar.
- Menerapkan teknik canggih dalam Spark untuk mengatasi kasus penggunaan nyata.

### 1. Pengenalan Spark DataFrames
Spark DataFrame menyediakan struktur data yang optimal dengan operasi yang dioptimalkan untuk pemrosesan data besar, yang sangat mirip dengan DataFrame di Pandas atau di RDBMS.

- **Tugas 1**: Buat DataFrame sederhana di Spark dan eksplorasi beberapa fungsi dasar yang tersedia.

In [None]:
pip install pyspark==3.4.1



In [None]:
pip install pandas



In [None]:
pip install findspark



In [None]:
# Contoh membuat DataFrame sederhana dan operasi dasar
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('HandsOnPertemuan6').getOrCreate()

data = [('James', 'Sales', 3000),
        ('Michael', 'Sales', 4600),
        ('Robert', 'Sales', 4100),
        ('Maria', 'Finance', 3000)]
columns = ['EmployeeName', 'Department', 'Salary']

df = spark.createDataFrame(data, schema=columns)
df.show()

+------------+----------+------+
|EmployeeName|Department|Salary|
+------------+----------+------+
|       James|     Sales|  3000|
|     Michael|     Sales|  4600|
|      Robert|     Sales|  4100|
|       Maria|   Finance|  3000|
+------------+----------+------+



### 2. Transformasi Dasar dengan DataFrames
Pemrosesan data meliputi transformasi seperti filtering, selections, dan aggregations. Spark menyediakan cara efisien untuk melaksanakan operasi ini.

- **Tugas 2**: Gunakan operasi filter, select, groupBy untuk mengekstrak informasi dari data, serta lakukan agregasi data untuk mendapatkan insight tentang dataset menggunakan perintah seperti mean, max, sum.

In [None]:
# Contoh operasi transformasi DataFrame
from pyspark.sql.functions import mean, max, sum, min

print ("Tabel Nama Pegawai dan Salary")
df_select = df.select('EmployeeName', 'Salary')
df_select.show()

print ("Pegawai dengan Salary lebih dari 3000")
df_filter = df.filter(df['Salary'] > 3000)
df_filter.show()

print ("Rata-rata Salary tiap Departemen")
df_groupBy = df.groupBy('Department').avg('Salary')
df_groupBy.show()

print ("Insight Dataset")
agregasi_df = df.groupBy("Department").agg(
    mean("Salary").alias("Average Salary"),
    max("Salary").alias("Max Salary"),
    min("Salary").alias("Min Salary"),
    sum("Salary").alias("Total Salary")
)
agregasi_df.show()


Tabel Nama Pegawai dan Salary
+------------+------+
|EmployeeName|Salary|
+------------+------+
|       James|  3000|
|     Michael|  4600|
|      Robert|  4100|
|       Maria|  3000|
+------------+------+

Pegawai dengan Salary lebih dari 3000
+------------+----------+------+
|EmployeeName|Department|Salary|
+------------+----------+------+
|     Michael|     Sales|  4600|
|      Robert|     Sales|  4100|
+------------+----------+------+

Rata-rata Salary tiap Departemen
+----------+-----------+
|Department|avg(Salary)|
+----------+-----------+
|     Sales|     3900.0|
|   Finance|     3000.0|
+----------+-----------+

Insight Dataset
+----------+--------------+----------+----------+------------+
|Department|Average Salary|Max Salary|Min Salary|Total Salary|
+----------+--------------+----------+----------+------------+
|     Sales|        3900.0|      4600|      3000|       11700|
|   Finance|        3000.0|      3000|      3000|        3000|
+----------+--------------+----------+---

### 3. Bekerja dengan Tipe Data Kompleks
Spark mendukung tipe data yang kompleks seperti maps, arrays, dan structs yang memungkinkan operasi yang lebih kompleks pada dataset yang kompleks.

- **Tugas 3**: Eksplorasi bagaimana mengolah tipe data kompleks dalam Spark DataFrames.

In [None]:
# Contoh manipulasi tipe data kompleks
from pyspark.sql.functions import col

print ("Salary Bonus")
df_bonus = df.withColumn('SalaryBonus', df['Salary'] * 0.1)
df_bonus.show()

print ("Compensation")
df_compensation = df_bonus.withColumn('TotalCompensation', col('Salary') + col('SalaryBonus'))
df_compensation.show()

Salary Bonus
+------------+----------+------+-----------+
|EmployeeName|Department|Salary|SalaryBonus|
+------------+----------+------+-----------+
|       James|     Sales|  3000|      300.0|
|     Michael|     Sales|  4600|      460.0|
|      Robert|     Sales|  4100|      410.0|
|       Maria|   Finance|  3000|      300.0|
+------------+----------+------+-----------+

Compensation
+------------+----------+------+-----------+-----------------+
|EmployeeName|Department|Salary|SalaryBonus|TotalCompensation|
+------------+----------+------+-----------+-----------------+
|       James|     Sales|  3000|      300.0|           3300.0|
|     Michael|     Sales|  4600|      460.0|           5060.0|
|      Robert|     Sales|  4100|      410.0|           4510.0|
|       Maria|   Finance|  3000|      300.0|           3300.0|
+------------+----------+------+-----------+-----------------+



### 4. Operasi Data Lanjutan
Menggunakan Spark untuk operasi lanjutan seperti window functions, user-defined functions (UDFs), dan mengoptimalkan query.

- **Tugas 4**: Implementasikan window function untuk menghitung running totals atau rangkings.

In [None]:
# Contoh menggunakan window functions
from pyspark.sql.window import Window
from pyspark.sql import functions as F

windowSpec = Window.partitionBy('Department').orderBy('Salary')
df.withColumn('Rank', F.rank().over(windowSpec)).show()

+------------+----------+------+----+
|EmployeeName|Department|Salary|Rank|
+------------+----------+------+----+
|       Maria|   Finance|  3000|   1|
|       James|     Sales|  3000|   1|
|      Robert|     Sales|  4100|   2|
|     Michael|     Sales|  4600|   3|
+------------+----------+------+----+



### 5. Kesimpulan dan Eksplorasi Lebih Lanjut
Review apa yang telah dipelajari tentang pemrosesan data menggunakan Spark dan eksplorasi teknik lebih lanjut untuk mengoptimalkan pemrosesan data Anda.
- **Tugas 5**: Buat ringkasan dari semua operasi yang telah dilakukan dan bagaimana teknik ini dapat diterapkan pada proyek data Anda.

In [None]:
csv_file_path = "Salary_dataset.csv"
df = spark.read.csv(csv_file_path, header=True, inferSchema=True)

df.printSchema()

root
 |-- _c0: integer (nullable = true)
 |-- YearsExperience: double (nullable = true)
 |-- Salary: double (nullable = true)



In [None]:
df.show()

+---+------------------+-------+
|_c0|   YearsExperience| Salary|
+---+------------------+-------+
|  0|1.2000000000000002|39344.0|
|  1|1.4000000000000001|46206.0|
|  2|               1.6|37732.0|
|  3|               2.1|43526.0|
|  4|2.3000000000000003|39892.0|
|  5|               3.0|56643.0|
|  6|               3.1|60151.0|
|  7|3.3000000000000003|54446.0|
|  8|3.3000000000000003|64446.0|
|  9|3.8000000000000003|57190.0|
| 10|               4.0|63219.0|
| 11|               4.1|55795.0|
| 12|               4.1|56958.0|
| 13| 4.199999999999999|57082.0|
| 14|               4.6|61112.0|
| 15|               5.0|67939.0|
| 16| 5.199999999999999|66030.0|
| 17|5.3999999999999995|83089.0|
| 18|               6.0|81364.0|
| 19|               6.1|93941.0|
+---+------------------+-------+
only showing top 20 rows



In [None]:
df_RasioGajiPerTahun = df.withColumn("Rasio Gaji Per Tahun", col("Salary") / col("YearsExperience"))
df_RasioGajiPerTahun.show()

+---+------------------+-------+--------------------+
|_c0|   YearsExperience| Salary|Rasio Gaji Per Tahun|
+---+------------------+-------+--------------------+
|  0|1.2000000000000002|39344.0|  32786.666666666664|
|  1|1.4000000000000001|46206.0|   33004.28571428571|
|  2|               1.6|37732.0|             23582.5|
|  3|               2.1|43526.0|  20726.666666666664|
|  4|2.3000000000000003|39892.0|  17344.347826086956|
|  5|               3.0|56643.0|             18881.0|
|  6|               3.1|60151.0|  19403.548387096773|
|  7|3.3000000000000003|54446.0|  16498.787878787876|
|  8|3.3000000000000003|64446.0|  19529.090909090908|
|  9|3.8000000000000003|57190.0|  15049.999999999998|
| 10|               4.0|63219.0|            15804.75|
| 11|               4.1|55795.0|  13608.536585365855|
| 12|               4.1|56958.0|  13892.195121951221|
| 13| 4.199999999999999|57082.0|  13590.952380952383|
| 14|               4.6|61112.0|  13285.217391304348|
| 15|               5.0|6793

In [None]:
count_experience_5 = df.filter(col("YearsExperience") > 5).count()
print(f"Jumlah orang dengan lebih dari 5 tahun pengalaman: {count_experience_5}")

Jumlah orang dengan lebih dari 5 tahun pengalaman: 14
