In [69]:
# Contoh membuat DataFrame sederhana dan operasi dasar
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('HandsOnPertemuan3').getOrCreate()

data = [('James', 'Sales', 3000),
        ('Michael', 'Sales', 4600),
        ('Robert', 'Sales', 4100),
        ('Maria', 'Finance', 3000)]
columns = ['EmployeeName', 'Department', 'Salary']

df = spark.createDataFrame(data, schema=columns)
df.show()

25/09/10 17:13:38 WARN SparkSession: Using an existing Spark session; only runtime SQL configurations will take effect.


+------------+----------+------+
|EmployeeName|Department|Salary|
+------------+----------+------+
|       James|     Sales|  3000|
|     Michael|     Sales|  4600|
|      Robert|     Sales|  4100|
|       Maria|   Finance|  3000|
+------------+----------+------+



In [70]:
# Contoh operasi transformasi DataFrame
df.select('EmployeeName', 'Salary').show()
df.filter(df['Salary'] > 3000).show()
df.groupBy('Department').avg('Salary').show()

+------------+------+
|EmployeeName|Salary|
+------------+------+
|       James|  3000|
|     Michael|  4600|
|      Robert|  4100|
|       Maria|  3000|
+------------+------+

+------------+----------+------+
|EmployeeName|Department|Salary|
+------------+----------+------+
|     Michael|     Sales|  4600|
|      Robert|     Sales|  4100|
+------------+----------+------+

+----------+-----------+
|Department|avg(Salary)|
+----------+-----------+
|     Sales|     3900.0|
|   Finance|     3000.0|
+----------+-----------+



In [71]:
# Contoh manipulasi tipe data kompleks
df = df.withColumn('SalaryBonus', df['Salary'] * 0.1)
df.show()
df = df.withColumn('TotalCompensation', df['Salary'] + df['SalaryBonus'])
df.show()

+------------+----------+------+-----------+
|EmployeeName|Department|Salary|SalaryBonus|
+------------+----------+------+-----------+
|       James|     Sales|  3000|      300.0|
|     Michael|     Sales|  4600|      460.0|
|      Robert|     Sales|  4100|      410.0|
|       Maria|   Finance|  3000|      300.0|
+------------+----------+------+-----------+

+------------+----------+------+-----------+-----------------+
|EmployeeName|Department|Salary|SalaryBonus|TotalCompensation|
+------------+----------+------+-----------+-----------------+
|       James|     Sales|  3000|      300.0|           3300.0|
|     Michael|     Sales|  4600|      460.0|           5060.0|
|      Robert|     Sales|  4100|      410.0|           4510.0|
|       Maria|   Finance|  3000|      300.0|           3300.0|
+------------+----------+------+-----------+-----------------+



In [72]:
# Contoh menggunakan window functions
from pyspark.sql.window import Window
from pyspark.sql import functions as F

windowSpec = Window.partitionBy('Department').orderBy('Salary')
df.withColumn('Rank', F.rank().over(windowSpec)).show()

+------------+----------+------+-----------+-----------------+----+
|EmployeeName|Department|Salary|SalaryBonus|TotalCompensation|Rank|
+------------+----------+------+-----------+-----------------+----+
|       Maria|   Finance|  3000|      300.0|           3300.0|   1|
|       James|     Sales|  3000|      300.0|           3300.0|   1|
|      Robert|     Sales|  4100|      410.0|           4510.0|   2|
|     Michael|     Sales|  4600|      460.0|           5060.0|   3|
+------------+----------+------+-----------+-----------------+----+



## Tugas 1: Buat DataFrame sederhana di Spark dan eksplorasi beberapa fungsi dasar yang tersedia.

In [73]:
# Melakukan import SparkSession untuk memulai atau mendapatkan sebuah sesi dari library pyspark.sql
from pyspark.sql import SparkSession

# Mendapatkan atau membuat sebuah sesi bernama "Pertemuan 3" untuk agar dapat mengakses library pyspark
spark = SparkSession.builder.appName("Pertemuan3").getOrCreate()

# Membuat sebuah list yang di dalamnya terdapat beberapa tupple untuk membuat sebuah dataframe pyspark
data = [
    ('Budi', 'IT Consultant', 5000),     # Pekerjaan paling sulit
    ('Figo', 'IT Software', 4000),       # Pekerjaan cukup sulit
    ('Kana', 'Android Developer', 3500), # Pekerjaan Menengah
    ('Zico', 'Web Developer', 3000)      # Pekerjaan yang Lebih mudah
]
# Membuat sebuah list berisi nama - nama kolom untuk dataframe dari data di atas
columns = ["NamaPegawai", "Jabatan", "Gaji"]

# Membuat sebuah dataframe
df = spark.createDataFrame(data, columns)

# Menampilkan data
df.show()

+-----------+-----------------+----+
|NamaPegawai|          Jabatan|Gaji|
+-----------+-----------------+----+
|       Budi|    IT Consultant|5000|
|       Figo|      IT Software|4000|
|       Kana|Android Developer|3500|
|       Zico|    Web Developer|3000|
+-----------+-----------------+----+



25/09/10 17:13:39 WARN SparkSession: Using an existing Spark session; only runtime SQL configurations will take effect.


## Tugas 2: Gunakan operasi filter, select, groupBy untuk mengekstrak informasi dari data, serta lakukan agregasi data untuk mendapatkan insight tentang dataset menggunakan perintah seperti mean, max, sum.

In [74]:
# Menampilkan beberapa field yaitu field NamaPegawai dan Gaji
df.select("NamaPegawai", "Gaji").show()

# Menampilkan data pegawa yang gajinya diatas 3000
df.filter(df["Gaji"] > 3000).show()

# Melakukan sebuah groupBy lalu menghirung rata rata dari gaji setiap divisi jembatan
df.groupBy("Jabatan").avg("Gaji").show()

# Untuk melakukan fungsi aggregasi seperti mean, max, sum maka kita harus melakukan import library terlebih dahulu
from pyspark.sql.functions import mean, max, sum

# MElakukan sebuah groupby untuk menyatukan seluruh data lalu menghitung rata - rata total dari gaji
df.groupby().agg(mean(df["Gaji"]).alias("Rata - Rata Gaji")).show()

# MElakukan sebuah groupby untuk menyatukan seluruh data lalu menghitung nilai maksimal total dari gaji
df.groupBy().agg(max(df["Gaji"]).alias("Nilai Maksimum Dari Gaji")).show()

# MElakukan sebuah groupby untuk menyatukan seluruh data lalu menghitung jumlah total dari gaji
df.groupBy().agg(sum(df["Gaji"]).alias("Total Keseluruhan Gaji")).show()

+-----------+----+
|NamaPegawai|Gaji|
+-----------+----+
|       Budi|5000|
|       Figo|4000|
|       Kana|3500|
|       Zico|3000|
+-----------+----+

+-----------+-----------------+----+
|NamaPegawai|          Jabatan|Gaji|
+-----------+-----------------+----+
|       Budi|    IT Consultant|5000|
|       Figo|      IT Software|4000|
|       Kana|Android Developer|3500|
+-----------+-----------------+----+

+-----------------+---------+
|          Jabatan|avg(Gaji)|
+-----------------+---------+
|    IT Consultant|   5000.0|
|      IT Software|   4000.0|
|Android Developer|   3500.0|
|    Web Developer|   3000.0|
+-----------------+---------+

+----------------+
|Rata - Rata Gaji|
+----------------+
|          3875.0|
+----------------+

+------------------------+
|Nilai Maksimum Dari Gaji|
+------------------------+
|                    5000|
+------------------------+

+----------------------+
|Total Keseluruhan Gaji|
+----------------------+
|                 15500|
+-------------

## Tugas 3: Eksplorasi bagaimana mengolah tipe data kompleks dalam Spark DataFrames.

In [75]:
# menggunakan when dimana berfungsi untuk menjalankan aksi jika kondisi true
from pyspark.sql.functions import when

# Buat kolom tunjangan dimana tunjangan diberikan pada gaji yang lebih besar dari 3500
df = df.withColumn('TunjanganKesehatan', when(df['Gaji'] > 3500, df['Gaji'] * 0.05).otherwise(0))

# Menampilkan tunjangan
df.show()

# Membuat total keseluruhan gaji dari Gaji + Tunjangan Kesehatan
df = df.withColumn("TotalGaji", df["Gaji"] + df["TunjanganKesehatan"])

# Menampilkan total keseluruhan gaji
df.show()

+-----------+-----------------+----+------------------+
|NamaPegawai|          Jabatan|Gaji|TunjanganKesehatan|
+-----------+-----------------+----+------------------+
|       Budi|    IT Consultant|5000|             250.0|
|       Figo|      IT Software|4000|             200.0|
|       Kana|Android Developer|3500|               0.0|
|       Zico|    Web Developer|3000|               0.0|
+-----------+-----------------+----+------------------+

+-----------+-----------------+----+------------------+---------+
|NamaPegawai|          Jabatan|Gaji|TunjanganKesehatan|TotalGaji|
+-----------+-----------------+----+------------------+---------+
|       Budi|    IT Consultant|5000|             250.0|   5250.0|
|       Figo|      IT Software|4000|             200.0|   4200.0|
|       Kana|Android Developer|3500|               0.0|   3500.0|
|       Zico|    Web Developer|3000|               0.0|   3000.0|
+-----------+-----------------+----+------------------+---------+



## Tugas 4: Implementasikan window function untuk menghitung running totals atau rangking.

In [76]:

# Membuat sebuah list dengan kumpulan tupple untuk membuat sebuah dataframe
data = [
    ('Farrel', 'IT Consultant', 3000, 0.0, 3000.0),     # Pekerjaan paling sulit
    ('Arya', 'IT Software', 3300, 0.0, 3300.0),       # Pekerjaan cukup sulit
    ('Mia', 'Android Developer', 1200, 0.0, 1200.0), # Pekerjaan Menengah
    ('Alucard', 'Web Developer', 5000, 250.0, 5250.0)      # Pekerjaan yang Lebih mudah
]

# Membuat sebuah kolom untuk dataframe nantinya
columns = ["NamaPegawai", "Jabatan", "Gaji", "TunjanganKesehatan", "TotalGaji"]

# Membuat sebuah dataframe dengan nilai data dan kolom yang sudah dibuat sebelumnya
df2 = spark.createDataFrame(data, columns)

# Menggabungkan dataframe dari variabel df dengan df2
df = df.union(df2)

# Mengimport library window untuk membuat aturan dalam melihat baris yang lain
from pyspark.sql.window import Window
# Mengimport library max dan rank untuk melihat nilai maksimum dan ranking
from pyspark.sql.functions import max, rank

# Menentukan aturan window
# Pada kasus ini aturannya adalah melihat baris lain berdasarkan Jabatan maka dibuat dulu sebuah partisi Jabatan diurutkan berdasarkan TotalGaji
windowRule = Window.partitionBy("Jabatan")
"""
Melakukan fungsi agregasi tapi tidak melakukan groupBy tetapi menggunakan over yang
membuat fungsi agregasi dilakukan berdasarkan daerah yang dipilih yaitu Jabatan tetapi
tidak merubah nilai aslinya
"""
# Menambahkan nilai maksimum gaji di setiap jabtannya 
df = df.withColumn("NilaiMaksimumGajiDiJabatannya", max(df["TotalGaji"]).over(windowRule))
# Menampilkan nilai rangking dari gaji
df = df.withColumn("Ranking", rank().over(windowRule.orderBy("TotalGaji")))
df.show()


+-----------+-----------------+----+------------------+---------+-----------------------------+-------+
|NamaPegawai|          Jabatan|Gaji|TunjanganKesehatan|TotalGaji|NilaiMaksimumGajiDiJabatannya|Ranking|
+-----------+-----------------+----+------------------+---------+-----------------------------+-------+
|        Mia|Android Developer|1200|               0.0|   1200.0|                       3500.0|      1|
|       Kana|Android Developer|3500|               0.0|   3500.0|                       3500.0|      2|
|     Farrel|    IT Consultant|3000|               0.0|   3000.0|                       5250.0|      1|
|       Budi|    IT Consultant|5000|             250.0|   5250.0|                       5250.0|      2|
|       Arya|      IT Software|3300|               0.0|   3300.0|                       4200.0|      1|
|       Figo|      IT Software|4000|             200.0|   4200.0|                       4200.0|      2|
|       Zico|    Web Developer|3000|               0.0|   3000.0

## Tugas 5:
### Unduh dataset besar dari Kaggle atau sumber lainnya.
### Input data csv yang telah di download, kemudian load dan simpan data ke dalam pyspark.
### Setelah data berhasil di load menggunakan pyspark, lakukan manipulasi data untuk memperoleh informasi yang dibutuhkanS

In [87]:
# Mengubah data csv menjadi dataframe pyspark

# Pertama saya gunaakan pandas
import pandas as pd

# lalu buat jadi dataframe pandas 
df_titanic = pd.read_csv('titanic.csv', index_col="PassengerId")

# lalu ubah ke pyspark dataframe
df_titanic = spark.createDataFrame(df_titanic)
df_titanic.show()


+--------+------+--------------------+------+----+-----+-----+----------------+-------+-----+--------+
|Survived|Pclass|                Name|   Sex| Age|SibSp|Parch|          Ticket|   Fare|Cabin|Embarked|
+--------+------+--------------------+------+----+-----+-----+----------------+-------+-----+--------+
|       0|     3|Braund, Mr. Owen ...|  male|22.0|    1|    0|       A/5 21171|   7.25|  NaN|       S|
|       1|     1|Cumings, Mrs. Joh...|female|38.0|    1|    0|        PC 17599|71.2833|  C85|       C|
|       1|     3|Heikkinen, Miss. ...|female|26.0|    0|    0|STON/O2. 3101282|  7.925|  NaN|       S|
|       1|     1|Futrelle, Mrs. Ja...|female|35.0|    1|    0|          113803|   53.1| C123|       S|
|       0|     3|Allen, Mr. Willia...|  male|35.0|    0|    0|          373450|   8.05|  NaN|       S|
|       0|     3|    Moran, Mr. James|  male| NaN|    0|    0|          330877| 8.4583|  NaN|       Q|
|       0|     1|McCarthy, Mr. Tim...|  male|54.0|    0|    0|           

In [100]:
# Menghapus kolom Cabin dengan alasan terdapat 70% informasi cabin penumpang hilang akibat tragedi oleh sebab itu kolom cabin akan dihapus.
df_titanic = df_titanic.drop('Cabin')

# Mengkategorikan kasta penumpang berdasarkan level penumpang atau PClass. 1 untuk Bangsawan, 2 untuk Menengah, 3 untuk Rakyat Biasa.
df_titanic = df_titanic.withColumn(
    "Passenger Caste",
    when(df_titanic["Pclass"] == "1", "Upper Class")
    .when(df_titanic["Pclass"] == "2", "Middle Class")
    .otherwise("Lower Class")
)

# Mendetailkan informasi pelabuhan keberangkatan pada Embarked untuk mengetahui asal penumpang dari mana.
df_titanic = df_titanic.withColumn(
    "Embarked",
    when(df_titanic["Embarked"] == "C", "Cherbourg")
    .when(df_titanic["Embarked"] == "Q", "Queenstown")
    .when(df_titanic["Embarked"] == "S", "Southampton")
    .otherwise(df_titanic["Embarked"])  # untuk nilai lain tetap sama
)

# Terakhir mentotalkan jumlah keluarga yang dimiliki dari SibSp + Parch. 
df_titanic = df_titanic.withColumn("TotalFamilies", df_titanic['SibSp'] + df_titanic["Parch"])

df_titanic.show()

+--------+------+--------------------+------+----+-----+-----+----------------+-------+-----------+---------------+-------------+
|Survived|Pclass|                Name|   Sex| Age|SibSp|Parch|          Ticket|   Fare|   Embarked|Passenger Caste|TotalFamilies|
+--------+------+--------------------+------+----+-----+-----+----------------+-------+-----------+---------------+-------------+
|       0|     3|Braund, Mr. Owen ...|  male|22.0|    1|    0|       A/5 21171|   7.25|Southampton|    Lower Class|            1|
|       1|     1|Cumings, Mrs. Joh...|female|38.0|    1|    0|        PC 17599|71.2833|  Cherbourg|    Upper Class|            1|
|       1|     3|Heikkinen, Miss. ...|female|26.0|    0|    0|STON/O2. 3101282|  7.925|Southampton|    Lower Class|            0|
|       1|     1|Futrelle, Mrs. Ja...|female|35.0|    1|    0|          113803|   53.1|Southampton|    Upper Class|            1|
|       0|     3|Allen, Mr. Willia...|  male|35.0|    0|    0|          373450|   8.05|Sou