# 1. Pengenalan Spark DataFrames
Spark DataFrame menyediakan struktur data yang optimal dengan operasi yang dioptimalkan untuk pemrosesan data besar, yang sangat mirip dengan DataFrame di Pandas atau di RDBMS.


**Tugas 1:** Buat DataFrame sederhana di Spark dan eksplorasi beberapa fungsi dasar yang tersedia

In [1]:
# Contoh membuat DataFrame sederhana dan operasi dasar
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('HandsOnPertemuan3').getOrCreate()

data = [('James', 'Sales', 3000),
        ('Michael', 'Sales', 4600),
        ('Robert', 'Sales', 4100),
        ('Maria', 'Finance', 3000)]
columns = ['EmployeeName', 'Department', 'Salary']

df = spark.createDataFrame(data, schema=columns)
df.show()

+------------+----------+------+
|EmployeeName|Department|Salary|
+------------+----------+------+
|       James|     Sales|  3000|
|     Michael|     Sales|  4600|
|      Robert|     Sales|  4100|
|       Maria|   Finance|  3000|
+------------+----------+------+



# 2. Transformasi Dasar dengan DataFrames
Pemrosesan data meliputi transformasi seperti filtering, selections, dan aggregations. Spark menyediakan cara efisien untuk melaksanakan operasi ini.

**Tugas 2:** Gunakan operasi filter, select, groupBy untuk mengekstrak informasi dari data, serta lakukan agregasi data untuk mendapatkan insight tentang dataset menggunakan perintah seperti mean, max, sum.

In [None]:
# Contoh operasi transformasi DataFrame
select('EmployeeName', 'Salary').show()
filter(df['Salary'] > 3000).show()
groupBy('Department').avg('Salary').show()

Implementasi dari contoh operasi transformasi DataFrame diatas

In [8]:
from pyspark.sql import SparkSession

# Membuat SparkSession
spark = SparkSession.builder.appName("DataFrameExample").getOrCreate()

# Contoh DataFrame
data = [("Alice", "Engineering", 70000),
        ("Bob", "Sales", 60000),
        ("Charlie", "Engineering", 85000),
        ("David", "Sales", 65000),
        ("Eve", "Marketing", 55000)]
columns = ["EmployeeName", "Department", "Salary"]
df = spark.createDataFrame(data, columns)

# Operasi Transformasi DataFrame

# Memilih Kolom select
df.select('EmployeeName', 'Salary').show()

+------------+------+
|EmployeeName|Salary|
+------------+------+
|       Alice| 70000|
|         Bob| 60000|
|     Charlie| 85000|
|       David| 65000|
|         Eve| 55000|
+------------+------+



# 3. Bekerja dengan Tipe Data Kompleks
Spark mendukung tipe data yang kompleks seperti maps, arrays, dan structs yang memungkinkan operasi yang lebih kompleks pada dataset yang kompleks.



**Tugas 3:** Eksplorasi bagaimana mengolah tipe data kompleks dalam Spark DataFrames.

In [10]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

# Inisialisasi SparkSession
spark = SparkSession.builder.appName('ComplexDataManipulation').getOrCreate()

# Membuat contoh DataFrame
data = [('James', 'Sales', 3000),
        ('Michael', 'Sales', 4600),
        ('Robert', 'Sales', 4100)]
columns = ['EmployeeName', 'Department', 'Salary']
df = spark.createDataFrame(data, columns)

# Tambah kolom 'SalaryBonus' dan 'TotalCompensation'
df_with_bonus = df.withColumn('SalaryBonus', col('Salary') * 0.1)

df_final = df_with_bonus.withColumn('TotalCompensation', col('Salary') + col('SalaryBonus'))

# Tampilkan DataFrame hasil akhir
df_final.show()

+------------+----------+------+-----------+-----------------+
|EmployeeName|Department|Salary|SalaryBonus|TotalCompensation|
+------------+----------+------+-----------+-----------------+
|       James|     Sales|  3000|      300.0|           3300.0|
|     Michael|     Sales|  4600|      460.0|           5060.0|
|      Robert|     Sales|  4100|      410.0|           4510.0|
+------------+----------+------+-----------+-----------------+



# 4. Operasi Data Lanjutan
Menggunakan Spark untuk operasi lanjutan seperti window functions, user-defined functions (UDFs), dan mengoptimalkan query.

**Tugas 4:** Implementasikan window function untuk menghitung running totals atau rangkings.


In [11]:
# Contoh menggunakan window functions
from pyspark.sql.window import Window
from pyspark.sql import functions as F

windowSpec = Window.partitionBy('Department').orderBy('Salary')
df.withColumn('Rank', F.rank().over(windowSpec)).show()

+------------+----------+------+----+
|EmployeeName|Department|Salary|Rank|
+------------+----------+------+----+
|       James|     Sales|  3000|   1|
|      Robert|     Sales|  4100|   2|
|     Michael|     Sales|  4600|   3|
+------------+----------+------+----+



# 5. Kesimpulan dan Eksplorasi Lebih Lanjut
Review apa yang telah dipelajari tentang pemrosesan data menggunakan Spark dan eksplorasi teknik lebih lanjut untuk mengoptimalkan pemrosesan data Anda.
Tugas 5:

**Tugas 5:**

- Unduh dataset besar dari Kaggle atau sumber lainnya.
- Input data csv yang telah di download, kemudian load dan simpan data ke dalam pyspark.
- Setelah data berhasil di load menggunakan pyspark, lakukan manipulasi data untuk memperoleh informasi yang dibutuhkan

In [16]:
import os
from pyspark.sql import SparkSession

# Inisialisasi Sesi Spark
spark = SparkSession.builder.appName("ColabDataLoading").getOrCreate()

# Jika Anda mengunggahnya secara langsung dicollab, jalurnya hanya nama file
file_path = "top_50_2023.csv"

# Memuat Data
try:
    df = spark.read.csv(file_path, header=True, inferSchema=True)

    print("Data berhasil dimuat dari sistem berkas Colab:")
    df.show(5)

    print("DataFrame Schema:")
    df.printSchema()

except Exception as e:
    print(f"Terjadi kesalahan saat memuat data: {e}")

# Stop Spark Session
spark.stop()

Data berhasil dimuat dari sistem berkas Colab:
+--------------+--------------------+-----------+------------------+--------------------+------------+-------+------+--------+------------+----------------+--------+-----------+---+-------+----+-----------+--------------+----------+
|   artist_name|          track_name|is_explicit|album_release_date|              genres|danceability|valence|energy|loudness|acousticness|instrumentalness|liveness|speechiness|key|  tempo|mode|duration_ms|time_signature|popularity|
+--------------+--------------------+-----------+------------------+--------------------+------------+-------+------+--------+------------+----------------+--------+-----------+---+-------+----+-----------+--------------+----------+
|   Miley Cyrus|             Flowers|      false|        2023-08-18|             ['pop']|       0.706|  0.632| 0.691|  -4.775|      0.0584|         6.99E-5|  0.0232|     0.0633|  0|118.048|   1|     200600|             4|        94|
|           SZA|     