In [None]:
!pip install pandas==2.2.2 numpy pyspark==3.4.1

Collecting pandas==2.2.2
  Downloading pandas-2.2.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (19 kB)
Collecting pyspark==3.4.1
  Downloading pyspark-3.4.1.tar.gz (310.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m310.8/310.8 MB[0m [31m4.3 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Downloading pandas-2.2.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (13.0 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m38.8 MB/s[0m eta [36m0:00:00[0m
[?25hBuilding wheels for collected packages: pyspark
  Building wheel for pyspark (setup.py) ... [?25l[?25hdone
  Created wheel for pyspark: filename=pyspark-3.4.1-py2.py3-none-any.whl size=311285391 sha256=f4bbea6328c1173c00f9d9e9b579e964df31212ad2f8da5774ce7d371af1d653
  Stored in directory: /root/.cache/pip/wheels/0d/77/a3/ff2f74cc9ab41f8f594dabf0579c2a7c6de920d584206e0834
Successfully built pyspa

In [None]:
#Tugas 1
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('HandsOnPertemuan6').getOrCreate()

data = [('Azqia', 'Pengusaha', 50000000),
        ('Sehun', 'Pilot', 4600000),
        ('Zara', 'Programmer', 41000000),
        ('Azzur', 'Engineer', 30000000)]
columns = ['EmployeeName', 'Department', 'Salary']

df = spark.createDataFrame(data, schema=columns)
df.show()

+------------+----------+--------+
|EmployeeName|Department|  Salary|
+------------+----------+--------+
|       Azqia| Pengusaha|50000000|
|       Sehun|     Pilot| 4600000|
|        Zara|Programmer|41000000|
|       Azzur|  Engineer|30000000|
+------------+----------+--------+



In [None]:
# Tugas 2
df.select('EmployeeName', 'Salary').show()
df.filter(df['Salary'] > 3000).show()
df.groupBy('Department').avg('Salary').show()

+------------+--------+
|EmployeeName|  Salary|
+------------+--------+
|       Azqia|50000000|
|       Sehun| 4600000|
|        Zara|41000000|
|       Azzur|30000000|
+------------+--------+

+------------+----------+--------+
|EmployeeName|Department|  Salary|
+------------+----------+--------+
|       Azqia| Pengusaha|50000000|
|       Sehun|     Pilot| 4600000|
|        Zara|Programmer|41000000|
|       Azzur|  Engineer|30000000|
+------------+----------+--------+

+----------+-----------+
|Department|avg(Salary)|
+----------+-----------+
|     Pilot|  4600000.0|
| Pengusaha|      5.0E7|
|Programmer|      4.1E7|
|  Engineer|      3.0E7|
+----------+-----------+



In [None]:
#Tugas 3
df_with_bonus = df.withColumn('SalaryBonus', df['Salary'] * 0.1)
df_with_total = df_with_bonus.withColumn('TotalCompensation', df_with_bonus['Salary'] + df_with_bonus['SalaryBonus'])

df_with_total.show()

+------------+----------+--------+-----------+-----------------+
|EmployeeName|Department|  Salary|SalaryBonus|TotalCompensation|
+------------+----------+--------+-----------+-----------------+
|       Azqia| Pengusaha|50000000|  5000000.0|            5.5E7|
|       Sehun|     Pilot| 4600000|   460000.0|        5060000.0|
|        Zara|Programmer|41000000|  4100000.0|           4.51E7|
|       Azzur|  Engineer|30000000|  3000000.0|            3.3E7|
+------------+----------+--------+-----------+-----------------+



In [None]:
#Tugas 4
from pyspark.sql.window import Window
from pyspark.sql import functions as F

windowSpec = Window.partitionBy('Department').orderBy('Salary')
df.withColumn('Rank', F.rank().over(windowSpec)).show()

+------------+----------+--------+----+
|EmployeeName|Department|  Salary|Rank|
+------------+----------+--------+----+
|       Azzur|  Engineer|30000000|   1|
|       Azqia| Pengusaha|50000000|   1|
|       Sehun|     Pilot| 4600000|   1|
|        Zara|Programmer|41000000|   1|
+------------+----------+--------+----+



In [None]:
#Tugas 5
Berikut adalah ringkasan dari operasi yang telah dilakukan dengan PySpark dan DataFrames:

# 1.Pengenalan Spark dan DataFrames
   - PySpark adalah salah satu API Python dari Apache Spark yang digunakan untuk pemrosesan data dalam jumlah besar secara terdistribusi.
   - DataFrames di PySpark mirip dengan DataFrames di Pandas untuk menangani volume data besar dan terdistribusi.
     DataFrame mempunyai struktur data tabular dengan skema kolom yang terdefinisi.

# 2.Transformasi Dasar dengan DataFrames
   - Menggunakan metode select() untuk memilih kolom tertentu.
   - Menggunakan filter() atau where() untuk menyaring data berdasarkan kondisi tertentu.
   - Mengelompokkan data berdasarkan satu atau beberapa kolom menggunakan groupBy() dan melakukan operasi agregasi seperti count(), sum(), avg().
   - Mengurutkan data dengan orderBy().

# 3.Operasi Data Lanjutan
   - PySpark mendukung tipe data kompleks seperti ArrayType, MapType, dan StructType. Tipe ini memungkinkan kita untuk bekerja dengan data yang memiliki struktur lebih rumit, seperti array atau objek nested.
   - Menggabungkan dua DataFrame berdasarkan kolom kunci dengan menggunakan operasi seperti join().

# 4. Penerapan Teknik pada Proyek Data
   - **Pengelolaan Data**: Memilah, menyaring, dan memanipulasi data dari berbagai sumber sebelum analisis lebih lanjut.
   - **Analisis Agregat**: Menghitung statistik dasar seperti total penjualan, rata-rata performa karyawan, atau metrik lain dengan operasi agregasi.
   - **Data Cleaning**: Menyaring dan membersihkan data dengan teknik filtering, join, dan transformasi data.
   - **Analisis Pergerakan Waktu**: Menggunakan window functions untuk menganalisis tren waktu atau pergerakan data dari waktu ke waktu.

