#Belajar PySpark - Select, Filter, dan Where pada DataFrame


Salah satu operasi yang paling banyak dilakukan dalam pengolahan dan eksplorasi data adalah memilih baris atau record dengan bermacam-macam kondisi.

Dalam notebook ini kita akan mempelajari mengenai berbagai cara melakukan filtering records pada Spark DataFrame. Fungsi-fungsi yang akan kita gunakan diantaranya adalah fungsi `filter()` dan `where()`. Kita juga akan menggunakan fungsi-fungsi kolom yang lain, seperti `isin()`,` contains()`, `like()`, dll.

In [None]:
%pip install pyspark

Collecting pyspark
  Downloading pyspark-3.4.1.tar.gz (310.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m310.8/310.8 MB[0m [31m3.5 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: pyspark
  Building wheel for pyspark (setup.py) ... [?25l[?25hdone
  Created wheel for pyspark: filename=pyspark-3.4.1-py2.py3-none-any.whl size=311285398 sha256=a108681f0a9d17735a51aa6eccbd2ecfc20c30597f7540015c1bea2cb3dd10e8
  Stored in directory: /root/.cache/pip/wheels/0d/77/a3/ff2f74cc9ab41f8f594dabf0579c2a7c6de920d584206e0834
Successfully built pyspark
Installing collected packages: pyspark
Successfully installed pyspark-3.4.1


Import packages yang diperlukan

In [None]:
from pyspark.sql import SparkSession
from pyspark.sql import functions as F

Create spark session

In [None]:
spark = SparkSession.builder.appName('Belajar PySpark - Filter').getOrCreate()

Buat dataframe

In [None]:
data = [['Agus','Fisika',100],['Windy','Fisika',200],
        ['Budi','Biologi',200],['Dina','Fisika',150],
        ['Bayu','Fisika',50],['Dedi','Biologi',50]]

kolom = ['nama','jurusan','nilai']

df = spark.createDataFrame(data,kolom)

df.show()

+-----+-------+-----+
| nama|jurusan|nilai|
+-----+-------+-----+
| Agus| Fisika|  100|
|Windy| Fisika|  200|
| Budi|Biologi|  200|
| Dina| Fisika|  150|
| Bayu| Fisika|   50|
| Dedi|Biologi|   50|
+-----+-------+-----+



##Memilih kolom dengan fungsi `select()`

Fungsi select() digunakan untuk memilih kolom-kolom tertentu dari sebuah DataFrame. Sintaksnya adalah `df.select(list nama kolom yang akan dipilih)`


In [None]:
df.select(['nama', 'nilai']).show()

+-----+-----+
| nama|nilai|
+-----+-----+
| Agus|  100|
|Windy|  200|
| Budi|  200|
| Dina|  150|
| Bayu|   50|
| Dedi|   50|
+-----+-----+



##Menggunakan fungsi filter()

Fungsi `filter()` menerima parameter kondisi berupa ekspresi logika. Fungsi secara umum ditulis sebagai berikut:
`df.filter(kondisi)`

###Filter dengan satu kondisi

Berikut ini merupakan contoh penggunaan fungsi filter untuk satu kondisi.

Dari DataFrame yang telah dibuat, kita akan melakukan filtering record yang memiliki nilai lebih besar dari 150

In [None]:
df.filter(df.nilai > 150).show()

+-----+-------+-----+
| nama|jurusan|nilai|
+-----+-------+-----+
|Windy| Fisika|  200|
| Budi|Biologi|  200|
+-----+-------+-----+



###Filter dengan beberapa kondisi

Untuk menggabungkan beberapa kondisi, digunakan operasi logika & atau | . Perhatikan bahwa masing-masing statement logika dikelompokkan dengan tanda kurung.

In [None]:
df.filter((df.nilai > 150) &
          (df.jurusan == 'Fisika')).show()

+-----+-------+-----+
| nama|jurusan|nilai|
+-----+-------+-----+
|Windy| Fisika|  200|
+-----+-------+-----+



###Filter dengan menggunakan list/`isin()`

Jika kita memiliki sebuah list, dan kita perlu memfilter record berdasarkan elemen dalam list tersebut, kita bisa menggunakan fungsi isin()

In [None]:
df.filter(df.nilai.isin([50,150])).show()

+----+-------+-----+
|nama|jurusan|nilai|
+----+-------+-----+
|Dina| Fisika|  150|
|Bayu| Fisika|   50|
|Dedi|Biologi|   50|
+----+-------+-----+



Selain menggunakan list sebagai kriteria inklusi (whitelist), kita juga dapat menggunakan list sebagai kriteria eksklusi (blacklist), dengan menambahkan tanda negasi. Tanda negasi pada pyspark DataFrame boolean adalah ~

In [None]:
df.filter(~df.nilai.isin([50,150])).show()

+-----+-------+-----+
| nama|jurusan|nilai|
+-----+-------+-----+
| Agus| Fisika|  100|
|Windy| Fisika|  200|
| Budi|Biologi|  200|
+-----+-------+-----+



###Filter dengan komparasi string

Untuk kondisi menggunakan kolom berupa string, terdapat beberapa fungsi kolom DataFrame, diantaranya `startswith()`,` endswith()`, dan `contains()`


Fungsi `startswith()` digunakan untuk memilih records dengan nilai suatu kolom berawalan string tertentu

In [None]:
df.filter(df.nama.startswith('D')).show()

+----+-------+-----+
|nama|jurusan|nilai|
+----+-------+-----+
|Dina| Fisika|  150|
|Dedi|Biologi|   50|
+----+-------+-----+



Fungsi `endswith()` digunakan untuk memilih records dengan nilai suatu kolom berakhiran string tertentu

In [None]:
df.filter(df.nama.endswith('di')).show()

+----+-------+-----+
|nama|jurusan|nilai|
+----+-------+-----+
|Budi|Biologi|  200|
|Dedi|Biologi|   50|
+----+-------+-----+



Fungsi `contains()` digunakan untuk memilih records dengan nilai suatu kolom mengandung string tertentu

In [None]:
df.filter(df.nama.contains('in')).show()

+-----+-------+-----+
| nama|jurusan|nilai|
+-----+-------+-----+
|Windy| Fisika|  200|
| Dina| Fisika|  150|
+-----+-------+-----+



###Filter dengan `like()`

Kita juga dapat melakukan filtering dengan menggunakan fungsi `like()`, yang serupa dengan LIKE pada perintah SQL.

In [None]:
df.filter(df.nama.like('%in%')).show()

+-----+-------+-----+
| nama|jurusan|nilai|
+-----+-------+-----+
|Windy| Fisika|  200|
| Dina| Fisika|  150|
+-----+-------+-----+



##Menggunakan fungsi where()

Filter dengan fungsi where() tidak berbeda sintaksnya dengan fungsi filter(), dan keluarannya pun sama dengan filter().

In [None]:
df.where(df.nilai > 150).show()

+-----+-------+-----+
| nama|jurusan|nilai|
+-----+-------+-----+
|Windy| Fisika|  200|
| Budi|Biologi|  200|
+-----+-------+-----+



untuk filtering dengan beberapa kondisi:

In [None]:
df.where((df.nilai > 150) &
          (df.jurusan == 'Fisika')).show()

+-----+-------+-----+
| nama|jurusan|nilai|
+-----+-------+-----+
|Windy| Fisika|  200|
+-----+-------+-----+



filtering dengan fungsi komparasi string:

In [None]:
df.where(df.nama.contains('in')).show()

+-----+-------+-----+
| nama|jurusan|nilai|
+-----+-------+-----+
|Windy| Fisika|  200|
| Dina| Fisika|  150|
+-----+-------+-----+



##Mengakses kolom DataFrame dengan `df[“nama kolom”]` atau fungsi `col()`

Pada contoh-contoh di atas kita mengacu atau mengakses kolom DataFrame dengan menggunakan titik, yaitu dengan sintaks df.nilai.

Hal ini hanya dapat dilakukan jika nama kolom tidak mengandung spasi. Jika nama kolom mengandung spasi, misalnya “nilai total”, maka kita dapat mengacu kolom tersebut dengan menggunakan kurung siku, dalam hal ini `df[“nilai total”]`

In [None]:
kolom_1 = ['nama','jurusan','nilai total']
df_1 = spark.createDataFrame(data,kolom_1)

df_1.filter(df_1['nilai total'] > 150).show()

+-----+-------+-----------+
| nama|jurusan|nilai total|
+-----+-------+-----------+
|Windy| Fisika|        200|
| Budi|Biologi|        200|
+-----+-------+-----------+



Dengan menggunakan sintaks ini, kita dapat mengakses beberapa kolom sekaligus, dengan memberikan parameter berupa list nama-nama kolom

In [None]:
df_1[['nama','nilai total']].show()

+-----+-----------+
| nama|nilai total|
+-----+-----------+
| Agus|        100|
|Windy|        200|
| Budi|        200|
| Dina|        150|
| Bayu|         50|
| Dedi|         50|
+-----+-----------+



Kita juga dapat mengacu sebuah kolom dengan menggunakan fungsi `pyspark.sql.functions.col` seperti berikut ini

In [None]:
df_1.filter(F.col('nilai total') > 150).show()

+-----+-------+-----------+
| nama|jurusan|nilai total|
+-----+-------+-----------+
|Windy| Fisika|        200|
| Budi|Biologi|        200|
+-----+-------+-----------+

