In [1]:
#Import library yang dibutuhkan
import pandas as pd

#Baca file dqlabregex.tsv
dqlabregex = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/dqlabregex.tsv", sep = '\t')

#Tampilkan hasilnya
print(dqlabregex)

   no_pencatatan tanggal_catat      kota jumlah_member staf_pencatat
0              1    01-05-2020   Jakarta           311         Andra
1              2    30-06-2020   Jakarta           1I2         Andra
2              3    05/02/2020   Bandung           5S0        Antara
3              4    06/28/2020   Bandung           670        Antara
4              5    05/10/2020  Semarang           81O         Senja
5              6    06/28/2020  Semarang           1O2        Sendja


## Mengenal Regular Expression
Regular Expression atau sering disebut juga **regex** atau **regexp** merupakan deretan karakter spesial yang mendefinisikan sebuah pola dalam pencocokan sebuah teks. Perlu diingat bahwa regex bersifat case sensitive yang berarti huruf besar dan huruf kecil diartikan berbeda.

Apa sebenarnya yang membuat regex menjadi spesial? Hal ini dikarenakan dengan regex dapat membuat sortiran pada sebuah data yang memiliki sebaran atau variasi yang sangat banyak atau luas tanpa harus mengeluarkan effort dengan memilah dan memilih data tersebut sesuai dengan yang diinginkan. Jadi, hanya dengan sebaris atau beberapa baris penulisan notasi regex maka akan dihasilkan kriteria tertentu yang diinginkan. Jelas saja hal ini sangat memudahkan bagi Sunyi untuk merapikan data yang diberikan oleh Andra.

Sebagai contoh, Andra ingin mengetahui pada kolom nama di sebuah tabel yang memuat kata ‘Djupiter’, ‘Jupiter’, ‘Yupiter’ dan sebagainya. Andaikan tidak ada regex maka perlu dibuat beberapa kondisi (pada python gunakan sintaks if – elif - else) agar Sunyi dapat menghasilkan output yang diinginkan oleh Andra. Namun dengan regex, Sunyi hanya perlu menuliskan suatu notasi, maka notasi tersebut akan sesuai dengan teks yang disebutkan oleh Andra.

Untuk Cheat Sheet bisa check : 

https://www.rexegg.com/regex-quickstart.html

pandas.Series.str.contains

**Series.str.contains(pat, case=True, flags=0, na=None, regex=True)**

“Aku ingin kamu menunjukkan kota apa saja pada tabel dqlabregex yang diawali dengan huruf J atau S dan abaikan saja besar kecilnya huruf. 

Tampilkan kolom kota dan kolom baru yang bernama **kota_awalan_J_S** yang menunjukan nilai kebenaran bahwa kota diawali dengan J atau S ”.

In [2]:
#Buat kolom baru kota_awalan_J_S
dqlabregex['kota_awalan_j_s'] = dqlabregex['kota'].str.contains('^[j|s]', case = False)

#Tampilkan hasilnya
print(dqlabregex[['kota','kota_awalan_j_s']])

       kota  kota_awalan_j_s
0   Jakarta             True
1   Jakarta             True
2   Bandung            False
3   Bandung            False
4  Semarang             True
5  Semarang             True


**Ingat!** Notasi _regex ^_ digunakan untuk mencocokan awalan karakter. Jadi notasi ’ mencocokan apakah nilai pada kolom kota diawali oleh karakter j atau s. Sedangkan parameter **case=False** digunakan untuk mengabaikan besar kecilnya huruf **(ignore case sensitive)**. Sehingga Jakarta (kota diawali dengan J) dan Semarang (kota diawali dengan S) akan sesuai dengan sintaks tersebut.

Aku memberikan tugas dan meminta Sunyi memikirkan sintaks untuk membuat kolom baru bernama *pencatat_senja* berisi nilai kebenaran dari nama petugas pencatat pada kolom *staf_pencatat* di dataframe *dqlabregex* dengan nama **Senja** atau **Sendja**. Namun pikirkan baik – baik notasi regex yang akan digunakan, sebisa mungkin notasi yang diketikkan sesuai juga dengan teks *SenDja*, *Sen_ja*, dan sebagainya yang memungkinkan. Tampilkan kolom staf_pencatat dan pencatat_senja untuk mengetahui hasilnya

In [3]:
#Buat kolom baru pencatat_senja
dqlabregex['pencatat_senja'] = dqlabregex['staf_pencatat'].str.contains('Sen.?ja')

#Tampilkan hasilnya
print(dqlabregex[['staf_pencatat','pencatat_senja']])

  staf_pencatat  pencatat_senja
0         Andra           False
1         Andra           False
2        Antara           False
3        Antara           False
4         Senja            True
5        Sendja            True


Pada kolom *jumlah_member* di tabel *dqlabregex*, jumlah menunjukkan kuantitas yang artinya hanya angka saja (numerik) yang boleh menjadi isi rownya (record data). Namun pada tabel tersebut terdapat kesalahan pengetikan / penginputan data sehingga terdapat karakter non-numerik pada kolom jumlah_member.

Kali ini aku meminta Sunyi untuk memeriksa dan menampilkan kesalahan input data pada kolom tersebut. "Nyi, coba kamu buat sebuah sintaks yang menampilkan kesalahan penulisan angka pada kolom jumlah_member lalu beri nama dengan *char_nonnumerik*. Tampilkan kolom *jumlah_member* dan *char_nonnumerik* untuk mengetahui hasilnya." Sunyi mengangguk dan kembali mengetikkan kode nya. 

In [4]:
#Buat kolom baru char_nonnumerik untuk mengetahui jumlah_member non numerik
dqlabregex['char_nonnumerik'] = dqlabregex['jumlah_member'].str.contains('[^0-9]')

#Tampilkan hasilnya
print(dqlabregex[['jumlah_member','char_nonnumerik']])

  jumlah_member  char_nonnumerik
0           311            False
1           1I2             True
2           5S0             True
3           670            False
4           81O             True
5           1O2             True


sintaks replace pada dataframe pandas di internet.

pandas.Series.str.replace

**Series.str.replace(pat, repl, n=-1, case=None, flags=0, regex=None)**

 coba untuk mengubah kata Sendja atau padanannya (jika ada) seperti SenDja, Sen#ja, Sen_ja, Sen7ja, dsb menjadi satu kata 'Senja' yang terdapat di kolom staf_pencatat pada dataframe dqlabregex." 

In [5]:
#Ubah kata Sendja, dsb menjadi Senja pada kolom staf_pencatat
dqlabregex['staf_pencatat'] = dqlabregex['staf_pencatat'].str.replace('Sen.?ja', 'Senja')

#Tampilkan hasilnya
print(dqlabregex['staf_pencatat'])

0     Andra
1     Andra
2    Antara
3    Antara
4     Senja
5     Senja
Name: staf_pencatat, dtype: object


  dqlabregex['staf_pencatat'] = dqlabregex['staf_pencatat'].str.replace('Sen.?ja', 'Senja')


coba untuk membuat kolom baru bernama **jumlah_member_clean** yang berisi hasil pengubahan karakter non-numerik pada kolom jumlah_member yang terdapat pada dataframe dqlabregex dengan ketentuan sebagai berikut :

* Ubah karakter O atau o menjadi 0 (nol)
* Ubah karakter I atau i menjadi 1 (satu)
* Ubah karakter S atau s menjadi 5 (lima)

In [6]:
#Ubah karakter pada kolom jumlah_member sesuai ketentuan
mapchange = {'O':'0', 'I':'1', 'S':'5'}

dqlabregex['jumlah_member_clean'] = dqlabregex['jumlah_member']

for ubah, pengubah in mapchange.items():
	dqlabregex['jumlah_member_clean'] = dqlabregex['jumlah_member_clean'] .str.replace(ubah, pengubah, case = False)

#Tampilkan hasilnya
print(dqlabregex[['jumlah_member','jumlah_member_clean']]) 

  jumlah_member jumlah_member_clean
0           311                 311
1           1I2                 112
2           5S0                 550
3           670                 670
4           81O                 810
5           1O2                 102


hapus kesalahan input data pada kolom *jumlah_member* yang terdapat pada dataframe **dqlabregex**. Caranya dengan membuat sebuah sintaks untuk menghapus karakter non-numerik pada kolom tersebut atau dengan kata lain ubah karakter non-numerik menjadi string kosong.

In [7]:
#Sintaks menghapus karakter non-numerik pada kolom jumlah_member
dqlabregex['jumlah_member'] = dqlabregex['jumlah_member'].str.replace('[^0-9]', '')

#Tampilkan hasilnya
print(dqlabregex['jumlah_member'])

0    311
1     12
2     50
3    670
4     81
5     12
Name: jumlah_member, dtype: object


  dqlabregex['jumlah_member'] = dqlabregex['jumlah_member'].str.replace('[^0-9]', '')


pada kolom **tanggal_catat** ternyata format tanggal pada baris pertama dan kedua berbeda dengan lainnya. Untuk merapikannya, aku memutuskan untuk merubah standarisasi penulisan tanggal **DD-MM-YYYY** (tanggal - bulan - tahun) menjadi **MM/DD/YYYY** (bulan / tanggal / tahun) agar seragam. 

In [8]:
dqlabregex

Unnamed: 0,no_pencatatan,tanggal_catat,kota,jumlah_member,staf_pencatat,kota_awalan_j_s,pencatat_senja,char_nonnumerik,jumlah_member_clean
0,1,01-05-2020,Jakarta,311,Andra,True,False,False,311
1,2,30-06-2020,Jakarta,12,Andra,True,False,True,112
2,3,05/02/2020,Bandung,50,Antara,False,False,True,550
3,4,06/28/2020,Bandung,670,Antara,False,False,False,670
4,5,05/10/2020,Semarang,81,Senja,True,True,True,810
5,6,06/28/2020,Semarang,12,Senja,True,True,True,102


In [9]:
#Sintaks merapikan format tanggal pada kolom tanggal_catat
dqlabregex['tanggal_catat'] = dqlabregex['tanggal_catat'].str.replace('([0-9]{2})-([0-9]{2})-([0-9]{4})','\\1/\\2/\\3')

# \\1 artinya group 1

#Tampilkan hasilnya
print(dqlabregex['tanggal_catat'])

0    01/05/2020
1    30/06/2020
2    05/02/2020
3    06/28/2020
4    05/10/2020
5    06/28/2020
Name: tanggal_catat, dtype: object


  dqlabregex['tanggal_catat'] = dqlabregex['tanggal_catat'].str.replace('([0-9]{2})-([0-9]{2})-([0-9]{4})','\\1/\\2/\\3')


baca data dan mengganti record pada masing-masing kolom:

* Pada kolom tanggal_catat ubah semua format tanggalnya menjadi format tanggal menjadi format YYYY-MM-DD. Lalu ubah tipe datanya menjadi datetime dengan bantuan sintaks (pd.datetime(Series))
* Hapus setiap karakter non-numerik pada kolom jumlah_member lalu ubah tipedatanya menjadi integer dengan bantuan sintaks (Series.astype('int'))
* Ubah record yang memuat Sendja maupun padanannya menjadi Senja
* Penamaan kolom dan urutannya tidak ada yang diubah

In [16]:
#Baca file dqlabregex.tsv
dqlabregex = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/dqlabregex.tsv", sep = '\t')

print("Tabel A:")
print(dqlabregex)

#Ubah karakter pada kolom jumlah_member sesuai ketentuan
mapchange = {'([0-9]{2})-([0-9]{2})-([0-9]{4})': '\\3-\\2-\\1', '([0-9]{2})/([0-9]{2})/([0-9]{4})' : '\\3-\\1-\\2'}

for ubah, pengubah in mapchange.items():
   dqlabregex['tanggal_catat'] = dqlabregex['tanggal_catat'].str.replace(ubah, pengubah)
 
#Ubah menjadi tipedata datetime pada kolom tanggal_catat
dqlabregex['tanggal_catat'] = pd.to_datetime(dqlabregex['tanggal_catat'])
 
#Hapus karakter non numerik pada kolom jumlah_member dan ubah tipedatanya menjadi integer
dqlabregex['jumlah_member'] = dqlabregex['jumlah_member'].str.replace('[^0-9]','')
dqlabregex['jumlah_member'] = dqlabregex['jumlah_member'].astype('int')
 
#Ubah kata Sendja ataupun padanannya menjadi satu kata 'Senja' pada kolom staf_pencatat
dqlabregex['staf_pencatat'] = dqlabregex['staf_pencatat'].str.replace('Sen.?ja', 'Senja')
 
#Tampilkan hasilnya
print("\nTabel B:")
print(dqlabregex) 

Tabel A:
   no_pencatatan tanggal_catat      kota jumlah_member staf_pencatat
0              1    01-05-2020   Jakarta           311         Andra
1              2    30-06-2020   Jakarta           1I2         Andra
2              3    05/02/2020   Bandung           5S0        Antara
3              4    06/28/2020   Bandung           670        Antara
4              5    05/10/2020  Semarang           81O         Senja
5              6    06/28/2020  Semarang           1O2        Sendja

Tabel B:
   no_pencatatan tanggal_catat      kota  jumlah_member staf_pencatat
0              1    2020-05-01   Jakarta            311         Andra
1              2    2020-06-30   Jakarta             12         Andra
2              3    2020-05-02   Bandung             50        Antara
3              4    2020-06-28   Bandung            670        Antara
4              5    2020-05-10  Semarang             81         Senja
5              6    2020-06-28  Semarang             12         Senja


  dqlabregex['tanggal_catat'] = dqlabregex['tanggal_catat'].str.replace(ubah, pengubah)
  dqlabregex['jumlah_member'] = dqlabregex['jumlah_member'].str.replace('[^0-9]','')
  dqlabregex['staf_pencatat'] = dqlabregex['staf_pencatat'].str.replace('Sen.?ja', 'Senja')


### Kesimpulan
Dari materi yang sudah dipelajari hari ini bersama dengan Sunyi, aku memberikan beberapa tambahan catatan : 

* Regular Expression atau sering disebut juga regex atau regexp merupakan deretan karakter spesial yang mendefinisikan sebuah pola dalam pencocokan sebuah teks
* Regex bersifat case sensitive (besar - kecilnya huruf diperhatikan), namun jika ingin mengabaikannya bisa dengan menginisialisasi parameter case menjadi False
* Sintaks contains pada python digunakan untuk menguji apakah pola kata atau regex terkandung dalam string atau tidak. Bernilai True jika sesuai dan False jika tidak
* Sintaks replace pada python digunakan untuk mengubah satu atau lebih karakter yang ingin diubah menjadi karakter atau string lainnya.
* Regex biasa digunakan dalam proses pencocokan, pencarian dan perubahan pada data bertipe string / objek
 