In [4]:
import pandas as pd

dqlabregex = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/dqlabregex.tsv", sep = '\t')

dqlabregex

Unnamed: 0,no_pencatatan,tanggal_catat,kota,jumlah_member,staf_pencatat
0,1,01-05-2020,Jakarta,311,Andra
1,2,30-06-2020,Jakarta,1I2,Andra
2,3,05/02/2020,Bandung,5S0,Antara
3,4,06/28/2020,Bandung,670,Antara
4,5,05/10/2020,Semarang,81O,Senja
5,6,06/28/2020,Semarang,1O2,Sendja


### Notasi Regular Expression (Regex)

|Notasi|Nama Notasi  |Kegunaan|
|:----:|-------------|--------|
|.     |Wildcard     |(pa.i) = padi,paTi, pari, dsb.|
|?     |Optionality  |(Bid?jak) = Bidjak/Bijak/Bdjak
|+     |Repeatability (Wajib)|(go+L) = goL, goooL, dsb.
|*     |Repeatability (Optional)|(go*L) = goL, goooL, gLadi, oLshop, dsb.
|[ ]   |Choice       |(mak[Ai]n) = makAn, makin
|-     |Range        |([b-d]uka) = buka, cuka, duka
|^[...]|Complement   |(^[aiueo]) = konsonan
|^     |Prefix       |(^ayam) = ayam goreng, ayam bakar, dsb.
|\$     |Sufix        |(ayam\$) = mie ayam, soto ayam, dsb.
|{ }   |Quantifier   |(he.{2}o) = hello, henyo, heL1o, dsb.

### Sets dan Group

|Notasi  |Himpunan|
|:------:|--------|
|[abc]   |Huruf a,b,c saja
|[a-z]   |Huruf kecil
|[A-Z]   |Huruf besar
|[a-zA-Z]|Huruf kecil dan besar
|[^a-z]  |Selain huruf kecil
|[0-9]   |Angka

## Syntax Contains

### Tantangan Pertama Sunyi

In [5]:
#Import library yang dibutuhkan
import pandas as pd

#Baca file dqlabregex.tsv
dqlabregex = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/dqlabregex.tsv", sep = '\t')

#Buat kolom baru kota_awalan_J_S
dqlabregex['kota_awalan_J_S'] = dqlabregex['kota'].str.contains('^(j|s)', case = False)

#Tampilkan hasilnya
print(dqlabregex[['kota','kota_awalan_J_S']])

       kota  kota_awalan_J_S
0   Jakarta             True
1   Jakarta             True
2   Bandung            False
3   Bandung            False
4  Semarang             True
5  Semarang             True


  dqlabregex['kota_awalan_J_S'] = dqlabregex['kota'].str.contains('^(j|s)', case = False)


### Praktikum 1

In [6]:
#Import library yang dibutuhkan
import pandas as pd

#Baca file dqlabregex.tsv
dqlabregex = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/dqlabregex.tsv", sep = '\t')

#Buat kolom baru pencatat_senja
dqlabregex['pencatat_senja'] = dqlabregex['staf_pencatat'].str.contains('Sen.?ja')

#Tampilkan hasilnya
print(dqlabregex[['staf_pencatat','pencatat_senja']])

  staf_pencatat  pencatat_senja
0         Andra           False
1         Andra           False
2        Antara           False
3        Antara           False
4         Senja            True
5        Sendja            True


### Praktikum 2

In [7]:
#Import library yang dibutuhkan
import pandas as pd

#Baca file dqlabregex.tsv
dqlabregex = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/dqlabregex.tsv", sep = '\t')

#Buat kolom baru char_nonnumerik untuk mengetahui jumlah_member non numerik
dqlabregex['char_nonnumerik'] = dqlabregex['jumlah_member'].str.contains('[^0-9]')

#Tampilkan hasilnya
print(dqlabregex[['jumlah_member','char_nonnumerik']])

  jumlah_member  char_nonnumerik
0           311            False
1           1I2             True
2           5S0             True
3           670            False
4           81O             True
5           1O2             True


## Syntax Replace

### Tantangan Kedua Sunyi

In [8]:
#Import library yang dibutuhkan
import pandas as pd

#Baca file dqlabregex.tsv
dqlabregex = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/dqlabregex.tsv", sep = '\t')

#Ubah kata Sendja, dsb menjadi Senja pada kolom staf_pencatat
dqlabregex['staf_pencatat'] = dqlabregex['staf_pencatat'].str.replace('Sen.?ja', 'Senja')

#Tampilkan hasilnya
print(dqlabregex['staf_pencatat'])

0     Andra
1     Andra
2    Antara
3    Antara
4     Senja
5     Senja
Name: staf_pencatat, dtype: object


  dqlabregex['staf_pencatat'] = dqlabregex['staf_pencatat'].str.replace('Sen.?ja', 'Senja')


### Tantangan Ketiga Sunyi

In [9]:
#Import library yang dibutuhkan
import pandas as pd

#Baca file dqlabregex.tsv
dqlabregex = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/dqlabregex.tsv", sep = '\t')

#Ubah karakter pada kolom jumlah_member sesuai ketentuan
mapchange = {'O':'0','I':'1','S':'5'}

dqlabregex['jumlah_member_clean'] = dqlabregex['jumlah_member']

for ubah, pengubah in mapchange.items():
	dqlabregex['jumlah_member_clean'] = dqlabregex['jumlah_member_clean'].str.replace(ubah,pengubah, case = False)

#Tampilkan hasilnya
print(dqlabregex[['jumlah_member','jumlah_member_clean']])

  jumlah_member jumlah_member_clean
0           311                 311
1           1I2                 112
2           5S0                 550
3           670                 670
4           81O                 810
5           1O2                 102


### Praktikum 3

In [10]:
#Import library yang dibutuhkan
import pandas as pd

#Baca file dqlabregex.tsv
dqlabregex = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/dqlabregex.tsv", sep = '\t')

#Sintaks menghapus karakter non-numerik pada kolom jumlah_member
dqlabregex['jumlah_member'] = dqlabregex['jumlah_member'].str.replace('[^0-9]', '')

#Tampilkan hasilnya
print(dqlabregex['jumlah_member'])

0    311
1     12
2     50
3    670
4     81
5     12
Name: jumlah_member, dtype: object


  dqlabregex['jumlah_member'] = dqlabregex['jumlah_member'].str.replace('[^0-9]', '')


### Praktikum 4

In [11]:
#Import library yang dibutuhkan
import pandas as pd

#Baca file dqlabregex.tsv
dqlabregex = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/dqlabregex.tsv", sep = '\t')

#Sintaks merapikan format tanggal pada kolom tanggal_catat
dqlabregex['tanggal_catat'] = dqlabregex['tanggal_catat'].str.replace('([0-9]{2})-([0-9]{2})-([0-9]{4})','\\2/\\1/\\3')

#Tampilkan hasilnya
print(dqlabregex['tanggal_catat'])

0    05/01/2020
1    06/30/2020
2    05/02/2020
3    06/28/2020
4    05/10/2020
5    06/28/2020
Name: tanggal_catat, dtype: object


  dqlabregex['tanggal_catat'] = dqlabregex['tanggal_catat'].str.replace('([0-9]{2})-([0-9]{2})-([0-9]{4})','\\2/\\1/\\3')


## Mini Project

In [12]:
#Import library yang dibutuhkan
import pandas as pd

#Baca file dqlabregex.tsv
dqlabregex = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/dqlabregex.tsv", sep = '\t')
print("Tabel A:")
print(dqlabregex)

#Ubah karakter pada kolom jumlah_member sesuai ketentuan
mapchange = {'([0-9]{2})-([0-9]{2})-([0-9]{4})': '\\3-\\2-\\1', '([0-9]{2})/([0-9]{2})/([0-9]{4})' : '\\3-\\1-\\2'}
for ubah, pengubah in mapchange.items():
   dqlabregex['tanggal_catat'] = dqlabregex['tanggal_catat'].str.replace(ubah, pengubah)

#Ubah menjadi tipedata datetime pada kolom tanggal_catat
dqlabregex['tanggal_catat'] = pd.to_datetime(dqlabregex['tanggal_catat'])

#Hapus karakter non numerik pada kolom jumlah_member dan ubah tipedatanya menjadi integer
dqlabregex['jumlah_member'] = dqlabregex['jumlah_member'].str.replace('[^0-9]','')
dqlabregex['jumlah_member'] = dqlabregex['jumlah_member'].astype('int')

#Ubah kata Sendja ataupun padanannya menjadi satu kata 'Senja' pada kolom staf_pencatat
dqlabregex['staf_pencatat'] = dqlabregex['staf_pencatat'].str.replace('Sen.?ja', 'Senja')

#Tampilkan hasilnya
print("\nTabel B:")
print(dqlabregex)

Tabel A:
   no_pencatatan tanggal_catat      kota jumlah_member staf_pencatat
0              1    01-05-2020   Jakarta           311         Andra
1              2    30-06-2020   Jakarta           1I2         Andra
2              3    05/02/2020   Bandung           5S0        Antara
3              4    06/28/2020   Bandung           670        Antara
4              5    05/10/2020  Semarang           81O         Senja
5              6    06/28/2020  Semarang           1O2        Sendja

Tabel B:
   no_pencatatan tanggal_catat      kota  jumlah_member staf_pencatat
0              1    2020-05-01   Jakarta            311         Andra
1              2    2020-06-30   Jakarta             12         Andra
2              3    2020-05-02   Bandung             50        Antara
3              4    2020-06-28   Bandung            670        Antara
4              5    2020-05-10  Semarang             81         Senja
5              6    2020-06-28  Semarang             12         Senja


  dqlabregex['tanggal_catat'] = dqlabregex['tanggal_catat'].str.replace(ubah, pengubah)
  dqlabregex['jumlah_member'] = dqlabregex['jumlah_member'].str.replace('[^0-9]','')
  dqlabregex['staf_pencatat'] = dqlabregex['staf_pencatat'].str.replace('Sen.?ja', 'Senja')
