### **Regular Expression**

In [1]:
import re

**Raw Strings**

In [2]:
# Contoh 1
# Code di bawah akan error karena mengandung special characters (\U yang merepresentasikan Unicode pada Python).
path = 'C\User\tabular\news'
path

SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 1-2: truncated \UXXXXXXXX escape (Temp/ipykernel_12672/3431982694.py, line 2)

In [5]:
path = 'C\tabular\news'
print(path)

C	abular
ews


In [3]:
# Untuk membedakan antara regex code dan raw strings, gunakan 'r' di depan tanda kutip.
path = r'C\User\tabular\news'
path

'C\\User\\tabular\\news'

#### **Regex Methods**

**re.compile()**

In [6]:
# x terbaca sebagai raw string
x = r'\d{4}' # Mencari pola 4 digit secara berurutan
print(type(x))

<class 'str'>


In [7]:
# Untuk mengubah tipe data string menjadi regex dtype
x = re.compile(x)
print(type(x))

<class 're.Pattern'>


- re.compile() digunakan jika kita ingin mencari pola yang sama secara berulang.
- Akan tetapi, jika kita ingin menggunakan method lain, maka otomatis cara kerja method tersebut mengandung proses compiling, sehingga kita tidak perlu melakukan compiling secara manual.

In [9]:
# Target string
str1 = 'Nomor urut yang didapat adalah 250 340 412 222'

# Mencari pola 3 digit secara berurutan
string_pattern = r'\d{3}'
print(type(string_pattern))

# Compile string dtype menjadi regex dtype
regex_pattern = re.compile(string_pattern)

# Menampilkan outcome
print(type(regex_pattern))
result = regex_pattern.findall(str1)
print(result)

<class 'str'>
<class 're.Pattern'>
['250', '340', '412', '222']


In [10]:
# Cara lain
string_pattern = re.findall(r'\d{3}', str1)
string_pattern

['250', '340', '412', '222']

In [11]:
re.findall(r'\d{3}', str1)

['250', '340', '412', '222']

**re.search()**

In [12]:
# Mencari pola 3 digit secara berurutan

str = 'Saya lahir pada tahun 2000. Pada tahun 2004, umur saya baru 4 tahun. Saya tinggal di rumah bernomor 399 jalan Kahatex.'

hasil_search = re.search(r'\d{3}', str)
print(hasil_search)

<re.Match object; span=(22, 25), match='200'>


- Method re.search() akan mencari 3 digit secara berurutan yang ada pada target string. Meskipun ada angka yang berjumlah 4 digit atau lebih, hanya 3 digit awal saja yang akan diambil oleh method ini. Sisa angka lainnya seperti tidak dianggap ada.
- Perlu diingat bahwa method ini hanya mengembalikan 1 hasil saja. Eksekusi akan berhenti jika sudah ketemu pola yang sesuai dengan regex pattern yang didefinisikan, meskipun masih ada angka-angka lain yang sesuai spesifikasi. Hasil di output hanyalah angka pertama yang match saja.

In [13]:
# Jika tidak ada yang match dengan regex pattern, maka akan dikembalikan NoneType.
hasil_search2 = re.search(r'\d{10}', str)
print(hasil_search2)

None


**re.findall()**

- Salah satu method yang paling sering digunakan.
- Mengembalikan semua nilai pada target string yang sesuai dengan regex pattern.

In [14]:
hasil_findall = re.findall(r'\d{3}', str)
hasil_findall

# Outcome hanya 200, 200, 399 --> hanya 3 digit awal dari 2000 dan 2004 saja yang diambil dan dikembalikan pada output.

['200', '200', '399']

In [15]:
print(type(hasil_findall))

<class 'list'>


In [16]:
hasil_findall2 = re.findall(r'\d{10}', str)
hasil_findall2

[]

- re.findall() akan mengembalikan tipe data berupa list.
- Jika tidak ada yang match dengan regex pattern, maka akan dikembalikan sebuah list kosong.

**re.split()**

In [17]:
# Python split()
print(str.split(), end=' ')

['Saya', 'lahir', 'pada', 'tahun', '2000.', 'Pada', 'tahun', '2004,', 'umur', 'saya', 'baru', '4', 'tahun.', 'Saya', 'tinggal', 'di', 'rumah', 'bernomor', '399', 'jalan', 'Kahatex.'] 

In [18]:
# re.split()
hasil_split = re.split(r'\s', str)
print(hasil_split, end=' ')

['Saya', 'lahir', 'pada', 'tahun', '2000.', 'Pada', 'tahun', '2004,', 'umur', 'saya', 'baru', '4', 'tahun.', 'Saya', 'tinggal', 'di', 'rumah', 'bernomor', '399', 'jalan', 'Kahatex.'] 

In [19]:
# Untuk method re.split(), jika tidak ada yang match, maka akan dikembalikan semua isi pada target string.
hasil_split2 = re.split(r'\s{3}', str)
print(hasil_split2, end=' ')

['Saya lahir pada tahun 2000. Pada tahun 2004, umur saya baru 4 tahun. Saya tinggal di rumah bernomor 399 jalan Kahatex.'] 

In [20]:
# Jika ada yang match dengan regex pattern
# Mencari 3 whitespaces
re.split(r'\s{3}', 'Saya lahir pada tahun 2000. Pada tahun   2004, umur saya baru 4 tahun. Saya tinggal di rumah bernomor 399 jalan Kahatex.')

['Saya lahir pada tahun 2000. Pada tahun',
 '2004, umur saya baru 4 tahun. Saya tinggal di rumah bernomor 399 jalan Kahatex.']

- Pada regex, \s berarti mencocokkan regular space (whitespace).
- Perbedaan antara split pada Python dan regex adalah kita bisa mendefinisikan pattern pada delimiter-nya, sedangkan pada Python hanya terbatas pada fixed characters saja. Jadi, split pada regex bersifat lebih fleksibel.
- Jika tidak ada yang match dengan pattern, maka tidak akan ada yang di-split. Outcome-nya adalah semua yang ada di dalam target string.

**re.sub()**

**Syntax**
re.sub(pattern, repl, string, count, flags.

Tiga argument wajib:
- pattern: regex pattern untuk target string.
- repl: replacement yang akan dimasukkan untuk tiap occurence.
- string: variabel target string.

Argumen tambahan:
- count: menandakan angka maksimal dari pattern yang akan diganti. Isinya harus berupa integer positif. Default-nya adalah 0, yang artinya semua pattern occurences akan diganti.
- flags: optional flags (re.S, re.I, re.X, etc.)

In [21]:
str2 = 'Saya LAHIR pada tahun 2000. Pada tahun 2004, UMUR saya baru 4 tahun. Saya TINGGAL di rumah bernomor 399 jalan Kahatex.'

In [22]:
# Mencari pattern yang mengandung huruf kapital semua --> [A-Z]
# Jumlah karakter pada kata minimal adalah 2 --> {2,}
# Jika ada yang match, maka akan diganti dengan kata 'INDEX'
hasil_sub = re.sub(r'[A-Z]{2,}', 'INDEX', str2)
hasil_sub

'Saya INDEX pada tahun 2000. Pada tahun 2004, INDEX saya baru 4 tahun. Saya INDEX di rumah bernomor 399 jalan Kahatex.'

In [24]:
# Jika argument count didefinisikan. count = 2
hasil_sub2 = re.sub(r'[A-Z]{2,}', 'INDEX', str2, 2)
hasil_sub2

'Saya INDEX pada tahun 2000. Pada tahun 2004, INDEX saya baru 4 tahun. Saya TINGGAL di rumah bernomor 399 jalan Kahatex.'

    Optional flags

Beberapa yang paling sering digunakan:
- re.I --> IGNORECASE --> mengubah sifat regex pattern menjadi insensitive case.
- re.S --> DOTALL --> cover new line character (multiline) when we are using dot (.)
- re.X --> VERBOSE --> more flexibility & better performing jika kita menuliskan regex code yang kompleks. Diletakkan di antara () method.

In [25]:
str2

'Saya LAHIR pada tahun 2000. Pada tahun 2004, UMUR saya baru 4 tahun. Saya TINGGAL di rumah bernomor 399 jalan Kahatex.'

    re.I

In [26]:
hasil_tanpa_ignorecase = re.findall(r'saya', str2)
hasil_tanpa_ignorecase

['saya']

In [27]:
hasil_ignorecase = re.findall(r'saya', str2, re.I)
hasil_ignorecase

['Saya', 'saya', 'Saya']

    re.S

In [29]:
str3 = 'Saya LAHIR pada tahun 2000. Pada tahun 2004, UMUR saya baru 4 tahun.\nSaya TINGGAL di rumah bernomor 399 jalan Kahatex.'

In [30]:
# Jika tidak menggunakan re.S, maka kalau kita menggunakan char (.), hanya line pertama saja yang terbaca.
# Char (.) tidak menerima multiline.
hasil_tanpa_dotall = re.search(r'.+', str3)
hasil_tanpa_dotall

<re.Match object; span=(0, 68), match='Saya LAHIR pada tahun 2000. Pada tahun 2004, UMUR>

In [31]:
# Untuk mengatasi masalah multiline pada target string jika kita menggunakan char (.), maka kita bisa menggunakan re.S
hasil_dotall = re.search(r'.+', str3, re.S)
hasil_dotall

<re.Match object; span=(0, 118), match='Saya LAHIR pada tahun 2000. Pada tahun 2004, UMUR>

In [35]:
str3 = 'Saya LAHIR pada tahun 2000 di rumah sakit Kahatex. Pada tahun 2004, UMUR saya baru 4 tahun.\nSaya TINGGAL di rumah bernomor 399 jalan Kahatex.'

    re.X

In [39]:
# Tanpa menggunakan re.X
hasil_verbose1 = re.search(r'.+\s(.+ex).+', str3, re.X)
hasil_verbose1

<re.Match object; span=(0, 141), match='Saya LAHIR pada tahun 2000 di rumah sakit Kahatex>

In [37]:
# Menambahkan dokumentasi/comment dengan menggunakan re.X
hasil_verbose2 = re.search(r'''.+\s # Beginning of the string
                            (.+ex) # Searching for word ending with ex
                            .+ # Middle of the string''',
                            str3, re.X)

hasil_verbose2

<re.Match object; span=(0, 141), match='Saya LAHIR pada tahun 2000 di rumah sakit Kahatex>

#### **Metacharacters**

**The dot (.)**

- Match any characters except new line (\n).

In [40]:
# Akan membaca semua karakter pada str3 kecuali new line. Jadi, hasilnya hanya sampai Kahatex pertama saja.
re.search(r'.+', str3)

<re.Match object; span=(0, 91), match='Saya LAHIR pada tahun 2000 di rumah sakit Kahatex>

    Match pattern in the beginning or the end of the string

**The caret (^)**

- Matches only at the beginning of the line.

In [42]:
str3

'Saya LAHIR pada tahun 2000 di rumah sakit Kahatex. Pada tahun 2004, UMUR saya baru 4 tahun.\nSaya TINGGAL di rumah bernomor 399 jalan Kahatex.'

In [41]:
# Mencari alphanumeric dan underscore berjumlah 4
re.search(r'^\w{4}', str3)

<re.Match object; span=(0, 4), match='Saya'>

In [43]:
# Jika jumlah char yang didefinisikan kurang dari jumlah char pada kata pertama di target string
re.search(r'^\w{3}', str3)

<re.Match object; span=(0, 3), match='Say'>

In [46]:
# Jika tidak ada yang match, tidak ada yang dikembalikan.
re.search(r'^\w{5}', str3)

- re.search() hanya menampilkan temuan pertama saja jika memang ada yang match dengan regex pattern.
- ^\w tidak akan bisa membaca semua pattern jika terdapat new line pada target string, meskipun menggunaka method re.findall() juga.
- Untuk dapat menemukan semua kata yang match dengan pattern pada target string meskipun terdapat multilines, guneakan re.findall() dan re.M yang gunanya untuk mengatasi masalah multiline.

In [47]:
str4 = 'Saya LAHIR pada tahun 2000 di rumah sakit Kahatex.\nPada tahun 2004, UMUR saya baru 4 tahun.\nSaya TINGGAL di rumah bernomor 399 jalan Kahatex.'

In [48]:
print(str4)

Saya LAHIR pada tahun 2000 di rumah sakit Kahatex.
Pada tahun 2004, UMUR saya baru 4 tahun.
Saya TINGGAL di rumah bernomor 399 jalan Kahatex.


In [49]:
# Hanya akan terbaca line pertama saja.
re.findall(r'^\w{4}', str4)

['Saya']

In [50]:
# Jika menggunakan multiline flag (re.M), maka tiap baris akan terbaca.
# Mengatasi masalah multiline
re.findall(r'^\w{4}', str4, re.M)

['Saya', 'Pada', 'Saya']

**The dollar sign ($)**

- Opposite of the caret (^), mathces at the end of line or string (if a string only has 1 line).

In [52]:
str4

'Saya LAHIR pada tahun 2000 di rumah sakit Kahatex.\nPada tahun 2004, UMUR saya baru 4 tahun.\nSaya TINGGAL di rumah bernomor 399 jalan Kahatex.'

In [54]:
re.findall(r'\s(\w{2,})\W$', str4, re.M)

['Kahatex', 'tahun', 'Kahatex']

In [62]:
print('Saya LAHIR pada tahun 2000 di rumah sakit Kahatexx. \nPada tahun 2004, UMUR saya baru 4 tahun. \nSaya TINGGAL di rumah bernomor 399 jalan Kahatex.')

Saya LAHIR pada tahun 2000 di rumah sakit Kahatexx. 
Pada tahun 2004, UMUR saya baru 4 tahun. 
Saya TINGGAL di rumah bernomor 399 jalan Kahatex.


In [72]:
# Contoh case lain, menggunakan spasi setelah titik.
re.findall(r'\s(\w{2,})\W\s$', 'Saya LAHIR pada tahun 2000 di rumah sakit Kahatexx. \nPada tahun 2004, UMUR saya baru 4 tahun. \nSaya TINGGAL di rumah bernomor 399 jalan Kahatex.', re.M)

['Kahatexx', 'tahun']

**The asterisk (*)**

- Matches zero or more repetitions of the preceding expression in a greedy way (as many repetitions as possible) by default.

In [74]:
str4

'Saya LAHIR pada tahun 2000 di rumah sakit Kahatex.\nPada tahun 2004, UMUR saya baru 4 tahun.\nSaya TINGGAL di rumah bernomor 399 jalan Kahatex.'

In [73]:
re.findall(r'\d\d\d*', str4)

# Regex pattern dengan pola minimal 2 digit (zero repetition) dan jika memungkinkan adalah 3 digit atau lebih (more repetitions).

['2000', '2004', '399']

In [81]:
# Alternatif cara penulisan.
re.findall(r'\d{2}\d*', str4)

['2000', '2004', '399']

In [80]:
# Contoh lain dengan variasi cara penulisan.
re.findall(r'\d{2}\d*', '2020020 09 2102')

['2020020', '09', '2102']

    Greedy & non-greedy behaviour

In [82]:
# Contoh 1
# Sifat greedy pada * dan +
re.findall(r'A.*', str4)

['AHIR pada tahun 2000 di rumah sakit Kahatex.',
 'AL di rumah bernomor 399 jalan Kahatex.']

In [83]:
# Contoh 2
# Cancelling greedy to non-greedy by using (?)
re.findall(r'A.*?', str4)

['A', 'A']

- Sifat greedy berarti jika ada yang match, maka akan dikembalikan sebanyak mungkin pada outcome, seperti pada contoh 1.
- Tapi, kita bisa cancelling greedy behaviour-nya dengan menggunakan tanda tanya (?). 

**The plus sign (+)**

- Match 1 or more repetitions of the preceding expression in a greedy way by default.

In [87]:
# Mencari minimal 2 digit secara berurutan (\d\d), tapi karena ada \d+, jadi outcome-nya minimal adalah yang memiliki 3 digit.
# \d ketiga bersifat wajib atau minimal ada 1 repetisi.
re.findall(r'\d\d\d+', '1 10 100 1000 10000')

['100', '1000', '10000']

In [88]:
# Bandingkan dengan menggunakan asterisk.
# \d bersifat opsional (boleh tidak ada repetisi).
re.findall(r'\d\d\d*', '1 10 100 1000 10000')

['10', '100', '1000', '10000']

Perbedaan + dan *

In [93]:
teks = 'Enak makan Entog di FTSE, ketika hari hujan'

# Mencari E kapital pada target string yang diikuti oleh alphanumeric
# Menggunakan +
re.findall(r'E\w+', teks)

['Enak', 'Entog']

In [94]:
# Menggunakan *
re.findall(r'E\w*', teks)

['Enak', 'Entog', 'E']

In [98]:
# Jika ingin mengambil semua kata dalam teks
re.findall(r'E.*', teks)

['Enak makan Entog di FTSE, ketika hari hujan']

- Karena + membutuhkan setidaknya satu repetisi \w setelah E, maka hasilnya yang match hanyalah 'Enak' dan 'Entog'. E pada 'FTSE' tidak termasuk karena setelahnya diikuti oleh tanda koma, yang mana di luar spec \w (hanya menerima alphanumeric dan underscore).
- Sebaliknya, pada * yang bisa tidak memiliki repetisi untuk \w setelah E, maka E pada 'FTSE' masuk ke dalam outcome.

    re.findall() nature-nya adalah menerima multiline, karena re.search() hanya menerima single line. Untuk bisa menerima multiline pada re.search(), kita bisa menggunakan re.M (multiline flag).

In [107]:
# Mencari E kapital pada target string yang diikuti oleh alphanumeric, lalu diikuti huruf 'k'.
re.findall(r'E\w+k', 'Enak makan BEBEK di FTSE, ketika hari hujan')

['Enak']

**The question mark (?)**

- Matches 0 or 1 repetition of the preceding expression. It is cancelling the greedy behaviour.

- Jumlah repetisi yang memungkinkan hanyalah antara 0 dan 1 kali.
- By default adalah non-greedy behaviour.

In [108]:
str2

'Saya LAHIR pada tahun 2000. Pada tahun 2004, UMUR saya baru 4 tahun. Saya TINGGAL di rumah bernomor 399 jalan Kahatex.'

In [109]:
re.findall(r'\d\d\d?', str2)

['200', '200', '399']

In [111]:
re.findall(r'\d\d\d?', '1 10 100 1000 100001')

['10', '100', '100', '100', '001']

In [112]:
re.findall(r'A.?', str2)

['AH', 'AL']

**The backslash ( \ )**

Functions:
1. Signals a special sequence (\d, \w, etc.)
2. Escaping and matching a symbol with special meaning in regex syntax (\ . or \ ?)

In [115]:
str2

'Saya LAHIR pada tahun 2000. Pada tahun 2004, UMUR saya baru 4 tahun. Saya TINGGAL di rumah bernomor 399 jalan Kahatex.'

In [113]:
# Function 1
re.findall(r'\d', str2)

['2', '0', '0', '0', '2', '0', '0', '4', '4', '3', '9', '9']

In [114]:
# Function 2

# Mencari tanda titik di dalam target string.
# Jika tanda titik didahului oleh backslash, maka artinya kita mau mencari tanda titik pada target string.
re.findall(r'\.', str2)

['.', '.', '.']

**The square brackets []**

- Square brackets represent sets of characters and character classes.
- Any special characters (. * ?) lose their power/meaning when inside [].

In [116]:
str2

'Saya LAHIR pada tahun 2000. Pada tahun 2004, UMUR saya baru 4 tahun. Saya TINGGAL di rumah bernomor 399 jalan Kahatex.'

In [117]:
# Mencari semua karakter yang didefinisikan di dalam []
re.findall(r'[ykx]', str2)

['y', 'y', 'y', 'x']

In [119]:
# Menggunakan (-) untuk mendefinisikan range
# Start stop bersifat inclusive.
print(re.findall(r'[h-m]', str2), end=' ')

['h', 'h', 'h', 'i', 'm', 'h', 'm', 'j', 'l', 'h'] 

In [120]:
# Bisa juga diaplikasikan pada digit
print(re.findall(r'[1-5]', str2), end=' ')

['2', '2', '4', '4', '3'] 

In [121]:
# Kalau menggunakan 2 [] berarti:
    # - karakter pertama ada pada range a-d
    # - karakter kedua ada pada range h-m
print(re.findall(r'[a-d][h-m]', str2), end=' ')

['ah', 'ah', 'ah', 'di', 'ah', 'al', 'ah'] 

In [123]:
print(re.findall(r'[1-5][7-9]', str2), end=' ')

['39'] 

In [127]:
# Fungsi lain dari ^ ketika berada di dalam []
# Berarti negation atau mencari yang sebaliknya dari yang didefinisikan di dalam []

x = re.findall(r'[^S]', str2)
print(x, end=' ')

['a', 'y', 'a', ' ', 'L', 'A', 'H', 'I', 'R', ' ', 'p', 'a', 'd', 'a', ' ', 't', 'a', 'h', 'u', 'n', ' ', '2', '0', '0', '0', '.', ' ', 'P', 'a', 'd', 'a', ' ', 't', 'a', 'h', 'u', 'n', ' ', '2', '0', '0', '4', ',', ' ', 'U', 'M', 'U', 'R', ' ', 's', 'a', 'y', 'a', ' ', 'b', 'a', 'r', 'u', ' ', '4', ' ', 't', 'a', 'h', 'u', 'n', '.', ' ', 'a', 'y', 'a', ' ', 'T', 'I', 'N', 'G', 'G', 'A', 'L', ' ', 'd', 'i', ' ', 'r', 'u', 'm', 'a', 'h', ' ', 'b', 'e', 'r', 'n', 'o', 'm', 'o', 'r', ' ', '3', '9', '9', ' ', 'j', 'a', 'l', 'a', 'n', ' ', 'K', 'a', 'h', 'a', 't', 'e', 'x', '.'] 

In [128]:
'S' in x

False

In [132]:
# Semua special characters kehilangan fungsinya ketika berada di dalam []
# Regex di bawah berarti mencari antara tanda ( ) . + atau ? pada target string
re.findall(r'[.+?()]', '().+?')

['(', ')', '.', '+', '?']

    Character classes

In [133]:
# Character class 0-9
re.findall(r'[0-9]', str2)

['2', '0', '0', '0', '2', '0', '0', '4', '4', '3', '9', '9']

In [135]:
# Character class a-z dan A-Z
print(re.findall(r'[a-zA-Z]', str2), end=' ')

['S', 'a', 'y', 'a', 'L', 'A', 'H', 'I', 'R', 'p', 'a', 'd', 'a', 't', 'a', 'h', 'u', 'n', 'P', 'a', 'd', 'a', 't', 'a', 'h', 'u', 'n', 'U', 'M', 'U', 'R', 's', 'a', 'y', 'a', 'b', 'a', 'r', 'u', 't', 'a', 'h', 'u', 'n', 'S', 'a', 'y', 'a', 'T', 'I', 'N', 'G', 'G', 'A', 'L', 'd', 'i', 'r', 'u', 'm', 'a', 'h', 'b', 'e', 'r', 'n', 'o', 'm', 'o', 'r', 'j', 'a', 'l', 'a', 'n', 'K', 'a', 'h', 'a', 't', 'e', 'x'] 

**Whitespace characters**

- space from keyboard
- new line char (\n)
- tab char (\t)
- carriage return (\r)
- form feed (\f)
- vertical tab (\v)

In [138]:
print(re.findall(r'[ \n\t\r\f\v]', str4), end=' ')

[' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', '\n', ' ', ' ', ' ', ' ', ' ', ' ', ' ', '\n', ' ', ' ', ' ', ' ', ' ', ' ', ' '] 

**The curly braces {}**

- Repetition operator like * and +
- Bisa digunakan untuk mendefinisikan quantified repetitions.

In [140]:
# Contoh 1
# Mencari alphanumeric sebanyak 4 kali secara beruntun. Jika ada kata yang melebihi 4 karakter, maka hanya 4 karakter pertama saja yang diambil.
print(re.findall(r'\w{4}', str2), end=' ')

['Saya', 'LAHI', 'pada', 'tahu', '2000', 'Pada', 'tahu', '2004', 'UMUR', 'saya', 'baru', 'tahu', 'Saya', 'TING', 'ruma', 'bern', 'omor', 'jala', 'Kaha'] 

In [141]:
# Mencari kata yang memiliki 3 hingga 5 chars.
print(re.findall(r'\w{3,5}', str2), end=' ')

['Saya', 'LAHIR', 'pada', 'tahun', '2000', 'Pada', 'tahun', '2004', 'UMUR', 'saya', 'baru', 'tahun', 'Saya', 'TINGG', 'rumah', 'berno', 'mor', '399', 'jalan', 'Kahat'] 

In [142]:
# Mencari kata yang minimal memiliki 3 chars hingga ~
print(re.findall(r'\w{3,}', str2), end=' ')

['Saya', 'LAHIR', 'pada', 'tahun', '2000', 'Pada', 'tahun', '2004', 'UMUR', 'saya', 'baru', 'tahun', 'Saya', 'TINGGAL', 'rumah', 'bernomor', '399', 'jalan', 'Kahatex'] 

**The pipe (|)**

    A|B|C berarti A atau B atau C. Hanya akan mengembalikan salah satu saja yang match.

Hanya mengembalikan 1 nilai saja.

In [144]:
str2

'Saya LAHIR pada tahun 2000. Pada tahun 2004, UMUR saya baru 4 tahun. Saya TINGGAL di rumah bernomor 399 jalan Kahatex.'

In [143]:
# Contoh jika kondisi pertama sudah match
re.search(r'\d{3}|\d{4}|\b[A-Z]{4}\b', str2)

<re.Match object; span=(22, 25), match='200'>

In [148]:
# Contoh jika kondisi 1 dan 2 tidak ada yang match
# Outcome-nya adalah UMUR karena ada \b sebelum dan sesudah regex [A-Z]{4}, yang mana artinya adalah mencari yang benar-benar
    # sesuai spec regex.
re.search(r'\d{8}|\d{10}|\b[A-Z]{4}\b', str2)

<re.Match object; span=(45, 49), match='UMUR'>

**Grouping**

- (...)
- Regex yang berada di dalam () berarti dihitung sebagai 1 grup.
- Regex yang berada di dalam () berarti akan dioperasikan secara menyeluruh dengan metachar yang mengikutinya.

In [149]:
re.findall(r'abc+', 'abc, abcc, abcccc')

['abc', 'abcc', 'abcccc']

In [150]:
re.findall(r'(abc)+', 'abc, abcc, abcccc')

['abc', 'abc', 'abc']

In [151]:
re.findall(r'abc+', 'abc, abcabc, abcabcabc')

['abc', 'abc', 'abc', 'abc', 'abc', 'abc']

In [160]:
re.findall(r'(abc)+', 'abc, abcabc, abcabcabc')

['abc', 'abc', 'abc']

In [158]:
re.findall(r'(abc)+?', 'abc, abcabc, abcabcabc')

['abc', 'abc', 'abc', 'abc', 'abc', 'abc']

**?: non-grouping**

?: is used when you want to group an expression, but you don't want to save it as a matched/captured portion of the string.

    Perbandingan hasil grouping dan non-grouping

In [161]:
# Grouping
re.findall(r'(abc)+', 'abc, abcabc, abcabcabc')

['abc', 'abc', 'abc']

In [162]:
# Non-grouping
re.findall(r'(?:abc)+', 'abc, abcabc, abcabcabc')

['abc', 'abcabc', 'abcabcabc']

In [163]:
re.findall(r'abc+', 'abc, abcabc, abcabcabc')

['abc', 'abc', 'abc', 'abc', 'abc', 'abc']

In [170]:
re.findall(r'[()].+', 'Good morning (selamat pagi)')

['(selamat pagi)']

    Special sequences

* * *
* <font color="red">[0-9]</font> Matches a single digit
* <font color="red">[a-z0-9]</font> Matches a single character that must be a lower case letter or a digit.
* <font color="red">[A-Za-z]</font> Matches a single character that much be a upper/lower case letter 
* <font color="red">\d</font> Matches any decimal digit; equivalent to the set [0-9].
* <font color="red">\D</font> Matches characters that are not digits, which is equivalent to [^0-9] or [^\d].
* <font color="red">\w</font> Matches any alphanumeric character, which is equivalent to [a-zA-Z0-9].
* <font color="red">\W</font> Matches any non-alphanumeric character; which is equivalent to [^a-zA-Z0-9] or [^\w].
* <font color="red">\s</font> Matches any whitespace character; which is equivalent to [\t\n\r\f\v], where \t indicates taps, \n  line feeds, \r carriage returns, \f form feeds and \v vertical tabs.
* <font color="red">\S:</font> Matches any non-whitespace character; which is equivalent to  [^ \t\n\r\f\v].
* <font color="red">ˆ</font> Matches the start of the line.
* <font color="red">$</font> Matches the end of the line.


More information can be found here :
https://docs.python.org/2/library/re.html
* * *

    Repetition metacharacters

* <font color="red">.</font> Matches any character (a wildcard).
* <font color="red">*</font> Matches when the preceding character occurs zero or more times.
* <font color="red">+</font> Matches when the preceding character occurs one or more times.
* <font color="red">?</font> Matches when the preceding character occurs zero or one times.

**\b and \B**

    Used to signal word boundaries. Matching alphanumeric and non.

    Summary:

**Front**
- \b.. mencari kata yang penting mengandung chars yang didefinisikan. Misal, \bmau pada 'mau maulid libur', maka outcome-nya adalah 'mau' dan 'mau' pada 'maulid'.
- \B.. meskipun mengandung chars yang didefinisikan, tapi kalau tidak didahului oleh char yang lain, maka tidak akan match. Misal \Bmau pada 'mau maulid libur' tidak akan ada yang match karena 'mau' tidak didahului oleh char apapun. Kalau misal \Bmau pada 'semau', hasilnya akan match.

**Double**
- \b..\b mencari kata utuh sesuai dengan char yang didefinisikan. Jadi, kalau \bmau\b pada 'mau maulid libur' berarti hanya match dengan 'mau' saja, 'maulid' tidak match karena diikuti chars lain setelahnya.
- \B..\B mencari char yang didefinisikan di tengah-tengah suatu kata. Misal, \Bmau\B pada 'kemauan' akan match karena ada 'mau' di tengah-tengah 'kemauan'.

**End**
- ..\b mencari kata yang sesuai dengan char yang didefinisikan. Misal, mau\b pada 'mau maulid libur', outcome hanya 'mau' pada 'mau' karena merupakan kata utuh. Sedangkan 'mau' pada 'maulid' tidak match karena diikuti 'lid' setelah 'mau'.
- ..\B mencari char yang didefinisikan pada suatu kata dan diikuti oleh chars lain. Misal, mau\B pada 'mau maulid libur', outcome hanya 'mau' pada 'maulid' saja karena setelah 'mau' diikuti oleh 'lid'.