# **Regular Expression (Regex)**

- Regex digunakan untuk mengekstrak sub-text dari sebuah dokumen yang besar
- Segala yang berhubungan dengan pencocokan dan mencorai pola di dalam teks

In [13]:
import re

### Character Set

kurung siku mengindikasikan karakter yang diinginkan 

[ ] menyediakan slot untuk 1 karakter

In [14]:
words = 'gray grey griy gruy groy'

re.findall('gr[ae]y', words)

['gray', 'grey']

In [15]:
words = 'gray grey griy gruy groy'
pattern = 'gr[ae]y'

re.findall(pattern, words)

['gray', 'grey']

In [16]:
words = 'gray grey griy gruy groy grAy graay graey'
pattern = 'gr[ae]y'

re.findall(pattern, words)

# grAy  tidak termasuk, karena A nya kapital
# graay tidak termasuk karena jumlah karakternya ada 5, harusnya 4
# graey tidak termasuk karena jumlah karakternya ada 5, harusnya 4

['gray', 'grey']

### Character Range

- Character Set, kita menentukan karakternya 1 per 1
- Character Range, kita menentukan karakternya berupa range 
- penulisan ...-...

In [17]:
# menampilkan kata yg 4 huruf, yaitu g, r, kemudian diikuti huruf apapun lowercase, diikuti y
words = 'gray grey griy gruy groy grAy graay graey'
pattern = 'gr[a-z]y'

re.findall(pattern, words)

['gray', 'grey', 'griy', 'gruy', 'groy']

In [18]:
# menampilkan kata yg 4 huruf, yaitu g, r, kemudian diikuti huruf apapun lowercase atau uppercase, diikuti y

words = 'gray grey griy gruy groy grAy graay graey'
pattern = 'gr[a-zA-Z]y'

re.findall(pattern, words)

['gray', 'grey', 'griy', 'gruy', 'groy', 'grAy']

In [21]:
words = 'XRA 000, 1AA 1AA'
pattern = '[A-Z0-9][A-Z][A-Z] [0-9][A-Z0-9][A-Z0-9]'

re.findall(pattern, words)

# 1. Huruf kapital atau angka
# 2. Huruf kapital
# 3. Huruf kapital
# 4. Spasi
# 5. Angka
# 6. Huruf kapital atau angka
# 7. Huruf kapital atau angka

['XRA 000', '1AA 1AA']

In [22]:
words = 'XRA 000, 1AA 1AA, xyz 000, 4FG 5Y5'
pattern = '[A-Z0-9][A-Z][A-Z] [0-9][A-Z0-9][A-Z0-9]'

re.findall(pattern, words)

['XRA 000', '1AA 1AA', '4FG 5Y5']

### Quantified Repetition

Digunakan kalau kita ingin menentukan jumlah pengulangan yang kita inginkan
penulisanny {m,n}

- m --> minimum (wajib diisi)
- n --> maximum

In [23]:
words = 'XRA 000, 1AA 1AA'
pattern = '[A-Z0-9][A-Z]{2} [0-9][A-Z0-9]{2}'

re.findall(pattern, words)

['XRA 000', '1AA 1AA']

In [27]:
words = 'XRA 000, 1AA 1AA, 7SSSS 123, 7SSSSS 123'
pattern = '[A-Z0-9][A-Z]{2,4} [0-9][A-Z0-9]{2}'

re.findall(pattern, words)

['XRA 000', '1AA 1AA', '7SSSS 123', 'SSSSS 123']

* * *
**Metacharacter**

* <font color="red">[0-9]</font> Matches a single digit
* <font color="red">[a-z0-9]</font> Matches a single character that must be a lower case letter or a digit.
* <font color="red">[A-Za-z]</font> Matches a single character that much be a upper/lower case letter 
* <font color="red">\d</font> Matches any decimal digit; equivalent to the set [0-9].
* <font color="red">\D</font> Matches characters that are not digits, which is equivalent to [^0-9] or [^\d].
* <font color="red">\w</font> Matches any alphanumeric character, which is equivalent to [a-zA-Z0-9_].
* <font color="red">\W</font> Matches any non-alphanumeric character; which is equivalent to [^a-zA-Z0-9_] or [^\w].
* <font color="red">\s</font> Matches any whitespace character; which is equivalent to [\t\n\r\f\v], where \t indicates taps, \n  line feeds, \r carriage returns, \f form feeds and \v vertical tabs.
* <font color="red">\S:</font> Matches any non-whitespace character; which is equivalent to  [^ \t\n\r\f\v].
* <font color="red">ˆ</font> Matches the start of the line.
* <font color="red">$</font> Matches the end of the line.


More information can be found here :
https://docs.python.org/2/library/re.html

---

In [30]:
words = 'XRA 000, 1AA 1AA'
pattern = '\w[A-Z]{2} \d\w{2}'

re.findall(pattern, words)

['XRA 000', '1AA 1AA']

**Repetition Metacharacter**

- \* Mencocokkan 0 kali atau lebih pengulangan
- \+ Mencocokkan 1 kali atau lebih pengulangan
- \? Mencocokkan 0 atau 1 kali pengulangan 

In [31]:
# Menampilkan huruf kecil/huruf besar/angka/underscore yang berulang minimal 1 kali
words = 'XRA 000, 1AA 1AA'
pattern = '\w+'

re.findall(pattern, words)

['XRA', '000', '1AA', '1AA']

In [32]:
# Menampilkan huruf kecil/huruf besar/angka/underscore 

words = 'XRA 000, 1AA 1AA'
pattern = '\w'

re.findall(pattern, words)

['X', 'R', 'A', '0', '0', '0', '1', 'A', 'A', '1', 'A', 'A']

In [35]:
# Menampilkan huruf kecil/huruf besar/angka/underscore 

words = 'XRA 000, 1AA 1AA'
pattern = '[a-zA-Z0-9_]'

re.findall(pattern, words)

['X', 'R', 'A', '0', '0', '0', '1', 'A', 'A', '1', 'A', 'A']

In [36]:
# Menampilkan huruf kecil/huruf besar/angka/underscore yang berulang minimal 0 kali
# ketika karakternya tidak cocok dengan pattern, maka akan ditampilkan sebagai string kosong

words = 'XRA 000, 1AA 1AA'
pattern = '\w*'

re.findall(pattern, words)

['XRA', '', '000', '', '', '1AA', '', '1AA', '']

In [37]:
# Menampilkan angka 3 digit

words = 'XRA 000, 1AA 1AA'
pattern = '[0-9][0-9][0-9]'

re.findall(pattern, words)

# 000

['000']

In [38]:
# Menampilkan angka 3 digit

words = 'XRA 000, 1AA 1AA'
pattern = '[0-9]{3}'

re.findall(pattern, words)

['000']

In [44]:
# Menampilkan angka 1 digit atau lebih

words = 'XRA 000, 1AA 1AA'
pattern = '[0-9]{1,}'

re.findall(pattern, words)

['000', '1', '1']

In [45]:
# Menampilkan angka 1 digit atau lebih

words = 'XRA 000, 1AA 1AA'
pattern = '[0-9]+'

re.findall(pattern, words)

['000', '1', '1']

In [46]:
# Menampilkan angka 3 digit atau lebih

words = 'XRA 000, 1AA 1AA, 9999'
pattern = '[0-9]{3,}'

re.findall(pattern, words)

['000', '9999']

In [47]:
words = 'XRA 000, 1AA 1AA'
pattern = '\d{3}'

re.findall(pattern, words)

['000']

In [48]:
# Mencari angka 1 digit

words = 'XRA 000, 1AA 1AA'
pattern = '\d'

re.findall(pattern, words)

['0', '0', '0', '1', '1']

In [50]:
words = 'XRA 000, 1AA 1AA'
pattern = '[^0-9]{3}'

re.findall(pattern, words)

['XRA', 'AA ']

In [51]:
words = 'XRA 000, 1AA 1AA'
pattern = '\D{3}'

re.findall(pattern, words)

['XRA', 'AA ']

In [52]:
# Menampilkan spasi

words = 'XRA 000, 1AA 1AA'
pattern = ' '

re.findall(pattern, words)

[' ', ' ', ' ']

In [53]:
# Menampilkan spasi

words = 'XRA 000, 1AA 1AA'
pattern = '\s'

re.findall(pattern, words)

[' ', ' ', ' ']

In [55]:
# Menampilkan spasi

words = 'XRA 000, 1AA 1AA'
pattern = '\S+'

re.findall(pattern, words)

['XRA', '000,', '1AA', '1AA']

### Grouping

Digunakan untuk mencari karakter yang sama persis dengan regular expression yang tertulis dalam tanda kurung

Kegunaan:
- Menerapkan pengulangan ke dalam group atau kelompok.
- Membuat regex menjadi mudah dibaca.
- Memudahkan pengambilan kelompok karakter untuk pencocokkan pola

In [56]:
# Menampilkan kata yg huruf pertamanya a, kemudian b, kemudian c, dan c nya bisa berulang lebih dari 1 kali

kalimat = 'abc abcc abcccccc'
pattern = 'abc+'

re.findall(pattern, kalimat)

['abc', 'abcc', 'abcccccc']

In [57]:
kalimat = 'abc abcc abcccccc'
pattern = '(abc)+'

re.findall(pattern, kalimat)

['abc', 'abc', 'abc']

In [61]:
# Mencari 'abc' yang muncul 1 kali atau bisa berulang, tapi hanya menampilkan 'abc' 1 kali saja

kalimat = 'abc abcc abcccccc abcabc'
pattern = '(abc)+'

re.findall(pattern, kalimat)

['abc', 'abc', 'abc', 'abc']

In [62]:
# Mencari 'abc' yang muncul 1 kali atau bisa berulang, dan juga menampilkan 'abc' yang muncul 1 kali atau bisa berulang

kalimat = 'abc abcc abcccccc abcabc'
pattern = '(?:abc)+'

re.findall(pattern, kalimat)

['abc', 'abc', 'abc', 'abcabc']

### Alternative

Mirip dengan operator OR 


In [63]:
# Mencari 'apple juice' atau 'orange juice', tapi yang ditampilkan hanya 'apple' atau 'orange'

kalimat = 'apple juice, mango juice, orange juice, apple pie'
pattern = '(apple|orange) juice'

re.findall(pattern, kalimat)

['apple', 'orange']

In [64]:
# Mencari 'apple juice' atau 'orange juice', dan yang ditampilkan juga 'apple juice' atau 'orange juice'

kalimat = 'apple juice, mango juice, orange juice, apple pie'
pattern = '(?:apple|orange) juice'

re.findall(pattern, kalimat)

['apple juice', 'orange juice']

In [65]:
kalimat = 'apple juice, mango juice, orange juice, apple pie'
pattern = '(apple|orange)'

re.findall(pattern, kalimat)

['apple', 'orange', 'apple']

### Escape Character

menggunakan backslash

In [None]:
# jika tidak menggunakan \, maka . artinya wildcard (karakter apapun akan match) 

kalimat = 'saya minum JUS mangga harga 5000.'
pattern = '.'

re.findall(pattern, kalimat)

In [82]:
# jika menggunakan \, maka artinya kita ingin mencari karakter . itu sendiri

kalimat = 'saya minum JUS mangga harga 5000.'
pattern = '\.'

re.findall(pattern, kalimat)

['.']

### mbox-short

In [66]:
with open('mbox-short.txt', 'r') as infile:
    text = infile.read()

In [93]:
pattern = '\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}.'

hasil = re.findall(pattern, text)
len(hasil)

243

In [92]:
pattern = '(?:\d{1,3}\.){3}\d{1,3}.'

hasil = re.findall(pattern, text)
len(hasil)

243

### Word Boundaries

\b

In [112]:
kalimat = 'ini adalah ops oops ooops oooops oooooops'
pattern = '(?:ooo)+ps'

re.findall(pattern, kalimat)

['ooops', 'ooops', 'oooooops']

In [117]:
kalimat = 'ini adalah ops oops ooops oooops oooooops'
pattern = r'\b(?:ooo)+ps'

re.findall(pattern, kalimat)


['ooops', 'oooooops']

### Raw String

r' ' --> maksudnya adalah raw string

In [114]:
print('Ini adalah hello\b world')

# di python, \b artinya adalah backspace

Ini adalah hell world


In [115]:
print(r'Ini adalah hello\b world')

# dengan menambahkan raw string di depannya, maka \b terbaca sebagaimana adanya

Ini adalah hello\b world


In [130]:
# kita mencari yg karakter pertamanya a, lalu diikuti 2 digit angka, kemudian diikuti titik
# tapi yang ditampilkan hanya 2 digit angka, kemudian diikuti titik 

kalimat = 'This is IP address 111.a23.a39.99'
pattern = 'a(\d{2}\.)'

re.findall(pattern, kalimat)

# 23. 39.

['23.', '39.']

In [128]:
kalimat = 'This is IP address 111.a23.a39.99'
pattern = 'a(\d{2}.)'

re.findall(pattern, kalimat)

['23.', '39.']

In [124]:
kalimat = 'This is IP address 111.a23.a39.99'
pattern = 'a'

re.findall(pattern, kalimat)

['a', 'a', 'a']

In [123]:
kalimat = 'This is IP address 111.a23.a39.99'
pattern = 'a(?=\d{2}\.)'

re.findall(pattern, kalimat)

['a', 'a']