# **Introduction to Regex**

Regular Expression (dipendekkan menjadi regex atau regexp) adalah serangkaian karakter yang mendefinisikan sebuah pola pencarian. Pola tersebut biasanya digunakan oleh algoritme pencarian string untuk melakukan operasi "cari" atau "cari dan ganti" pada string, atau untuk memeriksa string input. Regular Expression merupakan teknik yang dikembangakan dalam bidang ilmu komputer teori dan teori bahasa formal.

Konsep ini muncul pada 1950-an ketika matematikawan Amerika Stephen Cole Kleene memformalkan deskripsi sebuah bahasa reguler. Regular Expression digunakan untuk mencocokan atau mencari pola dari dalam text seperti di mesin pencari, dialog cari dan ganti dalam pengolah kata dan penyunting teks, dalam utilitas pengolahan teks dan dalam analisis leksikal. Kebanyakan bahasa pemrograman menyediakan pengolah Regular Expression baik secara bawaan atau melalui pustaka.

___

In [1]:
# pip install regex

In [1]:
import re

## **1. Searching for Patterns in Text**

Salah satu kegunaan paling umum dari modul re adalah untuk menemukan pola dalam teks. Mari kita lakukan contoh singkat penggunaan metode pencarian di modul re untuk menemukan beberapa teks:

In [3]:
# List of patterns to search for
patterns = [ 'kucing', 'anjing' ]

# Text to parse
text = 'Ini adalah string dengan kata kucing, tetapi tidak ada kata lainnya'

for pattern in patterns:
    print(f'Mencari pola "{pattern}" pada: \n"{text}"')
    
    # Check for match
    if re.search(pattern,  text):
        print('Match was found. \n')
    else:
        print('No Match was found.\n')

Mencari pola "kucing" pada: 
"Ini adalah string dengan kata kucing, tetapi tidak ada kata lainnya"
Match was found. 

Mencari pola "anjing" pada: 
"Ini adalah string dengan kata kucing, tetapi tidak ada kata lainnya"
No Match was found.



Sekarang kita telah melihat bahwa `re.search()` akan mengambil polanya, memindai teksnya, dan kemudian mengembalikan objek **Match**. Jika tidak ada pola yang ditemukan, **None** yang dikembalikan. Untuk memberikan gambaran yang lebih jelas tentang objek pencocokan ini, lihat sel di bawah ini:

In [4]:
# List of patterns to search for
pattern = 'kucing'

# Text to parse
text = 'Ini adalah string dengan kata kucing, tetapi tidak ada kata lainnya'

match = re.search(pattern,  text)

type(match)

re.Match

Objek **Match** yang dikembalikan oleh metode `search()` lebih dari sekedar **Boolean** atau **None**, objek ini berisi informasi tentang kecocokan, termasuk string input yang asli, regex yang digunakan, dan lokasi kecocokan. Mari kita lihat metode yang bisa kita gunakan pada objek match:

In [5]:
# Show start of match
match.start()

30

In [6]:
# Show start of match
match.end()

36

## **2. Split with reguler expressions**

Mari kita lihat bagaimana kita dapat memisahkan dengan sintaks re. Ini akan terlihat serupa dengan cara Anda menggunakan metode `split()` pada string.

In [7]:
# Term to split on
split_term = '@'

phrase = 'Apa nama domain dari seseorang yang menggunakan email: hello@gmail.com'

# Split the phrase
re.split(split_term,phrase)

['Apa nama domain dari seseorang yang menggunakan email: hello', 'gmail.com']

Perhatikan bagaimana `re.split()` mengembalikan list dalam versi string yang dipisah.

## **3. Substitutes with reguler expressions**

Fungsi regex lain yang sangat berguna adalah `re.sub()`, yang menggantikan satu bit teks dengan teks lainnya jika menemukan kecocokan. Berikut ini contohnya:


In [2]:
sentence = '''The analytics firm uses a range of BI tools to  visualize data. Their internal data science team suggests
bi tools may be their most valuable resource.'''

match = re.sub(r'bi','business intelligence', sentence, flags=re.IGNORECASE)
# The IGNORECASE flag allows for matches regardless of the case

print(match)

The analytics firm uses a range of business intelligence tools to  visualize data. Their internal data science team suggests
business intelligence tools may be their most valuable resource.


## **4. Finding all instances of a pattern**

Kita dapat menggunakan `re.findall()` untuk menemukan semua contoh pola dalam sebuah string. Misalnya:

In [8]:
# Returns a list of all matches
# syntax : re.findall(pattern, string)

re.findall('kucing','Disini ada kucing, disana ada kucing, dimana-mana ada kucing. Bahkan emailku pun kucing123@gmail.com')

['kucing', 'kucing', 'kucing', 'kucing']

## **5. Character Set**

Character set digunakan ketika Anda ingin mencocokkan salah satu dari sekelompok karakter pada suatu titik di input. Tanda kurung digunakan untuk membuat input character set. Misalnya: masukan [ab] mencari kemunculan a atau b. Secara umum aturan dari character set adalah sebagai berikut:

- menggunakan kurung siku []
- [] mengindikasikan karakter yang diinginkan
- [] mewakili slot untuk satu karakter

Mari kita lihat beberapa contoh:

- mencari/menemukan kata `batuk`

In [9]:
words = 'Orang Batak botak kepala batok pakai batik batuk-batuk.'
pattern = 'batuk'

re.findall(pattern = pattern, string = words)
# output berupa ['batuk', 'batuk']
# 'batuk' dari 'batuk'
# 'batuk' dari 'batuk'

['batuk', 'batuk']

- mencari/menemukan kata `batik` dan `batuk`

In [10]:
words = 'Orang Batak botak kepala batok pakai batik batuk-batuk.'
pattern = 'bat[iu]k'

re.findall(pattern = pattern, string = words)
# hanya match dengan kata yang index ke-3-nya huruf 'i' atau 'u'

['batik', 'batuk', 'batuk']

- mencari/menemukan kata `Batak, batok, batik` dan `batuk`

In [11]:
words = 'Orang Batak botak kepala batok pakai batik batuk-batuk.'
pattern = '[Bb]at[aiuo]k'

re.findall(pattern = pattern, string = words)
# hanya match dengan kata yang index ke-3-nya huruf 'a', 'i', 'u' atau 'o'

['Batak', 'batok', 'batik', 'batuk', 'batuk']

## **6. Character Range**

Ketika character set bertambah besar, mengetik setiap karakter yang seharusnya (atau tidak seharusnya) cocok bisa menjadi sangat membosankan. Format yang lebih ringkas menggunakan character range memungkinkan Anda menentukan character set untuk menyertakan semua karakter yang berdekatan antara titik awal dan titik akhir. Format yang digunakan adalah `[awal-akhir]`.

Kasus penggunaan umum adalah untuk mencari rentang huruf tertentu dalam alfabet, seperti `[a-f]` akan menghasilkan kecocokan dengan huruf apa pun antara a dan f.

Mari kita lihat beberapa contoh:

- mencari kata dengan 5 huruf, diawali 'de', kemudian diikuti 3 huruf kecil apapun.

In [32]:
words = 'debam, de.um, deCAK, dengung, denTum, denting, der1k, derIt, dering, des4H, desing, des!r, deSI5, det@k'

pattern = 'de[abcdefghijklmnopqrstuvwxyz][abcdefghijklmnopqrstuvwxyz][abcdefghijklmnopqrstuvwxyz]'  # character set : menyebutkan satu per satu huruf mulai dari a sampai z

re.findall(pattern = pattern, string = words)

['debam', 'dengu', 'denti', 'derin', 'desin']

In [33]:
words = 'debam, de.um, deCAK, dengung, denTum, denting, der1k, derIt, dering, des4H, desing, des!r, deSI5, det@k'
pattern = 'de[a-z][a-z][a-z]'  # character range : menyebutkan range huruf

re.findall(pattern = pattern, string = words)

['debam', 'dengu', 'denti', 'derin', 'desin']

- mencari kata dengan 5 huruf, diawali 'de', kemudian diikuti 3 huruf kecil atau huruf besar apapun.

In [34]:
words = 'debam, de.um, deCAK, dengung, denTum, denting, der1k, derIt, dering, des4H, desing, des!r, deSI5, det@k'
pattern = 'de[a-zA-Z][a-zA-Z][a-zA-Z]'                    

re.findall(pattern = pattern, string = words)

['debam', 'deCAK', 'dengu', 'denTu', 'denti', 'derIt', 'derin', 'desin']

- mencari kata dengan 5 huruf, diawali 'de', kemudian diikuti 3 huruf kecil, huruf besar, atau angka apapun.

In [35]:
words = 'debam, de.um, deCAK, dengung, denTum, denting, der1k, derIt, dering, des4H, desing, des!r, deSI5, det@k'
pattern = 'de[a-zA-Z0-9][a-zA-Z0-9][a-zA-Z0-9]'                    

re.findall(pattern = pattern, string = words)

['debam',
 'deCAK',
 'dengu',
 'denTu',
 'denti',
 'der1k',
 'derIt',
 'derin',
 'des4H',
 'desin',
 'deSI5']

- mencari kata dengan 5 huruf, diawali 'de', kemudian diikuti 3 karakter apapun.

In [38]:
words = 'debam, de.um, deCAK, dengung, denTum, denting, der1k, derIt, dering, des4H, desing, des!r, deSI5, det@k'
pattern = 'de[a-zA-Z0-9!-_][a-zA-Z0-9!-_][a-zA-Z0-9!-_]'                    

re.findall(pattern = pattern, string = words)

['debam',
 'de.um',
 'deCAK',
 'dengu',
 'denTu',
 'denti',
 'der1k',
 'derIt',
 'derin',
 'des4H',
 'desin',
 'des!r',
 'deSI5',
 'det@k']

In [39]:
words = 'debam, de.um, deCAK, dengung, denTum, denting, der1k, derIt, dering, des4H, desing, des!r, deSI5, det@k'
pattern = 'de...'                    # . adalah wildcard berupa karakter apapun

re.findall(pattern = pattern, string = words)

['debam',
 'de.um',
 'deCAK',
 'dengu',
 'denTu',
 'denti',
 'der1k',
 'derIt',
 'derin',
 'des4H',
 'desin',
 'des!r',
 'deSI5',
 'det@k']

- mencari kata dengan `de.um`.

In [40]:
words = 'debam, de.um, deCAK, dengung, denTum, denting, der1k, derIt, dering, des4H, desing, des!r, deSI5, det@k'
pattern = 'de[.]um'                   

re.findall(pattern = pattern, string = words)

['de.um']

In [41]:
words = 'debam, de.um, deCAK, dengung, denTum, denting, der1k, derIt, dering, des4H, desing, des!r, deSI5, det@k'
pattern = 'de\.um'         # backslash berperan sebagai escape character sehingga titik terbaca sebagai titik

re.findall(pattern = pattern, string = words)

['de.um']

- buat pattern yang match dengan `XRA 000`, `1AA 2CD`, dan `XYZ 481`

In [66]:
words = 'XRA 000, 1AA 2CD, xyz 4810, XYZ 4810, XR1 000, ABC 77, COD 1, XY@ 123'
pattern = '[A-Z0-9][A-Z][A-Z] [0-9][A-Z0-9][A-Z0-9]'

re.findall(pattern = pattern, string = words)
# xyz 481 --> tidak match karena 'xyz' huruf kecil
# XYZ 481 --> match, karena sesuai pattern untuk 7 karakter yang pertama

['XRA 000', '1AA 2CD', 'XYZ 481']

## **7. Quantified Repetition**

Adakalanya kita ingin menentukan jumlah pengulangan yang kita inginkan tanpa perlu menulis ulang karakter yang dinginkan berkali-kali. Kita bisa menggunakan syntaks `{minimum_karakter, maksimum_karakter}` dimana `minimum_karakter` wajib kita isi. Syntaks tersebut akan melekat pada karakter sebelum tanda `{}`.

- buat pattern yang match dengan `XRA 000, 1AA 2CD`, dan `XYZ 481`

In [67]:
words = 'XRA 000, 1AA 2CD, xyz 4810, XYZ 4810, XR1 000, ABC 77, COD 1, XY@ 123'
pattern = '[A-Z0-9][A-Z]{2} [0-9][A-Z0-9]{2}'

re.findall(pattern = pattern, string = words)

# pola '[A-Z0-9][A-Z]{2} [0-9][A-Z0-9]{2}' setara dengan
# pola '[A-Z0-9][A-Z][A-Z] [0-9][A-Z0-9][A-Z0-9]'

['XRA 000', '1AA 2CD', 'XYZ 481']

- buat pattern yang match dengan `XYZ 4810`

In [68]:
words = 'XRA 000, 1AA 2CD, xyz 4810, XYZ 4810, XR1 000, ABC 77, COD 1, XY@ 123'
pattern = '[A-Z0-9][A-Z]{2} [0-9][A-Z0-9]{3}'

re.findall(pattern = pattern, string = words)

['XYZ 4810']

- buat pattern yang match dengan `XRA 000, 1AA 2CD` dan `XYZ 4810`

In [69]:
words = 'XRA 000, 1AA 2CD, xyz 4810, XYZ 4810, XR1 000, ABC 77, COD 1, XY@ 123'
pattern = '[A-Z0-9][A-Z]{2} [0-9][A-Z0-9]{2,3}'

re.findall(pattern = pattern, string = words)
# pengulangan hanya berlaku pada karakter yang menempel dengan tanda kurung kurawal
# [A-Z]{2} --> artinya huruf kapital berulang 2 kali
# [A-Z0-9]{2,3} --> artinya huruf kapital atau angka berulang minimal 2 kali dan maksimal 3 kali


['XRA 000', '1AA 2CD', 'XYZ 4810']

- buat pattern yang match dengan `XRA 000, 1AA 2CD, XYZ 4810`, dan `ABC 77`

In [70]:
words = 'XRA 000, 1AA 2CD, xyz 4810, XYZ 4810, XR1 000, ABC 77, COD 1, XY@ 123'
pattern = '[A-Z0-9][A-Z]{2} [0-9][A-Z0-9]{1,3}'

re.findall(pattern = pattern, string = words)

# pattern '[A-Z0-9][A-Z]{2} [0-9][A-Z0-9]{1,3}' setara dengan:
# '[A-Z0-9][A-Z][A-Z] [0-9][A-Z0-9]'
# '[A-Z0-9][A-Z][A-Z] [0-9][A-Z0-9][A-Z0-9]'
# '[A-Z0-9][A-Z][A-Z] [0-9][A-Z0-9][A-Z0-9][A-Z0-9]'

['XRA 000', '1AA 2CD', 'XYZ 4810', 'ABC 77']

## **8. Metacharacters**

Kita dapat menggunakan kode escape khusus untuk menemukan tipe pola tertentu dalam data Anda, seperti digit, non-digit, spasi, dan lainnya. Misalnya:

Code |	Meaning
--- | ---
\d |	a digit [0-9]
\D |	a non-digit
\w |	alphanumeric [a-zA-Z0-9_]
\W |	non-alphanumeric
\s |	whitespace (tab, space, newline, etc.)
\S |	non-whitespace

- buat pattern yang match dengan `XRA 000, 1AA 2CD, XYZ 4810`, dan `ABC 77`

In [71]:
words = 'XRA 000, 1AA 2CD, xyz 4810, XYZ 4810, XR1 000, ABC 77, COD 1, XY@ 123'
pattern = '[A-Z0-9][A-Z]{2} [0-9][A-Z0-9]{1,3}'

re.findall(pattern = pattern, string = words)

['XRA 000', '1AA 2CD', 'XYZ 4810', 'ABC 77']

In [72]:
words = 'XRA 000, 1AA 2CD, xyz 4810, XYZ 4810, XR1 000, ABC 77, COD 1, XY@ 123'
pattern = '\w[A-Z]{2}\s\d\w{1,3}'

re.findall(pattern = pattern, string = words)

['XRA 000', '1AA 2CD', 'XYZ 4810', 'ABC 77']

- buat pattern yang match dengan `XRA 000, 1AA 2CD, xyz 4810, XYZ 4810, XR1 000`, dan `ABC 77`

In [73]:
words = 'XRA 000, 1AA 2CD, xyz 4810, XYZ 4810, XR1 000, ABC 77, COD 1, XY@ 123'
pattern = '\w{3}\s\d\w{1,3}'

re.findall(pattern = pattern, string = words)

# xyz 4810 --> ikut match, karena \w ini mewakili alphanumeri (huruf besar, huruf kecil, angka, dan juga underscore)

['XRA 000', '1AA 2CD', 'xyz 4810', 'XYZ 4810', 'XR1 000', 'ABC 77']

## **9. Exclusion**

Kita dapat menggunakan ^ untuk mengecualikan istilah dengan memasukkannya ke dalam notasi sintaksis braket. Misalnya: `[^...]` akan cocok dengan karakter apa pun yang tidak ada dalam tanda kurung. Mari kita lihat contoh:

- buat pattern yang match dengan `XRA 000, 1AA 2CD, xyz 4810, XYZ 4810, ABC 77`, dan `XY@ 123`

In [74]:
words = 'XRA 000, 1AA 2CD, xyz 4810, XYZ 4810, XR1 000, ABC 77, COD 1, XY@ 123'
pattern = '\w{2}[^\d]\s\d\w{1,3}'

re.findall(pattern = pattern, string = words)

['XRA 000', '1AA 2CD', 'xyz 4810', 'XYZ 4810', 'ABC 77', 'XY@ 123']

## **10. Repetition Metacharacters**

Selain metacharacter yang telah  disebutkan di atas, terdapat repetition metacharacters yang meminta lebih dari satu kemunculan karakter. Tabel berikutnya menunjukkan semua repetition metacharacters.

| Quantifier  | Role                               |
| ---         | ---                                |
| \*          | 0 or more. Same as { , }             |
| \+          | 1 or more. Same as {1, }            | 
| \?          | Optional, so 0 or 1. Same as { ,1}. |


- `\*` mencocokkan 0 kali atau lebih pengulangan

In [77]:
words = 'XRA 000, 1AA 2CD, xyz 4810, XYZ 4810, XR1 000, ABC 77, COD 1, XY@ 123'
pattern = '\w*\s\d*'

re.findall(pattern = pattern, string = words)

# \w* --> huruf kecil atau huruf besar atau angka atau underscore berulang sebanyak 0 kali atau lebih
# \s --> spasi
# \d* --> angka berulang sebanyak 0 kali atau lebih 

['XRA 000',
 ' 1',
 'AA 2',
 ' ',
 'xyz 4810',
 ' ',
 'XYZ 4810',
 ' ',
 'XR1 000',
 ' ',
 'ABC 77',
 ' ',
 'COD 1',
 ' ',
 ' 123']

- `\+` mencocokkan 1 kali atau lebih pengulangan

In [79]:
words = 'XRA 000, 1AA 2CD, xyz 4810, XYZ 4810, XR1 000, ABC 77, COD 1, XY@ 123'
pattern = '\w+\s\d+'

re.findall(pattern = pattern, string = words)

# \w+ --> huruf kecil atau huruf besar atau angka atau underscore berulang sebanyak 1 kali atau lebih
# \s --> spasi
# \d+ --> angka berulang sebanyak 1 kali atau lebih 

# artinya ada spasi yang dikirinya berupa huruf atau angka atau underscore adalah angka minimal 1 kali
# dan dikanannya adalah angka minimal 1 kali atau lebih

['XRA 000', '1AA 2', 'xyz 4810', 'XYZ 4810', 'XR1 000', 'ABC 77', 'COD 1']

- `\?` mencocokkan 0 atau 1 kali pengulangan

In [80]:
words = 'XRA 000, 1AA 2CD, xyz 4810, XYZ 4810, XR1 000, ABC 77, COD 1, XY@ 123'
pattern = '\w?\s\d?'

re.findall(pattern = pattern, string = words)

['A 0',
 ' 1',
 'A 2',
 ' ',
 'z 4',
 ' ',
 'Z 4',
 ' ',
 '1 0',
 ' ',
 'C 7',
 ' ',
 'D 1',
 ' ',
 ' 1']

- menampilkan huruf dari setiap akun

In [81]:
words = 'rihanna, ChampionsLeague, BTS_twt, taylorswift13, NICKIMINAJ, KevinHart4real, 10Ronaldinho'
pattern = '[A-Za-z]+'

re.findall(pattern = pattern, string = words)

['rihanna',
 'ChampionsLeague',
 'BTS',
 'twt',
 'taylorswift',
 'NICKIMINAJ',
 'KevinHart',
 'real',
 'Ronaldinho']

- menampilkan angka dari setiap akun

In [82]:
words = 'rihanna, ChampionsLeague, BTS_twt, taylorswift13, NICKIMINAJ, KevinHart4real, 10Ronaldinho'
pattern = '\d+'

re.findall(pattern = pattern, string = words)

['13', '4', '10']

- menampilkan setiap akun

In [83]:
words = 'rihanna, ChampionsLeague, BTS_twt, taylorswift13, NICKIMINAJ, KevinHart4real, 10Ronaldinho'
pattern = '\w+'

re.findall(pattern = pattern, string = words)

['rihanna',
 'ChampionsLeague',
 'BTS_twt',
 'taylorswift13',
 'NICKIMINAJ',
 'KevinHart4real',
 '10Ronaldinho']

- menampilkan akun yang mengandung angka

In [89]:
words = 'rihanna, ChampionsLeague, BTS_twt, taylorswift13, NICKIMINAJ, KevinHart4real, 10Ronaldinho'
pattern = '\w*\d+\w*'

re.findall(pattern = pattern, string = words)

# '[^\s,]+' --> karakter selain spasi dan koma berulang minimal 1 kali atau lebih

['taylorswift13', 'KevinHart4real', '10Ronaldinho']

## **11. Grouping**

Kita dapat menggunakan grouping untuk mencari karakter yang sama persis dengan regex yang ada di dalam kurung `()`. Manfaat dari grouping diantaranya kita dapat menerapkan perulangan ke dalam kelompok dan membuat regex menjadi lebih mudah dibaca

In [90]:
words = 'ab, abc, abcc, abcccc, abcabc, abcabcabc'
pattern = 'abc+'

re.findall(pattern = pattern, string = words)


['abc', 'abcc', 'abcccc', 'abc', 'abc', 'abc', 'abc', 'abc']

Pada contoh di atas repetition metacharacter '+' melekat pada karakter `c`, sehingga `c`-nya yang minimal 1 kali atau lebih.

In [92]:
words = 'ab, abc, abcc, abcccc, abcabc, abcabcabc'
pattern = '(abc)+'

re.findall(pattern = pattern, string = words)

['abc', 'abc', 'abc', 'abc', 'abc']

Pada contoh di atas repetition metacharacter '+' melekat pada karakter `abc`, sehingga `abc`-nya yang minimal 1 kali atau lebih.
Subtring yang ditampilkan adalah pola di dalam tanda kurung.

In [94]:
words = 'ab, abc, abcc, abcccc, abcabc, abcabcabc'
pattern = '(?:abc)+'

re.findall(pattern = pattern, string = words)

['abc', 'abc', 'abc', 'abcabc', 'abcabcabc']

Dengan menggunakan tanda `?:` di dalam grouping, maka yang ditampilkan adalah semua substring yang memuat `abc` 1 kali atau lebih : `abc`, `abcabc`, dst.

## **12. Alternative**

Kita dapat mengunakan tanda `|` sebagai alternatif. Fungsinya mirip dengan OR pada python.

- buat pola yang menampilkan `pineapple juice` dan `watermelon juice` tanpa grouping.

In [None]:
words = 'apple juice, melon juice, watermelon juice, apple pie, pineapple juice'
pattern = 'pineapple juice|watermelon juice'

re.findall(pattern = pattern, string = words)

['watermelon juice', 'pineapple juice']

- buat pola yang menampilkan `pineapple juice` dan `watermelon juice` dengan grouping.

In [None]:
words = 'apple juice, melon juice, watermelon juice, apple pie, pineapple juice'
pattern = '(pineapple|watermelon) juice'

re.findall(pattern = pattern, string = words)
# disini match dengan pineapple juice dan watermelon juice
# tetapi yang ditampilkan hanya yang didalam kurung ('pineapple' dan 'watermelon'-nya saja)

['watermelon', 'pineapple']

In [None]:
words = 'apple juice, melon juice, watermelon juice, apple pie, pineapple juice'
pattern = '(?:pineapple|watermelon) juice'

re.findall(pattern = pattern, string = words)
# disini match dengan pineapple juice dan watermelon juice
# dan yang ditampilkan sesuai dengan pineapple juice dan watermelon juice

['watermelon juice', 'pineapple juice']

## **13. Word Boundaries**

Dengan menggunakan `\b` di awal dan akhir pola, kita memastikan pencocokan dimulai dan diakhiri sebagai kata utuh, bukan bagian dari kata lain.

- buat pola untuk menampilkan `red` dari kata **red, hundred, dan reddit**

In [95]:
words = 'red, hundred, reddit'
pattern = 'red'

re.findall(pattern = pattern, string = words)

['red', 'red', 'red']

- buat pola untuk menampilkan `red` dari kata **red dan reddit**

In [None]:
# menampilkan 'red' dari 'red' dan 'reddit'
words = 'red, hundred, reddit'
pattern = '\\bred'

re.findall(pattern = pattern, string = words)

# output : ['red', 'red'] --> red pertama dari red dan red kedua dari reddit
# red pada hundred tidak termasuk, karena sebelum red ada karakter

['red', 'red']

Notes: kita harus menggunakan tambahan escape character '\' agar python tidak mengira `\b` sebagai backspace

- buat pola untuk menampilkan `red` dari kata **red dan hundred**

In [None]:
words = 'red, hundred, reddit'
pattern = 'red\\b'

re.findall(pattern = pattern, string = words)

# output : ['red', 'red'] --> red pertama dari red dan red kedua dari hundred
# red pada reddit tidak termasuk, karena setelah red ada karakter

['red', 'red']

- buat pola untuk menampilkan `red` dari kata **red**

In [None]:
words = 'red, hundred, reddit'
pattern = '\\bred\\b'

re.findall(pattern = pattern, string = words)

# output : ['red'] --> red dari red
# red pada hundred tidak termasuk, karena sebelum red ada karakter
# red pada reddit tidak termasuk, karena setelah red ada karakter

['red']

- buat pola yang menampilkan kata yang hanya terdiiri dari 5 karakter.

In [98]:
words = 'debam, debum, decak, dengung, dentum, denting, derik, derit, dering, desah, desing, desir, desis, detak'
pattern = '\\b\w{5}\\b'

re.findall(pattern = pattern, string = words)

['debam',
 'debum',
 'decak',
 'derik',
 'derit',
 'desah',
 'desir',
 'desis',
 'detak']

- buat pola yang menampilkan `apple juice` dan `melon juice`

In [99]:
words = 'apple juice, melon juice, watermelon juice, apple pie, pineapple juice'
pattern = '(?:\\bapple|\\bmelon) juice'

re.findall(pattern = pattern, string = words)

['apple juice', 'melon juice']

- buat pola yang menampilkan `ooops` dan `oooooops`

In [100]:
words = 'ops oops ooops oooops ooooops oooooops ooooooops'
pattern = '\\b(?:ooo)+ps'

re.findall(pattern = pattern, string = words)

['ooops', 'oooooops']

## **14. Raw Strings**

Kita dapat menggunakan `r` sebelum tanda petik agar seluruh karakter di dalam string terbaca sebagai text.

In [101]:
print('Ini adalah hello world')

Ini adalah hello world


In [None]:
print('Ini adalah hello\b world')

Ini adalah hell world


Pada python `\b` berarti backspace atau hapus 1 karakter. Sekarang kita akan coba tambahkan raw string.

In [None]:
print(r'Ini adalah hello\b world')

Ini adalah hello\b world


Setelah ditambahkan raw string maka `\b` menjadi `\b` itu sendiri

- buat pola yang menampilkan `ooops` dan `oooooops`

In [102]:
# buat pola yang menampilkan ooops dan oooooops
words = 'ops oops ooops oooops ooooops oooooops ooooooops'
pattern = '\b(?:ooo)+ps'

re.findall(pattern = pattern, string = words)
# tidak ada yang match karena \b terbaca sebagai backspace

[]

In [104]:
# buat pola yang menampilkan ooops dan oooooops
words = 'ops oops ooops oooops ooooops oooooops ooooooops'
pattern = r'\b(?:ooo)+ps'

re.findall(pattern = pattern, string = words)
# setelah ditambahkan rawstring, \b terbaca menjadi word boundary pada regex

['ooops', 'oooooops']