# Regular Expression
Regular Expression (disingkat: Regex) adalah sebuah pola (pattern) yang digunakan untuk mencocokkan, mencari, dan memanipulasi teks berdasarkan aturan tertentu. Regex sangat berguna untuk menemukan atau mengubah bagian-bagian spesifik dari string teks, seperti:
* Mencari semua nomor telepon di sebuah dokumen.
* Mengekstrak email dari teks.
* Memastikan format password.
* Membersihkan teks dari simbol atau karakter yang tidak diinginkan.

## Contoh Kegunaan Regex Secara Ringkas
| Tujuan                             | Pola Regex                       | Contoh Pencocokan           |
| ---------------------------------- | -------------------------------- | --------------------------- |
| Cari angka 3 digit                 | `\d{3}`                          | `123`, `456`                |
| Cek apakah email valid             | `\w+@\w+\.\w+`                   | `nama@email.com`            |
| Temukan kata diawali huruf besar   | `\b[A-Z]\w+`                     | `Indonesia`, `Python`       |
| Ganti semua spasi dengan tanda `-` | gunakan `re.sub(" ", "-", teks)` | `Halo Dunia` → `Halo-Dunia` |

## Mencari Kata “aplikasi” dalam Sebuah Kalimat
* __re.search(r'aplikasi', s)__ mencari kemunculan pertama kata "aplikasi" dalam string s.
* __match.start()__ mengembalikan indeks karakter pertama dari hasil pencocokan.
* __match.end()__ mengembalikan indeks karakter setelah karakter terakhir dari hasil pencocokan.

In [1]:
import re

s = 'Facebook: aplikasi yang menghubungkan manusia tanpa kenal ruang dan waktu'

match = re.search(r'aplikasi', s)

print('Start Index:', match.start())
print('End Index:', match.end())

Start Index: 10
End Index: 18


## Mencari Angka (IPK) dalam String
* String nama mengandung angka desimal yang merepresentasikan IPK.
* Pola \d+ pada regex digunakan untuk menemukan satu atau lebih digit angka.
* Fungsi __re.search()__ akan mencocokkan angka pertama yang ditemukan dalam string.
* __.start()__ dan __.end()__ mengembalikan posisi indeks dari angka tersebut.

In [2]:
nama = 'Andra dengan IPK 287'

match = re.search(r'\d+',nama)
print ('ipk :', match.start())
print ('ipk :', match.end())

ipk : 17
ipk : 20


## Mencari Kata “ke” dalam Kalimat
* __re.search(r'ke', A)__ mencari kemunculan pertama dari kata "ke" dalam string A.
* __Fungsi .start()__ menampilkan indeks posisi awal dari kata tersebut.
* __Fungsi .end()__ menampilkan indeks posisi akhir dari kata tersebut.

In [3]:
A = 'Hari ini gw ingin ke perpusnas'

match = re.search(r'ke',A)
print ('index pertamanya:',match.start())
print ('index terakhirnya:',match.end())

index pertamanya: 18
index terakhirnya: 20


## Mendeteksi Angka Pertama dalam Kalimat
* String coba berisi kalimat dengan angka di bagian akhir: 63.
* Pola \d+ digunakan untuk mencocokkan angka satu digit atau lebih.
* Fungsi __re.search()__ menemukan kemunculan angka pertama dalam string.
* __.start()__ dan __.end()__ digunakan untuk menunjukkan indeks posisi dari angka tersebut dalam string.

In [4]:
coba = 'Hallo nama saya winardi, Nomor rumah saya adalah 63'
match = re.search(r'\d+', coba)
print ('index nomor pertama:', match.start())
print ('index nomor terakhir:', match.end())

index nomor pertama: 49
index nomor terakhir: 51


## Mendeteksi Tanggal dan Kata Spesifik
* __re.search(r'\d+', trial)__ mencari angka pertama yang muncul, yaitu 10.
* Kemudian __re.search(r'lahir', trial)__ digunakan untuk menemukan kata "lahir" dalam string.
* __.start()__ dan __.end()__ mengembalikan posisi indeks awal dan akhir dari pencocokan kata "lahir".

In [5]:
trial = "saya lahir pada 10 April 1997"
match = re.search (r'\d+', trial)
print ('index tanggal pertama:', match.start())
match = re.search(r'lahir', trial)
print ('index perama :', match.start())
print ("index terakhir :", match.end())

index tanggal pertama: 16
index perama : 5
index terakhir : 10


## Menemukan Semua Angka Sekaligus
* __re.findall(r, trial)__ mencari semua pola yang cocok dengan ekspresi (\d+).
* Pola ini berarti semua angka satu digit atau lebih.
* Hasil dari __re.findall__ berupa list berisi semua angka yang ditemukan dalam string trial.
* Pada contoh string "saya lahir pada 10 April 1997", ditemukan dua angka: '10' dan '1997'.

In [6]:
r = "(\d+)"
match = re.findall(r, trial)
print (match)

['10', '1997']


# Metacharacter
Metacharacter adalah simbol khusus dalam regex yang tidak merepresentasikan karakter literal, tetapi memiliki fungsi tertentu untuk mencocokkan pola dalam string. Metacharacter membantu membuat pencarian menjadi fleksibel dan kuat.

Berikut ringkasan metacharacter yang umum digunakan:
| Metacharacter | Makna                                                | Contoh                                      |          |                                  |
| ------------- | ---------------------------------------------------- | ------------------------------------------- | -------- | -------------------------------- |
| `.`           | Mewakili **sembarang satu karakter** kecuali newline | `a.c` cocok dengan `abc`, `axc`             |          |                                  |
| `^`           | Menandai **awal** string                             | `^Hallo` cocok jika string diawali "Hallo"  |          |                                  |
| `$`           | Menandai **akhir** string                            | `rumah$` cocok jika string diakhiri "rumah" |          |                                  |
| `*`           | **0 atau lebih** dari karakter sebelumnya            | `lo*` cocok dengan `l`, `lo`, `loo`, dst.   |          |                                  |
| `+`           | **1 atau lebih** dari karakter sebelumnya            | `lo+` cocok dengan `lo`, `loo`, bukan `l`   |          |                                  |
| `?`           | **0 atau 1 kali** karakter sebelumnya (opsional)     | `ru?mah` cocok dengan `rmah`, `rumah`       |          |                                  |
| `[]`          | **Character set** (pilihan karakter)                 | `[aeiou]` cocok dengan huruf vokal          |          |                                  |
| `[^]`         | **Negasi** dari character set                        | `[^0-9]` cocok dengan semua kecuali angka   |          |                                  |
| `{m}`         | **Tepat m kali** karakter sebelumnya                 | `\d{4}` cocok dengan 4 digit angka          |          |                                  |
| `{m,n}`       | **Antara m sampai n kali**                           | `a{2,4}` cocok dengan `aa`, `aaa`, `aaaa`   |          |                                  |

## Pencocokan Satu Karakter Sembarang dengan `.`
1. __re.search(r'.', s)__:
    * Karakter titik `(.)` dalam regex adalah metacharacter yang mencocokkan satu karakter apa pun, kecuali karakter baris baru (\n).
    * Fungsi __re.search()__ akan mencari karakter pertama yang cocok di string.
    * Dalam string `'Adgan167@gmail.com'`, karakter pertama adalah `'A'`, sehingga hasil pencarian adalah `'A'`.
2. __print(match)__ akan menampilkan objek hasil pencocokan, misalnya: `<re.Match object; span=(0, 1), match='A'>`

In [7]:
s = 'Adgan167@gmail.com'

match = re.search(r'.', s)
print(match)

<re.Match object; span=(0, 1), match='A'>


##  Pencocokan Titik Karakter Literal dengan `\.`
1. __re.search(r'\.', s)__:
    * Simbol titik `(.)` sebagai metacharacter perlu di-escape dengan `\` agar dapat dicocokkan sebagai karakter titik biasa (literal).
    * Pola `r'\.'` mencocokkan titik yang sebenarnya, bukan sembarang karakter.
    * Dalam string 'Adgan167@gmail.com', terdapat titik setelah gmail, yaitu 'gmail.com', sehingga regex mencocokkan titik tersebut.
2. __print(match)__ akan menampilkan objek hasil pencocokan titik, misalnya: `<re.Match object; span=(14, 15), match='.'>`

In [8]:
match = re.search(r'\.', s)
print(match)

<re.Match object; span=(14, 15), match='.'>


## Pencarian Angka dan Huruf Tertentu Menggunakan __re.findall__

### String Target

In [9]:
string = """Halo, nomor mahasiswa saya 923472387 dan
            nomor mahasiswa teman saya 234130324
            no.telp. aditya 082298221785
            """

### Pola Pencarian Digit `(\d+)`
* `\d` adalah metakarakter yang mencocokkan satu digit angka (0–9).
* `+` berarti satu atau lebih digit.
* __re.findall(r'\d+', string)__ mencari semua urutan digit angka dalam string.
* Hasil:\
  ['923472387', '234130324', '082298221785']\
  karena ketiga itu adalah deretan angka dalam string.

In [10]:
regex = r'\d+'
match = re.findall(regex, string)
print(match)

['923472387', '234130324', '082298221785']


### Pola Pencarian Huruf a atau e
* `[ae]` adalah character class, artinya mencocokkan salah satu dari karakter a atau e.
* __re.findall(r'[ae]', string)__ mengembalikan semua karakter 'a' atau 'e' dalam string, dalam bentuk list.
* Hasil bisa berupa list panjang seperti:\
  ['a', 'o', 'a', 'a', 'a', 'a', 'a', 'a', 'e', 'a', 'e', ...]\
  tergantung berapa kali huruf tersebut muncul.

In [12]:
regex = r'[ae]'
match = re.findall(regex, string)
print(match)

['a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'e', 'a', 'a', 'a', 'e', 'a', 'a']


## re.compile()

## Pencarian Karakter Tertentu dengan re.compile() dan findall()

### Membuat Pola Regex dengan re.compile()
* __re.compile()__ digunakan untuk membuat objek pattern regex yang bisa digunakan berulang kali.
* [a-e] adalah character class yang mencocokkan huruf apa pun dari a sampai e (yaitu a, b, c, d, e).
* __flags=re.IGNORECASE__ membuat pencarian menjadi tidak sensitif huruf besar/kecil, jadi akan mencocokkan `A-E` dan `a-e`.

In [13]:
p = re.compile('[a-e]', flags=re.IGNORECASE)

### Pencarian Semua Karakter yang Sesuai
* __findall()__ mengembalikan semua karakter dalam string "Muhamad Petra Piyunandra" yang cocok dengan pola [a-e], baik huruf kecil maupun besar.
* Karakter yang sesuai dalam string tersebut adalah:\
  'a', 'd', 'e', 'b', 'c' (jika ada).
* Contoh hasil:\
  ['a', 'd', 'e', 'a', 'd', 'e', 'a']\
  (tergantung isi stringnya).

In [14]:
print(p.findall("Muhamad Petra Piyunandra"))

['a', 'a', 'd', 'e', 'a', 'a', 'd', 'a']


## Mencocokkan Angka dalam Teks dengan \d dan \d+

### Pola `\d` untuk Mencari Angka Satu per Satu
* `\d` adalah metakarakter dalam regex yang mencocokkan satu digit angka (sama dengan [0-9]).
* __findall()__ akan mencari dan mengembalikan setiap angka sebagai elemen terpisah dalam list.

In [15]:
p = re.compile(r'\d')
print(p.findall("Saya menemuinya pukul 11.00 pagi pada tanggal 4 Juli 1886"))

['1', '1', '0', '0', '4', '1', '8', '8', '6']


### Pola `\d+` untuk Mencari Angka yang Berurutan
* `\d+` mencocokkan satu atau lebih digit angka berturut-turut.
* Simbol `+` berarti "satu atau lebih".
* Angka-angka yang saling berdekatan (seperti 11, 00, 1886) akan dianggap sebagai satu kesatuan.

In [16]:
p = re.compile(r'\d+')
print(p.findall("Saya menemuinya pukul 11.00 pagi pada tanggal 4 Juli 1886"))

['11', '00', '4', '1886']


## re.split()

__re.split(pattern, string, maxsplit=0, flags=0)__

### Pemisahan berdasarkan karakter non-alfanumerik
* `r'\W+'` adalah pola regex yang mencocokkan satu atau lebih karakter non-word (bukan huruf/angka/underscore).
* Pada `'Kata, kata, Kata'`:
  - karakter non-word adalah `,` dan `spasi`
  - maka string dipecah di dua tempat yaitu setelah `Kata,` dan setelah `kata`

In [18]:
print(re.split(r'\W+', 'Kata, kata, Kata'))

['Kata', 'kata', 'Kata']


### Pemisahan berdasarkan karakter non-alfanumerik lagi
* Sama dengan sebelumnya, tapi hanya ada spasi sebagai karakter non-alfanumerik.
* Spasi digunakan sebagai titik pemisah.

In [19]:
print(re.split(r'\W+', "Kata kata Kata"))

['Kata', 'kata', 'Kata']


### Split kalimat kompleks berdasarkan karakter non-alfanumerik
* Regex `\W+` membuat split string pada setiap spasi, koma (,), dan titik dua (:)
* String dipecah menjadi bagian-bagian teks dan angka

In [20]:
print(re.split(r'\W+', 'Pada 12 Januari 2016, pukul 11:02 AM'))

['Pada', '12', 'Januari', '2016', 'pukul', '11', '02', 'AM']


### Split string berdasarkan angka
* Regex `\d+` artinya cocok dengan satu atau lebih angka
* Setiap kali ditemukan angka (12, 2016, 11, 02), string akan dipotong di sana

In [21]:
print(re.split(r'\d+', 'Pada 12 Januari 2016, pukul 11:02 AM'))

['Pada ', ' Januari ', ', pukul ', ':', ' AM']


### Split dengan batas jumlah pemisahan (maxsplit=1)
* Regex pattern `\d+` artinya mencocokkan satu atau lebih digit angka
* Argumen ke-3: 1 yaitu parameter maxsplit, artinya hanya memisahkan sekali saja yaitu dalam hal ini setelah kata "Pada"

In [22]:
print(re.split(r'\d+', 'Pada 12 Januari 2016, pukul 11:02 AM', maxsplit=1))

['Pada ', ' Januari 2016, pukul 11:02 AM']


### Split tanpa batas (maxsplit default)
* Tidak diberikan argumen maxsplit, sehingga semua pola `\d+` (angka) akan dipakai untuk split
* Sama seperti contoh sebelumnya (tanpa batas)
* Split dilakukan di semua angka yaitu 12, 2016, 11, 02

In [23]:
print(re.split(r'\d+','Pada 12 Januari 2016, pukul 11:02 AM'))

['Pada ', ' Januari ', ', pukul ', ':', ' AM']


### Split dengan flags=re.IGNORECASE
* Pattern `[a-f]+` artinya cocok dengan 1 atau lebih huruf dari a sampai f
* __flags=re.IGNORECASE__ artinya pencocokan dilakukan tanpa membedakan huruf kapital/kecil
* Catatan: Karena pencocokan bersifat case-insensitive (IGNORECASE), maka huruf A, B, dst dihitung cocok juga. Hasil mungkin terlihat kompleks karena pola `[a-f]+` bisa cocok dengan lebih banyak bagian teks.

In [24]:
print(re.split(r'[a-f]+', 'Aey, Boy oh boy, come here', flags=re.IGNORECASE))

['', 'y, ', 'oy oh ', 'oy, ', 'om', ' h', 'r', '']


### Split tanpa flags=re.IGNORECASE (case-sensitive)
* Pattern `[a-f]+` (tanpa IGNORECASE) artinya hanya cocok dengan huruf kecil a-f
* Huruf kapital seperti A, B tidak akan dicocokkan
* Maka hanya e dan a kecil yang cocok

In [25]:
print(re.split(r'[a-f]+', 'Aey, Boy oh boy, come here'))

['A', 'y, Boy oh ', 'oy, ', 'om', ' h', 'r', '']


## re.sub()

__re.sub(pattern, repl, string, count=0, flags=0)__\
re.sub(pattern, repl, string, count=0, flags=0) berfungsi mengganti semua (atau sebagian jika count diberikan) kemunculan pola RegEx dengan string baru dalam teks.

### Penggantian dengan Flag IGNORECASE
* Akan diganti `'ub'` (case-insensitive) dengan `'~*'` dalam string 'Subjek sudah memesan Uber'.
* `'ub'` akan dikenali baik dalam 'Subjek' (Ub) dan 'Uber' (Ub).

In [26]:
print(re.sub('ub', '~*', 'Subjek sudah memesan Uber', flags=re.IGNORECASE))

S~*jek sudah memesan ~*er


### Tanpa Flag IGNORECASE
* Tanpa flags artinya Case sensitive.
* `'ub'` hanya cocok jika huruf kecil semua, tidak cocok dengan `'Ub'`.
* Hanya `'ub'` pada 'Subjek' yang diganti, bukan `'Uber'`.

In [27]:
print(re.sub('ub', '~*', 'Subjek sudah memesan Uber'))

S~*jek sudah memesan Uber


### Batasi Jumlah Penggantian (count=1)
* Menggunakan IGNORECASE, tetapi count=1 membatasi jumlah penggantian hanya 1 kali.
* `'ub'` pada `'Subjek'` diganti, sedangkan `'Uber'` tetap.

In [28]:
print(re.sub('ub', '~*', 'Subjek sudah memesan Uber', count=1, flags=re.IGNORECASE))

S~*jek sudah memesan Uber


### Pola Spesifik dengan Karakter Escape `\s`
* Pola: \sAND\s artinya spasi + 'AND' + spasi.
* 'dan' dalam kalimat tidak cocok karena 'AND' ≠ dan', kecuali 'dan' diterjemahkan ke 'and'.
* Namun karena IGNORECASE, 'and' cocok.
* Diganti menjadi ' & '.

In [29]:
print(re.sub('\sAND\s', ' & ', 'Kacang Panggang dan Spam', flags=re.IGNORECASE))

Kacang Panggang dan Spam


In [30]:
print(re.sub('\sAND\s', ' & ', 'Kacang Panggang and Spam', flags=re.IGNORECASE))

Kacang Panggang & Spam


### Penggantian Substring 'ti' dengan 'ty' satu kali

In [31]:
print(re.sub('ti','ty','Aditia adiTia pramana putra', count = 1, flags = re.IGNORECASE))

Aditya adiTia pramana putra


### Ganti 'ti' tanpa flag IGNORECASE

In [32]:
print(re.sub(r'ti','ty','Aditia adiTia pramana putra'))

Aditya adiTia pramana putra


## re.subn()

__re.subn(pattern, repl, string, count=0, flags=0)__

### Substitusi karakter kosong '' dengan '~*' (sebanyak 2 kali)
* Akan disisipkan `'~*'` sebanyak dua kali ke dalam string `'Subjek sudah memesan Uber'` di antara karakter.
* `''` artinya pola kosong berarti pencocokan terjadi di antara setiap karakter, termasuk awal dan akhir string.
* `'~*'` artinya string pengganti yang akan disisipkan.
* `count=2` artinya hanya lakukan dua penggantian pertama.
* Hasilnya adalah tuple `('~*~*Subjek sudah memesan Uber', 2)` karena hanya dua penyisipan dilakukan.

In [33]:
print(re.subn('', '~*', 'Subjek sudah memesan Uber', count=2))

('~*S~*ubjek sudah memesan Uber', 2)


### Substitusi case insensitive
* Ganti semua kemunculan kata `'ub'` dengan `'~*'` secara case-insensitive (re.IGNORECASE).
* `'ub'` cocok dengan `'Ub'` di `"Subjek"` dan `"Uber"`.

In [34]:
print(re.subn('ub', '~*', 'Subjek sudah memesan Uber', flags=re.IGNORECASE))

('S~*jek sudah memesan ~*er', 2)


## re.escape()

__re.escape(string)__

### Menambahkan escape pada spasi (karakter non-alfanumerik tunggal)
* Karakter non-alfanumerik artinya hanya spasi `' '` yang dianggap bukan alfanumerik.
* __re.escape()__ akan menambahkan backslash `(\)` sebelum setiap spasi.

In [35]:
print(re.escape("Ini Luar Biasa Bahkan Jam 1 Pagi"))

Ini\ Luar\ Biasa\ Bahkan\ Jam\ 1\ Pagi


### Escape berbagai karakter non-alfanumerik (kompleks)
* `\[, \]` artinya menghindari makna regex dari kurung siku (class karakter).
* `\-` artinya minus di dalam class karakter bisa bermakna rentang, jadi di-escape.
* `\,` artinya koma di-escape juga walau tidak spesial di regex.
* `\\t` artinya tab diubah menjadi dua backslash karena aslinya \t adalah tab.
* `\^` artinya caret adalah simbol anchor regex (awal string), di-escape agar literal.

In [36]:
print(re.escape("Saya Bertanya Apa Ini [a-9], Dia Bilang \t ^WoW"))

Saya\ Bertanya\ Apa\ Ini\ \[a\-9\],\ Dia\ Bilang\ \	\ \^WoW


## re.search()

### Definisi Pola Regex
* `r"..."` artinya raw string literal agar backslash `(\)` tidak ditafsirkan sebagai escape character.
* `([a-zA-Z]+)` artinya grup pertama mencocokkan satu atau lebih huruf alfabet (nama bulan).
* `(\d+)` artinya grup kedua mencocokkan satu atau lebih digit (tanggal/hari).

In [37]:
regex = r"([a-zA-Z]+) (\d+)"

### Pencocokan dengan re.search()
* __re.search()__ mencari kemunculan pertama dari pola regex dalam string.
* Akan mengembalikan objek match jika cocok, atau None jika tidak cocok.

In [38]:
# Program Python untuk mendemonstrasikan cara kerja re.search()
import re

# Definisi Pola Regex:
# - ([a-zA-Z]+)  → mencocokkan nama bulan (huruf saja)
# - (\d+)        → mencocokkan angka (hari)
regex = r"(\d+) ([a-zA-Z]+)"

# String yang akan diuji
kalimat = "Saya Lahir pada 24 Juni"

# Mencari pola regex di dalam kalimat
match = re.search(regex, kalimat)

# Jika cocok ditemukan
if match != None:
    # Menampilkan indeks awal dan akhir dari kecocokan
    print("Cocok pada indeks %s, %s" % (match.start(), match.end()))

    # Menampilkan hasil kecocokan penuh (group 0)
    print("Kecocokan penuh: %s" % (match.group(0)))

    # Menampilkan hasil dari grup 1 (Tanggal)
    print("Tanggal: %s" % (match.group(1)))

    # Menampilkan hasil dari grup 2 (Bulan)
    print("Bulan: %s" % (match.group(2)))

#  Jika tidak ditemukan kecocokan
else:
    print("Pola regex tidak cocok.")


Cocok pada indeks 16, 23
Kecocokan penuh: 24 Juni
Tanggal: 24
Bulan: Juni


# Match Object

In [39]:
import re

# Contoh 1: Mencari huruf 'N' di awal kata dalam string
s = "Universitas Negeri terbaik di Indonesia adalah ..."

# \bN artinya: cari huruf 'N' yang berada di awal kata
res = re.search(r"\bN", s)

# Menampilkan regex yang digunakan
print("Regex yang digunakan (Contoh 1):", res.re)

# Menampilkan string sumber
print("String sumber (Contoh 1):", res.string)

# Menampilkan indeks awal dari huruf 'N' yang cocok
print("Indeks awal kecocokan 'N':", res.start())

# Menampilkan indeks akhir kecocokan (tepat setelah 'N')
print("Indeks akhir kecocokan 'N':", res.end())

# Menampilkan tuple (start, end)
print("Rentang kecocokan (start, end):", res.span())


print("\n" + "-"*50 + "\n")  # Pemisah antar contoh


# Contoh 2: Mencari huruf 'M' di awal kata dalam string dengan newline
a = 'Gw kece dari lahir\nMuhamad Petra Piyunandra'

# \bM artinya: cari huruf 'M' yang berada di awal kata
res = re.search(r"\bM", a)

# Menampilkan regex yang digunakan
print("Regex yang digunakan (Contoh 2):", res.re)

# Menampilkan string sumber
print("String sumber (Contoh 2):", res.string)

# Menampilkan indeks awal dari huruf 'M' yang cocok
print("Indeks awal kecocokan 'M':", res.start())

# Menampilkan indeks akhir kecocokan (tepat setelah 'M')
print("Indeks akhir kecocokan 'M':", res.end())

# Menampilkan tuple (start, end)
print("Rentang kecocokan (start, end):", res.span())

Regex yang digunakan (Contoh 1): re.compile('\\bN')
String sumber (Contoh 1): Universitas Negeri terbaik di Indonesia adalah ...
Indeks awal kecocokan 'N': 12
Indeks akhir kecocokan 'N': 13
Rentang kecocokan (start, end): (12, 13)

--------------------------------------------------

Regex yang digunakan (Contoh 2): re.compile('\\bM')
String sumber (Contoh 2): Gw kece dari lahir
Muhamad Petra Piyunandra
Indeks awal kecocokan 'M': 19
Indeks akhir kecocokan 'M': 20
Rentang kecocokan (start, end): (19, 20)


## Matching pattern with text

In [40]:
# Program Python untuk mendemonstrasikan cara kerja
# re.match().
import re

# contoh fungsi yang menggunakan ekspresi reguler
# untuk menemukan bulan dan hari pada suatu tanggal.
def findMonthAndDate(string):

    regex = r"([a-zA-Z]+) (\d+)"
    match = re.match(regex, string)

    if match == None:
        print ("Bukan tanggal yang valid")
    else:
        print ("Data yang Diberikan: %s" % (match.group()))
        print ("Bulan: %s" % (match.group(1)))
        print ("Hari: %s" % (match.group(2)))

# Kode Pengemudi
findMonthAndDate("24 April")
print("")
findMonthAndDate("24 Juni")
print("")
findMonthAndDate("24 Desember")
print("")
findMonthAndDate("Januari 79")

Bukan tanggal yang valid

Bukan tanggal yang valid

Bukan tanggal yang valid

Data yang Diberikan: Januari 79
Bulan: Januari
Hari: 79


## Find all occurence in pattern

In [41]:
# Program Python untuk mendemonstrasikan cara kerja
# findall()
import re

# Contoh string teks tempat ekspresi reguler
# dicari.
string = """Halo, nomor saya 123456789 dan
nomor teman saya 987654321"""

# Contoh ekspresi reguler untuk menemukan digit.
regex = r'\d+'

match = re.search(regex, string)
print(match)
print("")
match = re.findall(regex, string)
print(match)

<re.Match object; span=(17, 26), match='123456789'>

['123456789', '987654321']


## re.VERBOSE

In [42]:
# Tanpa Menggunakan VERBOSE
regex_email = re.compile(r'^([a-z0-9_\.-]+)@([0-9a-z\.-]+)\.([a-z\.]{2, 6})$',
re.IGNORECASE)

# Menggunakan VERBOSE
regex_email = re.compile(r"""
                ^([a-z0-9_\.-]+)     # Bagian lokal
                @                    # tanda @ tunggal
                ([0-9a-z\.-]+)       # Nama domain
                \.                   # titik tunggal .
                ([a-z]{2,6})$        # Domain tingkat atas
                """,re.VERBOSE | re.IGNORECASE)

Ini diteruskan sebagai argumen ke re.compile() yaitu re.compile(Regular Expression, re.VERBOSE). re.compile() mengembalikan RegexObject yang kemudian dicocokkan dengan string yang diberikan.

Mari kita pertimbangkan contoh di mana pengguna diminta untuk memasukkan ID Email mereka dan kita harus memvalidasinya menggunakan RegEx. Format email adalah sebagai berikut:

- Detail pribadi/bagian lokal seperti john123
- @ tunggal
- Nama domain seperti gmail/yahoo, dll.
- Titik tunggal (.)
- Domain tingkat atas seperti .com/.org/.net

Input : expectationvsreality@gmail.com\
Output : Valid

Input : greatwonderland@yahoo.com@\
Output : Invalid

invalid karena ada @ setelag top level domain name.

In [43]:
# Program Python3 untuk menunjukkan Implementasi VERBOSE di RegEX
import re

def validate_email(email):

    # RegexObject = re.compile( Regular expression, flag )
    # Mengompilasi pola ekspresi reguler menjadi
    # objek ekspresi reguler
    regex_email=re.compile(r"""
                ^([a-z0-9_\.-]+) # Bagian lokal
                @
                ([0-9a-z\.-]+) # Nama domain
                \. # Titik tunggal .
                ([a-z]{2,6})$ # Domain tingkat atas
                """,re.VERBOSE | re.IGNORECASE)

    # RegexObject dicocokkan dengan yang diinginkan
    # string menggunakan fungsi fullmatch
    # Jika kecocokan ditemukan, search()
    # mengembalikan Instansi MatchObject

    res=regex_email.fullmatch(email)

    #Jika kecocokan ditemukan, string tersebut valid
    if res:
        print("{} Valid. Detailnya sebagai berikut:".format(email))

        #mencetak bagian pertama/detail pribadi ID Email
        print("Lokal:{}".format(res.group(1)))

        #mencetak Nama Domain ID Email
        print("Domain:{}".format(res.group(2)))

        #mencetak Nama Domain Tingkat Atas ID Email
        print("Domain Tingkat Atas:{}".format(res.group(3)))
        print()

    else:
        #Jika kecocokan tidak ditemukan, string tidak valid
        print("{} Tidak Valid".format(email))

# Kode Pengemudi
validate_email("aliceinwonderland@gmail.com")
validate_email("harrypotter@yahoo.com@")
validate_email("Crucialllife@.com")

aliceinwonderland@gmail.com Valid. Detailnya sebagai berikut:
Lokal:aliceinwonderland
Domain:gmail
Domain Tingkat Atas:com

harrypotter@yahoo.com@ Tidak Valid
Crucialllife@.com Tidak Valid


In [44]:
# Program Python3 untuk menunjukkan implementasi VERBOSE dalam RegEX
import re

def user_instagram(instagram):

    regex_instagram=re.compile(r"""
                    ^@              # tanda @ tunggal
                    ([a-z0-9_\.-]+) # nama pengguna Bagian
                    """,re.VERBOSE | re.IGNORECASE)

    res=regex_instagram.fullmatch(instagram)

    if res:
        print("{} Valid. Detailnya sebagai berikut:".format(instagram))

        print("nama pengguna:{}".format(res.group(1)))

    else:
        #Jika kecocokan tidak ditemukan, string tidak valid
        print("{} Tidak Valid".format(instagram))

# Driver Kode
user_instagram("@aditpramna")
user_instagram("aditya167")
user_instagram("aditya@pram")
user_instagram("@winardi1004")

@aditpramna Valid. Detailnya sebagai berikut:
nama pengguna:aditpramna
aditya167 Tidak Valid
aditya@pram Tidak Valid
@winardi1004 Valid. Detailnya sebagai berikut:
nama pengguna:winardi1004


In [45]:
import re

def validasi_email(email):

    regex_email=re.compile(r"""
    ^([a-z0-9_\.-]+) # Bagian lokal
    @ # tanda @ tunggal
    ([0-9a-z\.-]+) # Nama domain
    \. # Titik tunggal .
    ([a-z]{2,6})$ # Domain tingkat atas
    """,re.VERBOSE | re.IGNORECASE)

    res=regex_email.fullmatch(email)

    if res:
        print("{} Valid. Detailnya adalah sebagai berikut:".format(email))

        print("Lokal:{}".format(res.group()))

        print("Domain:{}".format(res.group(2)))
    
        print("Domain tingkat atas:{}".format(res.group(3)))
        print()

    else:
        print("{} adalah Format(email) tidak valid")

validasi_email("adgan167@gmail.com")
validasi_email("aditpramna1@@gmail.com")
validasi_email("adityapramana107@gmail.com")
validasi_email("Awinardi1004@gmail.com")

adgan167@gmail.com Valid. Detailnya adalah sebagai berikut:
Lokal:adgan167@gmail.com
Domain:gmail
Domain tingkat atas:com

{} adalah Format(email) tidak valid
adityapramana107@gmail.com Valid. Detailnya adalah sebagai berikut:
Lokal:adityapramana107@gmail.com
Domain:gmail
Domain tingkat atas:com

Awinardi1004@gmail.com Valid. Detailnya adalah sebagai berikut:
Lokal:Awinardi1004@gmail.com
Domain:gmail
Domain tingkat atas:com



# Ringkasan Fungsi regex

| Fungsi      | Tujuan                                                        |
| ----------- | ------------------------------------------------------------- |
| `findall()` | Mengambil semua match sebagai list                            |
| `compile()` | Membuat objek regex                                           |
| `split()`   | Memisahkan string berdasarkan pola                            |
| `sub()`     | Mengganti pola dengan string baru                             |
| `subn()`    | Seperti `sub`, tapi juga memberi jumlah penggantian           |
| `escape()`  | Melindungi karakter khusus agar tidak diartikan sebagai regex |
| `search()`  | Mencari **satu** match pertama                                |
| `VERBOSE`   | Membuat regex lebih mudah dibaca dengan komentar & spasi      |


# Thank you