# Beberapa Contoh Regular Expression

# Simple


## contoh 1: Validasi Alamat Email
* `pola_email` adalah pola regex untuk memeriksa apakah sebuah string merupakan email yang valid.
* __re.match()__ mencocokkan string dari awal terhadap pola regex.
* Output "Email valid." jika sesuai, dan "Email tidak valid." jika tidak sesuai.

In [1]:
import re

pola_email = r'^[\w\.-]+@[\w\.-]+\.\w+$'
email = "example@email.com"

if re.match(pola_email, email):
    print("Email valid.")
else:
    print("Email tidak valid.")

Email valid.


* pola_email: Pola RegEx yang lebih ketat dan umum digunakan untuk validasi email.
* Karakter sebelum `@` dapat berupa huruf, angka, underscore `(_)`, titik `(.)`, plus `(+)`, atau minus `(-)`.
* Setelah `@`, nama domain hanya menerima huruf, angka, dan tanda -.
* Diakhiri dengan domain tingkat atas (seperti .com, .id, dll) minimal 2 huruf.
* Fungsi __re.match()__ akan mencocokkan dari awal string.

In [2]:
import re

pola_email = r'^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z]{2,}$'
email = "example@email.com"

if re.match(pola_email, email):
    print("Email valid.")
else:
    print("Email tidak valid.")

Email valid.


Penjelasan:
* Dalam contoh ini, kita menggunakan ekspresi reguler (email_pattern) yang mencocokkan alamat email dengan format yang benar.
* Ekspresi ini memeriksa karakter sebelum "@" dan setelahnya, serta domain.
* Jika alamat email cocok dengan pola ini, kita menyatakan bahwa email itu valid.

## contoh 2: Ekstraksi Domain dari Alamat Email
* __re.search(r'@([\w\.-]+)', email)__ mencari pola `@` diikuti oleh satu atau lebih karakter: huruf, angka, underscore `(_)`, titik `(.)`, atau minus `(-)`.
* __.group(1)__ mengembalikan bagian yang berada dalam tanda kurung `()` yaitu hanya domain, tanpa tanda `@`.

In [3]:
import re

email = "example@rocketmail.com"

# Cari bagian domain setelah simbol '@'
domain = re.search(r'@([\w\.-]+)', email).group(1)

print("Domain:", domain)


Domain: rocketmail.com


Penjelasan:
* `r'@([a-zA-Z0-9.-]+)'`: Pola ini mencari simbol `@` diikuti oleh kombinasi huruf, angka, titik, atau tanda minus.
* .group(1): Mengambil hanya bagian dalam tanda kurung (yaitu rocketmail.com, tanpa @).
* .group() (tanpa angka): Mengambil seluruh hasil pencocokan, yaitu @rocketmail.com.
* re.search(...): Menampilkan objek match beserta posisi pencocokan.

In [4]:
import re

email = "example@rocketmail.com"

# Cari bagian domain setelah simbol '@'
domain = re.search(r'@([a-zA-Z0-9.-]+)', email).group(1)

print("Domain:", domain)  # Menampilkan hanya domain (tanpa '@')

# Menampilkan objek match yang ditemukan
print(re.search(r'@([a-zA-Z0-9.-]+)', email))

# Menampilkan hasil pencocokan lengkap (termasuk '@')
print(re.search(r'@([a-zA-Z0-9.-]+)', email).group())


Domain: rocketmail.com
<re.Match object; span=(7, 22), match='@rocketmail.com'>
@rocketmail.com


# Intermediate

## contoh 1: Ekstraksi Semua Tautan dari Halaman HTML
* __re.findall(...)__: Mengembalikan semua string yang cocok dengan pola regex.
* __r'href=["\'](https?://\S+)["\']'__: Mencari nilai dari atribut href yang berisi tautan (link) dimulai dengan `http://` atau `https://`.
* `\S+`: Mewakili satu atau lebih karakter non-spasi hingga tanda kutip penutup.

In [5]:
import re

html = """
<a href="https://example.com">Link 1</a>
<a href="https://openai.com">Link 2</a>
<p>Not a link</p>
"""

# Temukan semua tautan yang berada dalam atribut href
links = re.findall(r'href=["\'](https?://\S+)["\']', html)

# Cetak semua tautan yang ditemukan
for link in links:
    print("Tautan:", link)


Tautan: https://example.com
Tautan: https://openai.com


Penjelasan:
* __re.findall(...)__ mencari semua kecocokan pola di string html.
* Pola `r'href=["\'](https?://\S+)["\']'` mencari link dalam atribut href.
* `https?` mencakup http dan https.
* `\S+` berarti satu atau lebih karakter bukan spasi (hingga tanda kutip penutup).
* __print(links)__ menampilkan seluruh list hasil ekstraksi.

In [6]:
import re

html = """
<a href="https://example.com">Link 1</a>
<a href="https://openai.com">Link 2</a>
<p>Not a link</p>
"""

# Temukan semua URL dari atribut href yang dimulai dengan http atau https
links = re.findall(r'href=["\'](https?://\S+)["\']', html)

# Cetak setiap link satu per satu
for link in links:
    print("Tautan:", link)

# Cetak daftar lengkap link
print(links)


Tautan: https://example.com
Tautan: https://openai.com
['https://example.com', 'https://openai.com']


Penjelasan:
* `href=["\']`: Mencari kata href= yang diikuti tanda kutip (baik " atau ').
* `(https?://[^\s"\'<>]+)`:
  - `https?://`: Mencocokkan http:// atau https://.
  - `[^\s"\'<>]`+: Mencari satu atau lebih karakter selain spasi, tanda kutip (" '), dan simbol < >.
* `["\']`: Tanda kutip penutup.

In [7]:
import re

html = """
<a href="https://example.com">Link 1</a>
<a href="https://openai.com">Link 2</a>
<p>Not a link</p>
"""

# Temukan semua URL dari atribut href yang valid
links = re.findall(r'href=["\'](https?://[^\s"\'<>]+)["\']', html)

# Cetak semua tautan yang ditemukan
for link in links:
    print("Link:", link)


Link: https://example.com
Link: https://openai.com


## contoh 2:  Mengekstraksi URL dari Teks HTML
* `<a [^>]*`: Mencocokkan tag <a dan karakter apa pun (kecuali >) sebanyak mungkin.
* `href=["\']`: Mencocokkan atribut `href=` yang diikuti tanda kutip tunggal atau ganda.
* `(https?://\S+)`: Menangkap tautan yang dimulai dengan `http://` atau `https://` dan diikuti oleh karakter non-spasi.
* `["\']`: Menutup kutipan.

In [8]:
import re

html = """
Visit our website at <a href="https://example.com">Example</a>
Click <a href="https://openai.com">here</a> for more info.
"""

# Temukan semua URL dari elemen <a> yang mengandung href
links = re.findall(r'<a [^>]*href=["\'](https?://\S+)["\']', html)

# Cetak semua tautan yang ditemukan
for link in links:
    print("Link:", link)

Link: https://example.com
Link: https://openai.com


# Advanced

## contoh 1: Validasi Nomor Telepon dengan Format yang Berbeda
* `^` dan `$`: Menandai awal dan akhir string.
* `\+`: Harus dimulai dengan tanda `+` (kode negara).
* `\d{1,3}`: 1–3 digit angka (kode negara).
* `\s?`: Boleh ada spasi setelah kode negara.
* `\d{1,3}[-. ]\d{1,4}[-. ]\d{1,4}`: Format nomor (dipisahkan oleh `-`, . atau spasi).

In [9]:
import re

phone_numbers = ["+1 123-456-7890", "555-5555", "123.456.7890", "+44 20 7123 1234"]

# Pola regex untuk mencocokkan nomor telepon internasional
phone_pattern = r'^\+\d{1,3}\s?\d{1,3}[-. ]\d{1,4}[-. ]\d{1,4}$'

# Loop melalui setiap nomor telepon
for phone in phone_numbers:
    if re.match(phone_pattern, phone):
        print(f"Nomor Telepon '{phone}' valid.")
    else:
        print(f"Nomor Telepon '{phone}' tidak valid.")

Nomor Telepon '+1 123-456-7890' valid.
Nomor Telepon '555-5555' tidak valid.
Nomor Telepon '123.456.7890' tidak valid.
Nomor Telepon '+44 20 7123 1234' valid.


Kode ini ingin mengecek apakah string "+1 123-456-7890" cocok (match) dengan pola nomor telepon internasional yang diberikan oleh regex phone_pattern.\
Jika tidak cocok, maka akan mengembalikan `None`.

In [10]:
import re

phone_numbers = ["+1 123-456-7890", "555-5555", "123.456.7890", "+44 20 7123 1234"]

phone_pattern = r'^\+\d{1,3}\s?\d{1,3}[-. ]\d{1,4}[-. ]\d{1,4}$'

print(re.match(phone_pattern, phone_numbers[0]))

<re.Match object; span=(0, 15), match='+1 123-456-7890'>


Penjelasan:
* `^` dan `$`: memastikan pencocokan dari awal sampai akhir string
* `\+?`: karakter + opsional di awal (kode negara)
* `(\d{1,3})?`: kode negara (1–3 digit) → opsional
* `[-.\s]?`: pemisah opsional (bisa -, . atau spasi)
* `(\d{1,4})?`: bagian awal nomor telepon → opsional
* `[-.\s]?`: pemisah lagi
* `(\d{1,4})`: bagian kedua nomor (wajib)
* `[-.\s]?`: pemisah
* `(\d{1,9})`: bagian akhir nomor (maksimal 9 digit)

In [11]:
import re

phone_numbers = ["+1 123-456-7890", "555-5555", "123.456.7890", "+44 20 7123 1234"]

phone_pattern = r'^\+?(\d{1,3})?[-.\s]?(\d{1,4})?[-.\s]?(\d{1,4})[-.\s]?(\d{1,9})$'

for phone in phone_numbers:
    if re.match(phone_pattern, phone):
        print(f"Nomor Telepon '{phone}' valid.")
    else:
        print(f"Nomor Telepon '{phone}' tidak valid.")


Nomor Telepon '+1 123-456-7890' valid.
Nomor Telepon '555-5555' valid.
Nomor Telepon '123.456.7890' valid.
Nomor Telepon '+44 20 7123 1234' valid.


## contoh 2: Ekstraksi Kode Area dari Nomor Telepon
* __re.search(r'\+(\d{1,3})', phone_number)__ mencari kode area internasional yang dimulai dengan tanda plus +, lalu diikuti 1 hingga 3 digit angka.
* `group(1)` mengambil grup tangkapan pertama, yaitu angka setelah tanda plus.
* Dalam contoh +62 123-456-7890, bagian +62 cocok dengan pola, jadi 62 adalah kode area Indonesia.

In [12]:
import re

phone_number = "+62 123-456-7890"

area_code = re.search(r'\+(\d{1,3})', phone_number).group(1)

print("Area Code:", area_code)


Area Code: 62


In [13]:
import re

phone_numbers = [
    "+62 123-456-7890",
    "+1 555-555-5555",
    "+44 20 7123 1234",
    "+81-3-1234-5678",
    "0812-3456-7890"  # Tidak memiliki kode negara
]

for phone in phone_numbers:
    match = re.search(r'^\+(\d{1,3})', phone)
    if match:
        print(f"Nomor: {phone}, Kode Area: {match.group(1)}")
    else:
        print(f"Nomor: {phone}, Kode Area: Tidak ditemukan")


Nomor: +62 123-456-7890, Kode Area: 62
Nomor: +1 555-555-5555, Kode Area: 1
Nomor: +44 20 7123 1234, Kode Area: 44
Nomor: +81-3-1234-5678, Kode Area: 81
Nomor: 0812-3456-7890, Kode Area: Tidak ditemukan
