# Regula Expression

Regular expression (regex) adalah sebuah pola (pattern) yang digunakan untuk mencari, mencocokkan, dan memanipulasi teks berdasarkan aturan tertentu. Regex sering digunakan dalam pemrograman, pengolahan data, atau pencarian teks untuk menemukan string yang sesuai dengan pola tertentu.

In [4]:
import re 

s = "Myskill: portal for any learning path"

#match adalah tempat taro re search
# ' ' kata yang ingin kita cari
# tempat taro string yang kita cari

match = re.search(r'for', s)
# .start indeks awal pada string begitu end sebaliknya

print("start index:", match.start())
print("end index:", match.end())

name = "Aditya dengan ipk 350"

#Cari semua angka dalam teks: \d+
match = re.search(r'\d+', name)
print('ipk :', match.start())
print('ipk :', match.end())

a = "hari ini gw ingin ke perpusnas"
print("index pertama :", match.start())

start index: 16
end index: 19
ipk : 18
ipk : 21
index pertama : 18


In [10]:
import re 

#Tapi dengan r'...', Python akan mengabaikan pengolahan escape character dan membiarkan string apa adanya.

coba = "hallo nama saya windardi, nomor rumah saya adalah 63"
match = re.search(r'\d+', coba)
print("index pertama :", match.start())
print("index terakhir :", match.end())

print()

trial = "saya lahir pada 10 april 1997"
match = re.search(r'\d+', trial)
print("index pertama :", match.start())
print("index terakhir :", match.end())

match = re.search(r'lahir', trial)
print("index pertama :", match.start())
print("index terakhir :", match.end())

r = r'(\d+)'
match = re.findall(r, trial)
print(match)

index pertama : 50
index terakhir : 52

index pertama : 16
index terakhir : 18
index pertama : 5
index terakhir : 10
['10', '1997']


# MetaCharacter
Dalam regular expression (regex), metacharacters adalah karakter khusus yang punya arti khusus dan tidak dianggap sebagai teks biasa. Mereka digunakan untuk membentuk pola pencocokan.



## jenis jenis metacharacter

### ✅ Daftar Metacharacters Umum di Regex:

| Metachar | Arti                                                                                                                                                    |                         |                                 |
| -------- | ------------------------------------------------------------------------------------------------------------------------------------------------------- | ----------------------- | ------------------------------- |
| `.`      | Mewakili **1 karakter apa pun** (kecuali newline `\n`)                                                                                                  |                         |                                 |
| `^`      | Menandai **awal string**                                                                                                                                |                         |                                 |
| `$`      | Menandai **akhir string**                                                                                                                               |                         |                                 |
| `*`      | **0 atau lebih** dari karakter sebelumnya                                                                                                               |                         |                                 |
| `+`      | **1 atau lebih** dari karakter sebelumnya                                                                                                               |                         |                                 |
| `?`      | **0 atau 1** dari karakter sebelumnya (opsional)                                                                                                        |                         |                                 |
| `[]`     | **Character class** – cocok dengan **salah satu karakter** di dalamnya, contoh: `[aeiou]`                                                               |                         |                                 |
| \`       | \`                                                                                                                                                      | **Atau**, contoh: \`cat | dog\` cocokkan "cat" atau "dog" |
| `()`     | **Grouping** dan menangkap subpattern                                                                                                                   |                         |                                 |
| `\`      | Escape character – digunakan untuk meloloskan metacharacter (misalnya `\.` cocokkan titik literal) atau menggunakan kode khusus seperti `\d`, `\w`, dll |                         |                                 |


### 🔢 Metacharacters Khusus (dengan \)

| Kode | Arti                                                            |
| ---- | --------------------------------------------------------------- |
| `\d` | Digit (angka `0–9`)                                             |
| `\D` | Bukan digit                                                     |
| `\w` | Word character (`a-z`, `A-Z`, `0-9`, dan `_`)                   |
| `\W` | Bukan word character                                            |
| `\s` | Whitespace (spasi, tab, newline)                                |
| `\S` | Bukan whitespace                                                |
| `\b` | Word boundary (batas antara karakter dan spasi atau tanda baca) |
| `\B` | Bukan word boundary                                             |


### 🛑 Jika kamu ingin mencocokkan metacharacter sebagai karakter biasa, kamu harus escape dengan \

Contoh:

1. Pola \. cocokkan titik .

2. Pola \* cocokkan bintang *

In [13]:
import re 

s = "Adgan167@gmail.com"

# without using \
match = re.search(r'.', s)
print(match)

# using \
match = re.search(r'\.', s)
print(match)

<re.Match object; span=(0, 1), match='A'>
<re.Match object; span=(14, 15), match='.'>



# Module Regex -re library

## re.findall()

re.findall() adalah fungsi di Python dari modul re (regular expression) yang digunakan untuk:

Menemukan semua kemunculan dari pola regex dalam sebuah string, lalu mengembalikannya sebagai daftar (list).

In [None]:
import re

# A sample text string where regular expression
# is searched.
string = """Hello my student id is 923472387 and
            my friend's number student id Is 234130324
            no telp aditya 082298221785"""


# mencari angka atau digit di string text
regex = r'\d+'
match = re.findall(regex, string)
print(match)

['923472387', '234130324', '082298221785']


## re.compile()

re.compile() digunakan untuk membuat objek regex yang bisa digunakan berulang kali — fungsinya adalah mengompilasi pola regex sekali saja, lalu bisa dipakai beberapa kali dengan metode seperti .search(), .match(), atau .findall().

In [15]:
import re 

# compile() membuat ekspresi regular
# kelas karakter [a-e],
# yang setara dengan [abcde].
# kelas [abcde] akan cocok dengan string yang
# mengandung karakter 'a', 'b', 'c', 'd', atau 'e'.
p = re.compile('[a-e]', flags=re.IGNORECASE)

# findall() searches for the Regular Expression
# and return a list upon finding
print(p.findall("Aditya pramana putra"))


['A', 'd', 'a', 'a', 'a', 'a', 'a']


In [21]:
# contoh kedua 

import re 

# \d sama dengan [0 - 9]
p = re.compile(r'\d')
print(p.findall("I went to him at 11 A.M. on 4th July 1886"))

# \d+ akan sama dengan group di [0-9], group
# di [0-9] akan mencari angka satu atau lebih
p = re.compile(r'\d+')
print(p.findall("I went to him at 11 A.M. on 4th July 1886"))
print(p.findall("I went to him at 11 A.M. on 4th July 1886"))

['1', '1', '4', '1', '8', '8', '6']
['11', '4', '1886']
['11', '4', '1886']


## re.split()

re.split() adalah fungsi di modul re Python yang digunakan untuk:

Memecah string berdasarkan pola regex tertentu, seperti split() biasa tapi lebih fleksibel karena bisa pakai pola kompleks.

### ✅ Format Umum:

`re.split(pattern, string)`

1. pattern: pola regex yang digunakan sebagai pemisah

2. string: teks yang akan dipecah

### 🔍 Contoh 1: Pisahkan teks berdasarkan spasi
```python
import re

teks = "Ini contoh teks"
hasil = re.split(r'\s+', teks)

print(hasil)  # Output: ['Ini', 'contoh', 'teks']```

* \s+ = satu atau lebih spasi/tab/newline

### 🔍 Contoh 2: Pisahkan berdasarkan koma atau titik koma

```python
teks = "apel,jeruk;pisang"
hasil = re.split(r'[;,]', teks)

print(hasil)  # Output: ['apel', 'jeruk', 'pisang']```

* [;,] = cocokkan koma atau titik koma

### 🔍 Contoh 3: Pisahkan dengan angka

```python
teks = "halo123dunia45python"
hasil = re.split(r'\d+', teks)

print(hasil)  # Output: ['halo', 'dunia', 'python']```


In [23]:
from re import split

# '\W+' menunjukkan Karakter Non-Alfanumerik
# atau sekumpulan karakter. Setelah menemukan ','
# atau spasi ' ', fungsi split() akan memecah
# string dari titik tersebut.

print(split(r'\W+', 'Words, words , Words'))
print(split(r'\W+', "Word's words Words"))

# Here ':', ' ' ,',' are not AlphaNumeric thus,
# the point where splitting occurs
print(split(r'\W+', 'On 12th Jan 2016, at 11:02 AM'))

# '\d+' denotes Numeric Characters or group of
# characters Splitting occurs at '12', '2016',
# '11', '02' only
print(split(r'\d+', 'On 12th Jan 2016, at 11:02 AM'))

['Words', 'words', 'Words']
['Word', 's', 'words', 'Words']
['On', '12th', 'Jan', '2016', 'at', '11', '02', 'AM']
['On ', 'th Jan ', ', at ', ':', ' AM']


In [None]:
# Example 2

import re

# Pemisahan hanya akan terjadi sekali, pada
# '12', daftar yang dikembalikan akan memiliki panjang 2.

print(re.split(r'\d+','On 12th Jan 2016, at 11:02 AM',1))
print(re.split(r'\d+','On 12th Jan 2016, at 11:02 AM'))
#angka di ganti dengan split yang ingin kita tentukan dalam parameter

# 'Boy' dan 'boy' akan diperlakukan sama ketika
# flags = re.IGNORECASE
print(re.split(r'[a-f]+', 'Aey, Boy oh boy, come here', flags=re.IGNORECASE))
print(re.split(r'[a-f]+', 'Aey, Boy oh boy, come here'))

['On ', 'th Jan 2016, at 11:02 AM']
['On ', 'th Jan ', ', at ', ':', ' AM']
['', 'y, ', 'oy oh ', 'oy, ', 'om', ' h', 'r', '']
['A', 'y, Boy oh ', 'oy, ', 'om', ' h', 'r', '']


## re.sub()


`re.sub()` adalah fungsi di Python dari modul `re` yang digunakan untuk:

Mencari pola dalam string dan menggantinya dengan string yang baru.

Fungsi ini sangat berguna untuk memanipulasi teks berdasarkan pola tertentu (misalnya mengganti semua angka dengan tanda `#`, atau mengganti kata tertentu).

### ✅ Format Umum:
```python
re.sub(pattern, pengganti, string)
```

- `pattern`: Pola regex yang akan dicari.
- `pengganti`: String pengganti untuk mengganti pola yang cocok.
- `string`: Teks yang ingin diproses.

### 🔍 Contoh 1: Ganti Semua Angka dengan Tanda `#`
```python
import re

teks = "Ada 3 apel dan 12 jeruk."
hasil = re.sub(r'\d+', '#', teks)

print(hasil)  # Output: "Ada # apel dan # jeruk."
```
Penjelasan:
- `\d+` cocok dengan angka (satu atau lebih digit).
- Semua angka diganti dengan `#`.

### 🔍 Contoh 2: Ganti Huruf Kecil dengan Huruf Besar
```python
teks = "halo dunia"
hasil = re.sub(r'[a-z]', lambda x: x.group().upper(), teks)

print(hasil)  # Output: "HALO DUNIA"
```
Penjelasan:
- `[a-z]` cocok dengan huruf kecil.
- Menggunakan fungsi lambda untuk mengganti huruf kecil dengan huruf besar.

### 🔍 Contoh 3: Hapus Semua Tanda Baca
```python
teks = "Halo! Apa kabar?"
hasil = re.sub(r'[^\w\s]', '', teks)

print(hasil)  # Output: "Halo Apa kabar"
```
Penjelasan:
- `[^\w\s]` cocok dengan semua karakter bukan huruf atau spasi.
- Tanda baca dihapus.

### 📌 Perbedaan `re.sub()` dan `str.replace()`:
- `re.sub()` lebih fleksibel karena bisa menggunakan pola regex untuk mencari dan mengganti.
- `str.replace()` hanya mengganti substring secara langsung tanpa menggunakan pola regex.

In [27]:
import re

# Pola Regular Expression 'ub' mencocokkan string pada "Subject" dan "Uber". 
# Karena perbedaan huruf besar/kecil diabaikan menggunakan flag, 
# 'ub' akan mencocokkan dua kali dalam string tersebut.
# Setelah mencocokkan, 'ub' diganti dengan '~*' pada "Subject", 
# dan pada "Uber", 'Ub' diganti.

print(re.sub(r'ub', '~*', 'Subject has Uber booked already',
             flags=re.IGNORECASE))

# Consider the Case Sensitivity, 'Ub' in
# "Uber", will not be replaced.
print(re.sub(r'ub', '~*', 'Subject has Uber booked already'))

# As count has been given value 1, the maximum
# times replacement occurs is 1
print(re.sub(r'ub', '~*', 'Subject has Uber booked already',
             count=1, flags=re.IGNORECASE))

# 'r' before the pattern denotes RE, \s is for
# start and end of a String.
print(re.sub(r'\sAND\s', ' & ', 'Baked Beans And Spam',
             flags=re.IGNORECASE))

print(re.sub('ti','ty','Aditia adiTia pramana putra',count = 1,flags = re.IGNORECASE))
print(re.sub(r'ti','ty','Aditia adiTia pramana putra',flags = re.IGNORECASE))
print(re.sub(r'ti','ty','Aditia adiTia pramana putra'))

S~*ject has ~*er booked already
S~*ject has Uber booked already
S~*ject has Uber booked already
Baked Beans & Spam
Aditya adiTia pramana putra
Aditya aditya pramana putra
Aditya adiTia pramana putra


# re.subn()


# Penjelasan `re.subn()` dalam Python

`re.subn()` adalah fungsi dari modul `re` di Python yang mirip dengan `re.sub()`, tetapi dengan **tambahan informasi jumlah penggantian yang terjadi**.

## 📌 Perbedaan dengan `re.sub()`
- `re.sub()` hanya mengembalikan string hasil penggantiannya.
- `re.subn()` mengembalikan **tuple** berupa:
  ```python
  (hasil_string, jumlah_penggantian)
  ```

## ✅ Format Umum
```python
re.subn(pattern, pengganti, string)
```

- `pattern`: Pola regex yang dicari.
- `pengganti`: String pengganti untuk mengganti pola.
- `string`: Teks yang ingin diproses.

## 🔍 Contoh Penggunaan
```python
import re

teks = "satu dua tiga dua dua"
hasil = re.subn(r'dua', 'empat', teks)

print(hasil)
# Output: ('satu empat tiga empat empat', 3)
```

### Penjelasan:
- Semua kata `'dua'` diganti dengan `'empat'`.
- Fungsi mengembalikan tuple:
  - `'satu empat tiga empat empat'` → hasil string setelah penggantian.
  - `3` → jumlah penggantian yang dilakukan.

---

Gunakan `re.subn()` jika kamu **perlu tahu berapa kali penggantian terjadi**, selain hanya mendapatkan hasil string.

In [None]:
import re 

print(re.subn('ub', '~*', 'Subject has Uber booked already'))

t = re.subn('ub', '~*', 'Subject has Uber booked already',
            flags=re.IGNORECASE)
print(t)
print(len(t))

# This will give same output as sub() would have
print(t[0])

('S~*ject has Uber booked already', 1)
