# Find all matched substring occurence

---



In [1]:
import re 

t="A fat cat doesn't eat oat but a rat eats bats."
mo = re.findall("[a-z]at", t)
print(mo)

['fat', 'cat', 'eat', 'oat', 'rat', 'eat', 'bat']


### 🔍 Penjelasan regex: [^:]*:[^;]*;?
Seperti yang sudah dibahas sebelumnya, pola ini cocok untuk bagian dari teks yang mengandung judul: tanggal-tanggal;, yaitu:

[^:]* → ambil semua karakter sebelum titik dua (:), tapi tidak termasuk :

: → titik dua sebagai pemisah

[^;]* → ambil semua karakter setelah titik dua, selama tidak ada titik koma (;)

;? → titik koma boleh ada atau tidak

In [2]:
import re
courses = '''Python Training Course for Beginners: 15/Aug/2011 - 19/Aug/2011; Python Training Course Intermediate: 12/Dec/2011 - 16/Dec/2011;Python Text Processing Course:31/Oct/2011 - 4/Nov/2011'''
items = re.findall("[^:]*:[^;]*;?", courses)
print (items)

['Python Training Course for Beginners: 15/Aug/2011 - 19/Aug/2011;', ' Python Training Course Intermediate: 12/Dec/2011 - 16/Dec/2011;', 'Python Text Processing Course:31/Oct/2011 - 4/Nov/2011']


In [3]:
items = re.findall("([^:]*):([^;]*;?)", courses)
items

[('Python Training Course for Beginners', ' 15/Aug/2011 - 19/Aug/2011;'),
 (' Python Training Course Intermediate', ' 12/Dec/2011 - 16/Dec/2011;'),
 ('Python Text Processing Course', '31/Oct/2011 - 4/Nov/2011')]

In [4]:
import re
courses = '''Python Training Course for Beginners: 15/Aug/2011 - 19/Aug/2011; Python Training Course Intermediate: 12/Dec/2011 - 16/Dec/2011;Python Text Processing Course:31/Oct/2011 - 4/Nov/2011'''
items = re.findall("[^:]*:[^;]*;?", courses)
items

['Python Training Course for Beginners: 15/Aug/2011 - 19/Aug/2011;',
 ' Python Training Course Intermediate: 12/Dec/2011 - 16/Dec/2011;',
 'Python Text Processing Course:31/Oct/2011 - 4/Nov/2011']

# Alternation (Substitusi)


# 🔁 Alternation (Substitusi) di Regex

**Alternation** di regex berarti mencocokkan **salah satu dari beberapa pola**, menggunakan simbol **`|`** (pipe).

---

## 📌 Format Dasar

```regex
pola1|pola2|pola3
```

Artinya: regex akan mencocokkan **pola1 ATAU pola2 ATAU pola3**.

---

## ✅ Contoh Sederhana

```python
import re

text = "Saya suka Python dan JavaScript"
match = re.findall(r"Python|Java|C++", text)
print(match)
```

### Output:

```
['Python']
```

---

## 🧠 Alternation dengan Grouping

```regex
I like (coffee|tea)
```

Cocokkan string "I like coffee" **atau** "I like tea".

---

## ⚠️ Catatan Penting

- Regex membaca dari kiri ke kanan.
- Akan berhenti di **pola pertama yang cocok**.

### Contoh:

```python
re.findall(r"cat|cater", "I saw a caterpillar")
```

**Output:**

```
['cat']
```

Karena `cat` cocok lebih dulu. Jika ingin menangkap `cater`, urutan harus diubah:

```python
re.findall(r"cater|cat", "I saw a caterpillar")
```

---

## 🎯 Kapan Digunakan?

Alternation sangat berguna untuk:

- Mencocokkan beberapa kemungkinan kata atau frasa
- Validasi input dengan beberapa kemungkinan format
- Membangun pola dinamis dalam parsing teks

---

Regex `alternation` memungkinkan kita menulis pencocokan fleksibel dalam satu baris ekspresi.


In [11]:
import re 

str = "Course location is London or Strasbourg!"
mo = re.search(r"location.*(London|Jakarta|Bandung|Strasbourg)", str)
if mo : 
    print ("Match found: ", mo.group())
else :
    print ("No match")

Match found:  location is London or Strasbourg


In [None]:
from re import IGNORECASE
import re
z = "i live in Bekasi"
y = re.search("live.*(Jakarta|Depok|Bekasi|Bogor)", z, flags= re.IGNORECASE)
if y: print(y.group())

live in Bekasi



# 🔀 Split dengan Regex

`split()` dalam modul `re` Python digunakan untuk **memecah (split) string berdasarkan pola regex tertentu** — mirip dengan `str.split()`, tapi jauh lebih fleksibel karena bisa menggunakan **pola kompleks**, bukan hanya satu karakter pemisah.

---

## 📌 Format Umum

```python
re.split(pattern, string)
```

- `pattern`: pola regex yang akan digunakan sebagai **pemisah**
- `string`: string yang ingin dipecah

---

## ✅ Contoh Dasar

```python
import re

text = "satu,dua; tiga  empat"
hasil = re.split(r"[,\s;]+", text)
print(hasil)
```

### Output:

```
['satu', 'dua', 'tiga', 'empat']
```

**Penjelasan:**
- `[,\s;]+` artinya split jika ketemu koma, spasi, atau titik koma — sebanyak mungkin
- Cocok untuk data dengan pemisah tidak konsisten

---

## 🧠 Kapan Digunakan?

- Jika pemisah dalam string **lebih dari satu jenis karakter**
- Untuk parsing teks seperti log, file CSV tidak rapi, atau teks bebas
- Saat ingin memecah berdasarkan **pola khusus**, seperti digit, huruf besar, tanda baca, dll

---

Dengan `re.split()`, kamu bisa memecah teks kompleks jadi potongan-potongan yang lebih mudah diolah.

In [17]:
import re
metamorphoses = "OF bodies chang'd to various forms, I sing: Ye Gods, from whom these miracles did spring, Inspire my numbers with coelestial heat;"
re.split("\W+",metamorphoses)

  re.split("\W+",metamorphoses)


['OF',
 'bodies',
 'chang',
 'd',
 'to',
 'various',
 'forms',
 'I',
 'sing',
 'Ye',
 'Gods',
 'from',
 'whom',
 'these',
 'miracles',
 'did',
 'spring',
 'Inspire',
 'my',
 'numbers',
 'with',
 'coelestial',
 'heat',
 '']

In [19]:
import re
lines = ["surname: Nelson, prename: Mandela, profession: president", "surname: Merkel, prename: Skylar, profession: chancellor"]
for line in lines:
    print(re.split(r",* *\w*: ", line))    

['', 'Nelson', 'Mandela', 'president']
['', 'Merkel', 'Skylar', 'chancellor']


In [21]:
import re
lines = ["surname: Nelson, prename: Mandela, profession: president", "surname: Merkel, prename: Skylar, profession: chancellor"]
for line in lines:
    print(re.split(r" *\w*, ", line)[1:])    


['prename:', 'profession: president']
['prename:', 'profession: chancellor']


# Search dan Replace dengan sub()

---



In [22]:
import re
str = "yes I said yes I will Yes."
res = re.sub("[Yy]es","NO", str)
print(res)

NO I said NO I will NO.
