# Regular Expression for Pattern Searching

---

Regular Expression or RegEx is a sequence of characters that specifies a search pattern in text. Usually such patterns are used by string-searching algorithms for "find" or "find and replace" operations on strings, or for input validation. Regular expression techniques are developed in theoretical computer science and formal language theory.

https://en.wikipedia.org/wiki/Regular_expression

In [None]:
# Import Regex in python
!pip3 install regex
import re

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
# Sample sentence
kalimat = "Halo, Saya sedang belajar bahasa pemrograman Python. Python adalah bahasa pemrograman yang sangat mudah dipelajari."
print(kalimat)

Halo, Saya sedang belajar bahasa pemrograman Python. Python adalah bahasa pemrograman yang sangat mudah dipelajari.


## Split Sentence by using build in string method

```python
# create separator, then apply .split() method
separator = ' ' 
kalimat.split(separator)
```

In [None]:
# Split sentence into words by space
separator = ' ' 
kalimat.split(separator)

['Halo,',
 'Saya',
 'sedang',
 'belajar',
 'bahasa',
 'pemrograman',
 'Python.',
 'Python',
 'adalah',
 'bahasa',
 'pemrograman',
 'yang',
 'sangat',
 'mudah',
 'dipelajari.']

In [None]:
# Split sentence into words by punctuation (.,)
kalimat.split(sep=',')

['Halo',
 ' Saya sedang belajar bahasa pemrograman Python. Python adalah bahasa pemrograman yang sangat mudah dipelajari.']

In [None]:
kalimat.split(".,")

['Halo, Saya sedang belajar bahasa pemrograman Python. Python adalah bahasa pemrograman yang sangat mudah dipelajari.']

In [None]:
pattern_2 = r'[.,o]'
re.split(pattern_2, kalimat)

['Hal',
 '',
 ' Saya sedang belajar bahasa pemr',
 'graman Pyth',
 'n',
 ' Pyth',
 'n adalah bahasa pemr',
 'graman yang sangat mudah dipelajari',
 '']

In [None]:
temporary = ' Saya sedang belajar bahasa pemrograman Python. '
print(len(temporary))
temporary = temporary.strip()
print(len(temporary))

48
46


In [None]:
print(temporary.strip())

Saya sedang belajar bahasa pemrograman Python.


## Using RegEx to split by space
```python
re.split('[ ]', kalimat)

# or simply
re.split(' ', kalimat)
```

In [None]:
# Split sentence into words by space
re.split('[ ]', kalimat)

['Halo,',
 'Saya',
 'sedang',
 'belajar',
 'bahasa',
 'pemrograman',
 'Python.',
 'Python',
 'adalah',
 'bahasa',
 'pemrograman',
 'yang',
 'sangat',
 'mudah',
 'dipelajari.']

In [None]:
# Split sentence into words by punctuation (.,)
print("""
    method dibawah gunanya untuk....
        contoh:
                1. apa
                2. apa
                3. apa
""")
pattern_2 = r'[,.]'
re.split(pattern_2, kalimat)


    method dibawah gunanya untuk....
        contoh:
                1. apa
                2. apa
                3. apa



['Halo',
 ' Saya sedang belajar bahasa pemrograman Python',
 ' Python adalah bahasa pemrograman yang sangat mudah dipelajari',
 '']

In [None]:
multiline_paragraph = """
Halo, Saya sedang belajar bahasa pemrograman Python. 
Python adalah bahasa pemrograman yang sangat mudah dipelajari.
Selain itu, Python juga memiliki banyak library yang dapat digunakan untuk keperluan data science.
"""
print(multiline_paragraph)


Halo, Saya sedang belajar bahasa pemrograman Python. 
Python adalah bahasa pemrograman yang sangat mudah dipelajari.
Selain itu, Python juga memiliki banyak library yang dapat digunakan untuk keperluan data science.



In [None]:
# Split multiline paragraph into sentences by new line
line_break = r'\n'
re.split(line_break,multiline_paragraph)

['',
 'Halo, Saya sedang belajar bahasa pemrograman Python. ',
 'Python adalah bahasa pemrograman yang sangat mudah dipelajari.',
 'Selain itu, Python juga memiliki banyak library yang dapat digunakan untuk keperluan data science.',
 '']

In [None]:
hasil_split = re.split(line_break,multiline_paragraph.strip()) 
#setelah di apply method .strip(), linebreak di awal dan di akhir paragraf menjadi ter-strip, jadinya endresultnya berupa 3 kalimat.

In [None]:
hasil_split = [kalimat.strip() for kalimat in hasil_split]

In [None]:
print(hasil_split)

['Halo, Saya sedang belajar bahasa pemrograman Python.', 'Python adalah bahasa pemrograman yang sangat mudah dipelajari.', 'Selain itu, Python juga memiliki banyak library yang dapat digunakan untuk keperluan data science.']


## Finding pattern matches using Findall and Search

In [None]:
matkul = """
101 COM   Computers
205 MAT   Mathematics
189 ENG   English
""" 
print(matkul)


101 COM   Computers
205 MAT   Mathematics
189 ENG   English



To find pattern from text using regex, we use `findall()`
```python
# Need to compile pattern first before searching
pattern = re.compile('\d')
pattern.findall(matkul)
```

In [None]:
# Find all matkul number using \d
pattern = re.compile('\d+')
print(pattern.findall(matkul))

['101', '205', '189']


In [None]:
# Find all matkul number using 0-9
pattern = re.compile('[023456789]+')
print(pattern.findall(matkul))

['0', '205', '89']


In [None]:
# Find all matkul code (3 Characters Capital Letters)
print(re.findall('[A-Z]{3}', matkul)) # match exactly 3 character [A-z]
print(re.findall('[A-Z]{2,}', matkul)) # match more than 2 character [A-z]
print(re.findall('[0-9]{3}', matkul)) # match more than 2 character [A-z]

['COM', 'MAT', 'ENG']
['COM', 'MAT', 'ENG']
['101', '205', '189']


In [None]:
alamat = "Jalan BSD Grand Boulevard Nomor 122c, Sampora, BSD, Tangerang, Banten 15345"
re.findall(r'(Banten|DKI Jakarta|Jawa Barat) (\d{5})', alamat)


[('Banten', '15345')]

In [None]:
# Find all matkul number limit only 2 digit

pattern = re.compile('\d{2}')
print(pattern.findall(matkul))

['10', '20', '18']


In [None]:
# Find all matkul name (English, Computers, Mathematics)
re.findall(r'[A-Z][a-z]{1,}', matkul) #Ambil 1 character A-Z capital + a-z lowercase seterusnya


['Computers', 'Mathematics', 'English']

To find position of matching pattern, use `.search()`
```python
kalimat = 'umur saya 21 tahun`

pattern = re.compile('\d+')
search = pattern.search(kalimat)
print('Starting Position: ', search.start())
print('Ending Position: ', search.end())
```

In [None]:
kalimat = 'umur saya 21 tahun'

pattern = re.compile('\d+')
search = pattern.search(kalimat)
print('Starting Position: ', search.start())
print('Ending Position: ', search.end())

Starting Position:  10
Ending Position:  12


In [None]:
pattern = re.compile(r'(\d{5})')
search = pattern.search(alamat)

In [None]:
apakah_ada_kodepos = []
if search is not None:
    apakah_ada_kodepos.append(True)
else:
    apakah_ada_kodepos.append(False)
apakah_ada_kodepos

[True]

### Exercise:
by using findall, extract unique email from this text
```
text_email = """
From: aryo@binar.com
To: TeamBinar@binar.co.id

Dear all,
Terlampir adalah materi pertemuan minggu ini.
bila ada kesulitan, 
silahkan hubungi Tim Facil di facil@binar.com atau ke saya di aryo@binar.com

Regards,
Aryo
"""
```

In [None]:
# Extract the email address from the text
text_email = """
From: aryo@binar.com
To: TeamBinar@binar.co.id

Dear all,
Terlampir adalah materi pertemuan minggu ini.
bila ada kesulitan, 
silahkan hubungi Tim Facil di facil@binar.com atau ke saya di aryo@binar.com

Regards,
Aryo
"""

In [None]:
import re
# Menemukan pola regex untuk mencocokam alamat email
pattern = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b'

# Extact menggunakan findall
matches = re.findall(pattern, text_email)

# Pakai fungsi set() untuk mengamil teks unique email addresses
unique_emails = set(matches)

print(unique_emails)

{'aryo@binar.com', 'facil@binar.com', 'TeamBinar@binar.co.id'}


In [None]:
emails = re.findall(r'([A-Za-z-_0-9]{1,})([@])([A-Za-z-_0-9]{1,})([.])([A-Za-z-_0-9]{1,})([.]?)([A-Za-z-_0-9]{1,})?', text_email)

In [None]:
for email in emails:
    print(email)
    email = "".join(email).strip()
    print(email)

('aryo', '@', 'binar', '.', 'com', '', '')
aryo@binar.com
('TeamBinar', '@', 'binar', '.', 'co', '.', 'id')
TeamBinar@binar.co.id
('facil20', '@', 'binar', '.', 'com', '', '')
facil20@binar.com
('aryo', '@', 'binar', '.', 'com', '', '')
aryo@binar.com


# Keterangan


## Keterangan

Regex | Preview
--- | ---
`strip()` | adalah metode string bawaan yang dipakai untuk menghapus karakter dari awal \n atau akhir sebuah string.
`([A-Za-z-_0-9]{1,})` | mencocokkan nama pengguna (username) email. A-Za-z-_0-9 merupakan karakter yang diperbolehkan untuk digunakan dalam username, sedangkan **{1,}** menunjukkan bahwa panjang username minimal adalah 1 karakter
`` ([@]) `` | `mencocokkan karakter '@'`
`([A-Za-z-_0-9]{1,})` | mencocokkan nama domain email. A-Za-z-_0-9 merupakan karakter yang diperbolehkan untuk digunakan dalam domain, sedangkan {1,} menunjukkan bahwa panjang domain minimal adalah 1 karakter.
`([.])` | mencocokkan karakter '.' untuk memisahkan antara nama domain dan subdomain (jika ada).
`([A-Za-z-_0-9]{1,})` | mencocokkan nama subdomain (opsional). A-Za-z-_0-9 merupakan karakter yang diperbolehkan untuk digunakan dalam subdomain, sedangkan **{1,}** menunjukkan bahwa panjang subdomain minimal adalah 1 karakter.
`([.]?)` | mencocokkan karakter '.' (opsional) untuk memisahkan antara nama subdomain dan top-level domain (TLD) (jika ada).
`([A-Za-z-_0-9]{1,})?` | mencocokkan nama TLD (opsional). A-Za-z-_0-9 merupakan karakter yang diperbolehkan untuk digunakan dalam TLD, sedangkan ? menunjukkan bahwa TLD bersifat opsional.


## Replace Text by using Regex
to replace text in regex, we use re.sub()
```python
# marking phone number from text, by replace it with XXX
chat = 'Silahkan hubungi 081567234645 (Pak Rudi) untuk nego dan cek lokasi'
re.sub('\d+', 'XXX', text)
```

In [None]:
# re.sub
# re.match/re.findall
# .replace

In [None]:
chat1 = 'Silahkan hubungi 081567234645 (Pak Rudi) untuk nego dan cek lokasi'
chat2 = 'Silahkan hubungi 0815-6723-4645 (Pak Rudi) untuk nego dan cek lokasi'
chat3 = 'Silahkan hubungi 08156723464 (Pak Rudi) untuk nego dan cek lokasi'
chat4 = 'Silahkan hubungi 0815-6723-464 (Pak Rudi) untuk nego dan cek lokasi'
chat5 = 'Silahkan hubungi 08156723-464 (Pak Rudi) untuk nego dan cek lokasi'

# Practice Here
pattern = '[0-9]{4}[ -/]?[0-9]{4}[ -/]?[0-9]{3,4}'
print(re.sub(pattern, 'XXX', chat1))
print(re.sub(pattern, 'XXX', chat2))
print(re.sub(pattern, 'XXX', chat3))
print(re.sub(pattern, 'XXX', chat4))
print(re.sub(pattern, 'XXX', chat5))

Silahkan hubungi XXX (Pak Rudi) untuk nego dan cek lokasi
Silahkan hubungi XXX (Pak Rudi) untuk nego dan cek lokasi
Silahkan hubungi XXX (Pak Rudi) untuk nego dan cek lokasi
Silahkan hubungi XXX (Pak Rudi) untuk nego dan cek lokasi
Silahkan hubungi XXX (Pak Rudi) untuk nego dan cek lokasi


In [None]:
chat = 'Jl. kenari no 413 harganya Rp.1750000 perbulan, Silahkan hubungi 081567234645 (Pak Rudi) untuk cek lokasi'
pattern = '[0-9]{7}'
re.sub(pattern,r'XXX',chat)

'Jl. kenari no 413 harganya Rp.XXX perbulan, Silahkan hubungi XXX34645 (Pak Rudi) untuk cek lokasi'

In [None]:
# marking phone number from text, by replace it with XXX
chat = 'Jl. kenari no 413 harganya Rp.1750000 perbulan, Silahkan hubungi 081567234645 (Pak Rudi) untuk cek lokasi'
pattern = '[0-9]{11,12}'
re.sub(pattern,r'XXX',chat)

'Jl. kenari no 413 harganya Rp.XXX perbulan, Silahkan hubungi XXX34645 (Pak Rudi) untuk cek lokasi'

### Exercise: 
```python
# marking price, phone number & website from text, by replace it with XXX
chat = """
kondisi mulus gan, harga 2.500.000 nego,
chat aja 081567234645 ato klik https://www.tokopedia.com/produk/1234
"""
```

In [None]:
chat = """
kondisi mulus gan, https://www.tokopedia.com/produk/1234 harga 2.500.000 nego,
chat aja 081567234645 ato klik https://www.tokopedia.com/produk/1234 & https://www.tokopedia.com/produk/1234
"""
# chat = re.sub(r'(harga) (.*)', r'\1 XXX', chat)
# chat = re.sub(r'([0-9]{8,})',r'XXX',chat)
# chat = re.sub(r'(http)(.*) ?', r'XXX',chat)
# print(chat)

In [None]:
re.findall(r"(?:https?|ftp):\/\/[\w/\-?=%.]+\.[\w/\-?=%.]+", chat)

['https://www.tokopedia.com/produk/1234',
 'https://www.tokopedia.com/produk/1234',
 'https://www.tokopedia.com/produk/1234']

In [None]:
list_of_nama_perusahaan = ['8001814081//pt hwa seung indonesia - sew',
                           '1003157480//pt. aditya agroindo',
                           '1003157480//pt aditya agroindo- pemeliha',
                           'aditya agroindo - area pontianak',
                           '16001193394//pt parkland world indonesia',
                           '19005251595//pt sicepat ekspres-driver',
                           'cakra husada - direktur', 
                           '23001646599//pt wijaya karya persero',
                           'bekaert indonesia - staff', 
                           'bekaert indonesia pt']

In [None]:
contoh_text = '8001814081//pt hwa seung indonesia - sew'

#### Hilangin Angka

In [None]:
pattern = '\d{10,}'
re.sub(pattern, r'',contoh_text)

'//pt hwa seung indonesia - sew'

#### Hilangin Punctuation

In [None]:
pattern = '[^\w\s]'
re.sub(pattern, r'',contoh_text)

# spesial karakter !@#$%^&*()_+={}[]|\;:'\",.<>?/

'8001814081pt hwa seung indonesia  sew'

#### Hilangin PT

In [None]:
pattern = 'pt'
re.sub(pattern, r'',contoh_text)

'8001814081// hwa seung indonesia - sew'

#### Hilangin Staff

In [None]:
pattern = 'staff'
re.sub(pattern, r'',contoh_text)

'8001814081//pt hwa seung indonesia - sew'

#### Hilangin Punctuation

In [None]:
pattern = '[^\w\s]'
re.sub(pattern, r'',contoh_text)

'8001814081pt hwa seung indonesia  sew'

#### Hilangin Punctuation

In [None]:
def process_text(nama_perusahaan):
    print("asli", nama_perusahaan)
    nama_perusahaan = re.sub('\d{10,}', r'',nama_perusahaan) # step 1
    nama_perusahaan = re.sub('[\/\.]', r'', nama_perusahaan) # step 2
    nama_perusahaan = re.sub('[\-].*', r'', nama_perusahaan) # step 3
    nama_perusahaan = re.sub('pt', r'', nama_perusahaan) # step 4
    nama_perusahaan = nama_perusahaan.strip() # step 5
    return nama_perusahaan

In [None]:
for nama_perusahaan in list_of_nama_perusahaan:
    print(process_text(nama_perusahaan))
    break

asli 8001814081//pt hwa seung indonesia - sew
setelah step 1 //pt hwa seung indonesia - sew
setelah step 2 pt hwa seung indonesia - sew
setelah step 3 pt hwa seung indonesia 
setelah step 4  hwa seung indonesia 
hwa seung indonesia
