# Pengantar Regex Python

Regular Expression adalah metode pengkaitan pola teks dengan menggunakan sintaks tertentu. Biasanya Regex digunakan untuk melakukan ektraksi informasi pada sebuah teks maupun sebagai sistem validasi, misalnya password.

Untuk bisa melakukan operasi regex, kita dapat menggunakan modul ```re``` pada python.

In [1]:
# load library
import re

In [2]:
# teks contoh
teks = "Menteri Pendidikan dan Kebudayaan (Mendikbud) Nadiem Makarim mengungkapkan alasan yang melatarbelakangi rencana penghapusan ujian nasional"

## Pola Penting pada Teks

Berikut adalah daftar pola yang biasanya dipakai dalam regex:

- ^ mencocokkan pola awal dari string.
- $ mencocokkan pola akhir dari string.
- \b mencocokkan semua pola kata.
- \d mencocokkan semua pola numerik.
- \D mencocokkan semua pola non-numerik.
- (x|y|z)  mencocokkan pola x, y atau z.
- x? mencocokkan karakter x 0 atau 1 kali.
- x* mencocokkan x 0 kali atau lebih.
- x+ mencocokkan x 1 kali or lebih.
- x{m,n} mencocokkan karakter x sebanyak m kali, tidak lebih dari n kali.

# Pencarian Pola pada Teks

Untuk mencari pola pada teks kita dapat menggunakan method ```.search```.

In [3]:
# mencari kata menteri pada teks
re.search(pattern="Menteri", string=teks)

<re.Match object; span=(0, 7), match='Menteri'>

In [4]:
# mencari kata didik pada teks
re.search('didik', teks)

<re.Match object; span=(11, 16), match='didik'>

In [5]:
# mencari kata mobil pada teks
re.search('mobil', teks)

Kita dapat menggunakan method ini dalam control-flow seperti berikut:


In [6]:
pola = ['Menteri', 'didik', 'mobil']

for kata in pola:
    print('Mencari kata ', kata)
    if re.search(kata, teks):
        print("Kata ", kata, " ditemukan. \n")
    else:
        print("Kata ", kata, " tidak ditemukan. \n")

Mencari kata  Menteri
Kata  Menteri  ditemukan. 

Mencari kata  didik
Kata  didik  ditemukan. 

Mencari kata  mobil
Kata  mobil  tidak ditemukan. 



Kita juga dapat melakukan assignment sehingga menghasilkan objek ```Match```

In [7]:
pencarian = re.search('didik', teks)

type(pencarian)

re.Match

In [8]:
# beberapa method atau atribut pada objek Match
dir(pencarian)

['__class__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 'end',
 'endpos',
 'expand',
 'group',
 'groupdict',
 'groups',
 'lastgroup',
 'lastindex',
 'pos',
 're',
 'regs',
 'span',
 'start',
 'string']

## Splitting Teks dengan Pola Tertentu

Kita dapat melakukan splitting pada teks dengan menggunakan method ```split``` pada ```re```.

In [11]:
teks = "hadimaster65555@gmail.com"

re.split("@", teks)

['hadimaster65555', 'gmail.com']

## Melakukan Subtitusi pada Teks

Kita dapat melakukan subtitusi atau pergantian pada pola tertentu dengan meggunakan method ```sub```.

In [12]:
re.sub("@", " ", teks)

'hadimaster65555 gmail.com'

In [19]:
str1 = 'purple alice@google.com, blah monkey bob@abc.com blah dishwasher'

## Here re.findall() returns a list of all the found email strings
emails = re.findall('[w.-]+@[w.-]+', str1) ## ['alice@google.com', 'bob@abc.com']
  
for email in emails:
    # do something with each found email string
    print(email)

In [20]:
emails

[]

In [26]:
line = "Cats are smarter than dogs. Bebs are fatter than beb."

matchObj = re.match( r'(.*) are fatter (.*?) .*', line, re.M | re.I)

if matchObj:
    print("matchObj.group() : ", matchObj.group())
    print("matchObj.group(1) : ", matchObj.group(1))
    print("matchObj.group(2) : ", matchObj.group(2))
else:
    print("No match!!")

matchObj.group() :  Cats are smarter than dogs. Bebs are fatter than beb.
matchObj.group(1) :  Cats are smarter than dogs. Bebs
matchObj.group(2) :  than
