`June 9, 2022`

# Regular Expression

## Raw Strings

In [1]:
# Untuk membedakan antara regex code 
    # dan raw strings,
# gunakan 'r' di depan tanda kutip.

# Contoh 1
path = 'C\Users\tab\news'
print(path) # Akan error karena \U akan 
            # dibaca sebagai escape 
            # character untuk UNICODE.

SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 1-2: truncated \UXXXXXXXX escape (Temp/ipykernel_20640/2105139031.py, line 6)

In [2]:
# Contoh 2
path = 'C\tab\news'
print(path) # \t akan terbaca sebagai 
            # tab dan \n terbaca sebagai 
            # new line

C	ab
ews


In [3]:
# Contoh 3
path = r'C\User\tab\news'
print(path) # Sudah tidak error kalau dijalankan
print(type(path)) # path terbaca sebagai 
                    # string

C\User\tab\news
<class 'str'>


## Regex Methods

In [4]:
# Jika ingin menggunakan regex, import 
    # library re terlebih dahulu.
import re

### re.compile()

In [5]:
# x terbaca sebagai string
x = r'\d{4}'
print(type(x))

<class 'str'>


In [6]:
# Untuk mengubahnya menjadi regex 
    # dtype, gunakan re.compile()
x = re.compile(x)
print(type(x))

<class 're.Pattern'>


In [None]:
str1 = 'Saya lahir pada tahun 2022.\
    Pada tahun 2026, umur saya baru 4 tahun.'

# Gunakan re.findall()
hasil = re.findall(x, str1)

hasil

['2000', '2004']

- re.compile() digunakan untuk mencari pola yang sama secara berulang.
- Akan tetapi, jika menggunakan method lain, otomatis cara kerja method yang lain tersebut mengandung proses compiling, sehingga kita tidak perlu melakukan compiling secara manual.

In [None]:
# Contoh lain

# Target string
str2 = 'Nomor urut yang didapat adalah\
         251, 271, 762, 524'

# Pattern to find three consecutive 
    # digits
string_pattern = r'\d{3}'

# Compile string pattern to re.Pattern 
    # object
regex_pattern = re.compile(string_pattern)

# Print the type of compiled pattern
print(type(regex_pattern))

# Find all the matches in str2
result = regex_pattern.findall(str2)
print(result)

<class 're.Pattern'>
['251', '271', '762', '524']


### re.search()

In [7]:
# Mencari pola 3 digit secara berurutan

str3 = 'Saya lahir pada tahun 2022. Pada\
        tahun 2026, umur saya baru 4 tahun.\
        Saya tinggal di rumah bernomor 389\
        jalan Kahatex.'

hasil_re_search = re.search(r'\d{3}', str3)
hasil_re_search # Output-nya 202 karena pada 
                # 2022 hanya diambil 3 digit 
                # pertama saja.
                # re.search() hanya mengembalikan 
                # nilai pertama yang ditemukan 
                # di target string.
                # return value berupa match object.

<re.Match object; span=(22, 25), match='202'>

In [8]:
# Jika tidak ada yang sesuai dengan pola regex 
    # yang didefinisikan, return value akan
    # berupa NoneType.

hasil_re_search2 = re.search(r'\d{10}', str3)
print(hasil_re_search2)

None


- Method re.search() akan mencari 3 digit secara berurutan yang ada di dalam string. Meskipun ada angka yang berjumlah 4 digit atau lebih, hanya 3 angka awal saja yang dibaca oleh method ini. Sisa angka lainnya tidak akan dianggap ada.
- Perlu diingat, method ini hanya mengeluarkan 1 hasil saja. Eksekusi akan berhenti jika sudah ketemu pola yang sesuai dengan regex-nya, meskipun masih ada angka-angka lain yang sesuai spesifikasi. Hasil di output hanyalah angka yang pertama saja.
- span=(22, 25) berarti nilai yang ada di 'match' berada pada index 22-24. Bisa di-indexing dengan cara str[22:25]
- Method re.search() akan mengembalikan re.Match objek jika ada hasil yang ditemukan. Jika tidak ada hasil, maka akan dikembalikan sebagai NoneType.

### re.findall()

- Salah satu method yang paling sering digunakan.
- Mengembalikan semua nilai di target string yang sesuai dengan regex pattern.
- Return value dalam bentuk class list.

In [9]:
# Contoh 1
hasil_findall = re.findall(r'\d{3}', str3)
hasil_findall

['202', '202', '389']

In [10]:
print(type(hasil_findall))

<class 'list'>


In [11]:
# Jika tidak ada yang sesuai dengan pola 
    # regex yang didefinisikan, return 
    # value-nya berupa list kosong.

hasil_findall2 = re.findall(r'\d{10}', str3)
hasil_findall2

[]

In [12]:
print(type(hasil_findall2))

<class 'list'>


### re.split()

In [13]:
# Python split()
str3.split()

['Saya',
 'lahir',
 'pada',
 'tahun',
 '2022.',
 'Pada',
 'tahun',
 '2026,',
 'umur',
 'saya',
 'baru',
 '4',
 'tahun.',
 'Saya',
 'tinggal',
 'di',
 'rumah',
 'bernomor',
 '389',
 'jalan',
 'Kahatex.']

In [14]:
# Split menggunakan regex
hasil_split = re.split(r'\s', str3) # \s berarti whitespace
hasil_split

['Saya',
 'lahir',
 'pada',
 'tahun',
 '2022.',
 'Pada',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 'tahun',
 '2026,',
 'umur',
 'saya',
 'baru',
 '4',
 'tahun.',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 'Saya',
 'tinggal',
 'di',
 'rumah',
 'bernomor',
 '389',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 'jalan',
 'Kahatex.']

In [None]:
# Contoh delimiter yang flexible 
    # menggunakan re.split()
# Split string kalau bertemu pola 
    # 3 digit secara berurutan.
hasil_split_3digit = re.split(r'\d{3}', str3)
hasil_split_3digit

['Saya lahir pada tahun ',
 '0. Pada tahun ',
 '4, umur saya baru 4 tahun. Saya tinggal di rumah bernomor ',
 ' jalan Kahatex.']

In [15]:
# Jika tidak ada yang cocok dengan 
    # pattern yang didefinisikan di 
    # re.split, maka tidak akan 
    # ada yang di-split.

# Artinya mencari pola dengan 3 
    # whitespaces berurutan.
hasil_no_split_match = re.split(r'\s{3}', str3) 

# Tidak ada yang sesuai dengan 
    # regex pattern
hasil_no_split_match 

['Saya lahir pada tahun 2022. Pada',
 '',
 '  tahun 2026, umur saya baru 4 tahun.',
 '',
 '  Saya tinggal di rumah bernomor 389',
 '',
 '  jalan Kahatex.']

- Pada regex, \s berarti mencocokkan regular space (whitespace).
- Perbedaan antara split pada Python dan regex adalah kita bisa mendefinisikan pattern pada delimiter-nya, sedangkan pada Python hanya terbatas pada fixed-characters saja. Jadi, split pada regex jauh lebih fleksibel.
- Jika tidak ada yang cocok dengan pattern yang didefinisikan di re.split, maka tidak akan ada yang di-split. Output-nya adalah semua yang ada di dalam string.

### re.sub()

re.sub(pattern, repl, string, count, flags)

- Tiga argumen wajib:
  - pattern: regex pattern untuk target string.
  - repl: replacement yang akan dimasukkan untuk tiap occurrence.
  - string: variabel target string.

- Argumen tambahan:
  - count: menandakan angka maksimal dari pattern yang akan diganti. Isinya harus berupa integer positif dan default-nya adalah 0, yang artinya semua occurrences akan diganti.
  - flags: optional flags (re.I, re.S, re.X, etc.)

In [None]:
str4 = 'Saya LAHIR pada tahun 2022.\
    Pada tahun 2026, UMUR saya baru\
    4 tahun. Saya TINGGAL di rumah\
    bernomor 389 jalan Kahatex.'
str4

'Saya LAHIR pada tahun 2000. Pada tahun 2004, UMUR saya baru 4 tahun. Saya TINGGAL di rumah bernomor 389 jalan Kahatex.'

In [None]:
# Mengganti semua kata yang hurufnya 
  # kapital dengan kata 'INDEX'

# [A-Z] dinamakan character class
  # [A-Z] --> any uppercase letter
  # [a-z] --> any lowercase letter

hasil_sub = re.sub(r'[A-Z]{2,}', 
            'INDEX', str4)
hasil_sub

# [A-Z]{2,} berarti mencari pola dengan 
  # huruf kapital yang diulang minimal 
  # sebanyak 2 kali dan bisa lebih, 
  # berapapun itu.
# {2,} koma berarti jumlah karakter pada 
  # kata di target string bisa berjumlah 
  # 3, 4, 5 dan seterusnya.

'Saya INDEX pada tahun 2000. Pada tahun 2004, INDEX saya baru 4 tahun. Saya INDEX di rumah bernomor 389 jalan Kahatex.'

In [None]:
# Hanya 2 kata yang akan diganti 
    # karena argumen count 
    # didefinisikan = 2
hasil_sub2 = re.sub(r'[A-Z]{2,}', 
                    'INDEX', 
                    str4, 
                    count=2)
hasil_sub2

'Saya INDEX pada tahun 2000. Pada tahun 2004, INDEX saya baru 4 tahun. Saya TINGGAL di rumah bernomor 389 jalan Kahatex.'

`June 10, 2022`

### Optional Flags

Optional flags yang paling sering digunakan:

- re.I --> IGNORECASE --> to perform case insensitive matching.
- re.S --> DOTALL --> cover new line character when we are using dot.
- re.X --> VERBOSE --> more flexibility & better formatting when writing more complex patterns.


In [16]:
str5 = '''Saya LAHIR pada tahun 2022 di 
rumah sakit Ajax, tepatnya pada 29 Februari.
Pada tahun 2004, UMUR saya baru 4 tahun. 
Saya TINGGAL di rumah bernomor 389 
jalan Kahatex.'''

**re.I (IGNORECASE)**

In [17]:
hasil_without_ignorecase = re.findall(r'saya', 
                            str5)
hasil_without_ignorecase

['saya']

In [18]:
hasil_ignorecase = re.findall(r'saya', 
                            str5, 
                            re.I)
hasil_ignorecase

['Saya', 'saya', 'Saya']

**re.S (DOTALL)**

In [19]:
# Digunakan khususnya jika target 
    # string adalah multiline string.

hasil_without_dotall = re.search(r'.+', str5)
hasil_without_dotall

<re.Match object; span=(0, 30), match='Saya LAHIR pada tahun 2022 di '>

In [20]:
hasil_dotall = re.search(r'.+', 
                        str5, 
                        re.S)
hasil_dotall

<re.Match object; span=(0, 168), match='Saya LAHIR pada tahun 2022 di \nrumah sakit Ajax,>

**re.X (VERBOSE)**

In [21]:
hasil_without_verbose = re.search(
    r'.+\s(.+ax).+(\d\d\s\w{2,})', 
    str5)
    
hasil_without_verbose

<re.Match object; span=(0, 74), match='Saya LAHIR pada tahun 2022 di \nrumah sakit Ajax,>

In [25]:
# This flag allows you to write regex 
    # that look nicer and are more 
    # readable by allowing you to 
    # visually separate logical 
    # sections of the pattern & add comments

hasil_verbose = re.search(
    r'''.+\s # Beginning of the string
    (.+ax) # Want to find a word end with 'ax'
    .+ # Middle of the string
    (\d\d\s\w{2,}) # End of the string''', 
    str5, re.X)

hasil_verbose

<re.Match object; span=(0, 74), match='Saya LAHIR pada tahun 2022 di \nrumah sakit Ajax,>

## Metacharacters

### The dot (.)

In [26]:
str6 = 'Saya LAHIR pada tahun 2022.\
    Pada tahun 2026, UMUR saya baru\
    4 tahun. Saya TINGGAL di rumah\
    bernomor 389 jalan Kahatex 2100'
str6

'Saya LAHIR pada tahun 2022.    Pada tahun 2026, UMUR saya baru    4 tahun. Saya TINGGAL di rumah    bernomor 389 jalan Kahatex 2100'

In [None]:
# dot(.) means match any character 
    # except new line
hasil_dot = re.search(r'.+', str6)
hasil_dot

# Outputnya adalah seluruh isi pada
    # string karena semuanya match 
    # dengan . dan karena ada + 
    # jadinya diambil semuanya.

<re.Match object; span=(0, 118), match='Saya LAHIR pada tahun 2000. Pada tahun 2004, UMUR>

### Match pattern in the beginning or the end of line or string

#### The caret (^)

The caret (^) matches only at the beginning of the line/string.

In [None]:
hasil_caret = re.search(r'^\w{4}', str6)
hasil_caret

<re.Match object; span=(0, 4), match='Saya'>

- re.search() hanya menampilkan temuan pertama saja jika memang ada yang cocok dengan regex pattern.
- ^\w tidak akan bisa membaca semua pattern jika terdapat new lines pada string, meskipun menggunakan method re.findall() juga.
- Untuk dapat menemukan semua kata yang cocok dengan pattern pada target string meskipun terdapat new lines, gunakan re.findall() dan re.M --> untuk multiple line.

*Contoh re.M (multiline flag)*

In [None]:
# Percobaan dengan menggunakan findall 
    # pada target string yang memiliki 
    # newline.
    
hasil_caret2 = re.findall(r'^\w{4}', str5)
hasil_caret2

# Output tetap hanya yang line pertama saja.

['Saya']

In [None]:
str_contoh = '''Saya LAHIR pada tahun 2022 di rumah 
sakit Ajax, tepatnya pada 29 Februari.\nPada tahun 
2004, UMUR saya baru 4 tahun.\nSaya TINGGAL di 
rumah bernomor 389 jalan Kahatex.'''

str_contoh

'Saya LAHIR pada tahun 2000 di rumah sakit Ajax, tepatnya pada 29 Februari.\nPada tahun 2004, UMUR saya baru 4 tahun.\nSaya TINGGAL di rumah bernomor 389 jalan Kahatex.'

In [None]:
# Perhatikan outcome jika menggunakan re.M
hasil_caret3 = re.findall(r'^\w{4}', 
                        str_contoh, 
                        re.M)

hasil_caret3

# Karena ketiga baris memiliki jumlah 
    # karakter yang sama, yaitu 4, 
    # maka semua kata awal pada tiap
    # kalimat cocok dengan regex pattern.

['Saya', 'Pada', 'Saya']

#### The dollar sign ($)

Opposite of caret (^), mathces at the end of line or string.

In [None]:
hasil_dollar = re.search(r'\d{4}$', str6)
hasil_dollar

# Tanda $ diletakkan di akhir regex 
# pattern karena kita ingin mencari 
# pattern yang sesuai dengan regex 
# pattern pada akhir line/string.

<re.Match object; span=(118, 122), match='2100'>

### The Asterisk (*)

The asterisk (*) matches zero or more repetitions of the preceeding expression in a greedy way (as many repetitions as possible).

In [None]:
str7 = '''Saya LAHIR pada tahun 2022 di 
rumah sakit Ajax, tepatnya pada 29 Februari. 
Pada tahun 2026, UMUR saya baru 4 tahun. 
Saya TINGGAL di rumah bernomor 389 jalan 
Kahatex.'''

str7

'Saya LAHIR pada tahun 2000 di rumah sakit Ajax, tepatnya pada 29 Februari. Pada tahun 2004, UMUR saya baru 4 tahun. Saya TINGGAL di rumah bernomor 389 jalan Kahatex.'

In [None]:
# Contoh 1
hasil_asterisk = re.findall(r'\d\d\d*', str7)
hasil_asterisk

# Regex pattern-nya mencari pola dengan 
# minimal 2 digit dan jika memungkinkan, 
# 3 digit atau lebih dapat tertangkap 
# karena kita menggunakan *

['2000', '29', '2004', '389']

In [None]:
# Contoh 2
hasil_asterisk2 = re.findall(r'A.*', str7)
hasil_asterisk2

# Regex pattern ingin mencari huruf 
# kapital A yang diikuti oleh karakter 
# apapun kecuali new line, lalu akan 
# dicari repetitions of 
# preceeding expression, yaitu . 
# sebanyak mungkin karena ada *

# Greedy berarti substrings selain A 
# dan diikuti oleh 1 karakter setelahnya 
# juga ikut ditampilkan di outcome.

['AHIR pada tahun 2000 di rumah sakit Ajax, tepatnya pada 29 Februari. Pada tahun 2004, UMUR saya baru 4 tahun. Saya TINGGAL di rumah bernomor 389 jalan Kahatex.']

In [None]:
# Kalau non-greedy, maka akan muncul 
# kata yang mengandung A dan diikuti 
# 1 karakter setelahnya

hasil_question = re.findall(r'A.?', str7)
hasil_question

['AH', 'Aj', 'AL']

### The Plus (+)

The plus sign (+) matches one or more repetitions of the preeceding expression.

In [None]:
# By default, the matching result is greedy.

hasil_plus = re.findall(r'A.+', str7)
hasil_plus

['AHIR pada tahun 2000 di rumah sakit Ajax, tepatnya pada 29 Februari. Pada tahun 2004, UMUR saya baru 4 tahun. Saya TINGGAL di rumah bernomor 389 jalan Kahatex.']

In [None]:
hasil_plus2 = re.findall(r'\d\d\d+', str7)
hasil_plus2

# Regex ini artinya mengikuti 2 digit 
# pertama, substring harus memiliki 
# setidaknya satu digit lagi untuk dapat 
# match dengan regex pattern (minimal 
# punya 3 digit).

# Oleh karena itu, digit ketiga sifatnya 
# bukan opsional seperti *, melainkan wajib 
# (one or more repetitions of preceeding 
# expression),
# sehingga hanya substring yang memiliki 
# 3 digit atau lebih yang akan match.

['2000', '2004', '389']

**Perbandingan * dan +**

In [None]:
teks = '''Enak makan Empal di FTSE, 
        ketika hari hujan'''

In [None]:
re.findall(r'E\w*', teks)

['Enak', 'Empal', 'E']

In [None]:
re.findall(r'E\w+', teks)

['Enak', 'Empal']

- Karena + membutuhkan setidaknya satu repetisi \w setelah E, maka hasilnya yang cocok hanyalah 'Enak' dan 'Empal'. E pada FTSE tidak termasuk karena setelahnya diikuti oleh tanda koma, yang mana tidak diterima oleh \w.
- Sedangkan * membutuhkan zero or more repetitions \w setelah E, yang artinya jika setelah E pun tidak diikuti oleh alphanumeric dan underscore, maka substring seperti FTSE pun akan tetap muncul di outcome, yang penting ada 'E' nya saja juga sudah match.

### The Question Mark (?)

- The question mark (?) matches 0 or 1 repetitions of the preceeding expression. 
- Non-greedy behaviour.
- This sign cancels the greedy behaviour.

In [None]:
# ? bersifat non-greedy
hasil_question_mark = re.findall(r'\d\d\d?', str7)
hasil_question_mark

# Regex ini berarti substring minimal 
# harus memiliki 2 digit, sedangkan \d 
# ketiga hanya bisa berulang sebanyak 
# 0 kali (tidak ada)
# atau maksimal hanya 1 kali. 
# Jadi, batas maksimal di output 
# adalah 3 digit saja.

['200', '29', '200', '389']

In [None]:
str7

'Saya LAHIR pada tahun 2000 di rumah sakit Ajax, tepatnya pada 29 Februari. Pada tahun 2004, UMUR saya baru 4 tahun. Saya TINGGAL di rumah bernomor 389 jalan Kahatex.'

In [None]:
# Contoh lain

re.findall(r'A.? ', str7)

# Mencari substring yang memiliki 
# A dan diikuti oleh karakter apa 
# saja kecuali new line lalu spasi.
# Jadi, jarak ke spasi maksimal 1 
# karakter saja.

# Outcome hanya 'AL ' pada 'TINGGAL ' 
# saja karena jarak antara AL dan 
# spasi hanya berjarak 1 char,
# sehingga masih masuk limit metachar (?) 
# dan uga regex pattern-nya.

# Sedangkan pada Ajex, setelahnya 
# diikuti beberapa karakter dan 
# melebihi limit metachar (?) 
# untuk sampai ke spasi terdekat.

['AL ']

In [None]:
# Contoh lain

re.findall(r'A.\w?', str7)

# Mencari A yang diikuti oleh 
# alphanumeric yang memiliki 0 
# atau 1 repetisi saja.
# Dengan kata lain, semua variasi 
# akan masuk yang penting 
# substring punya A kapital.

['AHI', 'Aja', 'AL']

### Greedy vs Non-greedy

The question mark (?) after the * or + turns off the greedy behaviour completely.

In [None]:
# Mencari substring yang minimal 
# punya 2 digit, \d ketiga 
# bersifat opsional.

# Jadi, minimal ada 2 digit, 
# kalau lebih dari 2 berarti 
# akan match dan ditampilkan di output.

re.findall(r'\d\d\d*', str7)

['2000', '29', '2004', '389']

In [None]:
re.findall(r'\d\d\d*?', str7)

['20', '00', '29', '20', '04', '38']

In [None]:
# Mencari substring yang minimal 
# punya 3 digit, \d ketiga bersifat 
# wajib.

# Outcome minimal 3 digit, lebih 
# dari itu pasti masuk.

re.findall(r'\d\d\d+', str7)

['2000', '2004', '389']

In [None]:
# Tanda ? melimitasi \d ketiga 
# menjadi 0 repetisi, sehingga 
# hasilnya maksimal hanya 3 digit 
# saja.

re.findall(r'\d\d\d+?', str7)

['200', '200', '389']

In [None]:
# Jika hanya ? saja, maka outcome 
# maksimal hanya 3 digit.

re.findall(r'\d\d\d?', str7)

['200', '29', '200', '389']

In [None]:
# Sama hasilnya dengan '\d\d\d*?'
# Match-nya terbatas hanya 
# maksimal 2 repetisi saja.

re.findall(r'\d\d\d??', str7)

['20', '00', '29', '20', '04', '38']

### The Backslash (\)

The functions:
- Signals a special sequence (\d, \w, etc.)
- Escaping and matching a symbol with special meaning in regex syntax (\. or \? etc.)

In [None]:
# Function 1 (signals a special sequence)
re.findall(r'\d', str7)

['2', '0', '0', '0', '2', '9', '2', '0', '0', '4', '4', '3', '8', '9']

In [None]:
# Function 2
re.findall(r'\.', str7)

# Jika menggunakan backslash sebelum 
# metachars yang ada pada regex, 
# itu berarti kita mencari simbol 
# tersebut pada target string.

# Pada contoh ini berarti kita 
# mencari semua tanda titik 
# yang ada pada target string.
# Jadi, backslash cancelling the 
# dot function yang mengembalikan 
# semua match characters.

['.', '.', '.']

### The Square Brackets []

- The square brackets [] represent sets of characters (character ranges) and character classes.
- Any special characters (. ? * +) lose their powers/meaning when inside [].

In [None]:
str7

'Saya LAHIR pada tahun 2000 di rumah sakit Ajax, tepatnya pada 29 Februari. Pada tahun 2004, UMUR saya baru 4 tahun. Saya TINGGAL di rumah bernomor 389 jalan Kahatex.'

In [None]:
re.findall(r'[yxk]', str7)

['y', 'k', 'x', 'y', 'y', 'y', 'x']

In [None]:
# Mencari karakter h, i, j, k, l, m 
# pada target string
# Didefinisikan dengan range (-)

# Using dash (-) to denote range
# Start dan stop bersifat inclusive
print(re.findall(r'[h-m]', str7), end=' ')

['h', 'i', 'm', 'h', 'k', 'i', 'j', 'i', 'h', 'h', 'i', 'm', 'h', 'm', 'j', 'l', 'h'] 

In [None]:
re.findall(r'[S-Z]', str7)

['S', 'U', 'U', 'S', 'T']

In [None]:
re.findall(r'[1-5]', str7)

['2', '2', '2', '4', '4', '3']

In [None]:
# Kalau menggunakan 2 square brackets 
# [][], berarti:

# - karakter pertama ada pada range a sampai d
# - karakter kedua ada pada range h sampai m
re.findall(r'[a-d][h-m]', str7)

['ah', 'di', 'ah', 'ak', 'ah', 'ah', 'di', 'ah', 'al', 'ah']

In [None]:
# Berlaku juga untuk angka
re.findall(r'[1-4][5-9]', str7)

['29', '38']

In [None]:
# Kombinasi angka, spasi, huruf
re.findall(r'[0-9] [a-d]', str7)

['0 d']

**Using the caret (^) to define 'except' or negation of the following expression**

In [None]:
x = re.findall(r'[^a]', str7)
print(x, end=' ')
# Regex ini berarti mencari semua 
# karakter pada target string kecuali 
# karakter a

['S', 'y', ' ', 'L', 'A', 'H', 'I', 'R', ' ', 'p', 'd', ' ', 't', 'h', 'u', 'n', ' ', '2', '0', '0', '0', ' ', 'd', 'i', ' ', 'r', 'u', 'm', 'h', ' ', 's', 'k', 'i', 't', ' ', 'A', 'j', 'x', ',', ' ', 't', 'e', 'p', 't', 'n', 'y', ' ', 'p', 'd', ' ', '2', '9', ' ', 'F', 'e', 'b', 'r', 'u', 'r', 'i', '.', ' ', 'P', 'd', ' ', 't', 'h', 'u', 'n', ' ', '2', '0', '0', '4', ',', ' ', 'U', 'M', 'U', 'R', ' ', 's', 'y', ' ', 'b', 'r', 'u', ' ', '4', ' ', 't', 'h', 'u', 'n', '.', ' ', 'S', 'y', ' ', 'T', 'I', 'N', 'G', 'G', 'A', 'L', ' ', 'd', 'i', ' ', 'r', 'u', 'm', 'h', ' ', 'b', 'e', 'r', 'n', 'o', 'm', 'o', 'r', ' ', '3', '8', '9', ' ', 'j', 'l', 'n', ' ', 'K', 'h', 't', 'e', 'x', '.'] 

In [None]:
# Untuk mengecek hasil secara cepat
'a' in x

False

In [None]:
# Special characters inside [] 
# losing their powers
re.findall(r'[(.+?)]', str7)

# Regex ini berarti hanya mencari 
# seluruh tanda . * ? pada target string.
# Fungsi special characters tidak 
# berlaku karena berada di dalam []

['.', '.', '.']

#### Character Classes

In [None]:
# Character class 0-9
re.findall(r'[0-9]', str7)

['2', '0', '0', '0', '2', '9', '2', '0', '0', '4', '4', '3', '8', '9']

In [None]:
# Character class a-z and A-Z
print(re.findall(r'[a-zA-Z]', str7), end=' ')

['S', 'a', 'y', 'a', 'L', 'A', 'H', 'I', 'R', 'p', 'a', 'd', 'a', 't', 'a', 'h', 'u', 'n', 'd', 'i', 'r', 'u', 'm', 'a', 'h', 's', 'a', 'k', 'i', 't', 'A', 'j', 'a', 'x', 't', 'e', 'p', 'a', 't', 'n', 'y', 'a', 'p', 'a', 'd', 'a', 'F', 'e', 'b', 'r', 'u', 'a', 'r', 'i', 'P', 'a', 'd', 'a', 't', 'a', 'h', 'u', 'n', 'U', 'M', 'U', 'R', 's', 'a', 'y', 'a', 'b', 'a', 'r', 'u', 't', 'a', 'h', 'u', 'n', 'S', 'a', 'y', 'a', 'T', 'I', 'N', 'G', 'G', 'A', 'L', 'd', 'i', 'r', 'u', 'm', 'a', 'h', 'b', 'e', 'r', 'n', 'o', 'm', 'o', 'r', 'j', 'a', 'l', 'a', 'n', 'K', 'a', 'h', 'a', 't', 'e', 'x'] 

In [None]:
# Excluding character classes 0-9 
# for the outcome
print(re.findall(r'[^0-9]', str7), end=' ')

['S', 'a', 'y', 'a', ' ', 'L', 'A', 'H', 'I', 'R', ' ', 'p', 'a', 'd', 'a', ' ', 't', 'a', 'h', 'u', 'n', ' ', ' ', 'd', 'i', ' ', 'r', 'u', 'm', 'a', 'h', ' ', 's', 'a', 'k', 'i', 't', ' ', 'A', 'j', 'a', 'x', ',', ' ', 't', 'e', 'p', 'a', 't', 'n', 'y', 'a', ' ', 'p', 'a', 'd', 'a', ' ', ' ', 'F', 'e', 'b', 'r', 'u', 'a', 'r', 'i', '.', ' ', 'P', 'a', 'd', 'a', ' ', 't', 'a', 'h', 'u', 'n', ' ', ',', ' ', 'U', 'M', 'U', 'R', ' ', 's', 'a', 'y', 'a', ' ', 'b', 'a', 'r', 'u', ' ', ' ', 't', 'a', 'h', 'u', 'n', '.', ' ', 'S', 'a', 'y', 'a', ' ', 'T', 'I', 'N', 'G', 'G', 'A', 'L', ' ', 'd', 'i', ' ', 'r', 'u', 'm', 'a', 'h', ' ', 'b', 'e', 'r', 'n', 'o', 'm', 'o', 'r', ' ', ' ', 'j', 'a', 'l', 'a', 'n', ' ', 'K', 'a', 'h', 'a', 't', 'e', 'x', '.'] 

#### Whitespace Characters

- Space from keyboard
- New line char (\n)
- Tab char (\t)
- Carriage return (\r)
- Form feed (\f)
- Vertical tab (\v)

In [None]:
# Finding whitespaces
print(re.findall(r'[ \n\t\r\f\v]', str5), end=' ')

[' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', '\n', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', '\n', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' '] 

In [None]:
# Finding all chars except 
# whitespaces
print(re.findall(r'[^ \n\t\r\f\v]', str5), end=' ')

['S', 'a', 'y', 'a', 'L', 'A', 'H', 'I', 'R', 'p', 'a', 'd', 'a', 't', 'a', 'h', 'u', 'n', '2', '0', '0', '0', 'd', 'i', 'r', 'u', 'm', 'a', 'h', 's', 'a', 'k', 'i', 't', 'A', 'j', 'a', 'x', ',', 't', 'e', 'p', 'a', 't', 'n', 'y', 'a', 'p', 'a', 'd', 'a', '2', '9', 'F', 'e', 'b', 'r', 'u', 'a', 'r', 'i', '.', 'P', 'a', 'd', 'a', 't', 'a', 'h', 'u', 'n', '2', '0', '0', '4', ',', 'U', 'M', 'U', 'R', 's', 'a', 'y', 'a', 'b', 'a', 'r', 'u', '4', 't', 'a', 'h', 'u', 'n', '.', 'S', 'a', 'y', 'a', 'T', 'I', 'N', 'G', 'G', 'A', 'L', 'd', 'i', 'r', 'u', 'm', 'a', 'h', 'b', 'e', 'r', 'n', 'o', 'm', 'o', 'r', '3', '8', '9', 'j', 'a', 'l', 'a', 'n', 'K', 'a', 'h', 'a', 't', 'e', 'x', '.'] 

### The Curly Braces {}

Repetition operator like * and +

In [None]:
str7

'Saya LAHIR pada tahun 2000 di rumah sakit Ajax, tepatnya pada 29 Februari. Pada tahun 2004, UMUR saya baru 4 tahun. Saya TINGGAL di rumah bernomor 389 jalan Kahatex.'

In [None]:
# Mencari kata dengan 4 karakter 
    # alphanumeric dan _
re.findall(r'\b\w{4}\b', str7)

# Special sequences \b digunakan 
# untuk merepresentasikan batas 
# dari suatu kata pada target string.

# Jadi, pada contoh ini, kita mencari 
# kata yang hanya mengandung 4 karakter saja. 

['Saya',
 'pada',
 '2000',
 'Ajax',
 'pada',
 'Pada',
 '2004',
 'UMUR',
 'saya',
 'baru',
 'Saya']

In [None]:
# Mencari kata yang hanya memiliki 
    # 3 sampai 5 karakter.
# Perlu diperhatikan, jangan ada 
    # whitespace di dalam curly braces
re.findall(r'\b\w{3,5}\b', str7)

['Saya',
 'LAHIR',
 'pada',
 'tahun',
 '2000',
 'rumah',
 'sakit',
 'Ajax',
 'pada',
 'Pada',
 'tahun',
 '2004',
 'UMUR',
 'saya',
 'baru',
 'tahun',
 'Saya',
 'rumah',
 '389',
 'jalan']

In [None]:
# Mencari kata yang minimal memiliki 
# 3 karakter. Jika lebih dari 3 
# berarti akan masuk semua ke output.

re.findall(r'\b\w{3,}\b', str7)

['Saya',
 'LAHIR',
 'pada',
 'tahun',
 '2000',
 'rumah',
 'sakit',
 'Ajax',
 'tepatnya',
 'pada',
 'Februari',
 'Pada',
 'tahun',
 '2004',
 'UMUR',
 'saya',
 'baru',
 'tahun',
 'Saya',
 'TINGGAL',
 'rumah',
 'bernomor',
 '389',
 'jalan',
 'Kahatex']

In [None]:
numbers = '12334325823592149'

# Would result in greedy behaviour
# by default
# Outcome is 6 digits.
re.search(r'\d{3,6}', numbers)

<re.Match object; span=(0, 6), match='123343'>

In [None]:
# To prevent greedy, use ?
re.search(r'\d{3,6}?', numbers)

<re.Match object; span=(0, 3), match='123'>

## The Pipe (|)



- A|B|C means A or B or C, will return only of them, not all.
- As soon as one is match, the others will be ignored.

In [None]:
re.search(
    r'\d{3}|\d{4}|\
    b[A-Z]{4}\b', 
    str7)

# Pattern pertama, yaitu \d{3} 
# match dengan yang ada di str7, 
# sehingga pattern yang lainnya 
# akan diabaikan.

<re.Match object; span=(22, 25), match='200'>

In [None]:
str7

'Saya LAHIR pada tahun 2000 di rumah sakit Ajax, tepatnya pada 29 Februari. Pada tahun 2004, UMUR saya baru 4 tahun. Saya TINGGAL di rumah bernomor 389 jalan Kahatex.'

In [None]:
# Pipe menggunakan findall
# Untuk setiap kata di target string 
# akan dicocokkan dengan regex pattern. 
# Jika ada yang sesuai, maka kondisi lain diabaikan.

re.findall(r'\d{3}|\d{4}|\b[A-Z]{4}\b', str7)

['200', '200', 'UMUR', '389']

# **From The SLIDES**

**Character Sets**

In [None]:
# Cara 1
words = 'grey gray groy griy gruy'

re.findall(r'gr[ea]y', words)

['grey', 'gray']

    The r means that the string is to be treated as a raw string, which means all escape codes will be ignored.

In [None]:
# Bisa juga regex pattern-nya 
# dimasukkan ke dalam variabel

words = 'grey gray groy griy gruy'
pattern = 'gr[ea]y'
re.findall(pattern, words)

['grey', 'gray']

In [None]:
# Regex pada Python adalah 
# case sensitive

words = 'grey gray groy griy gruy'
pattern = 'gr[EA]y'
re.findall(pattern, words)

# Jika tidak ada yang match, 
# maka akan dikembalikan 
# list kosong.

[]

In [None]:
# Contoh lain
hewan = 'katak kodok'
pattern = 'k[ao][td][ao]k'

re.findall(pattern, hewan)

['katak', 'kodok']

In [None]:
# Challenge-nya adalah bagaimana
    # jika kita hanya 
    # ingin mengambil katak 
    # dan kodok dari target 
    # string di bawah ini.

hewan = 'katak kotak kodok kodak'
pattern = 'k[ao][td][ao]k'

re.findall(pattern, hewan)

# Kalau dengan regex yang sama, 
# maka akan terambil semuanya.

['katak', 'kotak', 'kodok', 'kodak']

## **Character Ranges**

    [a-zA-z] and [0-9]

In [None]:
target = 'XRA 000, 1AA 1AA'
pattern = '''[A-Z0-9][A-Z][A-Z]
        \s[0-9][A-Z0-9][A-Z0-9]'''

re.findall(pattern, target)

['XRA 000', '1AA 1AA']

Karakter ke:
1. Huruf kapital atau digit
2. Huruf kapital
3. Huruf kapital
4. Spasi
5. Digit
6. Digit atau huruf kapital
7. Digit atau huruf kapital

In [None]:
# Cara lain
target = 'XRA 000, 1AA 1AA'
pattern = '[A-Z0-9]{3}\s[A-Z0-9]{3}'

re.findall(pattern, target)

['XRA 000', '1AA 1AA']

In [None]:
# Bagaimana kalau komanya dihapus?
target = 'XRA 000 1AA 1AA'
pattern = '[A-Z0-9]{3}\s[A-Z0-9]{3}'

re.findall(pattern, target)

# Outcome-nya ternyata tetap sama.

['XRA 000', '1AA 1AA']

In [None]:
# Bagaimana kalau 0 pada karakter 
# ke 5 diganti huruf?
# Bandingkan hasil dari kedua 
# regex berikut.
target = 'XRA G00 1AA 1AA'
pattern1 = '''[A-Z0-9][A-Z][A-Z]\s
            [0-9][A-Z0-9][A-Z0-9]'''

pattern2 = '[A-Z0-9]{3}\s[A-Z0-9]{3}'


print(re.findall(pattern1, target))
print(re.findall(pattern2, target))

['1AA 1AA']
['XRA G00', '1AA 1AA']


- Regex pertama lebih rigid karena pada karakter kelima, kita hanya mendefinisikan digit saja, sehingga pola yang pertama pada target tidak bisa ditangkap.

In [None]:
# Cara lain
target = 'XRA 000 1AA 1AA'
pattern = '[\w\d]+\s[\w\d]+'

re.findall(pattern, target)

['XRA 000', '1AA 1AA']

## **Negative Character Sets [^]**

- Jika ^ digunakan dalam [], maka berarti negasi.
- Mencari hasil selain dari yang didefinisikan di regex pattern.

In [None]:
target = 'hog dog bog'

# Kita mau menangkap kata lain 
# selain 'bog'
re.findall(r'[^b]og', target)

['hog', 'dog']

In [None]:
# Jika tidak digunakan dalam [], 
# maka akan mencari yang match 
# dengan regex pada awal string

re.findall(r'^\w.*', target)

['hog dog bog']

## **Metacharacters**

* * *
* <font color="red">[0-9]</font> Matches a single digit
* <font color="red">[a-z0-9]</font> Matches a single character that must be a lower case letter or a digit.
* <font color="red">[A-Za-z]</font> Matches a single character that much be a upper/lower case letter 
* <font color="red">\d</font> Matches any decimal digit; equivalent to the set [0-9].
* <font color="red">\D</font> Matches characters that are not digits, which is equivalent to [^0-9] or [^\d].
* <font color="red">\w</font> Matches any alphanumeric character, which is equivalent to [a-zA-Z0-9_].
* <font color="red">\W</font> Matches any non-alphanumeric character; which is equivalent to [^a-zA-Z0-9_] or [^\w].
* <font color="red">\s</font> Matches any whitespace character; which is equivalent to [\t\n\r\f\v], where \t indicates taps, \n  line feeds, \r carriage returns, \f form feeds and \v vertical tabs.
* <font color="red">\S:</font> Matches any non-whitespace character; which is equivalent to  [^ \t\n\r\f\v].
* <font color="red">Ë†</font> Matches the start of the line.
* <font color="red">$</font> Matches the end of the line.


More information can be found here :
https://docs.python.org/2/library/re.html
* * *

In [None]:
# \r adalah carriage return
# Kata yang kita sisipkan \r di 
    # depannya akan muncul 
    # sebagai index pertama di output
    # menggantikan kata pertama 
    # sesuai dengan jumlah 
    # karakter pada kata \r yang 
    # didefinisikan.

# Contoh 1
kalimat = 'Saya mau makan \rnasi'
print(kalimat)

# Saya digantikan oleh nasi karena 
# sama-sama memiliki # 4 karakter.

nasi mau makan 


In [None]:
# Contoh 2
kalimat = 'Teman mau makan \rnasi'
print(kalimat)

# Hanya tema yang akan digantikan 
# oleh nasi karena 
# nasi hanya memiliki 4 karakter
# sedangkan teman memiliki 5 karakter.

nasin mau makan 


In [None]:
year = '2022'
re.findall(r'\w\w\w\w', year)

['2022']

In [None]:
year = '2022'
re.findall(r'\W\W\W\W', year)

[]

In [None]:
# Cara mudah
year = '2022 - 2025'
re.findall(r'\w\w\w\w - \w\w\w\w', year)

['2022 - 2025']

In [None]:
# Cara lain yang lebih fleksibel
year = '2022 - 2025'
re.findall(r'\w+\s-\s\w+', year)

['2022 - 2025']

## **Repetition Metacharacters**

* <font color="red">.</font> Matches any character (a wildcard).
* <font color="red">*</font> Matches when the preceding character occurs zero or more times.
* <font color="red">+</font> Matches when the preceding character occurs one or more times.
* <font color="red">?</font> Matches when the preceding character occurs zero or one times.

In [None]:
target = 'oops ooops oooops oooooops'

# Ops tidak boleh tertangkap
# 2 karakter pertama haruslah 'o'
re.findall(r'oo*ps oo+ps', target)

# Pattern kata pertama adalah oo*ps
# Pattern kata kedua adalah oo+ps

['oops ooops', 'oooops oooooops']

## **Quantified Repetitions**

- Digunakan jika ingin mendefinisikan secara spesifikan repetisi yang diinginkan, dalam bentuk range.
- {m, n} di mana m adalah nilai minimum dan n nilai maksimum.
- m bersifat wajib didefinisikan, sedangkan n bersifat opsional.

In [None]:
# Dengan menggunakan contoh di atas
target = 'oops ooops oooops oooooops'

re.findall(r'o{2,4}ps o{3,6}ps', target)

# Tapi hasilnya jadi kurang 
# flexible dibandingkan 
# menggunakan metachars.

['oops ooops', 'oooops oooooops']

## **Grouping**

- (...) 
- Regex yang berada di dalam () berarti dihitung sebagai 1 grup.
- Regex yang berada di dalam () berarti akan dioperasikan secara keseluruhan dengan metachar yang mengikutinya.

In [None]:
# Contoh

teks = 'abcabcabc'

re.findall(r'(abc)+', teks)

['abc']

In [None]:
re.findall(r'abc+', teks)

['abc', 'abc', 'abc']

In [None]:
# Kalau mau tertangkap semua 
# yang ada di dalam teks, 
# saat grouping berarti harus 
# menggunakan ?:

# (?:...) berarti sebuah set o
# f non-capturing grouping 
# parentheses.

re.findall(r'(?:abc)+', teks)

['abcabcabc']

*Tambahan penjelasan non-grouping*

    ?: is used when you want to group an expression, but you do not want to save it as a matched/captured portion of the string.

In [None]:
text = 'Lorem ipsum dolor sit amet consectetuer feugiat fames malesuada pretium egestas.'

re.findall(r'\b(\S)(\S)(\S)(\S*)\b', text)

[('L', 'o', 'r', 'em'),
 ('i', 'p', 's', 'um'),
 ('d', 'o', 'l', 'or'),
 ('s', 'i', 't', ''),
 ('a', 'm', 'e', 't'),
 ('c', 'o', 'n', 'sectetuer'),
 ('f', 'e', 'u', 'giat'),
 ('f', 'a', 'm', 'es'),
 ('m', 'a', 'l', 'esuada'),
 ('p', 'r', 'e', 'tium'),
 ('e', 'g', 'e', 'stas')]

Match "Lorem"<br>
     Group 1: "L"<br>
     Group 2: "o"<br>
     Group 3: "r"<br>
     Group 4: "em"<br>

Match "ipsum"<br>
     Group 1: "i"<br>
     Group 2: "p"<br>
     Group 3: "s"<br>
     Group 4: "um"<br>

Match "consectetuer"<br>
     Group 1: "c"<br>
     Group 2: "o"<br>
     Group 3: "n"<br>
     Group 4: "sectetuer"


**Alternative**

- (|) atau nama lainnya adalah pipe.
- Berati or, yang mana yang akan tertangkap adalah regex yang match pertama saja (hanya salah satu), meskipun kondisi setelahnya match juga maka akan diabaikan.

In [None]:
# Contoh menggunakan method search
re.search(r'\d{3}|\d{4}|\b[A-Z]{4}\b', 
'''300 ekor kucing 
berhasil diselamatkan''')

<re.Match object; span=(0, 3), match='300'>

In [None]:
# Contoh dengan method findall
re.findall(r'\d{3}|\d{4}|\b[A-Z]{4}\b', 
'300 ekor kucing berhasil diselamatkan')

['300']

- Karena '300' sudah match dengan regex pertama, maka outcome-nya hanya 300 saja. Sisa kata setelahnya akan diabaikan meskipun match dengan regex pattern.

# **Exercises**

In [None]:
input_file = open('mbox-short.txt', 'r')
text = input_file.read()
text

**Get IP addresses**

In [None]:
# Contoh IP address
# '141.211.14.90',
# '141.211.14.79',
# '194.35.219.184',
# '127.0.0.1'

# Polanya adalah:
# 1. 3 digit 
# 2. 1/2/3 digit
# 3. 1/2/3 digit
# 4. 1/2/3 digit

re.findall(r'\d{3}\.\d{1,3}\.\d{1,3}.\d{1,3}', text)

['141.211.14.90',
 '141.211.14.79',
 '194.35.219.184',
 '127.0.0.1',
 '194.35.219.182',
 '134.68.220.122',
 '127.0.0.1',
 '141.211.14.97',
 '141.211.93.149',
 '194.35.219.184',
 '127.0.0.1',
 '194.35.219.182',
 '134.68.220.122',
 '127.0.0.1',
 '141.211.14.25',
 '141.211.93.144',
 '194.35.219.184',
 '127.0.0.1',
 '194.35.219.182',
 '134.68.220.122',
 '127.0.0.1',
 '141.211.14.25',
 '141.211.14.43',
 '194.35.219.184',
 '127.0.0.1',
 '194.35.219.182',
 '134.68.220.122',
 '127.0.0.1',
 '141.211.14.46',
 '141.211.14.83',
 '194.35.219.184',
 '127.0.0.1',
 '194.35.219.182',
 '134.68.220.122',
 '127.0.0.1',
 '141.211.14.93',
 '141.211.93.142',
 '194.35.219.184',
 '127.0.0.1',
 '194.35.219.182',
 '134.68.220.122',
 '127.0.0.1',
 '141.211.14.46',
 '141.211.14.72',
 '194.35.219.184',
 '127.0.0.1',
 '194.35.219.182',
 '134.68.220.122',
 '127.0.0.1',
 '141.211.14.46',
 '141.211.93.151',
 '194.35.219.184',
 '127.0.0.1',
 '194.35.219.182',
 '134.68.220.122',
 '127.0.0.1',
 '141.211.14.25',
 '141.211.

In [None]:
# Bisa juga dengan grouping
re.findall(r'\d{3}(?:\.\d{1,3}){3}', text)

['141.211.14.90',
 '141.211.14.79',
 '194.35.219.184',
 '127.0.0.1',
 '194.35.219.182',
 '134.68.220.122',
 '127.0.0.1',
 '141.211.14.97',
 '141.211.93.149',
 '194.35.219.184',
 '127.0.0.1',
 '194.35.219.182',
 '134.68.220.122',
 '127.0.0.1',
 '141.211.14.25',
 '141.211.93.144',
 '194.35.219.184',
 '127.0.0.1',
 '194.35.219.182',
 '134.68.220.122',
 '127.0.0.1',
 '141.211.14.25',
 '141.211.14.43',
 '194.35.219.184',
 '127.0.0.1',
 '194.35.219.182',
 '134.68.220.122',
 '127.0.0.1',
 '141.211.14.46',
 '141.211.14.83',
 '194.35.219.184',
 '127.0.0.1',
 '194.35.219.182',
 '134.68.220.122',
 '127.0.0.1',
 '141.211.14.93',
 '141.211.93.142',
 '194.35.219.184',
 '127.0.0.1',
 '194.35.219.182',
 '134.68.220.122',
 '127.0.0.1',
 '141.211.14.46',
 '141.211.14.72',
 '194.35.219.184',
 '127.0.0.1',
 '194.35.219.182',
 '134.68.220.122',
 '127.0.0.1',
 '141.211.14.46',
 '141.211.93.151',
 '194.35.219.184',
 '127.0.0.1',
 '194.35.219.182',
 '134.68.220.122',
 '127.0.0.1',
 '141.211.14.25',
 '141.211.

**Get email addresses**

In [None]:
# Contoh email yang ada, tidak semuanya email orang, ada email sistem juga misalnya.
# '200801042044.m04Kiem3007881@nakamura.uits'
# '200801042109.m04L92hb007923@nakamura.uits'
# 'ray@media.berkeley'
# 'rjlowe@iupui.edu'

# Pola
# something@something.something.something

re.findall(r"[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+", text)

['stephen.marquard@uct.ac.za',
 'postmaster@collab.sakaiproject.org',
 '200801051412.m05ECIaH010327@nakamura.uits.iupui.edu',
 'source@collab.sakaiproject.org',
 'source@collab.sakaiproject.org',
 'source@collab.sakaiproject.org',
 'source@collab.sakaiproject.org',
 'stephen.marquard@uct.ac.za',
 'source@collab.sakaiproject.org',
 'stephen.marquard@uct.ac.za',
 'stephen.marquard@uct.ac.za',
 'louis@media.berkeley.edu',
 'postmaster@collab.sakaiproject.org',
 '200801042308.m04N8v6O008125@nakamura.uits.iupui.edu',
 'source@collab.sakaiproject.org',
 'source@collab.sakaiproject.org',
 'source@collab.sakaiproject.org',
 'source@collab.sakaiproject.org',
 'louis@media.berkeley.edu',
 'source@collab.sakaiproject.org',
 'louis@media.berkeley.edu',
 'louis@media.berkeley.edu',
 'zqian@umich.edu',
 'postmaster@collab.sakaiproject.org',
 '200801042109.m04L92hb007923@nakamura.uits.iupui.edu',
 'source@collab.sakaiproject.org',
 'source@collab.sakaiproject.org',
 'source@collab.sakaiproject.org',


    Mencari yang author saja

In [None]:
re.findall(r'Author: ([a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+)', text)

['stephen.marquard@uct.ac.za',
 'louis@media.berkeley.edu',
 'zqian@umich.edu',
 'rjlowe@iupui.edu',
 'zqian@umich.edu',
 'rjlowe@iupui.edu',
 'cwen@iupui.edu',
 'cwen@iupui.edu',
 'gsilver@umich.edu',
 'gsilver@umich.edu',
 'zqian@umich.edu',
 'gsilver@umich.edu',
 'wagnermr@iupui.edu',
 'zqian@umich.edu',
 'antranig@caret.cam.ac.uk',
 'gopal.ramasammycook@gmail.com',
 'david.horwitz@uct.ac.za',
 'david.horwitz@uct.ac.za',
 'david.horwitz@uct.ac.za',
 'david.horwitz@uct.ac.za',
 'stephen.marquard@uct.ac.za',
 'louis@media.berkeley.edu',
 'louis@media.berkeley.edu',
 'ray@media.berkeley.edu',
 'cwen@iupui.edu',
 'cwen@iupui.edu',
 'cwen@iupui.edu']

In [None]:
# Mengambil dari yang to dan from juga
re.findall(r'(?:Author|To|From): ([a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+)', text)

['source@collab.sakaiproject.org',
 'stephen.marquard@uct.ac.za',
 'stephen.marquard@uct.ac.za',
 'source@collab.sakaiproject.org',
 'louis@media.berkeley.edu',
 'louis@media.berkeley.edu',
 'source@collab.sakaiproject.org',
 'zqian@umich.edu',
 'zqian@umich.edu',
 'source@collab.sakaiproject.org',
 'rjlowe@iupui.edu',
 'rjlowe@iupui.edu',
 'source@collab.sakaiproject.org',
 'zqian@umich.edu',
 'zqian@umich.edu',
 'source@collab.sakaiproject.org',
 'rjlowe@iupui.edu',
 'rjlowe@iupui.edu',
 'source@collab.sakaiproject.org',
 'cwen@iupui.edu',
 'cwen@iupui.edu',
 'source@collab.sakaiproject.org',
 'cwen@iupui.edu',
 'cwen@iupui.edu',
 'source@collab.sakaiproject.org',
 'gsilver@umich.edu',
 'gsilver@umich.edu',
 'source@collab.sakaiproject.org',
 'gsilver@umich.edu',
 'gsilver@umich.edu',
 'source@collab.sakaiproject.org',
 'zqian@umich.edu',
 'zqian@umich.edu',
 'source@collab.sakaiproject.org',
 'gsilver@umich.edu',
 'gsilver@umich.edu',
 'source@collab.sakaiproject.org',
 'wagnermr@iu

**Get datetime**

In [None]:
re.findall(r'(\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2})', text)

['2008-01-05 09:12:07',
 '2008-01-04 18:08:50',
 '2008-01-04 16:09:01',
 '2008-01-04 15:44:39',
 '2008-01-04 15:01:37',
 '2008-01-04 14:48:37',
 '2008-01-04 11:35:25',
 '2007-12-20 15:25:38',
 '2008-01-04 11:33:05',
 '2007-12-20 21:26:28',
 '2008-01-04 11:11:00',
 '2008-01-04 11:10:04',
 '2008-01-04 11:09:12',
 '2008-01-04 11:08:38',
 '2008-01-04 10:37:04',
 '2008-01-04 10:15:54',
 '2008-01-04 10:01:40',
 '2008-01-04 09:02:54',
 '2008-01-04 07:00:10',
 '2008-01-04 13:05:51',
 '2008-01-04 06:05:51',
 '2008-01-04 04:47:16',
 '2007-12-28 23:44:24',
 '2008-01-04 04:31:35',
 '2007-12-12 21:40:33',
 '2008-01-04 04:05:43',
 '2008-01-03 19:23:46',
 '2008-01-03 17:16:39',
 '2008-01-03 17:05:11',
 '2008-01-03 16:33:02',
 '2008-01-03 16:27:29',
 '2007-12-17 17:11:08',
 '2008-01-03 16:22:14',
 '2007-09-12 16:17:59']