# 3. Regular Expressions for Pattern Matching

Saatnya untuk menemukan konsep dasar Regex! Dalam bab kunci ini, Anda akan belajar memahami konsep dasar sintaksis Regex. Menggunakan dataset real dengan tweet yang dimaksudkan untuk analisis sentimen, Anda akan belajar cara menerapkan pencocokan pola menggunakan karakter normal dan khusus, dan quantifier *greedy* dan *lazy*.

## Introduction to regular expressions

### What is a regular expression?

**REGular EXpression or regex:**
*String yang berisi kombinasi karakter normal dan metakarakter khusus yang menjelaskan pola untuk menemukan teks atau posisi di dalam teks*

* `r'st\d\s\w{3,10}'`
  * Karakter normal cocok dengan dirinya sendiri ( `st` )
  * Metakarakter yang mewakili tipe karakter ( `\d` , `\s` , `\w` ) atau ide ( `{3,10}` )
  * Pattern/pola: urutan karakter yang memetakan kata atau tanda baca
* Penggunaan pencocokan pola:
  * Temukan dan ganti teks
  * Validasi string
  * Sangat powerful dan cepat

### The re module

In [1]:
import re

* Temukan semua kecocokan suatu pola : `re.findall(r"regex", string)`

In [2]:
re.findall(r"#movies", "Love #movies! I had fun yesterday going to the #movies")

['#movies', '#movies']

* Split/pisahkan string di setiap yang cocok: `re.split(r"regex", string)`

In [3]:
re.split(r"!", "Nice Place to eat! I'll come back! Excellent meat!")

['Nice Place to eat', " I'll come back", ' Excellent meat', '']

* Ganti satu atau banyak kecocokan dengan string: `re.sub(r"regex", new, string)`

In [4]:
re.sub(r"yellow", "nice", "I have a yellow car and a yellow house in a yellow neighborhood")

'I have a nice car and a nice house in a nice neighborhood'

### Supported metacharacters

* `\d` : digit
* `\D` : non-digit

In [5]:
re.findall(r"User\d", "The winners are: User9, UserN, User8")

['User9', 'User8']

In [6]:
re.findall(r"User\D", "The winners are: User9, UserN, User8")

['UserN']

* `\w` : word
* `\W` : non-word

In [7]:
re.findall(r"User\w", "The winners are: User9, UserN, User8")

['User9', 'UserN', 'User8']

In [8]:
re.findall(r"\W\d", "This skirt is on sale, only $5 today!")

['$5']

* `\s` : whitespace
* `\S` : non-whitespace

In [9]:
re.findall(r"Data\sScience", "I enjoy learning Data Science")

['Data Science']

In [10]:
re.sub(r"ice\Scream", "ice cream", "I really like ice-cream")

'I really like ice cream'

### Are they bots?

Perusahaan tempat Anda bekerja meminta Anda untuk melakukan analisis sentimen menggunakan dataset dengan tweet. Pertama-tama, Anda perlu melakukan pembersihan dan mengekstrak beberapa informasi.

Saat mencetak beberapa teks, Anda menyadari bahwa beberapa tweet mengandung sebutan pengguna (*mentions*). Beberapa dari *mentions* ini mengikuti pola yang sangat aneh. Beberapa contoh yang Anda perhatikan: `@robot3!`, `@robot5&` dan `@robot7#`.

Untuk menganalisis apakah para pengguna itu bot, Anda akan melakukan pembuktian konsep dengan satu tweet dan mengekstraknya menggunakan metode `.findall()`.

Anda menuliskan beberapa karakter yang membantu untuk Anda nanti:

* `\d`: digit
* `\w`: word character
* `\W`: non-word character
* `\s`: whitespace

Teks satu tweet disimpan dalam variabel `sentiment_analysis`.

In [11]:
# Create string
sentiment_analysis = '@robot9! @robot4& I have a good feeling that the show isgoing to be amazing! @robot9$ @robot7%'

In [12]:
# Import the re module
import re

# Write the regex
regex = r"@robot\d\W"

# Find all matches of regex
print(re.findall(regex, sentiment_analysis))

['@robot9!', '@robot4&', '@robot9$', '@robot7%']


**Note** : Keuntungan dari ekspresi reguler adalah Anda dapat menggunakan karakter normal dan karakter meta. Anda dapat dengan mudah mengekstraksi pola kompleks, atau sebaliknya yang akan lebih rumit.

### Find the numbers

Saat memeriksa teks tweet dalam dataset Anda, Anda mendeteksi bahwa beberapa tweet membawa informasi tambahan. Teks berisi jumlah retweet, sebutan pengguna, dan suka dari tweet itu. Jadi, Anda memutuskan untuk mengekstrak informasi penting ini.

Informasi diberikan seperti dalam contoh ini:

`Agh...snow! User_mentions:9, likes: 5, number of retweets: 4`

Anda juga dapat menggunakan list metacharacters Anda: `\d` digit, `\w` word character, `\s` whitespace.

In [14]:
# Create string
sentiment_analysis = "Unfortunately one of those moments wasn't a giant squid monster. User_mentions:2, likes: 9, number of retweets: 7"
print(sentiment_analysis)

Unfortunately one of those moments wasn't a giant squid monster. User_mentions:2, likes: 9, number of retweets: 7


In [15]:
# Write a regex to obtain user mentions
print(re.findall(r"User_mentions:\d", sentiment_analysis))

['User_mentions:2']


In [16]:
# Write a regex to obtain number of likes
print(re.findall(r"likes:\s\d", sentiment_analysis))

['likes: 9']


In [17]:
# Write a regex to obtain number of retweets
print(re.findall(r"number\sof\sretweets:\s\d", sentiment_analysis))

['number of retweets: 7']


**Note** : Menggunakan metakarakter dalam Regex akan memungkinkan Anda untuk mencocokkan jenis karakter seperti digit. Ingatlah untuk selalu menentukan spasi putih sebagai `\s`.

### Match and split

Beberapa tweet dalam dataset Anda tidak diunduh dengan benar. Alih-alih memiliki ruang untuk memisahkan kata, mereka memiliki karakter aneh. Anda memutuskan untuk menggunakan Regex untuk menangani situasi ini. Anda mencetak beberapa tweet ini untuk memahami pola mana yang harus Anda cocokkan.

Anda perhatikan bahwa kalimat-kalimatnya selalu dipisahkan oleh karakter khusus, diikuti oleh angka, kata `break`, dan setelah itu, karakter khusus lain, mis **`&4break!`**. Kata-kata selalu dipisahkan oleh karakter khusus, kata **`new`** , dan karakter acak normal, mis **`#newH`**.

In [18]:
# Create string
sentiment_analysis = 'He#newHis%newTin love with$newPscrappy. #8break%He is&newYmissing him@newLalready'

In [19]:
# Write a regex to match pattern separating sentences
regex_sentence = r"\W\dbreak\W"

# Replace the regex_sentence with a space
sentiment_sub = re.sub(regex_sentence, " ", sentiment_analysis)

# Write a regex to match pattern separating words
regex_words = r"\Wnew\w"

# Replace the regex_words and print the result
sentiment_final = re.sub(r"\Wnew\w", " ", sentiment_sub)
print(sentiment_final)

He is in love with scrappy.  He is missing him already


**Note** : Regex sangat berguna untuk menemukan dan mengganti pola kompleks dalam teks. Menggunakannya akan membuat analisis Anda lebih bersih dan lebih cepat.

## Repetitions

### Repeated characters

* Validasi string berikut: **password`1234`**

In [20]:
import re

password = "password1234"

In [26]:
re.search(r"\w\w\w\w\w\w\w\w\d\d\d\d", password)

In [27]:
re.search(r"\w{8}\d{4}", password)

* **Quantiers:** Metacharacter yang memberi tahu mesin regex berapa kali untuk mencocokkan karakter dengan kiri.

### Quantiers

* Sekali atau lebih: `+`

In [30]:
text = "Date of start: 4-3. Date of registration: 10-04."

In [31]:
re.findall(r" ", text)

[' ', ' ', ' ', ' ', ' ', ' ', ' ']

In [54]:
re.findall(r"\d+-", text)

[]

In [35]:
re.findall(r"\d+-\d+", text)

['4-3', '10-04']

* Nol kali atau lebih: `*`

In [38]:
my_string = "The concert was amazing! @ameli!a @joh&&n @mary90"
re.findall(r"@\w+\W*\w+", my_string)

['@ameli!a', '@joh&&n', '@mary90']

* Nol kali atau sekali: `?`

In [39]:
text = "The color of this image is amazing. However, the colour blue could be brighter."
re.findall(r"colou?r", text)

['color', 'colour']

* setidaknya `n` kali, paling banyak `m` kali : { `n`, `m` }

In [40]:
phone_number = "John: 1-966-847-3131 Michelle: 54-908-42-42424"

In [46]:
re.findall(r"  ", phone_number)

[]

In [52]:
re.findall(r"\d{1,2}-", phone_number)

['1-', '66-', '47-', '54-', '08-', '42-']

In [51]:
re.findall(r"\d{1,2}-\d{3}-", phone_number)

['1-966-', '54-908-']

In [53]:
re.findall(r"\d{1,2}-\d{3}-\d{2,3}-\d{4,}", phone_number)

['1-966-847-3131', '54-908-42-42424']

* Langsung ke kiri
  * `r"apple+"` : `+` berlaku untuk e dan bukan untuk apple

### Everything clean

Kembali ke proyek analisis sentimen Twitter Anda! Ada beberapa jenis string yang meningkatkan kompleksitas analisis sentimen Anda. Tetapi string ini tidak memberikan sentimen yang berguna. Di antara mereka, kita dapat memiliki tautan dan sebutan pengguna.

Untuk membersihkan tweet, Anda ingin mengekstrak beberapa contoh terlebih dahulu. Anda tahu bahwa sebagian besar tautan dimulai dengan `http` dan tidak mengandung spasi putih, mis. `https://www.datacamp.com`. Pengguna menyebutkan mulai dengan `@` dan hanya dapat memiliki huruf dan angka, mis. `@johnsmith3`.

Anda menuliskan beberapa penjumlah (*quantifiers*) yang berguna untuk membantu Anda: `*` nol atau lebih kali, `+` sekali atau lebih, `?` nol atau sekali.

In [55]:
# Create list
sentiment_list = ['Boredd. Colddd @blueKnight39 Internet keeps stuffing up. Save me! https://www.tellyourstory.com',
                  "I had a horrible nightmare last night @anitaLopez98 @MyredHat31 which affected my sleep, now I'm really tired",
                  'im lonely  keep me company @YourBestCompany! @foxRadio https://radio.foxnews.com 22 female, new york']

In [58]:
import pandas as pd

sentiment_analysis = pd.Series(sentiment_list)

In [61]:
for tweet in sentiment_analysis:
    # Write regex to match http links and print out result
    print(re.findall(r"http\S+", tweet))

    # Write regex to match user mentions and print out result
    print(re.findall(r"@\w+", tweet))

['https://www.tellyourstory.com']
['@blueKnight39']
[]
['@anitaLopez98', '@MyredHat31']
['https://radio.foxnews.com']
['@YourBestCompany', '@foxRadio']


**Note** : Regex memberikan karakter yang sangat berguna yang tidak boleh Anda lupakan untuk digunakan. `\S` adalah sebuah contoh. Sangat berguna untuk digunakan ketika Anda tahu suatu pola tidak mengandung spasi dan Anda telah mencapai akhirnya ketika Anda menemukannya.

### Some time ago

Anda tertarik mengetahui kapan tweet diposting. Setelah membaca sedikit lebih banyak, Anda mengetahui bahwa tanggal disediakan dengan cara yang berbeda. Anda memutuskan untuk mengekstrak tanggal menggunakan `.findall()` sehingga Anda dapat menormalkannya setelahnya untuk membuat semuanya terlihat sama.

Anda menyadari bahwa tanggal selalu disajikan dalam salah satu cara berikut:

`27 minutes ago`

`4 hours ago`

`23rd june 2018`

`1st september 2019 17:25`

In [62]:
# Create list
sentiment_list = ['I would like to apologize for the repeated Video Games Live related tweets. 32 minutes ago',
                  '@zaydia but i cant figure out how to get there / back / pay for a hotel 1st May 2019',
                  'FML: So much for seniority, bc of technological ineptness 23rd June 2018 17:54']

In [63]:
sentiment_analysis = pd.Series(sentiment_list)

In [64]:
# Complete the for loop with a regex to find dates
# '27 minutes ago' atau '4 hours ago'
for date in sentiment_analysis:
    print(re.findall(r"\d{1,2}\s\w+\sago", date))

['32 minutes ago']
[]
[]


In [66]:
# Complete the for loop with a regex to find dates
# '23rd june 2018'
for date in sentiment_analysis:
    print(re.findall(r"\d{1,2}\w+\s\w+\s\d{4}", date))

[]
['1st May 2019']
['23rd June 2018']


In [67]:
# Complete the for loop with a regex to find dates
for date in sentiment_analysis:
    print(re.findall(r"\d{1,2}\w+\s\w+\s\d{4}\s\d{1,2}:\d{2}", date))

[]
[]
['23rd June 2018 17:54']


**Note** : Menangani Regex bisa menjadi tugas yang sangat sulit. Untungnya, Regex dapat menyederhanakan tugas ini!

### Getting tokens

Langkah Anda selanjutnya adalah tokenize teks dari tweet Anda. Tokenisasi adalah proses memecah string menjadi satuan leksikal atau, dalam istilah yang lebih sederhana, kata-kata. Tapi pertama-tama, Anda harus menghapus tagar agar tidak mengacaukan proses Anda. Anda menyadari bahwa tagar dimulai dengan simbol # dan berisi huruf dan angka tetapi tidak pernah spasi putih. Setelah itu, Anda berencana untuk membagi teks yang cocok dengan spasi putih untuk mendapatkan token.

list quantifiers: `*` nol kali atau lebih banyak, `+` sekali atau lebih, `?` nol atau sekali, {`n`, `m`} minimum n, maksimum m.

In [68]:
# Create string
sentiment_analysis = 'ITS NOT ENOUGH TO SAY THAT IMISS U #MissYou #SoMuch #Friendship #Forever'

In [69]:
# Write a regex matching the hashtag pattern
regex = r"#\w+"

# Replace the regex by an empty string
no_hashtag = re.sub(regex, "", sentiment_analysis)

# Get tokens by splitting text
print(re.split(r"\s+", no_hashtag))

['ITS', 'NOT', 'ENOUGH', 'TO', 'SAY', 'THAT', 'IMISS', 'U', '']


**Note** : Regex dapat sangat berguna saat mengganti dan memisahkan string menggunakan pola kompleks.

## Regex metacharacters

### Looking for patterns

Dua operasi berbeda untuk menemukan kecocokan:
* **re.`search`(r"`regex`", string)**
* **re.`match`(r"`regex`", string)**

In [70]:
re.search(r"\d{4}", "4506 people attend the show")

<re.Match object; span=(0, 4), match='4506'>

In [71]:
re.match(r"\d{4}", "4506 people attend the show")

<re.Match object; span=(0, 4), match='4506'>

In [72]:
re.search(r"\d+", "Yesterday, I saw 3 shows")

<re.Match object; span=(17, 18), match='3'>

In [74]:
print(re.match(r"\d+","Yesterday, I saw 3 shows"))

None


### Special characters

* Cocok dengan karakter apa pun (kecuali baris baru): `.`

In [75]:
my_links = "Just check out this link: www.amazingpics.com. It has amazing photos!"
re.findall(r"www com", my_links)

[]

Patterns: **www.`domain`.com**

In [76]:
my_links = "Just check out this link: www.amazingpics.com. It has amazing photos!"
re.findall(r"www.+com", my_links)

['www.amazingpics.com']

* Mulai dari string: `^`

In [83]:
my_string = "the 80s music was much better that the 90s"

In [78]:
re.findall(r"the\s\d+s", my_string)

['the 80s', 'the 90s']

In [79]:
re.findall(r"^the\s\d+s", my_string)

['the 80s']

* Akhir dari string: `$`

In [84]:
re.findall(r"the\s\d+s$", my_string)

['the 90s']

* Escape special characters: `\`

In [80]:
my_string = "I love the music of Mr.Go. However, the sound was too loud."

In [81]:
print(re.split(r".\s", my_string))

['', 'lov', 'th', 'musi', 'o', 'Mr.Go', 'However', 'th', 'soun', 'wa', 'to', 'loud.']


In [82]:
print(re.split(r"\.\s", my_string))

['I love the music of Mr.Go', 'However, the sound was too loud.']


### OR operator

* Karakter: `|`

In [85]:
my_string = "Elephants are the world's largest land animal! I would love to see an elephant one day"

In [86]:
re.findall(r"Elephant|elephant", my_string)

['Elephant', 'elephant']

* Set karakter: `[ ]`

In [87]:
my_string = "Yesterday I spent my afternoon with my friends: MaryJohn2 Clary3"

In [88]:
re.findall(r"[a-zA-Z]+\d", my_string)

['MaryJohn2', 'Clary3']

In [89]:
my_string = "My&name&is#John Smith. I%live$in#London."

In [90]:
re.sub(r"[#$%&]", " ", my_string)

'My name is John Smith. I live in London.'

* Set karakter: `[ ]`
  * `^` mengubah ekspresi menjadi negatif

In [91]:
my_links = "Bad website: www.99.com. Favorite site: www.hola.com"
re.findall(r"www[^0-9]+com", my_links)

['www.hola.com']

### Finding files

Anda tidak puas dengan pembersihan dataset tweet Anda. Masih ada string tambahan yang tidak memberikan sentimen apa pun. Diantaranya adalah string merujuk ke nama file teks.

Anda juga menemukan cara untuk mendeteksi mereka:

* Mereka muncul di awal string.
* Mereka selalu mulai dengan urutan 2 atau 3 huruf vokal besar atau kecil (a e i o u).
* Mereka selalu selesai dengan akhiran `txt`.

Anda tidak yakin apakah Anda harus menghapusnya secara langsung. Jadi, Anda menulis skrip untuk menemukan dan menyimpannya dalam dataset terpisah.

Anda menuliskan beberapa karakter meta untuk membantu Anda: `^` jangkar ke awal, `.` karakter apa pun.

In [92]:
sentiment_list = ['AIshadowhunters.txt aaaaand back to my literature review. At least i have a friendly cup of coffee to keep me company',
 "ouMYTAXES.txt I am worried that I won't get my $900 even though I paid tax last year"]

sentiment_analysis = pd.Series(sentiment_list)

In [93]:
# Write a regex to match text file name
regex = r"^[aeiouAEIOU]{2,3}.+txt"

for text in sentiment_analysis:
    # Find all matches of the regex
    print(re.findall(regex, text))
    
    # Replace all matches with empty string
    print(re.sub(regex, "", text))

['AIshadowhunters.txt']
 aaaaand back to my literature review. At least i have a friendly cup of coffee to keep me company
['ouMYTAXES.txt']
 I am worried that I won't get my $900 even though I paid tax last year


**Note** : Metacharacter dot `.` sangat berguna ketika kita ingin mencocokkan semua pengulangan karakter apa pun. Namun, kita harus sangat berhati-hati dalam menggunakannya.

### Give me your email

Seorang kolega telah meminta bantuan Anda! Ketika pengguna mendaftar di situs web perusahaan, mereka harus memberikan alamat email yang valid. Perusahaan menerapkan beberapa aturan untuk memverifikasi bahwa alamat email yang diberikan valid:

* Bagian pertama dapat berisi:
  * Huruf besar `A-Z` dan huruf kecil `a-z`
  * Angka
  * Karakter: `!`, `#`, `%`, `&`, `*`, `$`, `.`
  * Harus punya `@`
  * Domain:
    * Dapat berisi karakter kata apa saja
    * Tetapi hanya berakhiran `.com` yang diizinkan
    
Proyek ini terdiri dari penulisan skrip yang memeriksa apakah alamat email mengikuti pola yang benar. Rekan Anda memberi Anda daftar alamat email sebagai contoh untuk diuji.

In [94]:
# List email
emails = ['n.john.smith@gmail.com', '87victory@hotmail.com', '!#mary-=@msca.net']

In [99]:
# Write a regex to match a valid email address
regex = r"[A-Za-z0-9!#%&*\$\.]+@\w+\.com"

for example in emails:
    # Match the regex to the string
    if re.match(regex, example):
        # Complete the format method to print out the result
        print("The email {email_example} is a valid email".format(email_example=example))
    else:
        print("The email {email_example} is invalid".format(email_example=example))   

The email n.john.smith@gmail.com is a valid email
The email 87victory@hotmail.com is a valid email
The email !#mary-=@msca.net is invalid


**Note** : Validasi string adalah tugas yang menjadi lebih sederhana ketika kita menggunakan Regex. Kurung kotak sangat berguna untuk karakter opsional. Perhatikan bahwa kami menggunakan metode `.match()`. Alasannya adalah bahwa kami ingin mencocokkan pola dari awal string.

### Invalid password

Bagian kedua dari proyek situs web adalah menulis skrip yang memvalidasi kata sandi yang dimasukkan oleh pengguna. Perusahaan juga menetapkan beberapa aturan untuk memverifikasi kata sandi yang valid:

* Ini dapat berisi huruf kecil `a-z` dan huruf besar `A-Z`
* Itu bisa berisi angka
* Itu bisa berisi simbol: `*`, `#`, `$`, `%`, `!`, `&`, `.`
* Panjangnya harus minimal 8 karakter tetapi tidak lebih dari 20 karakter

Rekan Anda juga memberi Anda daftar kata sandi sebagai contoh untuk diuji yang disimpan pada variabel `passwords`.

In [104]:
# List password
passwords = ['Apple34!rose', 'My87hou#4$', 'abc123']

In [101]:
# Write a regex to match a valid password
regex = r"[A-Za-z0-9!#%&*\$\.]{8,20}" 

for example in passwords:
    # Scan the strings to find a match
    if re.search(regex, example):
        # Complete the format method to print out the result
        print("The password {pass_example} is a valid password".format(pass_example=example))
    else:
        print("The password {pass_example} is invalid".format(pass_example=example))     

The password Apple34!rose is a valid password
The password My87hou#4$ is a valid password
The password abc123 is invalid


**Note** : Perhatikan bahwa kami menggunakan metode `.search()`. Alasannya adalah bahwa kami ingin memindai string agar sesuai dengan pola. Kami tidak tertarik di mana regex menemukan kecocokan.

## Greedy vs. non-greedy matching

* Dua jenis metode pencocokan:
  * Greedy
  * Non-greedy or lazy
* Standard quantiers are greedy by default: `*` , `+` , `?` , `{num, num}`

### Greedy matching

* **Greedy**: cocokkan sebanyak mungkin karakter
* Mengembalikan kecocokan terpanjang

<img src="datasets/greedy-match-1.png" width=500px height=500px align=left />

In [126]:
re.match(r"\d+", "12345bcada")

<re.Match object; span=(0, 5), match='12345'>

* Backtracks ketika terlalu banyak karakter yang cocok
* Memberikan karakter satu per satu

<img src="datasets/greedy-match-2.png" width=500px height=500px align=left />

In [127]:
re.match(r".*hello", "xhelloxxxxxx")

<re.Match object; span=(0, 6), match='xhello'>

### Non-greedy matching

* **Lazy**: cocokkan sesedikit karakter sesuai kebutuhan
* Mengembalikan kecocokan terpendek
* Menambahkan `?` ke greedy quantiers

<img src="datasets/greedy-match-3.png" width=400px height=400px align=left />

In [128]:
re.match(r"\d+?", "12345bcada")

<re.Match object; span=(0, 1), match='1'>

* Backtracks ketika terlalu sedikit karakter yang cocok
* Perluas karakter satu kali

<img src="datasets/greedy-match-4.png" width=500px height=500px align=left />

In [129]:
re.match(r".*?hello", "xhelloxxxxxx")

<re.Match object; span=(0, 6), match='xhello'>

### Understanding the difference

Anda harus terus bekerja dan membersihkan dataset tweet Anda. Anda menyadari bahwa ada beberapa tag HTML yang ada. Anda harus menghapusnya tetapi tetap menyimpan konten di dalamnya karena berguna untuk analisis.

Mari kita lihat kalimat ini yang berisi tag HTML:

`I want to see that <strong>amazing show</strong> again!`

Anda tahu bahwa untuk mendapatkan tag HTML Anda harus mencocokkan apa pun yang berada di dalam tanda kurung sudut `<` `>`. Tetapi masalah terbesar adalah bahwa tag penutup memiliki struktur yang sama. Jika Anda terlalu cocok, Anda akhirnya akan menghapus informasi kunci. Jadi, Anda perlu memutuskan apakah akan menggunakan greedy atau lazy quantifier.

In [130]:
string = 'I want to see that <strong>amazing show</strong> again!'

In [131]:
# Import re
import re

# Write a regex to eliminate tags
string_notags = re.sub(r"<.+?>", "", string)

# Print out the result
print(string_notags)

I want to see that amazing show again!


**Note** : Ingatlah bahwa greedy quantifier akan mencoba untuk mencocokkan sebanyak mungkin sementara quantifier non-greedy akan melakukannya sesering yang diperlukan, memperluas satu karakter pada suatu waktu dan memberi kita kecocokan yang kita cari. 

### Greedy matching

Selanjutnya, Anda melihat bahwa angka masih muncul dalam teks tweet. Jadi, Anda memutuskan untuk menemukan semuanya.

Misalkan Anda ingin mengekstrak angka yang terdapat dalam kalimat `I was born on April 24th`. Lazy quantifier akan mengembalikan regex `2` dan `4` karena mereka akan mencocokkan karakter sesedikit yang diperlukan. Namun, greedy quantifier akan mengembalikan seluruh `24` karena kebutuhannya untuk mencocokkan sebanyak mungkin.

In [133]:
sentiment_analysis = 'Was intending to finish editing my 536-page novel manuscript tonight, but that will probably not happen. And only 12 pages are left '
print(sentiment_analysis)

Was intending to finish editing my 536-page novel manuscript tonight, but that will probably not happen. And only 12 pages are left 


In [135]:
# Write a lazy regex expression 
numbers_found_lazy = re.findall(r"\d+?", sentiment_analysis)

# Print out the result
print(numbers_found_lazy)

['5', '3', '6', '1', '2']


In [136]:
# Write a greedy regex expression 
numbers_found_greedy = re.findall(r"[0-9]+", sentiment_analysis)

# Print out the result
print(numbers_found_greedy)

['536', '12']


**Note** : Meskipun greedy quantifier mengarah pada kecocokan yang lebih panjang, mereka terkadang merupakan pilihan terbaik. Karena lazy quantifiers cocok sesedikit mungkin, mereka menghasilkan kecocokan yang lebih pendek dari yang kami harapkan. Itu selalu baik untuk mengetahui kapan harus menggunakan greedy dan lazy quantifiers!

### Lazy approach

Anda telah melakukan pembersihan dalam dataset Anda, tetapi Anda khawatir bahwa ada kalimat yang terbungkus dalam tanda kurung yang dapat mengaburkan analisis Anda.

Sekali lagi, greedy atau lazy dapat menyebabkan hasil yang berbeda.

Misalnya, jika Anda ingin mengekstrak kata yang dimulai dengan `a` dan diakhiri dengan `e` dalam string `I like apple pie`, Anda mungkin berpikir bahwa menerapkan greedy regex `a.+e` akan mengembalikan `apple`. Namun, percocokan Anda akan menjadi `apple pie`. Cara untuk mengatasinya adalah dengan membuatnya *lazy* menggunakan `?` yang akan mengembalikan `apple`.

In [137]:
# Create string
sentiment_analysis = "Put vacation photos online (They were so cute) a few yrs ago. PC crashed, and now I forget the name of the site (I'm crying). "
print(sentiment_analysis)

Put vacation photos online (They were so cute) a few yrs ago. PC crashed, and now I forget the name of the site (I'm crying). 


In [138]:
# Write a greedy regex expression to match 
sentences_found_greedy = re.findall(r"\(.*\)", sentiment_analysis)

# Print out the result
print(sentences_found_greedy)

["(They were so cute) a few yrs ago. PC crashed, and now I forget the name of the site (I'm crying)"]


In [139]:
# Write a lazy regex expression
sentences_found_lazy = re.findall(r"\(.*?\)", sentiment_analysis)

# Print out the results
print(sentences_found_lazy)

['(They were so cute)', "(I'm crying)"]


**Note** : Perhatikan bahwa menggunakan greedy quantifier selalu mengarah pada kecocokan yang lebih panjang yang terkadang tidak diinginkan. Membuat lazy quantifiers dengan menambahkan `?` untuk mencocokkan pola yang lebih pendek adalah pertimbangan yang sangat penting untuk diingat ketika menangani data untuk penambangan teks.