<a href="https://colab.research.google.com/github/yesavailable/study/blob/main/5_RegularExpression.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## <font color = 'brown'> **Regular Expression (re)** </font> 정규표현식

- 파이썬에서 사용되는 정규표현식 (Regular expressions)은 특정한 규칙을 가진 문자열의 집합을 표현하는 데 사용하는 형식 언어이다.
- 정규표현식은 문자열에서 특정한 패턴을 검색하거나 매치하는 데 사용되는 문자열 검색과 치환을 위해 사용되는 기술이다.
- 문자열에서 패턴을 정의하고, 그 패턴과 일치하는 부분을 찾거나 변경할 수 있다.
- 파이썬 프로그래밍 내장 모듈이다. 복잡한 문자열 처리 작업에 유용하다.
- 메타 문자 (Meta characters(특수문자))는 문자가 가진 원래의 의미가 아닌 특별한 용도로 사용되는 문자이다. 정규표현식에서 사용되는 메타 문자는 . ^ $ * + ? \ | ( ) { } [ ] 이 있다.

## <font color = 'brown'> **re**
  - Python의 내장 모듈로서, 정규 표현식을 지원하는 라이브러리다. 정규 표현식은 문자열 패턴을 검색, 매치, 치환하거나 조작하는 데 사용됩니다. re 모듈은 문자열을 다룰 때 패턴 매칭과 관련된 작업을 수행하는 데 도움을 준다. 이 모듈을 사용하면 텍스트 데이터에서 원하는 패턴을 검색하거나 추출할 수 있다.

🐹 🐾 Common **escape characters** include:

- **\n**: Represents a newline character. It is used to start a new line in a string.
- **\t**: Represents a tab character. It is used to insert a horizontal tab into a string.
- **two consecutive backslashes**: Represents a literal backslash character. This is used to include a backslash in a string.
- **\ '**: Represents a single quotation mark (apostrophe). It is used to include a single quotation mark within a string enclosed in single quotes.
- **\ "**: Represents a double quotation mark. It is used to include a double quotation mark within a string enclosed in double quotes.
- **\r**: Represents a carriage return. It is used to move the cursor to the beginning of the line.
- **\b**: Represents a backspace character. It is used to erase the previous character.

>
_Just for your reference_: **아래는 집에 가서 그냥 읽어보기**⤵️






    \v: Represents a vertical tab character. It is used to insert a vertical tab. It is rarely used.
    \v는 세로 탭(vertical tab) 문자를 나타내는 이스케이프 시퀀스다. 세로 탭은 일반적으로 텍스트 출력 중에 특정 위치로 이동하거나 세로로 텍스트를 정렬하는 데 사용된다. 정규 표현식에서 \v를 사용하여 세로 탭 문자를 매치할 수 있습니다. 예를 들어, 정규 표현식에서 \s+는 하나 이상의 연속된 공백 문자를 매치하는 패턴을 나타내며, \f나 \v를 사용하여 폼 피드나 세로 탭 문자를 매치할 수 있다. 이러한 이스케이프 시퀀스는 텍스트 데이터에서 특정 종류의 공백 문자를 처리하거나 추출할 때 유용하다.


    \f: Represents a form feed character. It is used to advance the cursor to the next page or form.
    \f는 폼 피드(form feed) 문자를 나타내는 이스케이프 시퀀스다. 폼 피드는 종이 프린터나 출력 장치에서 다음 페이지로 넘어가거나 특정 위치로 이동하는 데 사용되는 제어 문자 중 하나다. 정규 표현식에서 \f를 사용하여 폼 피드 문자를 매치할 수 있다.



1️⃣ 정규 표현식 문법 ⤵️

정규 표현식을 위해 사용되는 문법 중 meta characters(특수문자)들은 아래와 같다.
>

|Symbol | Meaning|
|--|--|
|. | 한 개의 임의의 문자 (줄바꿈 문자인 \n는 제외)|
|? | 앞의 문자가 존재할 수도 있고, 존재하지 않을 수도 있음 (문자가 0개 또는 1개)|
|* | 앞의 문자가 무한개로 존재할 수도 있고, 존재하지 않을 수도 있음 (문자가 0개 이상)|
|+ | 앞의 문자가 최소 한 개 이상 존재 (문자가 1개 이상)|
|^ | 뒤의 문자열로 문자열이 시작|
|$ | 앞의 문자열로 문자열이 끝남|




🐹 🐾 **정규표현식 패턴은 _문자열_ 형태로 표현한다.**

🐳💧 <font color = 'red'>**접두어 r 은 Raw 문자열을 나타내며, 이스케이프 문자(e.g., \n, \t, \\) 를 해석하지 않고 그대로 문자열로 표현하도록 힌다.**
- The 'r' (raw) prefix is commonly used with regular expressions to simplify the handling of backslashes, but there are situations where you might see 'r' used without any escape characters (backslashes) in the regular expression. This can be due to a few reasons:

    - <font color = 'blue'>**Consistency**</font>: Some programmers choose to consistently use the 'r' prefix for all regular expressions, even when the pattern doesn't contain any backslashes. This practice can make the code more uniform and easier to read.

    - <font color = 'blue'>**Future-Proofing**</font>: Using 'r' for all regular expressions, regardless of whether they contain escape characters, can help prevent issues if the regular expression pattern is later modified to include backslashes. It ensures that backslashes are treated as literal characters from the start.

    - <font color = 'blue'>**Code Maintenance**</font>: Code maintenance and readability are important. When you revisit your code in the future, you may not remember the specific details of each regular expression. Using 'r' consistently helps avoid potential pitfalls if you or someone else later modify the pattern.

    - <font color = 'blue'>**Compatibility**</font>: It may also be a matter of compatibility across different parts of the code or between different regular expression libraries. Using 'r' consistently ensures that regular expressions are handled consistently throughout the codebase.



In [None]:
#11. [a-z] (뜻: 'a'부터 'z'까지의 모든 소문자 글자와 일치) 예시

import re

text = "The quick brown fox jumps over the lazy dog."
pattern = r"[a-z]"  # 소문자 알파벳에 일치하는 패턴

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

Match: h
Match: e
Match: q
Match: u
Match: i
Match: c
Match: k
Match: b
Match: r
Match: o
Match: w
Match: n
Match: f
Match: o
Match: x
Match: j
Match: u
Match: m
Match: p
Match: s
Match: o
Match: v
Match: e
Match: r
Match: t
Match: h
Match: e
Match: l
Match: a
Match: z
Match: y
Match: d
Match: o
Match: g


In [None]:
#12. [A-Z] ('a'부터 'z'까지의 모든 대문자 글자와 일치) 예시

import re

text = "\"The book titles are 'The Aesop for Children', 'Harry Potter', and 'Pride and Prejudice',\" said Amelia."
pattern = r"[A-Z]"  # 대문자 알파벳에 일치하는 패턴

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

Match: T
Match: T
Match: A
Match: C
Match: H
Match: P
Match: P
Match: P
Match: A


In [None]:
#13. [a-zA-Z] (뜻:  알파벳(대소문자 구분 없이) 모든 문자와 일치) 예시

import re

text = "New York is a wonderful city."
pattern = r"[a-zA-Z]"  # 알파벳(대소문자 구분 없이) 모든 문자를 찾을 때 사용

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

Match: N
Match: e
Match: w
Match: Y
Match: o
Match: r
Match: k
Match: i
Match: s
Match: a
Match: w
Match: o
Match: n
Match: d
Match: e
Match: r
Match: f
Match: u
Match: l
Match: c
Match: i
Match: t
Match: y


In [None]:
#14. [0-9] (뜻: 모든 숫자 (정수 형태)와 일치) 일치

import re

text = "A total of 149 episodes of The Aesop for Children."
pattern = r"[0-9]"  #숫자를 찾을 때 사용

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

Match: 1
Match: 4
Match: 9


In [None]:
#14a. 💣💊COMPARE

import re

text = "In mathematics, 3.14 is a decimal approximation of the mathematical constant π (pi)."
pattern = r"[0-9]"  #숫자를 찾을 때 사용

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

Match: 3
Match: 1
Match: 4


In [None]:
#15. [a-zA-Z0-9] (뜻: 대문자 소문자 구분없이 알파벳과 숫자를 포함하는 모든 문자와 일치) 예시
import re

text = "24 Hours a Day, 7 Days a Week, & 365 Days a Year!"
pattern = r"[a-zA-Z0-9]"  #알파벳(대소문자 구분 없이)과 숫자를 포함하는 모든 문자를 찾을 때 사용. 기호는 포함 안됨.

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

Match: 2
Match: 4
Match: H
Match: o
Match: u
Match: r
Match: s
Match: a
Match: D
Match: a
Match: y
Match: 7
Match: D
Match: a
Match: y
Match: s
Match: a
Match: W
Match: e
Match: e
Match: k
Match: 3
Match: 6
Match: 5
Match: D
Match: a
Match: y
Match: s
Match: a
Match: Y
Match: e
Match: a
Match: r


In [None]:
#16. [^a-zA-Z0-9] (소문자, 대문자 및 숫자를 제외한 모든 문자와 일치)
import re

text = "24 Hours a Day,\n7 Days a Week,\n & \t 365 Days a Year!"

pattern = r"[^a-zA-Z0-9]"  #알파벳(대소문자 구분 없이)과 숫자를 제외한 모든 문자를 찾을 때 사용 (e.g., white space, punctuations, escape characters (e.g., \n, \t), etc.)

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

Match:  
Match:  
Match:  
Match: ,
Match: 

Match:  
Match:  
Match:  
Match: ,
Match: 

Match:  
Match: &
Match:  
Match: 	
Match:  
Match:  
Match:  
Match:  
Match: !


In [None]:
#17. |  (뜻: or 와 일치) 예시 [Get students' script modified in line 5 ('red or blue' to 'red, green, or blue) & line 6 'either red|blue' to '(red|blue)' in line]

import re

text = "The color can be either red, green, or blue."
pattern = r"(red|blue)"  # "either red" 또는 "blue"에 일치하는 패턴

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

Match: red
Match: blue


In [None]:
#18. Understanding difference Escape \ and Meta characters. e.g., r"\$" vw. r"$""

import re

text = "It cost me $715.45 and more."

pattern1 = r"more.$"

matches1 = re.findall(pattern1, text)

for i in matches1:
  print("Match1:", i)


pattern2 = r"\$*7"

matches2 = re.findall(pattern2, text)

for i in matches2:
  print("Match2", i)




Match1: more.
Match2 $7


#**<font color = 'red'> _More on RE_**

<font color = 'blue'> **정규 표현식 문법에는 역 슬래쉬(\)를 이용하여 자주 쓰이는 문자 규칙들이 있다.**</font>

|Character Rules|Meaning|
|--|--|
|\  |  역 슬래쉬 문자 자체를 의미.이스케이프 문자로 사용|
|\d |  모든 숫자(any numbers)를 의미. [0-9]와 의미가 동일|
|\D |  숫자를 제외한 모든 문자를 의미. [^0-9]와 의미가 동일|
|\s |  공백을 의미합니다. [ \t\n\r\f\v]와 의미가 동일.|
|\S |  공백을 제외한 문자를 의미합니다. [^ \t\n\r\f\v]와 의미가 동일.|
|\w |  문자 또는 숫자(any charcters or numbers)를 의미합니다. [a-zA-Z0-9]와 의미가 동일.|
|\W |  문자 또는 숫자가 아닌 문자를 의미. [^a-zA-Z0-9]와 의미가 동일.|

### 정규 표현식(re)에서 back slash \ 는 이스케이프 문자로 사용되며, 메타 문자 자체를 일반 문자로 인식하도록 함.
- 추후 참고를 위한 노트: 정규 표현식에서 \s, \f, \v는 공백 문자를 나타내는 이스케이프 시퀀스다. 이들은 다음과 같은 의미를 갖는다:
  - \s는 정규 표현식에서 공백 문자(whitespace character)를 나타낸다. 공백 문자에는 스페이스(space), 탭(tab), 개행(newline), 캐리지 리턴(carriage return), 세로 탭(vertical tab), 폼 피드(form feed) 등이 포함된다. 이를 통해 문자열에서 공백 문자를 찾거나 매치할 수 있다.



In [None]:
#19. 정규 표현식에서 백슬래시(\)는 이스케이프 문자로 사용되며, 특수 문자를 나타내거나 메타 문자 자체를 일반 문자로 인식하도록 함.
#백슬래시를 사용하여 특수 문자를 매칭할 수 있다. 예를 들어, \.은 실제 점 문자(.)를 매치

import re

text = "Hello, world.\n This is test #5."
pattern = r"\."  # 실제 Period . 문자를 매치

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

Match: .
Match: .


In [None]:
#19.a 💣💊 COMPARE. The following example is more advanced from #1.

import re

text = "Hello, world.\n This is test #5."
pattern = r"."  # Period . 문자를 매치
#(cf., r'.' for 한개의 임의의 문자(예시: 대문자, 소문자, 숫자, white space, punctuations, symbols).
# special charecters including meta charcters는 . 한개의 임의의 문자에 포함되지 않음.)

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

Match: H
Match: e
Match: l
Match: l
Match: o
Match: ,
Match:  
Match: w
Match: o
Match: r
Match: l
Match: d
Match: .
Match:  
Match: T
Match: h
Match: i
Match: s
Match:  
Match: i
Match: s
Match:  
Match: t
Match: e
Match: s
Match: t
Match:  
Match: #
Match: 5
Match: .


In [None]:
#20. 정규 표현식에서 백슬래시(\)는 이스케이프 문자로 사용되며, 특수 문자를 나타내거나 메타 문자 자체를 일반 문자로 인식하도록 함.
#백슬래시를 사용하여 특수 문자를 매칭할 수 있다. 예를 들어, \$은 실제 dollar sign($)를 매치

import re

text = "The price is $100."
pattern = r"\$"  # 달러 기호를 매치

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

Match: $


In [None]:
#21. '\d' represents 0 to 9.
import re

text = "The price is $100."
pattern = r"\d"

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

Match: 1
Match: 0
Match: 0


In [None]:
#21a 💣💊COMPARE

#cf., 💊 만약 "100"이라는 문자열 전체에 대한 하나의 일치를 원한다면 r"\d+"와 같이 + 메타 문자(meta character +)를 사용하여 숫자가 <하나 이상> 연속해서 일치하도록 패턴을 지정해야 함.


import re

text1 = "The price is $100 and the number pi is approximately 3.14."
pattern1 = r'\d+'

text2 = "The number pi is approximately 3.14159265358979323846 and you will hear a lot about it in Math class from 1st Grade to the 12th Grade."
pattern2 = r"\d+\.\d+"  # 메타 문자(+)를 사용하여 숫자가 하나 이상 연속해서 일치하도록 패턴을 지정.

matches1 = re.findall(pattern1, text1)
matches2 = re.findall(pattern2, text2)

print(matches1) #새로 추가 as of 4/30/24
for i in matches1:
    print("Match1:", i)

print('\n') #새로 추가 as of 4/30/24

print(matches2)
for i in matches2:
    print("Match2:", i)

['100', '3', '14']
Match1: 100
Match1: 3
Match1: 14


['3.14159265358979323846']
Match2: 3.14159265358979323846


In [None]:
# 22. \D 예시

import re

text = "The price is $100."
pattern = r"\D"  # 숫자가 아닌 문자(기호 포함)에 일치

matches = re.findall(pattern, text)
print(matches)

for i in matches:
    print("Match:", i)

['T', 'h', 'e', ' ', 'p', 'r', 'i', 'c', 'e', ' ', 'i', 's', ' ', '$', '.']
Match: T
Match: h
Match: e
Match:  
Match: p
Match: r
Match: i
Match: c
Match: e
Match:  
Match: i
Match: s
Match:  
Match: $
Match: .


In [None]:
# 23. \s 예시

import re

text = "Hello   World"
pattern = r"\s"  # 공백 문자에 일치

matches = re.findall(pattern, text)
print(matches)

for match in matches:
    print("Match:", match)

[' ', ' ', ' ']
Match:  
Match:  
Match:  


In [None]:
#24.\S 예시
import re

text = "Hello   World"
pattern = r"\S"  # 공백 문자가 아닌 문자에 일치

matches = re.findall(pattern, text)
print(matches) #새로 추가 as of 4/30/24

for match in matches:
    print("Match:", match)

['H', 'e', 'l', 'l', 'o', 'W', 'o', 'r', 'l', 'd']
Match: H
Match: e
Match: l
Match: l
Match: o
Match: W
Match: o
Match: r
Match: l
Match: d


In [None]:
#25. \w 예시
import re

text = "Python is _awesome_!"
pattern = r"\w"  # an alphanumeric character 일치. cf. an underscores included for 'r"\w". However, punctuations such as period, exclamation mark, etc. are NOT included.

matches = re.findall(pattern, text)
print(matches) #새로 추가 as of 4/30/24

for match in matches:
    print("Match:", match)

['P', 'y', 't', 'h', 'o', 'n', 'i', 's', '_', 'a', 'w', 'e', 's', 'o', 'm', 'e', '_']
Match: P
Match: y
Match: t
Match: h
Match: o
Match: n
Match: i
Match: s
Match: _
Match: a
Match: w
Match: e
Match: s
Match: o
Match: m
Match: e
Match: _


In [None]:
#26. \w+ 예시

import re

text = "Python is awesome!"
pattern = r"\w+"  #"단어 문자"를 나타냅니다. "단어 문자"는 알파벳 (대문자 및 소문자), 숫자 및 밑줄 (_)을 포함합니다. +: 이것은 하나 이상의 연속된 문자를 나타냅니다. 따라서 \w+는 하나 이상의 연속된 "단어 문자"를 찾는 패턴

matches = re.findall(pattern, text) #"Python", "is", "awesome"는 모두 하나 이상의 연속된 "단어 문자"로 이루어져 있으므로 이 정규표현식 패턴에 일치
print(matches) #새로 추가 as of 4/30/24

for match in matches:
    print("Match:", match)

['Python', 'is', 'awesome']
Match: Python
Match: is
Match: awesome


In [None]:
#27. 백슬래시를 사용하여 특수한 문자 클래스를 생성할 수 있음. 예를 들어, \d는 숫자를 매치하고, \s는 공백 문자를 매치, \w+는 하나 이상의 alphnumeric character including underscores

import re

text = "123 Main Street and 5 Avenue "
pattern = r"\d\s\w+"  # 숫자, 공백, 단어를 매치 (하나의 숫자(\d), 공백 문자(\s) 하나 이상의 문자(\w+)) <"+"는 이 sign 앞에 것이 1회 이상 반복되는 것을 뜻함>

matches = re.findall(pattern, text)
print(matches) #새로 추가 as of 4/30/24

for i in matches:
    print("Match:", i)

['3 Main', '5 Avenue']
Match: 3 Main
Match: 5 Avenue


In [None]:
#27a. 백슬래시를 사용하여 특수한 문자 클래스를 생성할 수 있음. 예를 들어, \d+는 일련의 연속된 숫자를 매치하고, \s는 공백 문자를 매치, \w+는 하나 이상의 alphnumeric character including underscores

import re

text = "123 Main Street and 5 Avenue "
pattern = r"\d+\s\w+"  # 숫자, 공백, 단어를 매치 (하나의 숫자(\d), 공백 문자(\s) 하나 이상의 문자(\w+)) <"+"는 이 sign 앞에 것이 1회 이상 반복되는 것을 뜻함>

matches = re.findall(pattern, text)
print(matches)

for i in matches:
    print("Match:", i)


['123 Main', '5 Avenue']
Match: 123 Main
Match: 5 Avenue


In [None]:
# 27b 💣💊COMPARE

import re

text = "123 _Main_ Street_ and 5th Avenue "
pattern = r"\d\s\w+"  # 숫자, 공백, 단어를 매치 (하나의 숫자(\d), 공백 문자(\s) 하나 이상의 단어 문자(\w+)) <+ sign 앞에 alphanumeric characters 1회 이상 반복>

matches = re.findall(pattern, text)
print(matches) #

for i in matches:
  print("Match:", i)

Match: 3 _Main_


In [None]:
# 27c 💣💊COMPARE

import re

text = "123 _Main_ Street_ and 5th Avenue "
pattern = r"\d+\s\w+"  # 숫자, 공백, 단어를 매치 (하나의 숫자(\d), 공백 문자(\s) 하나 이상의 단어 문자(\w+)) <+ sign 앞에 alphanumeric characters 1회 이상 반복>

matches = re.findall(pattern, text)
print(matches) #새로 추가 as of 4/30/24

for i in matches:
  print("Match:", i)

['123 _Main_']
Match: 123 _Main_



>
2️⃣ 정규표현식 모듈 함수 ⤵️
정규표현식 모듈에서 지원하는 함수는 아래와 같다.

모듈 함수      설명
re.compile()  정규표현식을 컴파일하는 함수다. 다시 말해, 파이썬에게 전해주는 역할을 한다. 찾고자 하는 패턴이 빈번한 경우에는 미리 컴파일 해놓고 사용하면 속도와 편의성면에서 유리하다. (e.g., >> r = re.compile(“ab{2,4}c”)

  - In Python, compiling a regular expression means converting a regular expression pattern into a regular expression object. This compiled object can then be used for various operations, such as searching, matching, or replacing text in strings more efficiently. Compiling a regular expression pattern can offer performance benefits when you need to use the same pattern multiple times in your code.
    - 파이썬에서 정규 표현식을 컴파일하는 것은 **정규 표현식 패턴을 정규 표현식 객체로 변환**하는 것을 의미한다. 이 컴파일된 객체는 문자열에서 검색, 매칭 또는 텍스트 교체와 같은 다양한 작업에 효율적으로 사용할 수 있다. 정규 표현식 패턴을 컴파일하면 코드에서 동일한 패턴을 여러 번 사용해야 할 때 성능상 이점을 제공할 수 있다.

- re.search()   문자열 전체에 대해서 정규표현식과 매치되는지를 검색
-re.match()   문자열의 처음이 정규표현식과 매치되는지를 검색
-re.split()      정규 표현식을 기준으로 문자열을 분리하여 리스트로 리턴
-re.findall()    문자열에서 정규 표현식과 매치되는 모든 경우의 문자열을 찾아서 리스트로 리턴. 만약 매치되는 문자열이 없다면 빈 리스트가 리턴
-re.finditer()  문자열에서 정규 표현식과 매치되는 모든 경우의 문자열에 대한 이터레이터 객체를 리턴
-re.sub()        문자열에서 정규 표현식과 일치하는 부분에 대해서 다른 문자열로 대체

###<font color = 'green'> **re.compile( ) 예시**

###**regular expression을 사용한 다음 코드의 설명**

shortword = re.compile(r'\W*\b\w{1,3}\b')

  - 이 코드의 목적은 정규 표현식을 사용하여 주어진 텍스트에서 세 글자 이하의 짧은 단어를 찾아내는 것이다.

  - 여기에서 정규 표현식 re.compile(r'\W*\b\w{1,3}\b')은 다음과 같은 요소로 구성된다:

    - re.compile(): 이 부분은 정규 표현식을 컴파일하는 함수를 호출한다. 이 함수를 사용하면 정규 표현식을 미리 컴파일하여 재사용할 수 있다.

    - r'\W*\b\w{1,3}\b': 이 부분이 실제 정규 표현식 패턴을 나타낸다. 여기에서 각 부분을 설명하면 다음과 같다.

      - \W*: \W는 특수 문자가 아닌 문자(영문자, 숫자, 언더스코어)와 일치하는 것을 나타내며, *는 바로 앞의 패턴이 0회 이상 반복됨을 의미한다. 따라서 \W*는 0회 이상의 특수 문자가 있는 부분을 의미한다. 이것은 짧은 단어 앞뒤에 있는 특수 문자나 공백을 처리하기 위한 부분이다.

      - \b: \b는 단어 경계를 나타내며, 단어의 시작 또는 끝과 일치한다.

      - \w{1,3}: \w는 워드 문자(알파벳, 숫자, 언더스코어)와 일치하는 것을 나타낸다. {1,3}는 앞의 패턴인 워드 문자가 1회에서 3회까지 반복됨을 의미한다. 따라서 \w{1,3}는 1~3글자의 단어를 찾는다.

      -\b: 다시 한 번 \b를 사용하여 단어 경계를 나타낸다.

이렇게 정규 표현식을 조합하면 특수 문자와 공백을 포함하지 않고 1~3글자의 단어를 찾아낼 수 있다. 이 코드를 사용하면 텍스트에서 짧은 단어를 필터링하거나 추출하는 데 유용하게 활용할 수 있다.