<a href="https://colab.research.google.com/github/ms624atyale/NLP_2024/blob/main/5_RegularExpression.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## <font color = 'brown'> **Regular Expression (re)** </font> 정규표현식

- 파이썬에서 사용되는 정규표현식 (Regular expressions)은 특정한 규칙을 가진 문자열의 집합을 표현하는 데 사용하는 형식 언어이다.
- 정규표현식은 문자열에서 특정한 패턴을 검색하거나 매치하는 데 사용되는 문자열 검색과 치환을 위해 사용되는 기술이다.
- 문자열에서 패턴을 정의하고, 그 패턴과 일치하는 부분을 찾거나 변경할 수 있다.
- 파이썬 프로그래밍 내장 모듈이다. 복잡한 문자열 처리 작업에 유용하다.
- 메타 문자 (Meta characters(특수문자))는 문자가 가진 원래의 의미가 아닌 특별한 용도로 사용되는 문자이다. 정규표현식에서 사용되는 메타 문자는 . ^ $ * + ? \ | ( ) { } [ ] 이 있다.

## <font color = 'brown'> **re**
  - Python의 내장 모듈로서, 정규 표현식을 지원하는 라이브러리다. 정규 표현식은 문자열 패턴을 검색, 매치, 치환하거나 조작하는 데 사용됩니다. re 모듈은 문자열을 다룰 때 패턴 매칭과 관련된 작업을 수행하는 데 도움을 준다. 이 모듈을 사용하면 텍스트 데이터에서 원하는 패턴을 검색하거나 추출할 수 있다.

🐹 🐾 Common **escape characters** include:

- **\n**: Represents a newline character. It is used to start a new line in a string.
- **\t**: Represents a tab character. It is used to insert a horizontal tab into a string.
- **two consecutive backslashes**: Represents a literal backslash character. This is used to include a backslash in a string.
- **\ '**: Represents a single quotation mark (apostrophe). It is used to include a single quotation mark within a string enclosed in single quotes.
- **\ "**: Represents a double quotation mark. It is used to include a double quotation mark within a string enclosed in double quotes.
- **\r**: Represents a carriage return. It is used to move the cursor to the beginning of the line.
- **\b**: Represents a backspace character. It is used to erase the previous character.

>
_Just for your reference_: **아래는 집에 가서 그냥 읽어보기**⤵️






    \v: Represents a vertical tab character. It is used to insert a vertical tab. It is rarely used.
    \v는 세로 탭(vertical tab) 문자를 나타내는 이스케이프 시퀀스다. 세로 탭은 일반적으로 텍스트 출력 중에 특정 위치로 이동하거나 세로로 텍스트를 정렬하는 데 사용된다. 정규 표현식에서 \v를 사용하여 세로 탭 문자를 매치할 수 있습니다. 예를 들어, 정규 표현식에서 \s+는 하나 이상의 연속된 공백 문자를 매치하는 패턴을 나타내며, \f나 \v를 사용하여 폼 피드나 세로 탭 문자를 매치할 수 있다. 이러한 이스케이프 시퀀스는 텍스트 데이터에서 특정 종류의 공백 문자를 처리하거나 추출할 때 유용하다.


    \f: Represents a form feed character. It is used to advance the cursor to the next page or form.
    \f는 폼 피드(form feed) 문자를 나타내는 이스케이프 시퀀스다. 폼 피드는 종이 프린터나 출력 장치에서 다음 페이지로 넘어가거나 특정 위치로 이동하는 데 사용되는 제어 문자 중 하나다. 정규 표현식에서 \f를 사용하여 폼 피드 문자를 매치할 수 있다.



1️⃣ 정규 표현식 문법 ⤵️

정규 표현식을 위해 사용되는 문법 중 meta characters(특수문자)들은 아래와 같다.
>

|Symbol | Meaning|
|--|--|
|. | 한 개의 임의의 문자 (줄바꿈 문자인 \n는 제외)|
|? | 앞의 문자가 존재할 수도 있고, 존재하지 않을 수도 있음 (문자가 0개 또는 1개)|
|* | 앞의 문자가 무한개로 존재할 수도 있고, 존재하지 않을 수도 있음 (문자가 0개 이상)|
|+ | 앞의 문자가 최소 한 개 이상 존재 (문자가 1개 이상)|
|^ | 뒤의 문자열로 문자열이 시작|
|$ | 앞의 문자열로 문자열이 끝남|




🐹 🐾 **정규표현식 패턴은 _문자열_ 형태로 표현한다.**

🐳💧 <font color = 'red'>**접두어 r 은 Raw 문자열을 나타내며, 이스케이프 문자(e.g., \n, \t, \\) 를 해석하지 않고 그대로 문자열로 표현하도록 힌다.**
- The 'r' (raw) prefix is commonly used with regular expressions to simplify the handling of backslashes, but there are situations where you might see 'r' used without any escape characters (backslashes) in the regular expression. This can be due to a few reasons:

    - <font color = 'blue'>**Consistency**</font>: Some programmers choose to consistently use the 'r' prefix for all regular expressions, even when the pattern doesn't contain any backslashes. This practice can make the code more uniform and easier to read.

    - <font color = 'blue'>**Future-Proofing**</font>: Using 'r' for all regular expressions, regardless of whether they contain escape characters, can help prevent issues if the regular expression pattern is later modified to include backslashes. It ensures that backslashes are treated as literal characters from the start.

    - <font color = 'blue'>**Code Maintenance**</font>: Code maintenance and readability are important. When you revisit your code in the future, you may not remember the specific details of each regular expression. Using 'r' consistently helps avoid potential pitfalls if you or someone else later modify the pattern.

    - <font color = 'blue'>**Compatibility**</font>: It may also be a matter of compatibility across different parts of the code or between different regular expression libraries. Using 'r' consistently ensures that regular expressions are handled consistently throughout the codebase.



In [None]:
#1. mata character Period . (뜻: 한 개의 임의의 문자) 예시 (cf., #20. r"\."")

import re

text = "cat, hat, bat, sat, mat, combat, unbated"
pattern = r".at"  # .은 어떤 문자든 하나를 나타냄

matches = re.findall(pattern, text)

for match in matches:
    print("Match:", match)

Match: cat
Match: hat
Match: bat
Match: sat
Match: mat
Match: bat
Match: bat


In [None]:
#1a 💣💊COMPARE
text2 = "at, cat, at, hat, bat, sat, mat, combat, unbated"

matches = re.findall(pattern, text2)

for i in matches:
    print("Match:", i)

Match: cat
Match:  at
Match: hat
Match: bat
Match: sat
Match: mat
Match: bat
Match: bat


In [None]:
#2. mata character Question mark ? (뜻: ? 앞의 문자가 0번 혹은 1번 나타날 수 있음) 예시

import re

text = "color or colour?"
pattern = r"colou?r"  # u는 0 또는 1번 나타날 수 있음

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

Match: color
Match: colour


In [None]:
#2a 💣💊COMPARE
text2 = "color, colour, or coloer?"
pattern = r"colou?r"  # u는 0 또는 1번 나타날 수 있음.

matches = re.findall(pattern, text2)

for i in matches:
    print("Match:", i)

Match: color
Match: colour


In [None]:
#3. mata character Asterisk * (뜻: *는 앞의 요소가 0회 이상 나타날 수 있음) 예시

import re

text = "ab, ac, abc, abbc, aabbc, abbbbbbbbbbbbbbc"
pattern = r"ab*c"  # b가 0회 이상 반복될 수 있음. r은 Raw 문자열을 나타내며, 이스케이프 문자를 해석하지 않고 그대로 문자열로 표현하도록 힌디.

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

Match: ac
Match: abc
Match: abbc
Match: abbc
Match: abbbbbbbbbbbbbbc


In [None]:
#4. mata character $ (뜻: $는 문자열의 끝을 나타내는 메타 문자, 즉 해당 패턴이 문자열의 끝 부분과 일치해야 함) 예시

import re

text = "Python is a popular programming language. Python is versatile."
pattern = r'versatile.$'

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

Match: versatile.


In [None]:
#4a. 💣💊COMPARE

import re

text = "Python is a popular programming language. Python is versatile."
pattern = r'tile.$'

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

Match: tile.


In [None]:
#4a 💣💊COMPARE

import re

text = "Python is a popular programming language. Python is versatile."
pattern = r'language.$'

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

#💊 "language."는 문자열의 <끝>이 아니다. 따라서 출력값이 안나온다. 코드 셀은 NameError 없이 실행된다.

In [None]:
#5. mata character ^ (뜻: ^는 패턴의 시작 부분을 나타냄. 즉, 패턴을 사용하여 문자열을 검색하거나 매치할 때, 해당 패턴이 <문자열의 시작 부분과 일치> 해야함) 예시
import re

text = "Python is a programming language. Python is versatile. We all love Python."
pattern = r'^Python' #^를 사용하여 문자열의 시작 부분에서 특정 단어(e.g., 두개 Python 단어 중 <"Python" at the beginning of a string or a line>)를 검색하는 예제

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

Match: Python


In [None]:
#5a 💣💊COMPARE

import re

text = "Python is a programming language. Python is versatile. We all love Python."
pattern = r'^is' #^를 사용하여 문자열의 시작 부분에서 특정 단어(e.g., Python)를 검색하는 예제

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

#"is"는 at the beginning of string 이 아니라서 출력값이 안나온다. 코드 셀은 NameError 없이 실행된다.

In [None]:
#6. mata character + (뜻: +는 앞의 요소가 1회 이상 나타나야 함을 나타냄) 예시 [Get students' script modified in line 5 as of 24OCT23]

import re

text = "cat, caat, caaat, sat, set"
pattern = r"ca+t"  # a가 1회 이상 반복되어야 함

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

Match: cat
Match: caat
Match: caaat


In [None]:
#6a 💣💊COMPARE [Get students' script modified in line 6 as of 24OCT23]

import re

text = "cat, caat, caaat, sat, set"
pattern = r"a+t"  # a가 1회 이상 반복되어야 함

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

Match: at
Match: aat
Match: aaat
Match: at


|Symbol | Meaning|
|--|--|
|{숫자}|   숫자만큼 반복
|{숫자1, 숫자2}| 숫자1 이상 숫자2 까지 반복. ?, *, +를 이것으로 대체할 수 있음|
|{숫자,}| 숫자 이상만큼 반복
|[ ] |   대괄호 안의 문자들 중 한 개의 문자와 매치|
||.      [amk]라고 한다면 a 또는 m 또는 k 중 하나라도 존재하면 매치를 의미|
||       [a-z]와 같이 범위를 지정할 수도 있음|
||       [a-zA-Z]는 알파벳 전체를 의미하는 범위이며, 문자열에 알파벳이 존재하면 매치를 의미|
|[^문자]|  해당 문자를 제외한 문자를 매치
| 1 | A1B와 같이 쓰이며 A 또는 B의 의미| (cf.: a vertical line is replace by 1 to get the system work)

In [None]:
#7. {숫자} (뜻: {}를 사용하여 숫자를 지정하는 것은 정규 표현식에서 특정 패턴이 몇 번 나타날지 지정하는 방법 중 하나) 예시 IMPORTANT: "\d"는 숫자를 나타냄 (REFER to More on re #21부터)

import re

text = "123 4567 89 12345"
pattern = r"\d{3}"  # \d Matches any single digit character from 0 to 9. 숫자가 정확히 3번 반복되는 패턴

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

Match: 123
Match: 456
Match: 123


In [None]:
#8. {숫자, 숫자} (뜻: 첫번째 숫자에서 두번째 숫자 자리수까지 검색) 예시

import re

text = "The numbers are 12345678999, 12345, 987, and 56789."
pattern = r"\d{3,5}"  # 3자리에서 5자리 숫자를 찾음

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

Match: 12345
Match: 67899
Match: 12345
Match: 987
Match: 56789


In [None]:
#9. {숫자, } (뜻: {숫자,} 구문을 사용하면 최소한 숫자 번 이상 나타나는 패턴을 검색할 수 있음) 예시 [Get students' script modified in line 6 as of 24OCT23] Be aware of white spaces.

import re

text = "The word 'hello' is repeated many times: hello hello hello hello hello"
pattern = r"(hello ){2,}"  # 'hello'가 두 번 이상 반복되는 패턴을 찾음. 여기서는 hellohellohellohellohello라는 패턴이 1 번 있어서 hello가 출력됨

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

Match: hello 


In [None]:
#9a. 💣💊COMPARE

import re

text = "The word 'hello' is repeated many times: hellohellohellohellohello hellohellohellohellohello hellohellohellohellohello"
pattern = r"(hello){2,}"  # 'hello'가 두 번 이상 반복되는 패턴을 찾음. 여기서는 hellohellohellohellohello라는 패턴이 3 번 있어서 hello가 3회 출력됨

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

Match: hello
Match: hello
Match: hello


In [None]:
# 10. [\d]  (뜻: [ ]는 [ ]대괄호 안의 (문자들 중) 한 개의 숫자와 일치)예시
import re

text = "The price is $100."
pattern = r"[\d]"
# 숫자 하나를 나타내는 문자 클래스: 위 문자열에서 이 패턴을 사용하면 문자열 내에서 "1", "0", "0"이 각각 한 번씩 매치된다.
#이 패턴은 숫자를 찾아내는 데 사용될 수 있다.

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

Match: 1
Match: 0
Match: 0


In [None]:
# 10a. 💣💊COMPARE [\d]  (뜻: [ ]는 [ ]대괄호 안의 문자들 중 한 개의 숫자와 일치)예시 [Get students' code cell inserted)
import re

text = "The price is $100."
pattern = r"[e\d]"
# 숫자 하나를 나타내는 문자 클래스: 위 문자열에서 이 패턴을 사용하면 문자열 내에서 "1", "0", "0"이 각각 한 번씩 매치된다.
#이 패턴은 숫자를 찾아내는 데 사용될 수 있다.

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

Match: e
Match: e
Match: 1
Match: 0
Match: 0


In [None]:
# 11. [amk] (뜻: [ ]는 [ ]대괄호 안의 문자들 중 한 개의 문자와 매치) 예시

import re

text = "I have an apple and a monkey in the kitchen."
pattern = r"[amk]"  # 'a', 'm', 또는 'k' 중 하나의 문자를 찾음

matches = re.findall(pattern, text) #re 모듈의 findall 함수를 호출. 이 함수는 문자열(text)에서 정규 표현식 패턴(pattern)과 일치하는 모든 부분을 찾아내어 리스트로 반환.
#matches: re.findall() 함수의 결과인 일치하는 부분들이 저장되는 변수. 이 변수에는 text 문자열에서 "a", "m", 또는 "k"와 일치하는 모든 부분이 리스트 형태로 저장.
#위의 코드에서 matches 리스트에는 "a", "a", "m", "a", "k", "a", "m", "k"와 같이 "a", "m", "k"와 일치하는 문자들이 저장

for i in matches:     #for match in matches: 루프를 통해 matches 리스트의 각 아이템을 순회하며, 각 일치하는 문자를 출력
    print("Match:", i)

Match: a
Match: a
Match: a
Match: a
Match: a
Match: m
Match: k
Match: k


In [None]:
#12. [a-z] (뜻: 'a'부터 'z'까지의 모든 소문자 글자와 일치) 예시

import re

text = "The quick brown fox jumps over the lazy dog."
pattern = r"[a-z]"  # 소문자 알파벳에 일치하는 패턴

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

Match: h
Match: e
Match: q
Match: u
Match: i
Match: c
Match: k
Match: b
Match: r
Match: o
Match: w
Match: n
Match: f
Match: o
Match: x
Match: j
Match: u
Match: m
Match: p
Match: s
Match: o
Match: v
Match: e
Match: r
Match: t
Match: h
Match: e
Match: l
Match: a
Match: z
Match: y
Match: d
Match: o
Match: g


In [None]:
#13. [A-Z] ('a'부터 'z'까지의 모든 대문자 글자와 일치) 예시

import re

text = "\"The book titles are 'The Aesop for Children', 'Harry Potter', and 'Pride and Prejudice',\" said Amelia."
pattern = r"[A-Z]"  # 대문자 알파벳에 일치하는 패턴

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

Match: T
Match: T
Match: A
Match: C
Match: H
Match: P
Match: P
Match: P
Match: A


In [None]:
#14. [a-zA-Z] (뜻:  알파벳(대소문자 구분 없이) 모든 문자와 일치) 예시

import re

text = "New York is a wonderful city."
pattern = r"[a-zA-Z]"  # 알파벳(대소문자 구분 없이) 모든 문자를 찾을 때 사용

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

Match: N
Match: e
Match: w
Match: Y
Match: o
Match: r
Match: k
Match: i
Match: s
Match: a
Match: w
Match: o
Match: n
Match: d
Match: e
Match: r
Match: f
Match: u
Match: l
Match: c
Match: i
Match: t
Match: y


In [None]:
#15. [0-9] (뜻: 모든 숫자 (정수 형태)와 일치) 일치

import re

text = "A total of 149 episodes of The Aesop for Children."
pattern = r"[0-9]"  #숫자를 찾을 때 사용

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

Match: 1
Match: 4
Match: 9


In [None]:
#15. 💣💊COMPARE

import re

text = "In mathematics, 3.14 is a decimal approximation of the mathematical constant π (pi)."
pattern = r"[0-9]"  #숫자를 찾을 때 사용

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

Match: 3
Match: 1
Match: 4


In [None]:
#16. [a-zA-Z0-9] (뜻: 대문자 소문자 구분없이 알파벳과 숫자를 포함하는 모든 문자와 일치) 예시
import re

text = "24 Hours a Day, 7 Days a Week, & 365 Days a Year!"
pattern = r"[a-zA-Z0-9]"  #알파벳(대소문자 구분 없이)과 숫자를 포함하는 모든 문자를 찾을 때 사용. 기호는 포함 안됨.

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

Match: 2
Match: 4
Match: H
Match: o
Match: u
Match: r
Match: s
Match: a
Match: D
Match: a
Match: y
Match: 7
Match: D
Match: a
Match: y
Match: s
Match: a
Match: W
Match: e
Match: e
Match: k
Match: 3
Match: 6
Match: 5
Match: D
Match: a
Match: y
Match: s
Match: a
Match: Y
Match: e
Match: a
Match: r


In [None]:
#15. [^a-zA-Z0-9] (대문자, 소문자, 및 숫자를 제외한 모든 문자와 일치) [Get students' script modified in line 6 for annotation: 'meta' to 'escape']
import re

text = "24 Hours a Day,\n7 Days a Week,\n & \t 365 Days a Year!"

pattern = r"[^a-zA-Z0-9]"  #알파벳(대소문자 구분 없이)과 숫자를 제외한 모든 문자를 찾을 때 사용 (e.g., white space, punctuations, escape characters (e.g., \n, \t), etc.)

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

Match:  
Match:  
Match:  
Match: ,
Match: 

Match:  
Match:  
Match:  
Match: ,
Match: 

Match:  
Match: &
Match:  
Match: 	
Match:  
Match:  
Match:  
Match:  
Match: !


In [None]:
#19. |  (뜻: or 와 일치) 예시 [Get students' script modified in line 5 ('red or blue' to 'red, green, or blue) & line 6 'either red|blue' to '(red|blue)' in line]

import re

text = "The color can be either red, green, or blue."
pattern = r"(red|blue)"  # "either red" 또는 "blue"에 일치하는 패턴

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

Match: red
Match: blue


In [None]:
#20. Understanding difference Escape \ and Meta characters. e.g., r"\$" vw. r"$""

import re

text = "It cost me $715.45 and more."

pattern1 = r"more.$"

matches1 = re.findall(pattern1, text)

for i in matches1:
  print("Match1:", i)


pattern2 = r"\$*7"

matches2 = re.findall(pattern2, text)

for i in matches2:
  print("Match2", i)




Match1: more.
Match2 $7


#**<font color = 'red'> _More on RE_**

<font color = 'blue'> **정규 표현식 문법에는 역 슬래쉬(\)를 이용하여 자주 쓰이는 문자 규칙들이 있다.**</font>

|Character Rules|Meaning|
|--|--|
|\  |  이스케이프 문자로 사용|
|\d |  모든 숫자(any numbers)를 의미. [0-9]와 의미가 동일|
|\D |  숫자를 제외한 모든 문자를 의미. [^0-9]와 의미가 동일|
|\s |  공백을 의미합니다. [ \t\n\r\f\v]와 의미가 동일.|
|\S |  공백을 제외한 문자를 의미합니다. [^ \t\n\r\f\v]와 의미가 동일.|
|\w |  문자 또는 숫자(any charcters or numbers)를 의미합니다. [a-zA-Z0-9]와 의미가 동일.|
|\W |  문자 또는 숫자가 아닌 문자를 의미. [^a-zA-Z0-9]와 의미가 동일.|

### 정규 표현식(re)에서 back slash \ 는 이스케이프 문자로 사용되며, 메타 문자 자체를 일반 문자로 인식하도록 함.
- 추후 참고를 위한 노트: 정규 표현식에서 \s, \f, \v는 공백 문자를 나타내는 이스케이프 시퀀스다. 이들은 다음과 같은 의미를 갖는다:
  - \s는 정규 표현식에서 공백 문자(whitespace character)를 나타낸다. 공백 문자에는 스페이스(space), 탭(tab), 개행(newline), 캐리지 리턴(carriage return), 세로 탭(vertical tab), 폼 피드(form feed) 등이 포함된다. 이를 통해 문자열에서 공백 문자를 찾거나 매치할 수 있다.



In [None]:
#21. 정규 표현식에서 백슬래시(\)는 이스케이프 문자로 사용되며, 특수 문자를 나타내거나 메타 문자 자체를 일반 문자로 인식하도록 함.
#백슬래시를 사용하여 특수 문자를 매칭할 수 있다. 예를 들어, \.은 실제 점 문자(.)를 매치

import re

text = "Hello, world.\n This is test #5."
pattern = r"\."  # 실제 Period . 문자를 매치

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

Match: .
Match: .


In [None]:
#21.a 💣💊 COMPARE. The following example is more advanced from #1.

import re

text = "Hello, world.\n This is test #5."
pattern = r"."  # 한개의 임의의 문자
#cf., r'.' for 한개의 임의의 문자(예시: 대문자, 소문자, 숫자, white space, punctuations, symbols)
# special charecters including meta charcters는 . 한개의 임의의 문자에 포함되지 않음.)

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

#add a regular print() function
print("Match:", matches)

Match: H
Match: e
Match: l
Match: l
Match: o
Match: ,
Match:  
Match: w
Match: o
Match: r
Match: l
Match: d
Match: .
Match:  
Match: T
Match: h
Match: i
Match: s
Match:  
Match: i
Match: s
Match:  
Match: t
Match: e
Match: s
Match: t
Match:  
Match: #
Match: 5
Match: .
Match: ['H', 'e', 'l', 'l', 'o', ',', ' ', 'w', 'o', 'r', 'l', 'd', '.', ' ', 'T', 'h', 'i', 's', ' ', 'i', 's', ' ', 't', 'e', 's', 't', ' ', '#', '5', '.']


In [None]:
#22. 정규 표현식에서 백슬래시(\)는 이스케이프 문자로 사용되며, 특수 문자를 나타내거나 메타 문자 자체를 일반 문자로 인식하도록 함.
#백슬래시를 사용하여 특수 문자를 매칭할 수 있다. 예를 들어, \$은 실제 dollar sign($)를 매치

import re

text = "The price is $100."
pattern = r"\$"  # 달러 기호를 매치

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

#add a regular print() function
print("Match:", matches)

Match: $
Match: ['$']


In [None]:
# 23. \d 예시

import re

text = "The price is $100."
pattern = r"\d"  # 숫자 하나에 일치. 정규 표현식 패턴 r"\d"은 숫자(digit)에 일치하는 패턴. 따라서 해당 패턴은 문자열에서 각각의 숫자에 일치하게 됨..

matches = re.findall(pattern, text)

for i in matches:
  print("Match:", i)

#add a regular print() function
print("Match:", matches)

Match: 1
Match: 0
Match: 0
Match: ['1', '0', '0']


In [None]:
#23a 💣💊COMPARE

#cf., 💊 만약 "100"이라는 문자열 전체에 대한 하나의 일치를 원한다면 r"\d+"와 같이 + 메타 문자를 사용하여 숫자가 <하나 이상> 연속해서 일치하도록 패턴을 지정해야 함.


import re

text = "The price is $100."
pattern = r"\d+"  # 메타 문자를 사용하여 숫자가 하나 이상 연속해서 일치하도록 패턴을 지정.

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

#add a regular print() function
print("Match:", matches)

Match: 100
Match: ['100']


In [None]:
# 24. \D 예시

import re

text = "The price is $100."
pattern = r"\D"  # 숫자가 아닌 문자(기호 포함)에 일치

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

#add a regular print() function
print("Match:", matches)

Match: T
Match: h
Match: e
Match:  
Match: p
Match: r
Match: i
Match: c
Match: e
Match:  
Match: i
Match: s
Match:  
Match: $
Match: .
Match: ['T', 'h', 'e', ' ', 'p', 'r', 'i', 'c', 'e', ' ', 'i', 's', ' ', '$', '.']


In [None]:
# 25. \s 예시

import re

text = "Hello   World"
pattern = r"\s"  # white space 공백 문자에 일치

matches = re.findall(pattern, text)

for match in matches:
    print("Match:", match)

#add a regular print() function
print("Match:", matches)

Match:  
Match:  
Match:  
Match: [' ', ' ', ' ']


In [None]:
#26.\S 예시
import re

text = "Hello   World"
pattern = r"\S"  # 공백 문자가 아닌 문자에 일치

matches = re.findall(pattern, text)

for match in matches:
    print("Match:", match)

#add a regular print() function
print("Match:", matches)

Match: H
Match: e
Match: l
Match: l
Match: o
Match: W
Match: o
Match: r
Match: l
Match: d
Match: ['H', 'e', 'l', 'l', 'o', 'W', 'o', 'r', 'l', 'd']


In [None]:
#27. \w 예시
import re

text = "Python is _awesome_! It is 100% perfect!" #Get students add 'It is 100% perfect!'
pattern = r"\w"  # any alphanumeric characters & numbers 일치. cf. an underscores included for 'r"\w". However, punctuations such as period, exclamation mark, etc. are NOT included.

matches = re.findall(pattern, text)

for match in matches:
    print("Match:", match)

#add a regular print() function
print("Match:", matches)

Match: P
Match: y
Match: t
Match: h
Match: o
Match: n
Match: i
Match: s
Match: _
Match: a
Match: w
Match: e
Match: s
Match: o
Match: m
Match: e
Match: _
Match: I
Match: t
Match: i
Match: s
Match: 1
Match: 0
Match: 0
Match: p
Match: e
Match: r
Match: f
Match: e
Match: c
Match: t
Match: ['P', 'y', 't', 'h', 'o', 'n', 'i', 's', '_', 'a', 'w', 'e', 's', 'o', 'm', 'e', '_', 'I', 't', 'i', 's', '1', '0', '0', 'p', 'e', 'r', 'f', 'e', 'c', 't']


In [None]:
#28. \w+ 예시

import re

text = "Python is _awesome_! It is 100% perfect" #Get students add 'It is 100% perfect!'
pattern = r"\w+"  #"단어 문자"를 나타냅니다. "단어 문자"는 알파벳 (대문자 및 소문자), 숫자 및 밑줄 (_)을 포함합니다. +: 이것은 하나 이상의 연속된 문자를 나타냅니다. 따라서 \w+는 하나 이상의 연속된 "단어 문자"를 찾는 패턴

matches = re.findall(pattern, text) #"Python", "is", "awesome"는 모두 하나 이상의 연속된 "단어 문자"로 이루어져 있으므로 이 정규표현식 패턴에 일치

for match in matches:
    print("Match:", match)

#add a regular print() function
print("Match:", matches)

Match: Python
Match: is
Match: _awesome_
Match: It
Match: is
Match: 100
Match: perfect
Match: ['Python', 'is', '_awesome_', 'It', 'is', '100', 'perfect']


In [None]:
#29. 백슬래시를 사용하여 특수한 문자 클래스를 생성할 수 있음. 예를 들어, \d는 숫자를 매치하고, \s는 공백 문자를 매치, \w+는 하나 이상의 alphnumeric character including underscores

import re

text = "123 Main Street and 5 Avenue "
pattern = r"\d\s\w+"  # 숫자, 공백, 단어를 매치 (하나의 숫자(\d), 공백 문자(\s) 하나 이상의 문자(\w+)) <참조: w+는 단어를 나타냄. 원래"+"는 이 sign 앞에 것이 1회 이상 반복되는 것을 뜻함>

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

#add a regular print() function
print("Match:", matches)

Match: 3 Main
Match: 5 Avenue
Match: ['3 Main', '5 Avenue']


##<font color ='red'> **🌀🌀🌀Students activity: 모든 자리 숫자가 다 나오게 re 변경해 보세요!**

In [None]:
#29a 💣💊COMPARE 모든 자리 숫자와 이어 나오는 영어 단어가 나오게 re pattern 변경. Instruction: Have students manipulate the patterns of re as \d, \d+, \d+\s, \d+\s\w, \d+\s\w+ in order.

import re

text = "123 Main Street and 5 Avenue "
pattern = r"\d+\s\w"  # 모든 자리 숫자(숫자가 1개 이상), 공백, 단어를 매치 (하나의 숫자(\d), 공백 문자(\s), 하나 이상의 문자(\w+)) <참조: w+는 단어를 나타냄. 원래"+"는 이 sign 앞에 것이 1회 이상 반복되는 것을 뜻함>

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

#add a regular print() function
print("Match:", matches)

Match: 123 M
Match: 5 A
Match: ['123 M', '5 A']


In [None]:
# 29a 💣💊COMPARE

import re

text = "123 _Main_ Street_ and 5th Avenue "
pattern = r"\d+\s\w+"  # 숫자, 공백, 단어를 매치 (하나의 숫자(\d), 공백 문자(\s) 하나 이상의 단어 문자(\w+)) <+ sign 앞에 alphanumeric characters 1회 이상 반복>

matches = re.findall(pattern, text)

for i in matches:
  print("Match:", i)

Match: 123 _Main_


##<font color ='red'> **🌀🌀🌀 집에 가서 더 읽어보세요⤵️**


>
2️⃣ 정규표현식 모듈 함수 ⤵️
정규표현식 모듈에서 지원하는 함수는 아래와 같다.

모듈 함수      설명
re.compile()  정규표현식을 컴파일하는 함수다. 다시 말해, 파이썬에게 전해주는 역할을 한다. 찾고자 하는 패턴이 빈번한 경우에는 미리 컴파일 해놓고 사용하면 속도와 편의성면에서 유리하다. (e.g., >> r = re.compile(“ab{2,4}c”)

  - In Python, compiling a regular expression means converting a regular expression pattern into a regular expression object. This compiled object can then be used for various operations, such as searching, matching, or replacing text in strings more efficiently. Compiling a regular expression pattern can offer performance benefits when you need to use the same pattern multiple times in your code.
    - 파이썬에서 정규 표현식을 컴파일하는 것은 **정규 표현식 패턴을 정규 표현식 객체로 변환**하는 것을 의미한다. 이 컴파일된 객체는 문자열에서 검색, 매칭 또는 텍스트 교체와 같은 다양한 작업에 효율적으로 사용할 수 있다. 정규 표현식 패턴을 컴파일하면 코드에서 동일한 패턴을 여러 번 사용해야 할 때 성능상 이점을 제공할 수 있다.

- re.search()   문자열 전체에 대해서 정규표현식과 매치되는지를 검색
-re.match()   문자열의 처음이 정규표현식과 매치되는지를 검색
-re.split()      정규 표현식을 기준으로 문자열을 분리하여 리스트로 리턴
-re.findall()    문자열에서 정규 표현식과 매치되는 모든 경우의 문자열을 찾아서 리스트로 리턴. 만약 매치되는 문자열이 없다면 빈 리스트가 리턴
-re.finditer()  문자열에서 정규 표현식과 매치되는 모든 경우의 문자열에 대한 이터레이터 객체를 리턴
-re.sub()        문자열에서 정규 표현식과 일치하는 부분에 대해서 다른 문자열로 대체

###<font color = 'green'> **re.compile( ) 예시**

###**regular expression을 사용한 다음 코드의 설명**

shortword = re.compile(r'\W*\b\w{1,3}\b')

  - 이 코드의 목적은 정규 표현식을 사용하여 주어진 텍스트에서 세 글자 이하의 짧은 단어를 찾아내는 것이다.

  - 여기에서 정규 표현식 re.compile(r'\W*\b\w{1,3}\b')은 다음과 같은 요소로 구성된다:

    - re.compile(): 이 부분은 정규 표현식을 컴파일하는 함수를 호출한다. 이 함수를 사용하면 정규 표현식을 미리 컴파일하여 재사용할 수 있다.

    - r'\W*\b\w{1,3}\b': 이 부분이 실제 정규 표현식 패턴을 나타낸다. 여기에서 각 부분을 설명하면 다음과 같다.

      - \W*: \W는 특수 문자가 아닌 문자(영문자, 숫자, 언더스코어)와 일치하는 것을 나타내며, *는 바로 앞의 패턴이 0회 이상 반복됨을 의미한다. 따라서 \W*는 0회 이상의 특수 문자가 있는 부분을 의미한다. 이것은 짧은 단어 앞뒤에 있는 특수 문자나 공백을 처리하기 위한 부분이다.

      - \b: \b는 단어 경계를 나타내며, 단어의 시작 또는 끝과 일치한다.

      - \w{1,3}: \w는 워드 문자(알파벳, 숫자, 언더스코어)와 일치하는 것을 나타낸다. {1,3}는 앞의 패턴인 워드 문자가 1회에서 3회까지 반복됨을 의미한다. 따라서 \w{1,3}는 1~3글자의 단어를 찾는다.

      -\b: 다시 한 번 \b를 사용하여 단어 경계를 나타낸다.

이렇게 정규 표현식을 조합하면 특수 문자와 공백을 포함하지 않고 1~3글자의 단어를 찾아낼 수 있다. 이 코드를 사용하면 텍스트에서 짧은 단어를 필터링하거나 추출하는 데 유용하게 활용할 수 있다.