### Regular Expression (re) 정규표현식
- 파이썬의 정규표현식: 특정한 규칙을 가진 문자열의 집합을 표현하는데 사용하는 형식 언어
- 문자열에서 특정한 패턴을 검색하거나 매치하는데 사용되는 문자열 검색과 치환을 위해 사용되는 기술
- 문자열에서 패턴 정의, 그 패턴과 일치하는 부분을 찾거나 변경 가능
- 파이썬 프로그래밍의 내장 모듈, 복잡한 문자열 처리 잡업에 유용
- 메타 문자(Meta Characters(특수문자)): 문자가 가진 원래의 의미가 아닌 특별한 용도로 사용되는 문자, 정규표현식에서 사용되는 메타문자는 '. ^ $ * + ? \ | ( ) { } [ ]'가 있음

### re
- Python의 내장 모듈, 정규표현식을 지원하는 라이브러리
- 정규표현식은 문자열 패턴을 검색, 매치, 치환하거나, 조작하는데 사용
- re모듈: 문자열을 다룰 때 패턴 매칭과 관련된 작업을 수행하는데 도움
- 텍스트 데이터에서 원하는 패턴을 검색하거나 추출 가능

### 일반적인 문자

- \n: 새 줄 문자 (문자열에서 새 줄을 시작하는데 사용)
- \t: 탭 문자 (가로 탭을 문자열에 삽입할 때 사용)
- \ ': 단일 따옴표 (단일 따옴표로 둘러싸인 문자열 내에 단일 따옴표를 포함하는데 사용)
- \ ": 큰 따옴표 (큰 따옴표로 둘러싸인 문자열 내에 큰 따옴표를 포함할 때 사용)
- \r: 캐리지 리턴 (줄의 처음으로 커서를 이동하는데 사용)
- \b: 뒷공간 문자 (이전 문자를 지우는데 사용)

### 정규표현식 문법 (meta character)
- .: 한개의 임의의 문자 (줄바꿈 문자인 \n은 제외)
- ?: 앞의 문자가 존재할 수도 있고, 존재하지 않을 수도 있음 (문자가 0개 또는 1개)
- *: 앞의 문자가 무한개로 존재할 수도 있고, 존재하지 않을 수도 있음 (문자가 0개 이상)
- +: 앞의 문자가 최소 한개 이상 존재 (문자가 1개 이상)
- ^: 뒤의 문자열로 문자열이 시작
- $: 앞의 문자열로 문자열이 끝남


정규표현식 패턴은 문자열 형태로 표현함.


접두어 r은 RAW 문자열을 나타내며, 이스케이프 문자(e.g., \n, \t, \)를 해석하지 않고 그대로 문자열을 표현함.

### 1번 예시

In [None]:
# 1. mate character Period .: 한개의 임의의 문자

import re

text= "cat, hat, bat, sat, mat, comat, unbated"
pattern= r".at"  # text 중 pattern의 'at'으로 끝나는 세글자 단어를 찾음

# re.findall(): 'at'으로 끝나는 세글자 단어를 찾아 리스트로 반환
matches= re.findall(pattern, text)

for match in matches:
  print("Match:", match)

Match: cat
Match: hat
Match: bat
Match: sat
Match: mat
Match: mat
Match: bat


In [None]:
# 1a
text2= "at, cat, at, hat, bat, sat, mat, combat, unbated"

matches= re.findall(pattern, text2)  # 1과 동일한 패턴 사용

for i in matches:
  print("match:", i)

match: cat
match:  at
match: hat
match: bat
match: sat
match: mat
match: bat
match: bat


### 2번 예시

In [None]:
# 2. meta character Question mark ?: ? 앞의 문자가 0번 혹은 1번 나타날 수 있음

import re

text= "color or colour?"
pattern= r"colou?r"  # u는 0번 또는 1번 나타날 수 있음

matches= re.findall(pattern, text)

for i in matches:
  print("Match:", i)

Match: color
Match: colour


In [None]:
# 2a
text2= "color, colour, or coloer?"
pattern= r"colou?r"

matches= re.findall(pattern, text2)

for i in matches:
  print("Match:", i)

Match: color
Match: colour


# 3번 예시

In [None]:
# 3. meta character Asterisk *: 앞의 요소가 0회 이상 나타날 수 있음

import re

text= "ab, ac, abc, abbc, aabbc, abbbbbbbbbbbbbbc"
pattern = r"ab*c"   # b가 0회 이상 반복 가능

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

Match: ac
Match: abc
Match: abbc
Match: abbc
Match: abbbbbbbbbbbbbbc


### 4번 예시

In [None]:
# 4. meta character $: 문자열의 끝을 나타내는 메타 문자

import re

text= "Python is a popular programming language. Python is versatile."
pattern= r'versatile.$'   # 'versatile'이 끝에 오는 경우를 찾음

matches= re.findall(pattern, text)

for i in matches:
  print("Match:", i)

Match: versatile.


In [None]:
# 4a

import re

text= "Python is a popular programming language. Python is versatile."
pattern= r'tile.$'

matches= re.findall(pattern, text)

for i in matches:
  print("Match:", i)

Match: tile.


In [None]:
# 4b

import re

text= "Python is a popular programming language. Python is versatile."
pattern= r'language.$'

matches= re.findall(pattern, text)

# 'language.'는 문자열의 끝이 아니므로 출력값이 안나옴
for i in matches:
  print("Match:", i)

### 5번 예시

In [None]:
# 5. meta character ^: 패턴의 시작 부분을 나타냄

import re

text = "Python is a programming language. Python is versatile. We all love Python."
pattern = r'^Python'   # Python으로 시작하는 경우를 찾음

matches= re.findall(pattern, text)

for i in matches:
  print("Match:", i)

Match: Python


In [None]:
# 5a

import re

text = "Python is a programming language. Python is versatile. We all love Python."
pattern = r'^is'

matches = re.findall(pattern, text)

# 'is'는 문자열이 시작하는 경우가 아니므로 출력값이 안나옴
for i in matches:
    print("Match:", i)

### 6번 예시

In [None]:
# 6. meta character +: 앞의 요소가 1회 이상 나타나야 함을 나타냄

import re

text = "cat, caat, caaat, sat, set"
pattern = r"ca+t"  # c 다음 문자 a가 1회 이상 반복되어야 함

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

Match: cat
Match: caat
Match: caaat


In [None]:
# 6a

import re

text = "cat, caat, caaat, sat, set"
pattern = r"a+t"  # a가 1회 이상 반복되어야 함

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

Match: at
Match: aat
Match: aaat
Match: at


### 7번 예시

In [None]:
# 7.

import re

text = "123 4567 89 12345"
pattern = r"\d{3}"   # '\d: 숫자를 나타냄, {3}: 3개의 연속된 숫자를 찾음

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

Match: 123
Match: 456
Match: 123


### 8번 예시

In [None]:
# 8.

import re

text = "The numbers are 12345678999, 12345, 987, and 56789."
pattern = r"\d{3,5}"   # 3자리에서 5자리까지의 연속된 숫자를 찾음

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

Match: 12345
Match: 67899
Match: 12345
Match: 987
Match: 56789


### 9번 예시

In [None]:
# 9.

import re

text = "The word 'hello' is repeated many times: hello hello hello hello hello"
pattern= r"(hello ){2,}"   # hello가 최소 2번 이상 반복된 경우를 찾음
# 여기서는 hellohellohellohellohello라는 패턴이 1 번 있어서 hello가 출력됨

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

Match: hello 


In [None]:
# 9a

import re

text = "The word 'hello' is repeated many times: hellohellohellohellohello hellohellohellohellohello hellohellohellohellohello"
pattern = r"(hello){2,}"
# 여기서는 hellohellohellohellohello라는 패턴이 3 번 있어서 hello가 3회 출력됨

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

Match: hello
Match: hello
Match: hello


### 10번 예시

In [None]:
# 10. \d: 대괄호 안의 문자들 중 한개의 숫자와 일치

import re

text= "The price is $100."
pattern= r"[\d]"   # 숫자를 찾음

matches= re.findall(pattern, text)

for i in matches:
  print("Match:", i)

Match: 1
Match: 0
Match: 0


In [None]:
# 10a

import re

text = "The price is $100."
pattern = r"[e\d]"   # e와 숫자를 찾음

matches = re.findall(pattern, text)

for i in matches:
    print("Match:", i)

Match: e
Match: e
Match: 1
Match: 0
Match: 0


### 11번 예시

In [None]:
# 11. [amk]: 대괄호 안의 문자들 중 한개의 문자와 매치

import re

text= "I have an apple and a monkey in the kitchen."
pattern= r"[amk]"   # a, m, k 중 하나의 문자를 찾음

matches= re.findall(pattern, text)

for i in matches:
  print("Match:", i)

Match: a
Match: a
Match: a
Match: a
Match: a
Match: m
Match: k
Match: k


### 12번 예시

In [None]:
# 12. [a-z]: a부터 z까지의 모든 소문자 글자와 일치

import re

text= "The quick brown fox jumps over the lazy dog."
pattern= r"[a-z]"   # 소문자 알파벳에 일치하는 경우 찾음

matches= re.findall(pattern, text)

for i in matches:
  print("Match:", i)

Match: h
Match: e
Match: q
Match: u
Match: i
Match: c
Match: k
Match: b
Match: r
Match: o
Match: w
Match: n
Match: f
Match: o
Match: x
Match: j
Match: u
Match: m
Match: p
Match: s
Match: o
Match: v
Match: e
Match: r
Match: t
Match: h
Match: e
Match: l
Match: a
Match: z
Match: y
Match: d
Match: o
Match: g


### 13번 예시

In [None]:
# 13. [A-Z]: a부터 z까지의 모든 대문자 글자와 일치

import re

text= "\"The book titles are 'The Aesop for Children', 'Harry Potter', and 'Pride and Prejudice',\" said Amelia."
pattern= r"[A-Z]"   # 대문자 알파벳에 일치하는 경우 찾음

matches= re.findall(pattern, text)

for i in matches:
  print("Match:", i)

Match: T
Match: T
Match: A
Match: C
Match: H
Match: P
Match: P
Match: P
Match: A


### 14번 예시

In [None]:
# 14. [a-zA-Z]: 알파벳 대소문자 구분없이 모든 문자와 일치

import re

text= "New York is a wonderful city."
pattern= r"[a-zA-Z]"

matches= re.findall(pattern, text)

for i in matches:
  print("Match:", i)

Match: N
Match: e
Match: w
Match: Y
Match: o
Match: r
Match: k
Match: i
Match: s
Match: a
Match: w
Match: o
Match: n
Match: d
Match: e
Match: r
Match: f
Match: u
Match: l
Match: c
Match: i
Match: t
Match: y


### 15번 예시

In [None]:
# 15. [0-9]: 모든 정수와 일치

import re

text= "A total of 149 episodes of The Aesop for Children."
pattern= r"[0-9]"   # 숫자를 찾을 때 사용

matches= re.findall(pattern, text)

for i in matches:
  print("Match:", i)

Match: 1
Match: 4
Match: 9


In [None]:
# 15a

import re

text = "In mathematics, 3.14 is a decimal approximation of the mathematical constant π (pi)."
pattern = r"[0-9]"

matches= re.findall(pattern, text)

for i in matches:
  print("Match:", i)

Match: 3
Match: 1
Match: 4


### 16번 예시

In [None]:
# 16. [a-zA-Z0-9]: 대소문자 구분없이 알파벳과 숫자를 포함하는 모든 문자와 일치

import re

text= "24 Hours a Day, 7 Days a Week, & 365 Days a Year!"
pattern= r"[a-zA-Z0-9]"

matches= re.findall(pattern, text)

for i in matches:
  print("Match:", i)

Match: 2
Match: 4
Match: H
Match: o
Match: u
Match: r
Match: s
Match: a
Match: D
Match: a
Match: y
Match: 7
Match: D
Match: a
Match: y
Match: s
Match: a
Match: W
Match: e
Match: e
Match: k
Match: 3
Match: 6
Match: 5
Match: D
Match: a
Match: y
Match: s
Match: a
Match: Y
Match: e
Match: a
Match: r


### 17번 예시

In [None]:
# 17. [^a-zA-Z0-9]: 대소문자 및 숫자를 제외한 모든 문자와 일치
import re

text= "24 Hours a Day,\n7 Days a Week,\n $ \t 365 Days a Year!"
pattern= r"[^a-zA-Z0-9]"

matches= re.findall(pattern, text)

for i in matches:
  print("Match:", i)

Match:  
Match:  
Match:  
Match: ,
Match: 

Match:  
Match:  
Match:  
Match: ,
Match: 

Match:  
Match: $
Match:  
Match: 	
Match:  
Match:  
Match:  
Match:  
Match: !


### 19번 예시

In [None]:
# 19. |: or과 일치

import re

text= "The color can be either red, green, or blue."
pattern= r"(red|blue)"   # red 또는 blue에 일치하는 경우 찾음

matches= re.findall(pattern, text)

for i in matches:
  print("Match:", i)

Match: red
Match: blue


### 20번 예시

In [None]:
from io import TextIOBase
# 20.

import re

text = "It cost me $715.45 and more."

## pattern1
pattern1 = r"more.$"   # more이 끝에 오는 경우를 찾음

matches1 = re.findall(pattern1, text)

for i in matches1:
  print("Match1:", i)

## pattern2
pattern2 = r"\$*7"

matches2 = re.findall(pattern2, text)

for i in matches2:
  print("Match2", i)

Match1: more.
Match2 $7


### More on RE
- \ : 역 슬래쉬 문자 자체를 의미 (이스케이프 문자로 사용)
- \d: 모든 숫자를 의미 ([0-9]와 의미 동일)
- \D: 숫자를 제외한 모든 문자 의미 ([^0-9]와 의미 동일)
- \s: 공백을 의미 ([\t\n\r\f\v]와 의미 동일)
- \S: 공백을 제외한 문자를 의미 ([^ \t\n\r\f\v]와 의미 동일)
- \w: 문자 또는 숫자를 의미 ([a-zA-Z0-9]와 의미 동일)
- \W: 문자 또는 숫자가 아닌 문자를 의미 ([^a-zA-Z0-9]와 의미 동일)

정규 표현식(re)에서 \는 이스케이프 문자로 사용.


메타문자 자체를 일반 문자로 인식하도록 함

### 21번 예시

In [None]:
# 21. \: 특수문자 매칭

import re

text= "Hello, world.\n This is test #5."
pattern= r"\."   # .인 경우를 찾음

matches= re.findall(pattern, text)

for i in matches:
  print("Match:", i)

Match: .
Match: .


In [None]:
# 21a

import re

text= "Hello, world.\n This is test #5."
pattern= r"."  # .은 어떤 문자든 하나인 경우를 찾음

matches= re.findall(pattern, text)

for i in matches:
  print("Match:", i)

Match: H
Match: e
Match: l
Match: l
Match: o
Match: ,
Match:  
Match: w
Match: o
Match: r
Match: l
Match: d
Match: .
Match:  
Match: T
Match: h
Match: i
Match: s
Match:  
Match: i
Match: s
Match:  
Match: t
Match: e
Match: s
Match: t
Match:  
Match: #
Match: 5
Match: .


### 22번 예시

In [None]:
# 22. \를 사용하여 특수문자 매칭

import re

text= "The price is $100."
pattern= r"\$"   # \를 사용하여 $ 매칭

matches= re.findall(pattern, text)

for i in matches:
  print("Match:", i)

Match: $


### 23번 예시

In [None]:
# 23. \d 예시

import re

text= "The price is $100."
pattern= r"\d"   # 각각의 숫자에 일치

matches= re.findall(pattern, text)

for i in matches:
  print("Match:", i)

Match: 1
Match: 0
Match: 0


In [None]:
# 23a.
# 100이라는 문자열 전체에 대한 하나의 일치를 원할 경우

import re

text= "The price is $100."
pattern= r"\d+"   # 각각의 숫자가 연속해서 일치하도록 패턴 지정

matches= re.findall(pattern, text)

for i in matches:
  print("Match:", i)

Match: 100


### 24번 예시

In [None]:
# 24. \D 예시

import re

text= "The price is $100."
pattern= r"\D"   # 숫자가 아닌 문자, 기호에 일치

matches= re.findall(pattern, text)

for i in matches:
  print("Match:", i)

Match: T
Match: h
Match: e
Match:  
Match: p
Match: r
Match: i
Match: c
Match: e
Match:  
Match: i
Match: s
Match:  
Match: $
Match: .


### 25번 예시

In [None]:
# 25. \s 예시

import re

text= "Hello   World"
pattern= r"\s"   # 공백문자에 일치

matches= re.findall(pattern, text)

for match in matches:
  print("Match:", match)

Match:  
Match:  
Match:  


### 26번 예시

In [None]:
# 26. \S 예시

import re

text= "Hello   World"
pattern= r"\S"   # 공백문자가 아닌 문자에 일치

matches= re.findall(pattern, text)

for match in matches:
  print("Match:", match)

Match: H
Match: e
Match: l
Match: l
Match: o
Match: W
Match: o
Match: r
Match: l
Match: d


### 27번 예시

In [None]:
# 27. \w 예시

import re

text= "Python is _awesome_!"
pattern= r"\w"   # 문자 또는 숫자에 일치

matches= re.findall(pattern, text)

for match in matches:
  print("Match:", match)

Match: P
Match: y
Match: t
Match: h
Match: o
Match: n
Match: i
Match: s
Match: _
Match: a
Match: w
Match: e
Match: s
Match: o
Match: m
Match: e
Match: _


### 28번 예시

In [None]:
# 28. \w+

import re

text= "Python is awesome!"
pattern= r"\w+"   # 대소문자, 숫자, 밑줄 포함 하나 이상의 연속된 경우를 찾음

matches= re.findall(pattern, text)

for match in matches:
   print("Match:", match)

Match: Python
Match: is
Match: awesome


### 29번 예시

In [None]:
# 29. \를 사용하여 특수한 문자 클래스 생성 가능

import re

text= "123 Main Street and 5 Avenue "
pattern= r"\d\s\w+"   # 하나의 숫자, 하나의 공백, 하나 이상의 단어 매칭

matches= re.findall(pattern, text)

for i in matches:
  print("Match:", i)

Match: 3 Main
Match: 5 Avenue


In [None]:
# 29a

import re

text= "123 _Main_ Street_ and 5th Avenue "
pattern= r"\d\s\w+"   # 하나의 숫자, 하나의 공백, 하나 이상의 단어를 매치

matches= re.findall(pattern, text)

for i in matches:
  print("Match:", i)

Match: 3 _Main_


re.compile() 예시


### regular expression을 사용한 다음 코드의 설명
- 정규 표현식을 사용하여  주어진 텍스트에서 세글자 이하의 짧은 단어를 찾아내는것
 - re.compile(): 정규표현식을 컴파일하는 함수 호출, 정규표현식을 미리 컴파일하여 재사용 가능


정규표현식을 조합하면 특수문자와 공백을 포함하지 않고 1~3글자의 단어를 찾아낼 수 있음

텍스트에서 짧은 단어를 필터링하거나 추출하는데 유용하게 활용 가능