파이썬에서 정규 표현식(Regular Expressions)은 문자열을 처리할 때 매우 강력하고 유연한 도구

기본 개념:
- 패턴 매칭 (Pattern Matching): 특정 패턴이 문자열에 존재하는지 확인. 예를 들어, 이메일 주소나 전화번호와 같은 특정 형식을 갖는 문자열을 찾을 때 사용

- 메타 문자 (Meta Characters): 정규 표현식의 핵심 요소로, 특별한 의미를 가진 문자들. 예를 들어, ^, $, *, +, ?, {}, [], \, |, () 등이 있습니다.

- 리터럴 (Literal): 일반 텍스트 문자. 특별한 의미 없이 문자 그대로를 의미

re 모듈 : 파이썬은 정규표현식을 지원하기 위해 기본으로 제공
- re.compile의 결과로 리턴되는 객체를 이용하여 그 이후 작업 수행

주요 기능:

- re.match(pattern, string): 문자열 내에서 시작 부분부터 정규표현식과 일치하는지 확인
- re.search(pattern, string): 문자열 전체를 검색하여 주어진 정규표현식과 일치하는 첫번째 위치를 확인

* 위 두개는 한개씩만 찾아줌 다 찾을려면 아래 findall

- re.findall(pattern, string): 문자열 내에서 주어진 패턴과 일치하는 모든 부분을 찾아 리스트로 반환
- re.finditer(): 정규식과 매치되는 모든 문자열을 반복 가능한 객체로 리턴
- re.sub(pattern, repl, string): 문자열 내에서 주어진 패턴과 일치하는 부분을 다른 문자열로 대체
- re.compile(pattern): 주어진 패턴을 컴파일하여 재사용 가능한 정규 표현식 객체를 생성

re.match에서 반환되는 match 객체는 클래스의 인스턴스
- Python의 re 모듈에서 match 객체는 re.Match 클래스의 인스턴스로, 정규 표현식과의 일치에 대한 정보를 담고 있다.

- re.Match 클래스의 인스턴스는 다음과 같은 중요한 메소드와 속성을 가지고 있다:
  - group(): 일치하는 문자열을 반환. group(0) 또는 group()은 전체 일치를 반환
  - start() 및 end(): 일치하는 부분의 시작과 끝 인덱스를 반환.
  - span(): 일치하는 부분의 시작과 끝 인덱스를 포함하는 튜플을 반환.
  
re.match() 함수의 작동원리
- 입력: re.match() 함수는 두 가지 주요 인자를 받는다:
    - pattern: 검사할 정규 표현식 패턴. 이 패턴은 문자열에서 찾고자 하는 문자의 시퀀스를 정의.
    - string: 검사할 전체 문자열입니다.
- 패턴 일치 검사: 함수는 주어진 string의 시작 부분부터 pattern에 정의된 정규 표현식과 일치하는지 확인. 여기서 "시작 부분"이 중요한데, 이는 함수가 문자열의 처음부터 패턴과 일치하는 부분을 찾는다는 것을 의미.

- 결과 반환:
    - 일치하는 경우: 패턴이 문자열의 시작 부분과 일치하는 경우, 함수는 re.Match 객체를 반환. 이 객체는 일치에 대한 상세한 정보(예: 일치하는 문자열, 시작 및 끝 인덱스, 캡처된 그룹 등)를 포함.
    - 일치하지 않는 경우: 패턴이 문자열의 시작 부분과 일치하지 않으면, 함수는 None을 반환.

#### 정규 표현식의 기본 구성 요소
1. 리터럴(Literals): 일반 텍스트 문자(예: a, b, 1, 2)

2. 메타 문자(Meta Characters): 특별한 의미를 지닌 문자들
- `.`: 어떤 한 문자와 일치 (\n 제외)
- ^: 문자열의 시작과 일치
- $: 문자열의 끝과 일치
- *: 0번 이상 반복되는 경우와 일치
- +: 1번 이상 반복되는 경우와 일치
- ?: 0번 또는 1번 등장하는 경우와 일치
- {m,n}: 최소 m번, 최대 n번 반복
- []: 문자 집합 중 하나와 일치 (예: [abc]는 a, b, c 중 하나와 일치)
- |: OR 조건 (예: a|b는 a 또는 b)
- (...): 그룹화

3. 특수 시퀀스(Special Sequences):
- \d: 숫자와 일치
- \D: 숫자가 아닌 공백, 문자, 구두점 등 모든 문자와 일치
- \s: 스페이스(' '), 탭('\t'), 캐리지 리턴('\r'), 뉴라인('\n'), 폼 피드('\f') 등 공백 문자와 일치
- \S: 공백이 아닌 문자, 숫자, 특수 문자 등 모든 것과 일치
- \w: 단어 문자(문자, 숫자, 밑줄)와 일치
- \W: 단어 문자가 아닌 특수 문자, 공백 문자, 구두점 등과 일치

1. `.` (마침표)
- 의미: 어떤 한 문자와 일치(줄바꿈 문자 제외)
- 예시:
  - 패턴: a.b
  - 매칭 예시: "acb", "a*b", "a3b"
  - 불일치 예시: "ab", "a\nb"
2. ^ (캐럿)
- 의미: 문자열의 시작과 일치
- 예시:
  - 패턴: ^Hello
  - 매칭 예시: "Hello world"
  - 불일치 예시: "world, Hello"
3. \$ (달러 기호)
- 의미: 문자열의 끝과 일치
- 예시:
  - 패턴: end$
  - 매칭 예시: "It's the end"
  - 불일치 예시: "end of the story"
4. \* (별표)
- 의미: 앞의 문자가 0번 이상 반복
- 예시:
  - 패턴: a*b
  - 매칭 예시: "b", "ab", "aaab"
  - 불일치 예시: "a"
5. \+ (플러스)
- 의미: 앞의 문자가 1번 이상 반복
- 예시:
  - 패턴: a+b
  - 매칭 예시: "ab", "aaab"
  - 불일치 예시: "b", "a"
6. ? (물음표)
- 의미: 앞의 문자가 0번 또는 1번 등장
- 예시:
  - 패턴: a?b
  - 매칭 예시: "ab", "b"
  - 불일치 예시: "aab"
7. {m,n} (중괄호)
- 의미: 앞의 문자가 최소 m번, 최대 n번 반복
- 예시:
  - 패턴: a{2,3}
  - 매칭 예시: "aa", "aaa"
  - 불일치 예시: "a", "aaaa"
8. `[]` (대괄호)
- 의미: 대괄호 안의 문자 중 하나와 일치
- 예시:
  - 패턴: [abc]
  - 매칭 예시: "a", "b", "c"
  - 불일치 예시: "d"
9. | (파이프)
- 의미: OR 조건
- 예시:
  - 패턴: a|b
  - 매칭 예시: "a", "b"
  - 불일치 예시: "c"
10. (...) (괄호)
- 의미: 그룹화, 캡처 그룹
- 예시:
  - 패턴: (a|b)c
  - 매칭 예시: "ac", "bc"

이스케이프 문자(escape character) vs 이스케이프 시퀀스(escape sequence)

이스케이프 문자
- 이스케이프 문자는 문자열 내에서 특수한 목적을 가지고 사용되는 문자. 대표적인 예로는 백슬래시(\\)가 있다.
- 이 문자는 문자열 내에서 다른 문자와 결합하여 다양한 이스케이프 시퀀스를 형성하거나 특정 문자를 리터럴 값으로 표현하는 데 사용.

이스케이프 시퀀스
- 이스케이프 시퀀스는 이스케이프 문자에 이어지는 하나 또는 그 이상의 문자로 구성된 문자열.
- 이스케이프 시퀀스는 일반적으로 출력할 수 없는 특수한 명령이나 문자를 표현하는 데 사용. 예를 들어, \n은 새 줄(new line)을, \t는 탭(tab)을 의미. 이스케이프 시퀀스는 이스케이프 문자를 통해 특별한 처리를 필요로 하는 여러 문자를 문자열 안에 포함시킬 수 있게 한다.

Python에서 로우 스트링
- 문자열 앞에 r이나 R을 붙여 정의
- 주요 목적은 문자열 내에서 백슬래시(\\)와 같은 이스케이프 문자를 문자 그대로 처리하여, 특수 문자열을 이스케이프하는 복잡성을 줄인다.
- 로우스트링 사용이 필수적인 경우
  - 백슬래시 다음에 특정 문자가 오는 경우: 만약 문자열 내에 백슬래시(\\) 다음에 특별한 의미를 가지는 문자(n, t, b, r, u, x 등)가 오면, 이들은 각각 줄바꿈(\n), 탭(\t), 백스페이스(\b), 캐리지 리턴(\r), 유니코드 문자(\uXXXX), 16진수 문자(\xXX) 등으로 해석. 이런 경우 로우스트링을 사용하지 않으면 문자열이 의도치 않게 변경될 수 있다.

  - 정규 표현식의 메타문자를 이스케이프 해야 할 때: 정규 표현식에서 메타문자(예: *, +, [, ], (, ), {, }, ^, $, ., |, ?, \\ 등)를 리터럴 문자로 사용하고 싶다면, 이스케이프 처리(\\)를 해야 합니다. 이때 로우스트링을 사용하지 않으면, \ 자체를 이스케이프해야 하므로 코드가 복잡해질 수 있다.

In [None]:
import re
match=re.match('apple', 'apple pie is made from apple')
print(match.group())
print(match.group(0))
## print(match.group(1))        ## match로는 처음 매칭되는 것만 찾아주기 때문에 뒤에 나온 apple은 안찾아준다.. 따라서 group도 0 index만 있지 1을 부르면 error

print(match.start())
print(match.end())
print(match.span())

apple
apple
0
5
(0, 5)


In [None]:
### 시작부터 찾기 때문에 아래와 같이 An으로 시작하면 apple을 못찾는다
import re
match=re.match('apple', 'An apple pie is made from apple')
print(match.group())
print(match.group(0))
## print(match.group(1))

print(match.start())
print(match.end())
print(match.span())

AttributeError: 'NoneType' object has no attribute 'group'

In [None]:
# 아래와 같이 search는 string 시작이 아니라도 찾아준다.. 다만 뒤에 있는 문자열은 찾아 주지 않는다.. 단 한개만 return
import re
match=re.search('apple', 'An apple pie is made from apple')
print(match.group())
print(match.group(0))
## print(match.group(1))        ### # search로는 처음 매칭되는 것만 찾아주기 때문에 뒤에 나온 apple은 안찾아준다.. 따라서 group도 0 index만 있지 1을 부르면 error

print(match.start())
print(match.end())
print(match.span())

apple
apple
3
8
(3, 8)


In [None]:
# ()통해 group 별로 볼수 있다.

import re
match=re.match('(apple) pie', 'apple pie is made from apple')
print(match.group())
print(match.group(0))
print(match.group(1))

print(match.start())
print(match.end())
print(match.span())

apple pie
apple pie
apple
0
9
(0, 9)


In [None]:
# ()를 단순 문자열을 detect

import re
p='\\(apple\\) pie'
t='(apple) pie'
match=re.match(p,t)
print(match.group())
print(match.group(0))


print(match.start())
print(match.end())
print(match.span())

(apple) pie
(apple) pie
0
11
(0, 11)


In [None]:
# 로우 스트링 r'...'을 사용하면, 백슬래시를 두번 연속해서 쓰는 것을 피할 수 있어 코드가 더 깔끔해지고 오류 발생 가능성 낮춤
import re
p=r'\(apple\) pie'
t='(apple) pie'
match=re.match(p,t)
print(match.group())
#print(match.group(0))

print(match.start())
print(match.end())
print(match.span())

(apple) pie
0
11
(0, 11)


In [None]:
# ()을 통해 그룹별로 나누어서 패턴 매칭 할 수 있다.

import re
match=re.match('(apple) (pie)', 'apple pie')
print(match.group())
print(match.group(0))
print(match.group(1))
print(match.group(2))

print(match.start())
print(match.end())
print(match.span())

apple pie
apple pie
apple
pie
0
9
(0, 9)


In [3]:
import re
TEST=re.match('(apple) (pie)', 'apple pie')
TEST.end()

9

In [None]:
##### 못찾아준다
import re
p='apple'
t='sweet apple pie'
match=re.match(p,t)
print(match.group())


print(match.start())
print(match.end())
print(match.span())

AttributeError: 'NoneType' object has no attribute 'group'

In [None]:

import re
p='apple'
t='sweet apple pie'
search=re.search(p,t)
print(search.group())
print(search.group(0))

print(search.start())
print(search.end())
print(search.span())

apple
apple
6
11
(6, 11)


In [1]:
import re
# 검색하기
if re.search('apple', 'apple pie'):
  print("Found an apple")
# 모든 일치 항목 찾기
print(re.findall('a', 'ab ac ad'))

# 문자열 대체하기
print(re.sub('blue', 'red', 'blue sky and blue ocean'))

# 패턴 컴파일하기
pattern = re.compile('[a-e]')
print(pattern.findall('hello world'))

Found an apple
['a', 'a', 'a']
red sky and red ocean
['e', 'd']


In [6]:
## 이스케이프 문자의 사용 예
text='He said, "Hello."'
print(text)

## 이스케이프 시퀀스 사용 예
text="First Line\nSecond Line"
print(text)


He said, "Hello."
First Line
Second Line


### 로우 스트링

In [10]:
# 일반 문자열에서 이스케이프 시퀀스 사용
path="C:\\Users\\Username\\Documents"               ### \U (유니 코드 아닌..)와 \D(정수 아닌..)는 특수 시퀀스이므로
print(path)
#path="C:\Users\Username\Documents"                 ### 에러 발생
#print(path)
## 로우 스트링 사용
path=r"C:\Users\Username\Documents"
print(path)


C:\Users\Username\Documents
C:\Users\Username\Documents


In [12]:
pattern =r'(\d{4})-(\d{2})-(\d{2})'
text="오늘의 날짜는 2023-04-30입니다"
match=re.search(pattern,text)
print("전체날짜:", match.group(), match.group(0), match.group(1), match.group(2), match.group(3))

전체날짜: 2023-04-30 2023-04-30 2023 04 30


In [15]:
pattern =r'(\d{4})-(\d{2})-(\d{2})'
text="오늘의 날짜는 2023-04-30입니다"
match=re.search(pattern,text)
print("전체날짜:", match.group(), match.group(0),"\n년:", match.group(1),"\n월:", match.group(2),"\n일:", match.group(3))

전체날짜: 2023-04-30 2023-04-30 
년: 2023 
월: 04 
일: 30


In [16]:
import re
print(re.findall("[ch]*at","The cat in the hat"))

['cat', 'hat']


In [18]:
import re
text='bat, cat, rat, fat'
pattern =r"[bcr]at"
match=re.findall(pattern,text)
print(match)

['bat', 'cat', 'rat']


In [19]:
import re
text='bat, cat, rat, fat'
pattern =r"[^f]at"            ## f가 아닌건
match=re.findall(pattern,text)
print(match)

['bat', 'cat', 'rat']


In [22]:
# Q. 문자열 "123abc456"에서 모든 숫자를 찾으세요
import re
text='123abc456'
pattern ="\d"            ## f가 아닌건
match=re.findall(pattern,text)
print(match)


pattern =r"\d+"            ## f가 아닌건
match=re.findall(pattern,text)
print(match)


['1', '2', '3', '4', '5', '6']
['123', '456']


In [32]:
# Q. 문자열 "Hello My name is John"에서 모든 첫 단어 Hello를 찾으세요
import re
text='Hello My name is John'
pattern ="^Hello"                         ## 얘는 LIST 객체로 반환 되므로 match.group등의 method를 쓸 수가 없다
match=re.findall(pattern,text)
print(match)



pattern ="Hello"            ##
match=re.match(pattern,text)
print(match.group(), match.group(0))

['Hello']
Hello Hello


In [33]:
# Q. 문자열 "The car parked in the garage #42"에서 문장의 마지막 단어 "garage"를 찾으세요
print(re.search('garage', 'The car parked in the garage #42').group())


garage


In [5]:
# Q
import re

pattern = re.compile('[a-z]+')

p1=pattern.search("Banker")
p2=pattern.search("banker")
print(p1.group())
print(p2.group())

anker
banker


In [7]:
# Q 'abc12345Abc' 에서 'A'만 출력하세요
import re

pattern = re.compile('[A-Z]+')

p1=pattern.search("abc12345Abc")

print(p1.group())


A


In [8]:
# Q 'KOREA 아 대한민국' 에서 '아'만 출력하세요
import re

pattern = re.compile('[가-힣]')

p1=pattern.search("KOREA 아 대한민국")

print(p1.group())


아


In [10]:
# a{2}는 a를 2회 반복,
# Q. '122333c'
import re

regex = re.compile('12{2}3{3}c')
text='122333c'
p1=regex.search(text)

print(p1.group())


122333c


In [11]:
# Q. 'aaaaBBBcccDDDeee'
import re

regex = re.compile('a{4}B{3}c{3}D{3}e{3}')
text='aaaaBBBcccDDDeee'
p1=regex.search(text)

print(p1.group())


aaaaBBBcccDDDeee


In [14]:
regex=re.compile('[a-z]+')
result=regex.findall('life is too short')
#result=regex.search('life is too short')      # life만 찾아줌
print(result)

['life', 'is', 'too', 'short']


In [19]:
# finditer는 findall과 동일하지만 list 객체가 아닌 반복 가능한 객체(iterator obj)로

regex=re.compile('[a-z]+')
result=regex.finditer('life is too short')
#result=regex.search('life is too short')      # life만 찾아줌
print(result)

for i in result:print(i.group())

<callable_iterator object at 0x7925db4e33d0>
life
is
too
short


In [20]:
regex=re.compile('[1234]')
result=regex.findall('12234a1234')
print(result)


['1', '2', '2', '3', '4', '1', '2', '3', '4']


In [None]:
import re
text=''
regex = re.compile()
match=regex.findall(text)
print(match.group())


In [27]:
# Task1_0514. BC, CC,ABC가 모두 C가 출력되도록 하는 정규 표현식을 작성
import re
text1='BC'
text2='CC'
text3='ABC'
regex = re.compile("C$")

match1=regex.search(text1)
match2=regex.search(text2)
match3=regex.search(text3)
print(match1)
print(match2)
print(match3)

print(match1.group())
print(match2.group())
print(match3.group())

<re.Match object; span=(1, 2), match='C'>
<re.Match object; span=(1, 2), match='C'>
<re.Match object; span=(2, 3), match='C'>
C
C
C


In [22]:
# Task2_0514. ' Python3 is very good programming language!'에서  ['Python', 'is', 'very', 'good', 'programming', 'language']를 모두 출력하세요.
regex=re.compile('[a-zA-Z]+')
text=' Python3 is very good programming language!'
result=regex.findall(text)
print(result)


['Python', 'is', 'very', 'good', 'programming', 'language']
