파이썬에서 정규 표현식(Regular Expressions)은 문자열을 처리할 때 매우 강력하고 유연한 도구

기본 개념:
- 패턴 매칭 (Pattern Matching): 특정 패턴이 문자열에 존재하는지 확인. 예를 들어, 이메일 주소나 전화번호와 같은 특정 형식을 갖는 문자열을 찾을 때 사용

- 메타 문자 (Meta Characters): 정규 표현식의 핵심 요소로, 특별한 의미를 가진 문자들. 예를 들어, ^, $, *, +, ?, {}, [], \, |, () 등이 있습니다.

- 리터럴 (Literal): 일반 텍스트 문자. 특별한 의미 없이 문자 그대로를 의미

re 모듈 : 파이썬은 정규표현식을 지원하기 위해 기본으로 제공
- re.compile의 결과로 리턴되는 객체를 이용하여 그 이후 작업 수행

주요 기능:
- re.match(pattern, string): 문자열 내에서 시작 부분부터 정규표현식과 일치하는지 확인
- re.search(pattern, string): 문자열 전체를 검색하여 주어진 정규표현식과 일치하는 첫번째 위치를 확인
- re.findall(pattern, string): 문자열 내에서 주어진 패턴과 일치하는 모든 부분을 찾아 리스트로 반환
- re.finditer(): 정규식과 매치되는 모든 문자열을 반복 가능한 객체로 리턴
- re.sub(pattern, repl, string): 문자열 내에서 주어진 패턴과 일치하는 부분을 다른 문자열로 대체
- re.compile(pattern): 주어진 패턴을 컴파일하여 재사용 가능한 정규 표현식 객체를 생성

re.match에서 반환되는 match 객체는 클래스의 인스턴스
- Python의 re 모듈에서 match 객체는 re.Match 클래스의 인스턴스로, 정규 표현식과의 일치에 대한 정보를 담고 있다.

- re.Match 클래스의 인스턴스는 다음과 같은 중요한 메소드와 속성을 가지고 있다:
  - group(): 일치하는 문자열을 반환. group(0) 또는 group()은 전체 일치를 반환
  - start() 및 end(): 일치하는 부분의 시작과 끝 인덱스를 반환.
  - span(): 일치하는 부분의 시작과 끝 인덱스를 포함하는 튜플을 반환.
  
re.match() 함수의 작동원리
- 입력: re.match() 함수는 두 가지 주요 인자를 받는다:
    - pattern: 검사할 정규 표현식 패턴. 이 패턴은 문자열에서 찾고자 하는 문자의 시퀀스를 정의.
    - string: 검사할 전체 문자열입니다.
- 패턴 일치 검사: 함수는 주어진 string의 시작 부분부터 pattern에 정의된 정규 표현식과 일치하는지 확인. 여기서 "시작 부분"이 중요한데, 이는 함수가 문자열의 처음부터 패턴과 일치하는 부분을 찾는다는 것을 의미.

- 결과 반환:
    - 일치하는 경우: 패턴이 문자열의 시작 부분과 일치하는 경우, 함수는 re.Match 객체를 반환. 이 객체는 일치에 대한 상세한 정보(예: 일치하는 문자열, 시작 및 끝 인덱스, 캡처된 그룹 등)를 포함.
    - 일치하지 않는 경우: 패턴이 문자열의 시작 부분과 일치하지 않으면, 함수는 None을 반환.

In [None]:
#Python의 re 모듈에서 match 객체는 re.Match 클래스의 인스턴스로, 정규 표현식과의 일치에 대한 정보를 담고 있다.
import re
pattern = r'\d+'
string = '123 apple'
match = re.match(pattern, string) # match는 re.Match의 인스턴스

if match:
    print(match.group())
    print(match.start())
    print(match.end())
    print(match.span())
else:
    print('No match round')

123
0
3
(0, 3)


In [None]:
import re

# match = re.match('apple','non apple pie') # 시작부분이 일치해야 됨
match = re.match('apple','apple pie apple') # 하나만 카운트 됨
print(match.group())
print(match.group(0))
print(match.start())
print(match.end())
print(match.span())

apple
apple
0
5
(0, 5)


In [None]:
# 괄호는 문자열 'apple'을 '캡처 그룹'으로 지정하는 역할
p = '(apple) pie'
t = 'apple pie'

match = re.match(p,t)
print(match.group())
print(match.group(1))

apple pie
apple


In [None]:
# ()가 단순한 문자열로 매치되길 원할 때는 이스케이프 처리
p = '\\(apple\\) pie'
t = '(apple) pie'

match = re.match(p,t)
print(match.group())

# 로우스트링 r'...'을 사용하면, 백슬래시를 두 번 연속해서 쓰는 것을 피할 수 있어 코드가 더 깔끔해지고 오류 발생 가능성이 낮아짐.
p = r'\(apple\) pie'
t = '(apple) pie'

mtach = re.match(p,t)
print(match.group())

(apple) pie
(apple) pie


In [None]:
# 그룹
import re
p = '(apple) pie'
t = 'apple pie'

match = re.match(p,t)
print(match.group())
print(match.group(0))
print(match.group(1))
# print(match.group(2))

apple pie
apple pie
apple


In [None]:
search = re.search('apple','sweet apple pie')
print(search.group())
print(search.group(0))
print(search.start())
print(search.end())
print(search.span())

apple
apple
6
11
(6, 11)


In [None]:
import re
#검색하기
if re.search('apple','apple pie'):
    print('Found an apple!')

#모든 일치 항목 찾기
print(re.findall('a.','ab ac ad')) #어떤 한문자와 일치
#문자열 대체하기
print(re.sub('blue','red','blue sky and blue ocean'))
#패턴 컴파일하기
pattern = re.compile('[a-e]')
print(pattern.findall('hello world'))

Found an apple!
['ab', 'ac', 'ad']
red sky and red ocean
['e', 'd']


#### 정규 표현식의 기본 구성 요소
1. 리터럴(Literals): 일반 텍스트 문자(예: a, b, 1, 2)

2. 메타 문자(Meta Characters): 특별한 의미를 지닌 문자들
- `.`: 어떤 한 문자와 일치 (\n 제외)
- ^: 문자열의 시작과 일치
- $: 문자열의 끝과 일치
- *: 0번 이상 반복되는 경우와 일치
- +: 1번 이상 반복되는 경우와 일치
- ?: 0번 또는 1번 등장하는 경우와 일치
- {m,n}: 최소 m번, 최대 n번 반복
- []: 문자 집합 중 하나와 일치 (예: [abc]는 a, b, c 중 하나와 일치)
- |: OR 조건 (예: a|b는 a 또는 b)
- (...): 그룹화

3. 특수 시퀀스(Special Sequences):
- \d: 숫자와 일치
- \D: 숫자가 아닌 공백, 문자, 구두점 등 모든 문자와 일치
- \s: 스페이스(' '), 탭('\t'), 캐리지 리턴('\r'), 뉴라인('\n'), 폼 피드('\f') 등 공백 문자와 일치
- \S: 공백이 아닌 문자, 숫자, 특수 문자 등 모든 것과 일치
- \w: 단어 문자(문자, 숫자, 밑줄)와 일치
- \W: 단어 문자가 아닌 특수 문자, 공백 문자, 구두점 등과 일치


1. `.` (마침표)
- 의미: 어떤 한 문자와 일치(줄바꿈 문자 제외)
- 예시:
  - 패턴: a.b
  - 매칭 예시: "acb", "a*b", "a3b"
  - 불일치 예시: "ab", "a\nb"
2. ^ (캐럿)
- 의미: 문자열의 시작과 일치
- 예시:
  - 패턴: ^Hello
  - 매칭 예시: "Hello world"
  - 불일치 예시: "world, Hello"
3. \$ (달러 기호)
- 의미: 문자열의 끝과 일치
- 예시:
  - 패턴: end$
  - 매칭 예시: "It's the end"
  - 불일치 예시: "end of the story"
4. \* (별표)
- 의미: 앞의 문자가 0번 이상 반복
- 예시:
  - 패턴: a*b
  - 매칭 예시: "b", "ab", "aaab"
  - 불일치 예시: "a"
5. \+ (플러스)
- 의미: 앞의 문자가 1번 이상 반복
- 예시:
  - 패턴: a+b
  - 매칭 예시: "ab", "aaab"
  - 불일치 예시: "b", "a"
6. ? (물음표)
- 의미: 앞의 문자가 0번 또는 1번 등장
- 예시:
  - 패턴: a?b
  - 매칭 예시: "ab", "b"
  - 불일치 예시: "aab"
7. {m,n} (중괄호)
- 의미: 앞의 문자가 최소 m번, 최대 n번 반복
- 예시:
  - 패턴: a{2,3}
  - 매칭 예시: "aa", "aaa"
  - 불일치 예시: "a", "aaaa"
8. `[]` (대괄호)
- 의미: 대괄호 안의 문자 중 하나와 일치
- 예시:
  - 패턴: [abc]
  - 매칭 예시: "a", "b", "c"
  - 불일치 예시: "d"
9. | (파이프)
- 의미: OR 조건
- 예시:
  - 패턴: a|b
  - 매칭 예시: "a", "b"
  - 불일치 예시: "c"
10. (...) (괄호)
- 의미: 그룹화, 캡처 그룹
- 예시:
  - 패턴: (a|b)c
  - 매칭 예시: "ac", "bc"

이스케이프 문자(escape character) vs 이스케이프 시퀀스(escape sequence)

이스케이프 문자
- 이스케이프 문자는 문자열 내에서 특수한 목적을 가지고 사용되는 문자. 대표적인 예로는 백슬래시(\\)가 있다.
- 이 문자는 문자열 내에서 다른 문자와 결합하여 다양한 이스케이프 시퀀스를 형성하거나 특정 문자를 리터럴 값으로 표현하는 데 사용.

이스케이프 시퀀스
- 이스케이프 시퀀스는 이스케이프 문자에 이어지는 하나 또는 그 이상의 문자로 구성된 문자열.
- 이스케이프 시퀀스는 일반적으로 출력할 수 없는 특수한 명령이나 문자를 표현하는 데 사용. 예를 들어, \n은 새 줄(new line)을, \t는 탭(tab)을 의미. 이스케이프 시퀀스는 이스케이프 문자를 통해 특별한 처리를 필요로 하는 여러 문자를 문자열 안에 포함시킬 수 있게 한다.

In [None]:
# 이스케이프 문자 사용 예
text = 'He said, \"Hello.\"'
print(text)
#이스케이프 시퀀스 사용 예
text = "First Line\nSecond Line"
print(text)

He said, "Hello."
First Line
Second Line


Python에서 로우 스트링
- 문자열 앞에 r이나 R을 붙여 정의
- 주요 목적은 문자열 내에서 백슬래시(\\)와 같은 이스케이프 문자를 문자 그대로 처리하여, 특수 문자열을 이스케이프하는 복잡성을 줄인다.
- 로우스트링 사용이 필수적인 경우
  - 백슬래시 다음에 특정 문자가 오는 경우: 만약 문자열 내에 백슬래시(\) 다음에 특별한 의미를 가지는 문자(n, t, b, r, u, x 등)가 오면, 이들은 각각 줄바꿈(\n), 탭(\t), 백스페이스(\b), 캐리지 리턴(\r), 유니코드 문자(\uXXXX), 16진수 문자(\xXX) 등으로 해석. 이런 경우 로우스트링을 사용하지 않으면 문자열이 의도치 않게 변경될 수 있다.

  - 정규 표현식의 메타문자를 이스케이프 해야 할 때: 정규 표현식에서 메타문자(예: *, +, [, ], (, ), {, }, ^, $, ., |, ?, \\ 등)를 리터럴 문자로 사용하고 싶다면, 이스케이프 처리(\)를 해야 합니다. 이때 로우스트링을 사용하지 않으면, \ 자체를 이스케이프해야 하므로 코드가 복잡해질 수 있다.

In [None]:
# 일반 문자열에서의 이스케이프 시퀀스 사용
path = 'C:\\User\\Username\\Dcuments'
print(path)

#로우 스트링 사용
raw_path = r'C:\User\Username\Dcuments'
print(raw_path)

C:\User\Username\Dcuments
C:\User\Username\Dcuments


In [None]:
import re
#정규 표현식 패턴 : YYYY-MM-DD 형식의 날짜
pattern = r'(\d{4})-(\d{2})-(\d{2})'
#검색할 문자열
text = "오늘의 날짜는 2023-04-30 입니다."
#패턴검색
match = re.search(pattern, text)
#매치 결과 확인
if match:
    print('전체날짜 : ', match.group()) #전체매치 ('2023-04-30')
    print('연도 : ', match.group(1)) # 첫번째 그룹 '2023'
    print('월 : ', match.group(2)) #두번째 그룹
    print('일 : ',match.group(3)) #세번째 그룹
else:
    print('매치되는 날짜가 없다')

전체날짜 :  2023-04-30
연도 :  2023
월 :  04
일 :  30


In [None]:
#Q. 문자열 'The cat in the hat.'에서 "cat"과 "hat"을 찾으세요.
import re
print(re.findall('[ch]at', 'The cat in the hat.'))

#fat만 빼고 출력
#matches는 리스트 객체.
text = 'bat, cat, rat, fat'
pattern = r'[bcr]at'
matches = re.findall(pattern, text)
print(matches)
#2
pattern2 = r'[^f]at'
matches2 = re.findall(pattern2, text)
print(matches2)


['cat', 'hat']
['bat', 'cat', 'rat']
['bat', 'cat', 'rat']


In [None]:
#Q. 문자열 "123abc456"에서 모든 숫자를 찾으세요.
text = '123abc456'
pattern = r'\d+'
matches = re.findall(pattern,text)
print(matches)

['123', '456']


In [None]:
#Q. 문자열 'Hello,my name is John.'에서 첫 단어 'Hello'를 찾으세요.

text = 'Hello,my name is John.'
pattern = r'^Hello'
match = re.search(pattern, text)
if match:
    print(match.group())

Hello


In [None]:
#Q. 문자열 'The car parked in the garage #42.'에서 문장의 마지막 단어 'garage'를 찾으세요.

print(re.search('garage','The car parked in the garage #42.').group())

garage


In [None]:
# 문자 클래스 : []
pattern = re.compile('[a-z]+')
p1 = pattern.search('Banker')
p2 = pattern.search('banker')
print(p2.group())
print(p2.span())

banker
(0, 6)


In [None]:
#Q. 'abc12345Abc'에서 'A'만 출력하세요.
import re
regex = re.compile('[A-Z]')
text = 'abc12345Abc'
m = regex.search(text)
m.group()

'A'

In [None]:
#Q. 'KOREA 대한민국'에서 '아'만 출력하세요.
import re
regex = re.compile('[가-힣]')
text = 'KOREA 아대한민국'
m = regex.search(text)
m.group()

'아'

In [None]:
#search는 문자열 전체를 검색하여 정규식과 매칭되는 패턴을 찾는다.
#a{2}는 a를 2회 반복하여 사용

#Q. '122333c'를 모두 출력하세요.
import re
regex = re.compile('12{2}3{3}c')
text = '122333c'
m = regex.search(text)
m.group()

'122333c'

In [None]:
#Q. 'aaaaBBBcccDDDeee'을 모두 출력하세요.
import re
regex = re.compile('a{4}B{3}c{3}D{3}e{3}')
text = 'aaaaBBBcccDDDeee'
m = regex.search(text)
m.group()

'aaaaBBBcccDDDeee'

In [None]:
p = re.compile('[a-z]+')
result1 = p.findall('life is too short')
result2 = p.search('life is too short')
print(result1)
print(result2.group())

['life', 'is', 'too', 'short']
life


In [None]:
# finditer는 findall과 동일하지만, 그 결과로 반복 가능한 객체(iterator object)를 돌려준다.
#반복 가능한 객체가 포함하는 각각의 요소는 match 객체이다.
p = re.compile('[a-z]+')
result = p.finditer('life is to short')
# print(result)
# print(list(result))
for r in result:print(r.group())

life
is
to
short


In [None]:
#Q. '1234a1234'에서 '1','2','3','4'를 모두 출력하시오.
import re
regex = re.compile('[1234]')
text = '1234a1234'
regex.findall(text)

['1', '2', '3', '4', '1', '2', '3', '4']

In [None]:
# Task1_0514. BC, CC, ABC 모두 C가 출력되는 정규 표현식을 ( )에 작성하세요.
import re
pattern = re.compile('C')
text1 = 'BC'
text2 = 'CC'
text3 = 'ABC'
p1 = pattern.search(text1)
p2 = pattern.search(text2)
p3 = pattern.search(text3)
print(p1)
print(p2.group())
print(p3.group())
# A
pattern = re.compile('A?C') #A가 없거나 한번
text1 = 'BC'
text2 = 'CC'
text3 = 'ABC'
text4 = 'AAC'
text5 = 'BCC'
p1 = pattern.search(text1)
p2 = pattern.search(text2)
p3 = pattern.search(text3)
p4 = pattern.search(text4)
p5 = pattern.search(text5)
print(p1)
print(p2.group())
print(p3.group())
print(p4)
print(p5)

<re.Match object; span=(1, 2), match='C'>
C
C
<re.Match object; span=(1, 2), match='C'>
C
C
<re.Match object; span=(1, 3), match='AC'>
<re.Match object; span=(1, 2), match='C'>


In [None]:
import re

test = ['AC', 'C', 'ABC', 'AAC', 'BCC']
pattern = re.compile(r'A')

for s in test:
    match = pattern.match(s)
    if match:
        print(f'"{s}" Found a match!')
    else:
        print(f'{s} NO match')

"AC" Found a match!
C NO match
"ABC" Found a match!
"AAC" Found a match!
BCC NO match


In [None]:
# Task2_0514. ' Python3 is very good programming language!'에서  ['Python', 'is', 'very', 'good', 'programming', 'language']를 모두 출력하세요.

import re
regex = re.compile('[A-Z,a-z]+')
result = regex.findall(' Python3 is very good programming language!')
print(result)

['Python', 'is', 'very', 'good', 'programming', 'language']


In [None]:
# Doc(.) 메타 문자는 줄바꿈 문자(\n)을 제외한 모든 문자와 매치
import re
p = re(compile('a+b'))
m1 = p.match('a\nv')
m2 = p.match ('a\nb')
m2 = p.match('acb')
pinrt = 4.
mprint(m1)
print(m1)
print(m2.grorup)
print(m3.grorup)

TypeError: compile() missing required argument 'filename' (pos 2)

In [None]:
# re.DOTALL 옵션은 여러 줄로 이루어진 문자열에서 \n에 상관없이 검색시 사용
p = re.compile('a.b', re.DOTALL)
m = p.match('a\nb\bcd')
print(m)

<re.Match object; span=(0, 3), match='a\nb'>


In [None]:
# Q. text에서 what are you doing?만 출력하세요.
# 줄바꿈 문자가 있는 파일의 모든 범위를 매치하려면 .compile 메소드에 두 번 째 매개변수를 re.DOTALL 지정.
regex = re.compile('.*',re.DOTALL)
mo = regex.search('what are you doing \nit is going to be late for school''\nwe need to hurry up')
print(mo.group())


what are you doing 
it is going to be late for school
we need to hurry up


In [None]:
# re.IGNORECASE 또는 re.I 옵션은 대소문자 구분 없이 매치를 수행시 사용
p = re.compile('[a-z]+')
print(p.match('python'))
print(p.match('Python'))
print(p.match('PYTHON'))

p = re.compile('[a-z]+',re.I)
print(p.match('python'))
print(p.match('Python'))
print(p.match('PYTHON'))

<re.Match object; span=(0, 6), match='python'>
None
None


In [None]:
# Q. text에서 대소문자 구분없이 전체문장 모두 출력하세요.
text = 'Friend fRiend friEnd FRIEND'

p = re.compile(r'Friend',re.I)
print(p.findall(text))

['Friend', 'fRiend', 'friEnd', 'FRIEND']


In [None]:
# python이라는 문자열로 시작하고 그 뒤에 whitespace, 그 뒤에 단어가 오는 경우
import re
p = re.compile('^python\s\w+')

data = """python one
life is too short
python  two
you need python
python three"""
print(p.findall(data))

['python one']


In [None]:
# re.MULTILINE 또느 re.M 옵션으로 ^메타 문자를 각 라인의 처음으로 인식시킴
import re
p = re.compile('^python\s\w+',re.M)

data = """python one
life is too short
python  two
you need python
python three"""
print(p.findall(data))


['python one', 'python three']


In [None]:
# r'\\section'은 로우 스트링을 사용하여 백슬래시를 이스케이프하고, 정규 표현식에서 #section을 리터럴로 매치
# 파이썬 문자열 리터럴 규칙에 의하여 \\이 \으로 변경되어 \section이 전달
p = re.compile(r'\\section')

print(p.match(r'\section'))
p.findall(r'\section\section')

<re.Match object; span=(0, 8), match='\\section'>


['\\section', '\\section']

In [None]:
# 메타 문자
# |(or와 동일한 의미), ^(문자열의 맨처음), $(문자열의 끝과 매치)
import re
p = re.compile('Crow|Servo')
m = p.match('CrowHello')
print(m)
print()
print(re.search('^Life', 'Life is too short'))
print(re.search('^Life', 'My Life'))
print()
print(re.search('Life$', 'Life is too short'))
print(re.search('Life$', 'My Life'))

<re.Match object; span=(0, 4), match='Crow'>

<re.Match object; span=(0, 4), match='Life'>
None

None
<re.Match object; span=(3, 7), match='Life'>


In [None]:
# \b whitespace에 의해 구분
# \B whitespace로 구분된 단어가 아닌 경우에만 매치
p = re.compile(r'\bclass\b')
print(p.search('no class at all'))
print(p.search('the declassified algorithim'))
print()
q = re.compile(r'\Bclass\B')
print(q.search('no class at all'))
print(q.search('the declassified algorithim'))

<re.Match object; span=(3, 8), match='class'>
None

None
<re.Match object; span=(6, 11), match='class'>


#### 그룹화
괄호 ()는 '그룹화'를 위해 사용 : 주로 여러 문자열 패턴을 하나의 단위로 묶거나, 특정 부분의 문자열을 추출하는 데 사용

그룹화의 주요 용도:
- 패턴의 일부를 하나의 단위로 묶기 : 괄호는 여러 문자 또는 문자 집합을 하나의 단위로 묶어서, 그 전체에 대해 수량자 (예: *, +, ?, {m,n} 등)를 적용할 수 있게 한다.

- 텍스트 캡처 : 괄호로 묶인 부분은 '캡처 그룹'이 되어, 매칭된 텍스트를 나중에 사용하기 위해 저장. 예를 들어, re.search()나 re.match() 등의 함수로 매치 객체를 얻은 후, group() 메서드를 사용하여 이 텍스트를 추출할 수 있다.

- 백레퍼런스(backreferences): 정규 표현식 내에서 앞서 정의된 그룹을 다시 참조할 수 있다. 이는 패턴이 이전에 매치된 동일한 텍스트와 일치해야 할 때 유용.

- 비캡처 그룹(non-capturing groups): 때로는 괄호를 사용하여 그룹을 만들지만, 매치된 내용을 나중에 사용하고 싶지 않을 때가 있다. 이 경우 (?:...) 형태를 사용하여 그룹을 만든다. 이 그룹은 매칭에는 영향을 주지만, 결과를 저장하지는 않는다.

- \1은 첫 번째 캡처 그룹 ((\b\w+))을 다시 참조. 이는 앞서 찾은 단어와 정확히 동일한 단어가 연속해서 나타나야 함을 의미
- Capturing Group ((\b\w+)): 괄호는 캡처 그룹을 만든다.이 경우 \b\w+는 단어 경계로 시작하는 하나 이상의 단어 문자로 이루어진 시퀀스를 캡처

In [2]:
# '(ha)+' 패턴은 'ha' 문자열이 하나 이상 반복되는 구문을 찾는다
import re

pattern = r'(ha)+'
text = "hahaha, that's funny!"

match = re.search(pattern, text)

if match:
    print(match.group())


hahaha


In [None]:
import re
pattern = r'(\b\w+)\s+\1'
text = "이것은 중복 중복 단어입니다."
match = re.search(pattern, text)
if match:
    print(match.group())

중복 중복


In [None]:
# 첫 번째 숫자 그룹은 비캡처 그룹 (?:\d{4})로 설정되어 있어, 매치 결과는 저장되지 않고, '윌'과 '일'만 캡처됨.
import re

pattern = r'(?:\d{4})-(\d{2})-(\d{2})'
text = '오늘의 날짜는 2023-04-30 입니다'

match = re.search(pattern, text)

if match:
    print('월: ', match.group(1))
    print('일: ', match.group(1))
    print(match.group())

월:  04
일:  04
2023-04-30


- \1은 첫 번째 캡처 그룹 ((\b\w+))을 다시 참조. 이는 앞서 찾은 단어와 정확히 동일한 단어가 연속해서 나타나야 함을 의미
- Capturing Group ((\b\w+)): 괄호는 캡처 그룹을 만든다.이 경우 \b\w+는 단어 경계로 시작하는 하나 이상의 단어 문자로 이루어진 시퀀스를 캡처

In [None]:
# 그룹이 중첨되어 있는 경우는 바깥쪽부터 시작하여 안쪽으로 들어갈수록 인덱스
# Q. 정규표현식을 사용하여 'park 010-1234-1234'에서 지역코드만 출력하세요.

p = re.compile(r'(\w+)\s+((\d+)[-](\d+)[-](\d+))')
m = p.search('park 010-1234-5678')
print(m.group())
print(m.group(1))
print(m.group(2))
print(m.group(3))
print(m.group(4))
print(m.group(5))

park 010-1234-5678
park
010-1234-5678
010
1234
5678


그룹화 이름
- `(?P<name>\w+)는 하나 이상의 단어 문자(\w+)에 일치하며, 이 부분을 'name'이라는 이름으로 그룹화`
- `\s+는 하나 이상의 공백 문자에 일치합니다.`
- `(?P<phone>(\d+)[-]\d+[-]\d+)는 전화번호 형식에 일치하는 부분을 찾으며, 이 부분을 'phone'이라는 이름으로 그룹화. 여기서 \d+는 하나 이상의 숫자에 일치하고, [-]는 리터럴 대시 문자에 일치.`

In [None]:
# 그룹핑된 문자열에 이름 붙이기 : 확장 구문(?P<name>\w+)
p = re.compile(r'(?P<name>\w+)\s+(\d+)[-]\d+[-]\d+')
m = p.search('park 010-1234-1234')
print(m.group('name'))
print(m.group(1))
print(m.group(2))


park
park
010


In [None]:
# 그룹명을 이용하여 정규식 내에서 재참조
p = re.compile(r'(?P<word>\w+)\s+(?P=word)')
p.search('P{aris in the the spring}').group()

'the the'

정규 표현식에서 전방탐색(Lookahead)
- 특정 패턴 뒤에 오는 문자열을 확인하는 방법으로, 긍정 전방탐색과 부정 전방탐색 두 가지 형태가 있다.
- 이들은 매칭을 결정하는 조건을 설정하지만, 실제로 해당 문자열을 결과에 포함시키지는 않는다. 즉, 문자열을 '소모(consume)'하지 않는다..

- 긍정 전방탐색 (Positive Lookahead)
    - 형식: (?=...)
    - 설명: 긍정 전방탐색은 ...에 해당하는 정규식 패턴이 일치해야 하지만, 해당 부분은 결과에 포함되지 않는다.
    - 예시: X(?=Y)는 'Y'가 뒤따르는 'X'에 일치합니다. 'X'는 결과에 포함되지만, 'Y'는 포함되지 않는다.
- 부정 전방탐색 (Negative Lookahead)
    - 형식: (?!...)
    - 설명: 부정 전방탐색은 ...에 해당하는 정규식 패턴이 일치하지 않아야 합니다. 여기서도 일치하는 부분은 결과에 포함되지 않는다.
    - 예시: X(?!Y)는 'Y'가 뒤따르지 않는 'X'에 일치합니다. 'X'는 결과에 포함되지만, 'Y'는 검사 대상이지 결과에 포함되지 않는다.

In [None]:
# 전방 탐색
# 긍정(?=...) ...에 해당되는 정규식과 매치되어야 하며 조건이 통과되어도 문자열이 소모되지 않음
# 부정(?!...) ...에 해당되는 정규식과 매치되지 않아야 하며 조건이 통과되어도 문자열이 소모되지 않음

p = re.compile(r'.+:')
m = p.search('http://google.com')
print(m.group())
print()
p = re.compile(r'(?<=:).*') # :에 해당되는 문자열이 정규식 엔진에 의해 소모되지 않음.(검색에는 포함되지만 결과에는 저장)
m = p.search('http://google.com')
print(m.group())
print()



http:

//google.com



긍정적 후방 탐색 (?<=B)A 'A'앞에 'B'가 있는 경우에만 A에 매칭

긍정적 후방 탐색은 현재 위치의 앞쪽에 일치하는 패턴이 있을 경우에만 일치를 성공시키는 조건. 이 탐색은 패턴을 찾지만, 결과에는 포함시키지 않는다. 즉, @ 기호는 포함되지 않지만, 이 기호 뒤에 오는 특정 패턴을 검사하는 데 사용.

부정적 후방 탐색 (?<!B)A  'A' 앞에 'B'가 없는 경우에만 'A'에 매칭

In [None]:
# Q. 다음 텍스트에서 'com'으로 끝나는 이메일 주소의 도메인 부분만 추출하세요.(예. 'example@domain.com'에서 'domain')

# (?<=@): 이부분은 후방 금정 탐색(lookbehind assertion). @ 기호 바로 뒤의 문자들만 검사하도록 지정
text2 = 'Contact us at support@company.com, sales@enterprise.com or info@orgnization.org.'
pattern2 = r'(?<=@)[a-zA-z0-9,-]+(?=\.com)'
matches2 = re.findall(pattern2, text2)
print(matches2)

(?<=@)[a-zA-z0-9,-]+(?=\.com)
['company', 'enterprise']


Greedy (탐욕스러운) 매칭
- Greedy 매칭은 가능한 한 많은 문자와 일치하려고 한다. 즉, 주어진 패턴과 일치하는 문자열 중 가장 긴 것을 찾는다.
- 예를 들어, 정규 표현식 a.*b는 a로 시작하고 b로 끝나는 가장 긴 문자열 부분과 일치한다.

Non-Greedy (비탐욕스러운) 매칭
- Non-Greedy 매칭은 가능한 한 적은 문자와 일치하려고 한다. 즉, 주어진 패턴과 일치하는 문자열 중 가장 짧은 것을 찾는다.
- 예를 들어, 정규 표현식 a.*?b는 a로 시작하고 b로 끝나는 가장 짧은 문자열 부분과 일치합니다.

In [None]:
import re

text = "<div>Hello</div>World</div>"
pattern = r'<div>.*</div>'
matches = re.findall(pattern, text)
print(matches)

['<div>Hello</div>World</div>']


In [None]:
pattern_ng = r'<div>.*?</div>'
matches_ng = re.findall(pattern_ng, text)
print(matches_ng)

['<div>Hello</div>']


In [None]:
# Task1_0516. '199305, 1923A, a93247'에서 '199305'만 출력하세요.
import re

pattern = r'\d+'
string = '199305, 1923A, a93247'
match = re.match(pattern, string)

print(match.group())

#2
text2 = '199305, 1923A, a93247'
pattern2 = r'^99food234'
match2 = re.search(pattern, text)
if match2:
    print(match2.group())

In [None]:
#%% Task2_0516. '99food234, a93456\n, a9356ba '에서 '99food234'만 출력하세요.
text = '99food234, a93456\n, a9356ba '
pattern = r'^99food234'
match = re.search(pattern, text)
if match:
    print(match.group())

In [None]:
# %%Task3_0516. 주어진 문자열이 유효한 이메일 주소인지 확인
# "example@example.com"
import re
text = 'example1@example2.com'
pattern =r'^[a-zA-Z0-9]+@[a-zA-Z0-9]+\.com$'
matches = re.findall(pattern, text)
if matches:
    print(f'{matches}\n유효한 이메일 주소')
else:
    print('유효하지 않습니다.')

In [None]:
#%%Task4_0516. 주어진 문자열이 올바른 전화번호 형식(010-0000-0000)인지 확인하세요.
import re
numbers = "010-1234-5678"
pattern = r'(010)-(\d{4})-(\d{4})$'

matches = re.findall(pattern, numbers)

if matches:
    print(f'{matches} : 유효한 전화번호')
else:
    print(f'{matches} : 유효하지 않습니다.')

In [None]:
#%%Task5_0516. 문자열에서 모든 HTML 태그를 찾아 리스트로 반환하세요.
import re

text = "<html><head></head><body></body></html>"
pattern = r'<html.*</html>'
matches = re.findall(pattern, text)
print(matches)

In [None]:
#%%Task6_0516. 주어진 비밀번호가 최소 8자, 대문자, 소문자, 숫자, 특수문자를 포함하는지 확인하세요.

password = "Aa1!aaaa"
pattern = r'[\!a-zA-Z0-9]'
if len(password) > 7:
    match = re.findall(pattern, password)
    # match = re.match(pattern, password)
    if match :
        print('비밀번호 사용가능')
    else:
        print('비밀번호 사용불가')
else:
    print('비밀번호 사용불가')

In [None]:
#%%Task7_0516. 주어진 문자열이 유효한 URL인지 확인하세요.
"https://www.example.com"


In [1]:
#%%Task8_0516. 주어진 문자열이 유효한 주민등록번호(######-#######) 형식인지 확인하세요.
import re
numbers = "900101-1234567"
pattern = r'(\d{6})-(\d{7}))$'

matches = re.findall(pattern, numbers)

if matches:
    print(f'{matches} : 유효한 주민등록번호')
else:
    print(f'{matches} : 유효하지 않습니다.')


error: unbalanced parenthesis at position 15

In [None]:
#%%Task9_0516. 주어진 문자열이 유효한 IPv4 주소인지 확인하세요.
import re
numbers = "192.168.1.1"
pattern = r'^(192)+.[0-9]+.[0-9])+.[0-9])$'

matches = re.findall(pattern, numbers)

if matches:
    print(f'{matches} : 유효한 IP')
else:
    print(f'{matches} : 유효하지 않습니다.')

error: unbalanced parenthesis at position 20

In [None]:
#%%Task10_0516. 주어진 파일 이름에서 확장자가 .jpg, .jpeg, 또는 .png인지 확인하세요.
"image.jpg"



In [None]:
#%%Task11_0516. 문자열에서 Python 주석을 제거하세요.
code_with_comments = """
# This is a whole line comment
print("Hello, world!")  # This is a side comment
# Another comment
print("Python is fun!") # Another side comment
"""

In [None]:
#%%Task12_0516. 지정된 HTML 문자열 내에서 이메일 주소를 찾아서 그 결과를 출력
html = """
<ul>
  <li>Email: example@example.com</li>
  <li>Contact: contact@sample.org</li>
</ul>
"""