파이썬에서 정규 표현식(Regular Expressions)은 문자열을 처리할 때 매우 강력하고 유연한 도구

기본 개념:
- 패턴 매칭 (Pattern Matching): 특정 패턴이 문자열에 존재하는지 확인. 예를 들어, 이메일 주소나 전화번호와 같은 특정 형식을 갖는 문자열을 찾을 때 사용

- 메타 문자 (Meta Characters): 정규 표현식의 핵심 요소로, 특별한 의미를 가진 문자들. 예를 들어, ^, $, *, +, ?, {}, [], \, |, () 등이 있습니다.

- 리터럴 (Literal): 일반 텍스트 문자. 특별한 의미 없이 문자 그대로를 의미

re 모듈 : 파이썬은 정규표현식을 지원하기 위해 기본으로 제공
- re.compile의 결과로 리턴되는 객체를 이용하여 그 이후 작업 수행

주요 기능:
- re.match(pattern, string): 문자열 내에서 시작 부분부터 정규표현식과 일치하는지 확인
- re.search(pattern, string): 문자열 전체를 검색하여 주어진 정규표현식과 일치하는 첫번째 위치를 확인
- re.findall(pattern, string): 문자열 내에서 주어진 패턴과 일치하는 모든 부분을 찾아 리스트로 반환
- re.finditer(): 정규식과 매치되는 모든 문자열을 반복 가능한 객체로 리턴
- re.sub(pattern, repl, string): 문자열 내에서 주어진 패턴과 일치하는 부분을 다른 문자열로 대체
- re.compile(pattern): 주어진 패턴을 컴파일하여 재사용 가능한 정규 표현식 객체를 생성

re.match에서 반환되는 match 객체는 클래스의 인스턴스
- Python의 re 모듈에서 match 객체는 re.Match 클래스의 인스턴스로, 정규 표현식과의 일치에 대한 정보를 담고 있다.

- re.Match 클래스의 인스턴스는 다음과 같은 중요한 메소드와 속성을 가지고 있다:
  - group(): 일치하는 문자열을 반환. group(0) 또는 group()은 전체 일치를 반환
  - start() 및 end(): 일치하는 부분의 시작과 끝 인덱스를 반환.
  - span(): 일치하는 부분의 시작과 끝 인덱스를 포함하는 튜플을 반환.
  
re.match() 함수의 작동원리
- 입력: re.match() 함수는 두 가지 주요 인자를 받는다:
    - pattern: 검사할 정규 표현식 패턴. 이 패턴은 문자열에서 찾고자 하는 문자의 시퀀스를 정의.
    - string: 검사할 전체 문자열입니다.
- 패턴 일치 검사: 함수는 주어진 string의 시작 부분부터 pattern에 정의된 정규 표현식과 일치하는지 확인. 여기서 "시작 부분"이 중요한데, 이는 함수가 문자열의 처음부터 패턴과 일치하는 부분을 찾는다는 것을 의미.

- 결과 반환:
    - 일치하는 경우: 패턴이 문자열의 시작 부분과 일치하는 경우, 함수는 re.Match 객체를 반환. 이 객체는 일치에 대한 상세한 정보(예: 일치하는 문자열, 시작 및 끝 인덱스, 캡처된 그룹 등)를 포함.
    - 일치하지 않는 경우: 패턴이 문자열의 시작 부분과 일치하지 않으면, 함수는 None을 반환.

In [None]:
import re

pattern = r'\d+'
string = '123 apple'
match = re.match(pattern, string) # match는 re.Match의 인스턴스
if match:
    print(match.group())
    print(match.start())
    print(match.end())
    print(match.span())
else:
    print('No match found')

123
0
3
(0, 3)


In [None]:
import re

match = re.match('apple','apple pie apple')
print(match.group())
print(match.group(0))
print(match.start())
print(match.end())
print(match.span())

apple
apple
0
5
(0, 5)


In [None]:
# 괄호는 문자열 "apple"을 "캡처 그룹"으로 지정하는 역할
p = '(apple) pie'
t = 'apple pie'

match = re.match(p,t)
print(match.group())
print(match.group(1))

apple pie
apple


In [None]:
# ()가 단순한 문자열로 매치되길 원할 때는 이스케이프 처리
p = '\\(apple\\) pie'
t = '(apple) pie'

match = re.match(p,t)
print(match.group())

(apple) pie


In [None]:
# 로우스트링 r'...'을 사용하면, 백슬래시를 두 번 연속해서 쓰는 것을 피할 수 있어 코드가 더 깔끔해지고
# 오류 발생 가능성이 줄어든다.
p = r'\(apple\) pie'
t = '(apple) pie'

match = re.match(p,t)
print(match.group())

(apple) pie


In [None]:
# 프로그래밍에서 \b는 백스페이스인 반면 정규표현식에서의 \b는 단어 경계를 나타내는 메타 문자로 사용
print("AB\bC")

ABC


In [None]:
import re

# 정규 표현식에서 \b는 백스페이스를 의미할 수 있습니다.
pattern = "\bHello\b"  # 백스페이스로 인식될 수 있는 잘못된 패턴
# pattern = "\\bHello\\b"
match = re.search(pattern, "Hello world")
print(match)  # None을 출력할 것입니다, 정상적으로 단어 경계를 찾지 못하기 때문에


<re.Match object; span=(0, 5), match='Hello'>


In [None]:
# 문자열에서 백스페이스로 해석되지 않게 하려면, 로우스트링을 사용
pattern = r"\bHello\b"  # 단어 경계를 정확하게 매칭

match = re.search(pattern, "Hello world")
print(match)  # <re.Match object; span=(0, 5), match='Hello'>를 출력


<re.Match object; span=(0, 5), match='Hello'>


In [None]:
# 그룹

p = '(apple) (pie)'
t = 'apple pie'

match = re.match(p,t)
print(match.group())
print(match.group(0))
print(match.group(1))
print(match.group(2))

apple pie
apple pie
apple
pie


In [None]:
p = 'apple'
t = 'sweet apple pie'

match = re.match(p,t)
print(match.group())

In [None]:
search = re.search('apple','sweet apple pie')
print(search.group())
print(search.group(0))
print(search.start())
print(search.end())
print(search.span())

apple
apple
6
11
(6, 11)


In [None]:
import re
# 검색하기
if re.search('apple', 'apple pie'):
    print("Found an apple!")
# 모든 일치 항목 찾기
print(re.findall('a.', 'ab ac ad')) # 어떤 한 문자와 일치
# 문자열 대체하기
print(re.sub('blue', 'red', 'blue sky and blue ocean'))
# 패턴 컴파일하기
pattern = re.compile('[a-e]')
print(pattern.findall('hello world'))

Found an apple!
['ab', 'ac', 'ad']
red sky and red ocean
['e', 'd']


#### 정규 표현식의 기본 구성 요소
1. 리터럴(Literals): 일반 텍스트 문자(예: a, b, 1, 2)

2. 메타 문자(Meta Characters): 특별한 의미를 지닌 문자들
- `.`: 어떤 한 문자와 일치 (\n 제외)
- ^: 문자열의 시작과 일치
- $: 문자열의 끝과 일치
- *: 0번 이상 반복되는 경우와 일치
- +: 1번 이상 반복되는 경우와 일치
- ?: 0번 또는 1번 등장하는 경우와 일치
- {m,n}: 최소 m번, 최대 n번 반복
- [ ]: 문자 집합 중 하나와 일치 (예: [abc]는 a, b, c 중 하나와 일치)
- |: OR 조건 (예: a|b는 a 또는 b)
- (...): 그룹화

3. 특수 시퀀스(Special Sequences):
- \d: 숫자와 일치
- \D: 숫자가 아닌 공백, 문자, 구두점 등 모든 문자와 일치
- \s: 스페이스(' '), 탭('\t'), 캐리지 리턴('\r'), 뉴라인('\n'), 폼 피드('\f') 등 공백 문자와 일치
- \S: 공백이 아닌 문자, 숫자, 특수 문자 등 모든 것과 일치
- \w: 단어 문자(문자, 숫자, 밑줄)와 일치
- \W: 단어 문자가 아닌 특수 문자, 공백 문자, 구두점 등과 일치




1. `.` (마침표)
- 의미: 어떤 한 문자와 일치(줄바꿈 문자 제외)
- 예시:
  - 패턴: a.b
  - 매칭 예시: "acb", "a*b", "a3b"
  - 불일치 예시: "ab", "a\nb"
2. ^ (캐럿)
- 의미: 문자열의 시작과 일치
- 예시:
  - 패턴: ^Hello
  - 매칭 예시: "Hello world"
  - 불일치 예시: "world, Hello"
3. \$ (달러 기호)
- 의미: 문자열의 끝과 일치
- 예시:
  - 패턴: end$
  - 매칭 예시: "It's the end"
  - 불일치 예시: "end of the story"
4. \* (별표)
- 의미: 앞의 문자가 0번 이상 반복
- 예시:
  - 패턴: a*b
  - 매칭 예시: "b", "ab", "aaab"
  - 불일치 예시: "a"
5. \+ (플러스)
- 의미: 앞의 문자가 1번 이상 반복
- 예시:
  - 패턴: a+b
  - 매칭 예시: "ab", "aaab"
  - 불일치 예시: "b", "a"
6. ? (물음표)
- 의미: 앞의 문자가 0번 또는 1번 등장
- 예시:
  - 패턴: a?b
  - 매칭 예시: "ab", "b"
  - 불일치 예시: "aab"
7. {m,n} (중괄호)
- 의미: 앞의 문자가 최소 m번, 최대 n번 반복
- 예시:
  - 패턴: a{2,3}
  - 매칭 예시: "aa", "aaa"
  - 불일치 예시: "a", "aaaa"
8. `[]` (대괄호)
- 의미: 대괄호 안의 문자 중 하나와 일치
- 예시:
  - 패턴: [abc]
  - 매칭 예시: "a", "b", "c"
  - 불일치 예시: "d"
9. | (파이프)
- 의미: OR 조건
- 예시:
  - 패턴: a|b
  - 매칭 예시: "a", "b"
  - 불일치 예시: "c"
10. (...) (괄호)
- 의미: 그룹화, 캡처 그룹
- 예시:
  - 패턴: (a|b)c
  - 매칭 예시: "ac", "bc"

m.group()
- Python의 re 모듈에서 정규 표현식에 대한 매치(match) 객체의 메서드
- 매치 객체는 re.search(), re.match(), re.finditer()와 같은 함수가 정규 표현식 패턴과 문자열에서 일치를 찾았을 때 반환
- m.group() 메서드는 특정 매치에 접근하는 데 사용. 여기서 m은 매치 객체. 이 메서드를 사용하면 정규 표현식에 의해 식별된 특정 그룹의 일치 부분을 추출

사용 방법
- m.group(): 괄호 없이 사용하면 전체 매치된 문자열을 반환.
- m.group(n): 여기서 n은 그룹의 인덱스 번호입니다. 이 메서드는 정규 표현식 내의 특정 그룹에 해당하는 문자열을 반환. 그룹은 괄호 ()로 정의.

- 아래 코드는 주어진 텍스트에서 YYYY-MM-DD 형식의 날짜를 찾는다.
- 정규 표현식에서 괄호 ()로 묶인 부분은 그룹으로 정의되며, match.group(n) 메서드를 사용하여 각 그룹의 내용(여기서는 연도, 월, 일)을 추출.
- match.group()는 전체 패턴에 일치하는 문자열을 반환.
- match.group(1), match.group(2), match.group(3)는 각각 첫 번째, 두 번째, 세 번째 그룹에 해당하는 부분을 반환

이스케이프 문자(escape character) vs 이스케이프 시퀀스(escape sequence)

이스케이프 문자
- 이스케이프 문자는 문자열 내에서 특수한 목적을 가지고 사용되는 문자. 대표적인 예로는 백슬래시(\\)가 있다.
- 이 문자는 문자열 내에서 다른 문자와 결합하여 다양한 이스케이프 시퀀스를 형성하거나 특정 문자를 리터럴 값으로 표현하는 데 사용.

이스케이프 시퀀스
- 이스케이프 시퀀스는 이스케이프 문자에 이어지는 하나 또는 그 이상의 문자로 구성된 문자열.
- 이스케이프 시퀀스는 일반적으로 출력할 수 없는 특수한 명령이나 문자를 표현하는 데 사용. 예를 들어, \n은 새 줄(new line)을, \t는 탭(tab)을 의미. 이스케이프 시퀀스는 이스케이프 문자를 통해 특별한 처리를 필요로 하는 여러 문자를 문자열 안에 포함시킬 수 있게 한다.

In [None]:
# 이스케이프 문자 사용 예
text = 'He said, \"Hello.\"'
print(text)
# 이스케이프 시퀀스 사용 예
text = "First Line\nSecond Line"
print(text)

He said, "Hello."
First Line
Second Line


Python에서 로우 스트링
- 문자열 앞에 r이나 R을 붙여 정의
- 주요 목적은 문자열 내에서 백슬래시(\\)와 같은 이스케이프 문자를 문자 그대로 처리하여, 특수 문자열을 이스케이프하는 복잡성을 줄인다.
- 로우스트링 사용이 필수적인 경우
  - 백슬래시 다음에 특정 문자가 오는 경우: 만약 문자열 내에 백슬래시(\\) 다음에 특별한 의미를 가지는 문자(n, t, b, r, u, x 등)가 오면, 이들은 각각 줄바꿈(\n), 탭(\t), 백스페이스(\b), 캐리지 리턴(\r), 유니코드 문자(\uXXXX), 16진수 문자(\xXX) 등으로 해석. 이런 경우 로우스트링을 사용하지 않으면 문자열이 의도치 않게 변경될 수 있다.

  - 정규 표현식의 메타문자를 이스케이프 해야 할 때: 정규 표현식에서 메타문자(예: *, +, [, ], (, ), {, }, ^, $, ., |, ?, \\ 등)를 리터럴 문자로 사용하고 싶다면, 이스케이프 처리(\\)를 해야 합니다. 이때 로우스트링을 사용하지 않으면, \ 자체를 이스케이프해야 하므로 코드가 복잡해질 수 있다.

In [None]:
# 일반 문자열에서의 이스케이프 시퀀스 사용
path = "C:\\Users\\Username\\Documents"
# path = "C:\ksers\ksername"
print(path)  # 출력: C:\Users\Username\Documents

# 로우 스트링 사용
raw_path = r"C:\Users\Username\Documents"
print(raw_path)  # 출력: C:\Users\Username\Documents

C:\Users\Username\Documents
C:\Users\Username\Documents


In [None]:
pattern = r'(\d{4})-(\d{2})-(\d{2})'
text = "오늘의 날짜는 2023-04-30입니다."
match = re.search(pattern, text)
print("전체 날짜: ", match.group())

전체 날짜:  2023-04-30


In [None]:
import re

# 정규 표현식 패턴: YYYY-MM-DD 형식의 날짜 (예: 2023-04-30)
pattern = '(\d{4})-(\d{2})-(\d{2})'
# 검색할 문자열
text = "오늘의 날짜는 2023-04-30입니다."
# 패턴 검색
match = re.search(pattern, text)
# 매치 결과 확인
if match:
    print("전체 날짜: ", match.group())   # 전체 매치 ('2023-04-30')
    print("연도: ", match.group(1))      # 첫 번째 그룹 ('2023')
    print("월: ", match.group(2))        # 두 번째 그룹 ('04')
    print("일: ", match.group(3))        # 세 번째 그룹 ('30')
else:
    print("매치되는 날짜가 없습니다.")

전체 날짜:  2023-04-30
연도:  2023
월:  04
일:  30


Q. 문자열 "The cat in the hat."에서 "cat"과 "hat"을 찾으세요.

In [None]:
import re

print(re.findall("[ch]at","The cat in the hat."))

['cat', 'hat']


In [None]:
import re

text = "The cat in the hat."
pattern = r"(cat|hat)"
matches = re.findall(pattern, text)
print(matches)  # ['cat', 'hat']


['cat', 'hat']


Q. 문자열 "bat, cat, rat, fat"에서 "bat", "cat", "rat"을 찾되, "fat"은 제외하세요.

In [None]:
# matches는 리스트 객체
import re

text = "bat, cat, rat, fat"
# pattern = r"[bcr]at"
pattern = r"[^f]at" # f가 아닌 것
matches = re.findall(pattern, text)
print(matches)  # ['bat', 'cat', 'rat']


['bat', 'cat', 'rat']


Q. 문자열 "123 abc 456"에서 모든 숫자를 찾으세요.

In [None]:
import re

text = "123 abc 456"

pattern = r'\d+'

matches = re.findall(pattern, text)

print(matches)

['123', '456']


Q. 문자열 "Hello, my name is John."에서 첫 단어 "Hello"를 찾으세요.

In [None]:
import re

text = "Hello, my name is John."
pattern = r"^Hello"
match = re.match(pattern, text)
if match:
    print(match.group())  # 'Hello'

Hello


Q. 문자열 "The car parked in the garage #42."에서 문장의 마지막 단어 "garage"를 찾으세요.

In [None]:
print(re.search('garage','The car parked in the garage #42.').group())

garage


In [None]:
import re

text = "The car parked in the garage #42."
pattern = r"garage\b"
matches = re.search(pattern, text)
if matches:
    print(matches.group())  # 'garage'


garage


In [None]:
import re
p = re.compile('[a-z]+\s')
m = p.match('python python')
m.group()

'python '

In [None]:
re.match('[a-z]+\s', 'python python').group()

'python '

In [None]:
p.findall('python python ')

['python ', 'python ']

In [None]:
p.findall('python python')

['python ']

In [None]:
m = p.match('3python ')
print(m)

None


In [None]:
m = p.search('3python ')
print(m)

<re.Match object; span=(1, 8), match='python '>


In [None]:
# 문자 클래스 : []
pattern = re.compile('[a-z]+')
p1 = pattern.search('Banker')
p2 = pattern.search('banker')
print(p1)
print(p2)
print(p2.group())
print(p2.span())

<re.Match object; span=(1, 6), match='anker'>
<re.Match object; span=(0, 6), match='banker'>
banker
(0, 6)


In [None]:
# Q. 'abc12345Abc'에서 'A'만 출력하세요.
import re
regex = re.compile('[A-Z]')
text = 'abc12345Abc'
m = regex.search(text)
m.group()

'A'

In [None]:
# Q. 'KOREA 대한민국'에서 '아'만 출력하세요.
import re
regex = re.compile('[가-힣]')
text = 'KOREA 아대한민국'
m = regex.search(text)
m.group()

'아'

In [None]:
# search는 문자열 전체를 검색하여 정규식과 매칭되는 패턴을 찾는다.
# a{2}는 a를 2회 반복하여 사용
# Q. '122333c'를 모두 출력하세요.
import re
regex = re.compile('12{2}3{3}c')
text = '122333c'
m = regex.search(text)
m.group()

'122333c'

In [None]:
# Q. 'aaaaBBBcccDDDeee'을 모두 출력하세요.

In [None]:
import re
regex = re.compile('a{4}B{3}c{3}D{3}e{3}')
text = 'aaaaBBBcccDDDeee'

li = regex.search(text)
li.group()

'aaaaBBBcccDDDeee'

Task1_0514. BC, CC, ABC 모두 C가 출력되는 정규 표현식을 ( )에 작성하세요.

In [None]:
pattern = re.compile( )
text1 = 'BC'
text2 = 'CC'
text3 = 'ABC'
p1 = pattern.search(text1)
p2 = pattern.search(text2)
p3 = pattern.search(text3)
print(p1)
print(p2)
print(p3)

In [None]:
# A
import re
pattern = re.compile('A?C') # A가 없거나 한번
text1 = 'BC'
text2 = 'CC'
text3 = 'ABC'
text4 = 'AAC'
text5 = 'BCC'
p1 = pattern.search(text1)
p2 = pattern.search(text2)
p3 = pattern.search(text3)
p4 = pattern.search(text4)
p5 = pattern.search(text5)
print(p1)
print(p2)
print(p3)
print(p4)
print(p5)

<re.Match object; span=(1, 2), match='C'>
<re.Match object; span=(0, 1), match='C'>
<re.Match object; span=(2, 3), match='C'>
<re.Match object; span=(1, 3), match='AC'>
<re.Match object; span=(1, 2), match='C'>


In [None]:
pattern = re.compile('A?C')
test_strings = ['AC', 'C', 'ABC', 'AAC', 'BCC']
for s in test_strings:
    match = pattern.match(s)
    if match:
        print(f'"{s}" Found a match!')
    else:
        print(f'"{s}" No match')

"AC" Found a match!
"C" Found a match!
"ABC" No match
"AAC" No match
"BCC" No match


In [None]:
p = re.compile('[a-z]+')
result = p.findall('life is too short')
# result = p.search('life is too short')
print(result)

['life', 'is', 'too', 'short']


In [None]:
# finditer는 findall과 동일하지만 그 결과로 반복 가능한 객체(iterator object)를 돌려준다.
# 반복 가능한 객체가 포함하는 각각의 요소는 match 객체이다.
p = re.compile('[a-z]+')
result = p.finditer('life is too short')
# print(result)
# print(list(result))
for r in result:print(r.group())

life
is
too
short


In [None]:
# Q. '1234a1234'에서  '1', '2', '3', '4'를 모두 출력하세요.
import re
regex = re.compile('[1234]')
text = '1234a1234'

regex.findall(text)

['1', '2', '3', '4', '1', '2', '3', '4']

Task2_0514. ' Python3 is very good programming language!'에서  ['Python', 'is', 'very', 'good', 'programming', 'language']를 모두 출력하세요.

In [None]:
pattern = re.compile('[a-zA-Z]+')
pattern.findall(' Python3 is very good programming language!')

['Python', 'is', 'very', 'good', 'programming', 'language']

In [None]:
# Dot(.) 메타 문자는 줄바꿈 문자(\n)을 제외한 모든 문자와 매치
import re
p = re.compile('a.+b')
m1 = p.match('a\nb')
m2 = p.match('acb')
m3 = p.match('a12?Ab')
print(m1)
print(m2.group())
print(m3.group())

None
acb
a12?Ab


In [None]:
# re.DOTALL 옵션은 여러 줄로 이루어진 문자열에서 \n에 상관없이 검색시 사용
p = re.compile('a.b', re.DOTALL)
m = p.match('a\nb')
print(m)
print(m.group())

<re.Match object; span=(0, 3), match='a\nb'>
a
b


In [None]:
# Q. text에서 what are you doing?만 출력하세요

text = 'what are you doing?\nit is going to be late for school'
'\nwe need to hurry up'

p = re.compile('.*')

print(p.search(text).group())

what are you doing?


In [None]:
# Q. text에서 전체문장 모두 출력하세요
# 줄바꿈 문자가 있는 파일의 모든 범위를 매치하려면 compile 메소드에 두번째 매개변수를 re.DOTALL 로 지정한다.
regex = re.compile('.*',re.DOTALL)
mo = regex.search('what are you doing?\nit is going to be late for school'
             '\nwe need to hurry up')
print(mo.group())

what are you doing?
it is going to be late for school
we need to hurry up


In [None]:
# re.IGNORECASE 또는 re.I 옵션은 대소문자 구분 없이 매치를 수행시 사용
p = re.compile('[a-z]+',re.I)
print(p.match('python'))
print(p.match('Python'))
print(p.match('PYTHON'))

<re.Match object; span=(0, 6), match='python'>
<re.Match object; span=(0, 6), match='Python'>
<re.Match object; span=(0, 6), match='PYTHON'>


In [None]:
# Q. text에서 대소문자 구분없이 전체문장 모두 출력하세요
text = 'Friend fRiend friEnd FRIEND'

In [None]:
text = "Friend fRiend friEnd FRIEND"
p = re.compile(r'Friend',re.I)
print(p.findall(text))

['Friend', 'fRiend', 'friEnd', 'FRIEND']


In [None]:
# python이라는 문자열로 시작하고 그 뒤에 whitespace, 그뒤에 단어가 오는 경우
import re
p = re.compile('^python\s\w+')

data = """python one
life is too short
python  two
you need python
python three"""
print(p.findall(data))

['python one']


In [None]:
# re.MULTILINE 또는 re.M옵션으로 ^메타 문자를 각 라인의 처음으로 인식시킴
import re
p = re.compile("^python\s\w+",re.M)

data = """python one
life is too short
python two
you need python
python three"""
print(p.findall(data))

['python one', 'python two', 'python three']


In [None]:
# r'\\section'은 로우 스트링을 사용하여 백슬래시를 이스케이프하고, 정규 표현식에서 \section을 리터럴로 매치
# 파이썬 문자열 리터럴 규칙에 의하여 \\이 \으로 변경되어 \section이 전달
p = re.compile(r'\\section')

print(p.match(r'\section'))
p.findall(r'\section\section')

<re.Match object; span=(0, 8), match='\\section'>


['\\section', '\\section']

In [None]:
# 메타 문자
# |(or와 동일한 의미), ^(문자열의 맨처음), $(문자열의 끝과 매치)
import re
p = re.compile('Crow|Servo')
m = p.match('CrowHello')
print(m)
print()
print(re.search('^Life', 'Life is too short'))
print(re.search('^Life', 'My Life'))
print()
print(re.search('Life$', 'Life is too short'))
print(re.search('Life$', 'My Life'))

<re.Match object; span=(0, 4), match='Crow'>

<re.Match object; span=(0, 4), match='Life'>
None

None
<re.Match object; span=(3, 7), match='Life'>


Task1_0516. '199305, 1923A, a93247'에서 '199305'만 출력하세요.

In [2]:
import re
regex = re.compile(r'^\d+')
mo = regex.findall('199305, 1923A, a93247')
mo

['199305']

In [None]:
import re
regex = re.compile(r'home$')
mo1 = regex.search('we are going home')
mo1.group()

'home'

Task2_0516. '99food234, a93456\n, a9356ba '에서 '99food234'만 출력하세요.

In [3]:
# \w+ : 하나 이상의 영문자나 숫자 (단어 문자)
# \d : 숫자 한 개
regex = re.compile(r'^\w+\d')
regex.findall('99food234, a93456\n, a9356ba ')

['99food234']

In [None]:
# \b whitespace에 의해 구분
# \B whitespace로 구분된 단어가 아닌 경우에만 매치
p = re.compile(r'\bclass\b')
print(p.search('no class at all'))
print(p.search('the declassified algorithim'))
print()
q = re.compile(r'\Bclass\B')
print(q.search('no class at all'))
print(q.search('the declassified algorithim'))

<re.Match object; span=(3, 8), match='class'>
None

None
<re.Match object; span=(6, 11), match='class'>


Q. 정규표현식을 사용하여 text에서 에러가 들어간 부분만 포함하는 리스트를 출력하세요.

text = "에러 1122, 레퍼런스 오류, 에러 1033, 아규먼트 오류, 에러 xxx"

In [None]:
import re
text = "에러 1122, 레퍼런스 오류, 에러 1033, 아규먼트 오류, 에러 xxx"
regex = re.compile("에러\s\w+")
mc = regex.findall(text)
print(mc)

['에러 1122', '에러 1033', '에러 xxx']


In [None]:
# Q. (     )에 정규표현식을 작성하여 아래와 같이 출력하세요.
# ['1 apple', '5 oranges', '3 boys', '4 girls', '10 army', '11 mr']

import re
li = '1 apple, 5 oranges, 3 boys, 4 girls; 10 army| 11 mr'
regex = re.compile(         )
list = regex.findall(li)
print(list)

['1 apple', '5 oranges', '3 boys', '4 girls', '10 army', '11 mr']


In [None]:
# A.
import re
li = '1 apple, 5 oranges, 3 boys, 4 girls; 10 army| 11 mr'
regex = re.compile(r'\d+\s\w+')
list = regex.findall(li)
print(list)

['1 apple', '5 oranges', '3 boys', '4 girls', '10 army', '11 mr']


In [None]:
# Q. text에서 'H,h'만 출력하세요.
text = 'Hello my friend! Life is short you need Python!'
customRegex = re.compile(r'[Hh]')
list = customRegex.findall(text)
print(list)

['H', 'h', 'h']


In [None]:
# Q. text에서 'H,h'가 아닌 것 모두를 출력하세요.
text = 'Hello my friend! Life is short you need Python!'
customRegex = re.compile(r'[^Hh]')
list = customRegex.findall(text)
print(list)

['e', 'l', 'l', 'o', ' ', 'm', 'y', ' ', 'f', 'r', 'i', 'e', 'n', 'd', '!', ' ', 'L', 'i', 'f', 'e', ' ', 'i', 's', ' ', 's', 'o', 'r', 't', ' ', 'y', 'o', 'u', ' ', 'n', 'e', 'e', 'd', ' ', 'P', 'y', 't', 'o', 'n', '!']


#### 그룹화
괄호 ()는 '그룹화'를 위해 사용 : 주로 여러 문자열 패턴을 하나의 단위로 묶거나, 특정 부분의 문자열을 추출하는 데 사용

그룹화의 주요 용도:
- 패턴의 일부를 하나의 단위로 묶기 : 괄호는 여러 문자 또는 문자 집합을 하나의 단위로 묶어서, 그 전체에 대해 수량자 (예: *, +, ?, {m,n} 등)를 적용할 수 있게 한다.

- 텍스트 캡처 : 괄호로 묶인 부분은 '캡처 그룹'이 되어, 매칭된 텍스트를 나중에 사용하기 위해 저장. 예를 들어, re.search()나 re.match() 등의 함수로 매치 객체를 얻은 후, group() 메서드를 사용하여 이 텍스트를 추출할 수 있다.

- 백레퍼런스(backreferences): 정규 표현식 내에서 앞서 정의된 그룹을 다시 참조할 수 있다. 이는 패턴이 이전에 매치된 동일한 텍스트와 일치해야 할 때 유용.

- 비캡처 그룹(non-capturing groups): 때로는 괄호를 사용하여 그룹을 만들지만, 매치된 내용을 나중에 사용하고 싶지 않을 때가 있다. 이 경우 (?:...) 형태를 사용하여 그룹을 만든다. 이 그룹은 매칭에는 영향을 주지만, 결과를 저장하지는 않는다.

In [None]:
# '(ha)+' 패턴은 'ha' 문자열이 하나 이상 반복되는 부분을 찾는다.
import re

pattern = r'(ha)+'
text = "hahaha, that's funny!"

match = re.search(pattern, text)

if match:
    print(match.group()) # 'hahaha'


hahaha


- \1은 첫 번째 캡처 그룹 ((\b\w+))을 다시 참조. 이는 앞서 찾은 단어와 정확히 동일한 단어가 연속해서 나타나야 함을 의미
- Capturing Group ((\b\w+)): 괄호는 캡처 그룹을 만든다.이 경우 \b\w+는 단어 경계로 시작하는 하나 이상의 단어 문자로 이루어진 시퀀스를 캡처

In [None]:
import re

pattern = r'(\b\w+)\s+\1'
text = "이것은 중복 중복 단어입니다."

match = re.search(pattern, text)

if match:
    print(match.group()) # '중복 중복'


중복 중복


In [None]:
# 첫 번째 숫자 그룹은 비캡처 그룹 (?:\d{4})로 설정되어 있어, 매치 결과는 저장되지 않고 '월'과 '일'만 캡처된다.
import re

pattern = r'(?:\d{4})-(\d{2})-(\d{2})'
text = "오늘의 날짜는 2023-04-30입니다."

match = re.search(pattern, text)

if match:
    print("월: ", match.group(1)) # '04'
    print("일: ", match.group(2)) # '30'
    print(match.group())

월:  04
일:  30
2023-04-30


In [None]:
# 그룹핑 : 매치된 문자열 중에서 특정 부분의 문자열만 뽑아내는 경우 ()으로 만들어 준다.
# group(0) 매치된 전체 문자열, 1 첫번째 그룹, 2 두번째 그룹, n n번째 그룹
p = re.compile('(ABC)+')
m = p.search('ABCABCABC OK?')
print(m.group())
print(m.group(0))
print(m.group(1))

ABCABCABC
ABCABCABC
ABC


In [None]:
p = re.compile('((AB)(CD)(EF))+')
m = p.search('DEFABCDEFDEF OK?')
print(m.group())
print(m.group(0))
print(m.group(1))
print(m.group(2))
print(m.group(3))
print(m.group(4))

ABCDEF
ABCDEF
ABCDEF
AB
CD
EF


In [None]:
# Q. 정규표현식을 사용하여 text에서 지역코드만 출력하세요.
text = "문의사항이 있으면 032-232-3245 으로 연락주시기 바랍니다."

In [None]:
import re
regex = re.compile(r'(\d{3})-(\d{3}-\d{4})')
matchobj = regex.search(text)
areaCode = matchobj.group(1)
print(areaCode) # 032 232-3245

032


In [None]:
# Q. 정규표현식을 사용하여 text에서 지역코드 제외한 번호만 출력하세요.
import re

text = "문의사항이 있으면 032-232-3245 으로 연락주시기 바랍니다."
regex = re.compile(r'(\d{3})-(\d{3}-\d{4})')
matchobj = regex.search(text)
# areaCode = matchobj.group(1)
num = matchobj.group(2)
# fullNum = matchobj.group()
print(num) # 032 232-3245

232-3245


In [None]:
# 그룹이 중첩되어 있는 경우는 바깥쪽부터 시작하여 안쪽으로 들어갈수록 인덱스 증가
# Q. 정규표현식을 사용하여 'park 010-1234-1234'에서 지역코드만 출력하세요.

p = re.compile(r'(\w+)\s+((\d+)[-](\d+)[-](\d+))')
m = p.search('park 010-1234-5678')
print(m.group())
print(m.group(1))
print(m.group(2))
print(m.group(3))
print(m.group(4))
print(m.group(5))


park 010-1234-5678
park
010-1234-5678
010
1234
5678


In [None]:
# 그룹핑된 문자열 재참조
# \1은 재참조 메타 문자로서 정규식의 첫번째 그룹을 지칭 - 2개의 동일한 단어가 연속적으로 사용되어야 매치
p = re.compile(r'(\w+)\s+\1+\s+\1+\s')
p.search('Paris in the the the spring').group()

'the the the '

In [None]:
# Q. 'Paris is very very beautiful.'에서 'very very'를 출력하세요.

p = re.compile(r'\b(\w+)\s+\1')
p.search('Paris is very very beautiful.').group()

'very very'

In [None]:
text = 'Paris is very very beautiful.'
p = re.compile(r'\s(\w+)\s+\1')
p.search(text).group()

' very very'

In [None]:
# Q.'abcdefghij' 에 대하여 중첩을 적용한 서브그룹 5개로 컴파일하여 group()함수를 이용하여
# 'abcdefghi'와 e'를 출력하세요

p = re.compile('(a(b(c(d(e)f)g)h)i)j')
m = p.match('abcdefghij')
print(m.group(0))
print(m.group(1))
m.group(5)

abcdefghij
abcdefghi


'e'

그룹화 이름
- `(?P<name>\w+)는 하나 이상의 단어 문자(\w+)에 일치하며, 이 부분을 'name'이라는 이름으로 그룹화`
- `\s+는 하나 이상의 공백 문자에 일치합니다.`
- `(?P<phone>(\d+)[-]\d+[-]\d+)는 전화번호 형식에 일치하는 부분을 찾으며, 이 부분을 'phone'이라는 이름으로 그룹화. 여기서 \d+는 하나 이상의 숫자에 일치하고, [-]는 리터럴 대시 문자에 일치.`

In [None]:
# 그룹핑된 문자열에 이름 붙이기 : 확장 구문 (?P<name>\w+)
p = re.compile(r'(?P<name>\w+)\s+((\d+)[-]\d+[-]\d+)')
m = p.search('park 010-1234-1234')
print(m.group('name'))
print(m.group(1))
print(m.group(2))
print(m.group(3))

park
park
010-1234-1234
010


In [None]:
# 그룹명을 이용하여 정규식 내에서 재참조
p = re.compile(r'(?P<word>\w+)\s+(?P=word)')
p.search('Paris in the the spring').group()

'the the'

In [None]:
# Q. 'Lots of punctuation 에서 Lots를 출력하세요.
p = re.compile(r'(\b\w+\b)')
m = p.search( '(((( Lots of punctuation )))' )
m.group()

'Lots'

In [None]:
p = re.compile(r'(?P<word>\b\w+\b)')
m = p.search( '(((( Lots of punctuation Lots of punctuation)))' )
print(m.group('word'))

Lots


In [None]:
p = re.compile(r'(\b\w+\b)')
m = p.findall( '(((( Lots of punctuation )))' )
m

['Lots', 'of', 'punctuation']

정규 표현식에서 전방탐색(Lookahead)
- 특정 패턴 뒤에 오는 문자열을 확인하는 방법으로, 긍정 전방탐색과 부정 전방탐색 두 가지 형태가 있다.
- 이들은 매칭을 결정하는 조건을 설정하지만, 실제로 해당 문자열을 결과에 포함시키지는 않는다. 즉, 문자열을 '소모(consume)'하지 않는다..

- 긍정 전방탐색 (Positive Lookahead)
    - 형식: (?=...)
    - 설명: 긍정 전방탐색은 ...에 해당하는 정규식 패턴이 일치해야 하지만, 해당 부분은 결과에 포함되지 않는다.
    - 예시: X(?=Y)는 'Y'가 뒤따르는 'X'에 일치합니다. 'X'는 결과에 포함되지만, 'Y'는 포함되지 않는다.
- 부정 전방탐색 (Negative Lookahead)
    - 형식: (?!...)
    - 설명: 부정 전방탐색은 ...에 해당하는 정규식 패턴이 일치하지 않아야 합니다. 여기서도 일치하는 부분은 결과에 포함되지 않는다.
    - 예시: X(?!Y)는 'Y'가 뒤따르지 않는 'X'에 일치합니다. 'X'는 결과에 포함되지만, 'Y'는 검사 대상이지 결과에 포함되지 않는다.

In [None]:
# 전방 탐색
# 긍정(?=...) ...에 해당되는 정규식과 매치되어야 하며 조건이 통과되어도 문자열이 소모되지 않음
# 부정(?!...) ...에 해당되는 정규식과 매치되지 않아야 하며 조건이 통과되어도 문자열이 소모되지 않음

p = re.compile(r'.+:')
m = p.search('http://google.com')
print(m.group())
print()
p = re.compile(r'.+(?=:)')  # :에 해당되는 문자열이 정규식 엔진에 의해 소모되지 않음(검색에는 포함되지만 결과에는 제외)
m = p.search('http://google.com')
print(m.group())
print()
p = re.compile(r'.+(?!:)')
m = p.search('http\n://google.com')
print(m.group())
print()

http:

http

http



긍정 전방탐색 사용

Q. 문자열 "I love cats but I hate catching colds"에서 'cat' 다음에 's'가 오는 단어만 찾으세요.

In [None]:
import re
text = "I love cats but I hate catching colds"
pattern = re.compile(r'cat(?=s)')
pattern.search(text).group()

'cat'

In [None]:
import re

text = "I love cats but I hate catching colds"
pattern = r"cat(?=s)"
matches = re.findall(pattern, text)
print(matches)  # ['cat']


['cat']


부정 전방탐색 사용

문제2_1114: 문자열 "7UP, Cherry7UP, 7Down"에서 '7' 뒤에 'UP'이 오지 않는 숫자 7을 찾으세요.

In [None]:
p = re.compile(r'7(?!UP)')
m = p.search('7UP, Cherry7UP, 7Down')
print(m.group())

7


In [None]:
import re

text = "7UP, Cherry7UP, 7Down"
pattern = r"7(?!UP)"
matches = re.findall(pattern, text)
print(matches)


['7']


Q. 다음 텍스트에서 화폐 단위('€')가 붙어 있는 숫자만 찾으세요.

"Prices are 30€ for adults, 20 for children and 25€ for seniors."

In [None]:
import re
p = r'\d+(?=€)'
print(re.findall(p,"Prices are 30€ for adults, 20 for children and 25€ for seniors."))

['30', '25']


In [None]:
import re

text1 = "Prices are 30€ for adults, 20 for children and 25€ for seniors."
pattern1 = r'\d+(?=€)'
matches1 = re.findall(pattern1, text1)
print(matches1)


['30', '25']


긍정적 후방 탐색 (?<=B)A 'A'앞에 'B'가 있는 경우에만 A에 매칭

긍정적 후방 탐색은 현재 위치의 앞쪽에 일치하는 패턴이 있을 경우에만 일치를 성공시키는 조건. 이 탐색은 패턴을 찾지만, 결과에는 포함시키지 않는다. 즉, @ 기호는 포함되지 않지만, 이 기호 뒤에 오는 특정 패턴을 검사하는 데 사용.

부정적 후방 탐색 (?<!B)A  'A' 앞에 'B'가 없는 경우에만 'A'에 매칭

Q. 다음 텍스트에서 'com'으로 끝나는 이메일 주소의 도메인 부분만 추출하세요. (예: 'example@domain.com'에서 'domain')

In [None]:
# (?<=@): 이 부분은 후방 긍정 탐색(lookbehind assertion). @ 기호 바로 뒤의 문자들만 검사하도록 지정
text2 = "Contact us at support@company.com, sales@enterprise.com or info@organization.org."
pattern2 = r'(?<=@)[a-zA-Z0-9.-]+(?=\.com)'
matches2 = re.findall(pattern2, text2)
print(matches2)


['company', 'enterprise']


In [None]:
# 파일명+.+확장자를 나타내는 정규식
p =re.compile('.*[.].*$')
list = ['foo.exe', 'autoexec.bat', 'sendmail.cf']
for i in list:
    if p.match(i):
        print(i)

foo.exe
autoexec.bat
sendmail.cf


In [None]:
# 확장자가 bat 혹은 exe가 아닌 경우만 통과된다는 부정적 전방탐색
p =re.compile('.*[.](?!bat$|exe$).*$')
list = ['foo.exe', 'autoexec.bat', 'sendmail.cf']
for i in list:
    if p.match(i):
        print(i)

sendmail.cf


In [None]:
# 문자열 바꾸기
# sub 메서드를 사용하면 정규식과 매치되는 부분을 다른 문자로 쉽게 바꿀 수 있음
# 바꾸기 횟수를 제어하려면 세 번째 매개변수로 count 값을 넘기면 됨
# subn 역시 sub와 동일한 기능을 하지만 반환 결과를 튜플로 돌려줌. 두 번째 요소는 바꾸기 발생 횟수
p = re.compile('(blue|white|red)')
print(p.sub('colour', 'blue socks and red shoes'))
print(p.sub('colour', 'blue socks and red shoes', count=1)) # 바꾸기 횟수를 제어
print(p.subn( 'colour', 'blue socks and red shoes'))

colour socks and colour shoes
colour socks and red shoes
('colour socks and colour shoes', 2)


Q. 텍스트에서 모든 이메일 주소를 'email'로 대체하세요.
    
text = "Contact: john.doe@example.com, jane.smith@workplace.org"

In [None]:
import re

txt = "Contact: john.doe@example.com, jane.smith@workplace.org"
p = re.compile(r'[a-zA-z0-9.%+-_]+@[a-zA-Z0-9]+\.[A-Za-z]{2,5}')

print(p.sub('email', txt))

Contact: email, email


In [None]:
import re

text = "Contact: john.doe@example.com, jane.smith@workplace.org"
pattern = r'[\w.-]+@[\w.-]+'
replaced_text = re.sub(pattern, 'email', text)
print(replaced_text)


Contact: email, email


Q. 텍스트에서 모든 전화번호를 'phone'으로 대체하세요. 전화번호는 다음과 같은 형식으로 가정합니다: '123-456-7890'.

In [None]:
text2 = "Our office numbers are 123-456-7890 and 987-654-3210."
pattern2 = r'\d{3}-\d{3}-\d{4}'
replaced_text2 = re.sub(pattern2, 'phone', text2)
print(replaced_text2)


Our office numbers are phone and phone.


In [None]:
import re
p = re.compile('\d')
p.sub('','12345abc')

'abc'

In [None]:
# Q. '12345abc'에서 '12345'만 출력하세요.
import re
str = '12345abc'
re.sub('[^0-9]','',str)

'12345'

In [None]:
# sub 메서드를 사용할 때 참조 구문을 사용
# 이름 + 전화번호의 문자열을 전화번호 + 이름으로 바꾸는 예
# sub의 바꿀 문자열 부분에 \g<그룹이름>을 사용하면 정규식의 그룹 이름을 참조
p = re.compile(r"(?P<name>\w+)\s+(?P<phone>(\d+)[-]\d+[-]\d+)")
print(p.sub("\g<phone> \g<name>", "park 010-1234-1234")) # \g<phone> \g<name> 은 대체할 문자열

010-1234-1234 park


In [None]:
# 그룹 이름 대신 참조 번호를 사용할 수 있음
p = re.compile(r"(?P<name>\w+)\s+(?P<phone>(\d+)[-]\d+[-]\d+)")
print(p.sub("\g<2> \g<1>", "park 010-1234-1234"))

010-1234-1234 park


Greedy (탐욕스러운) 매칭
- Greedy 매칭은 가능한 한 많은 문자와 일치하려고 한다. 즉, 주어진 패턴과 일치하는 문자열 중 가장 긴 것을 찾는다.
- 예를 들어, 정규 표현식 a.*b는 a로 시작하고 b로 끝나는 가장 긴 문자열 부분과 일치한다.

Non-Greedy (비탐욕스러운) 매칭
- Non-Greedy 매칭은 가능한 한 적은 문자와 일치하려고 한다. 즉, 주어진 패턴과 일치하는 문자열 중 가장 짧은 것을 찾는다.
- 예를 들어, 정규 표현식 a.*?b는 a로 시작하고 b로 끝나는 가장 짧은 문자열 부분과 일치합니다.

In [None]:
import re

text = "<div>Hello</div><div>World</div>"
pattern = r'<div>.*</div>'
matches = re.findall(pattern, text)
print(matches)


['<div>Hello</div><div>World</div>']


In [None]:
pattern_ng = r'<div>.*?</div>'
matches_ng = re.findall(pattern_ng, text)
print(matches_ng)


['<div>Hello</div>', '<div>World</div>']


1. *? (Non-Greedy Kleene Star)
- Greedy: *는 0회 이상 반복하는 가장 긴 문자열을 찾는다.
- Non-Greedy: *?는 0회 이상 반복하는 가장 짧은 문자열을 찾는다.
2. +? (Non-Greedy Plus)
- Greedy: +는 1회 이상 반복하는 가장 긴 문자열을 찾는다.
- Non-Greedy: +?는 1회 이상 반복하는 가장 짧은 문자열을 찾는다.
3. ?? (Non-Greedy Question Mark)
- Greedy: ?는 0회 또는 1회 반복하는 가장 긴 문자열을 찾는다.
- Non-Greedy: ??는 0회 또는 1회 반복하는 가장 짧은 문자열을 찾는다.
4. {m,n}? (Non-Greedy 범위 반복자)
- Greedy: {m,n}은 m회에서 n회까지 반복하는 가장 긴 문자열을 찾는다.
- Non-Greedy: {m,n}?은 m회에서 n회까지 반복하는 가장 짧은 문자열을 찾는다.

In [None]:
import re

text = "<div>First</div><div>Second</div>"
# Greedy 매칭
print(re.findall(r'<div>.*</div>', text))
# Non-Greedy 매칭
print(re.findall(r'<div>.*?</div>', text))

text = "Hellooooo"
# Greedy 매칭
print(re.findall(r'o+', text))
# Non-Greedy 매칭
print(re.findall(r'o+?', text))

['<div>First</div><div>Second</div>']
['<div>First</div>', '<div>Second</div>']
['ooooo']
['o', 'o', 'o', 'o', 'o']


In [None]:
text = "Hello?"
# Greedy 매칭
print(re.findall(r'o?', text))
# Non-Greedy 매칭
print(re.findall(r'o??', text))

['', '', '', '', 'o', '', '']
['', '', '', '', '', 'o', '', '']


In [None]:
text = "Helloooo"
# Greedy 매칭
print(re.findall(r'o{2,4}', text))
# Non-Greedy 매칭
print(re.findall(r'o{2,4}?', text))

['oooo']
['oo', 'oo']


In [None]:
# Greedy vs Non-Greedy
# * 메타 문자는 매우 탐욕스러워서 매치할 수 있는 최대한의 문자열인 <html><head><title>Title</title> 문자열을 모두 소비
# non-greedy 문자인 ?는 *의 탐욕을 제한하여 최소한의 반복을 수행. *?, +?, ??, {m,n}?와 같이 사용
s = '<html><head><title>Title</title>'
print(s)
print(len(s))
print(re.match('<.*>', s).span())
print(re.match('<.*>', s).group())
print(re.match('<.*?>', s).group())
print(re.match('<.*?>', s).span())

<html><head><title>Title</title>
32
(0, 32)
<html><head><title>Title</title>
<html>
(0, 6)


Q. HTML 텍스트에서 \<p> 태그로 둘러싸인 전체 부분을 찾으세요 (Greedy 방식 사용).

`html = "<div>Hello <p>world</p> this is <p>a test</p></div>`

In [None]:
import re

html = "<div>Hello <p>world</p> this is <p>a test</p></div>"
# Greedy 매칭
greedy_matches = re.findall(r'<p>.*</p>', html)
print(greedy_matches)


['<p>world</p> this is <p>a test</p>']


Q. 같은 HTML 텍스트에서 각 <p> 태그로 둘러싸인 부분을 별도로 찾으세요 (Non-Greedy 방식 사용).

In [None]:
import re

html = "<div>Hello <p>world</p> this is <p>a test</p></div>"
print(re.findall(r'<p>.*?</p>', html))

['<p>world</p>', '<p>a test</p>']


In [None]:
# Non-Greedy 매칭
nongreedy_matches = re.findall(r'<p>.*?</p>', html)
print(nongreedy_matches)


['<p>world</p>', '<p>a test</p>']


Task3_0516. 주어진 문자열이 유효한 이메일 주소인지 확인

In [4]:
import re
def is_valid_email(email):
    pattern = r'^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$'
    return bool(re.match(pattern, email))

# 예시 사용
is_valid_email("example@example.com")  # True


True

Task4_0516. 주어진 문자열이 올바른 전화번호 형식(010-0000-0000)인지 확인하세요.

In [5]:
def is_valid_phone(phone):
    pattern = r'^010-\d{4}-\d{4}$'
    return bool(re.match(pattern, phone))

# 예시 사용
is_valid_phone("010-1234-5678")  # True


True

Task5_0516. 문자열에서 모든 HTML 태그를 찾아 리스트로 반환하세요.

In [6]:
def find_html_tags(html):
    pattern = r'<[^>]+>'
    return re.findall(pattern, html)

# 예시 사용
find_html_tags("<html><head></head><body></body></html>")  # ['<html>', '<head>', '</head>', '<body>', '</body>', '</html>']


['<html>', '<head>', '</head>', '<body>', '</body>', '</html>']

Task6_0516. 주어진 비밀번호가 최소 8자, 대문자, 소문자, 숫자, 특수문자를 포함하는지 확인하세요.

In [9]:
def is_strong_password(password):
    # pattern = r'^(?=.*[a-z])(?=.*[A-Z])(?=.*\d)(?=.*[@$!%*?&])[A-Za-z\d@$!%*?&]{8,}$'
    pattern = r'[(a-z)+(A-Z)+\d+(\D\W\S)+]{8,}'
    return bool(re.match(pattern, password))

# 예시 사용
is_strong_password("Aa1!aaaa")  # True


True

Task7_0516. 주어진 문자열이 유효한 URL인지 확인하세요.

In [10]:
def is_valid_url(url):

    pattern =r'^(https?|ftp):\/\/[^\s/$.?#].[^\s]*$'
    return bool(re.match(pattern, url))

# 예시 사용
is_valid_url("https://www.example.com")  # True


True

Task8_0516. 주어진 문자열이 유효한 주민등록번호(######-#######) 형식인지 확인하세요.

In [19]:
# 월별 예외적인 일의 경우는 별도 조건문으로 처리
def is_valid_ssn(ssn):
    pattern = '\d{2}(0[1-9]|1[0-2])(0[1-9]|[12]\d|3[01])-[1234]\d{6}'
    # pattern = r'\d{2}((0[13578]|1[02])(0[1-9]|[12]\d|3[01])|(0[469]|11)(0[1-9]|[12]\d|30)|02(0[1-9]|1\d|2[0-8]))-[1234]\d{6}'
    return bool(re.match(pattern, ssn))

# 예시 사용 00 ~ 99 01 ~ 12 01 ~ 31
is_valid_ssn("900220-1234567")  # True

True

Task9_0516. 주어진 문자열이 유효한 IPv4 주소인지 확인하세요.

In [None]:
pattern = r'^(?:[0-9]{1,3}\.){3}[0-9]{1,3}$'
m = re.match(pattern, '999.999.999.999')
m.group()

'999.999.999.999'

In [None]:
# (?:[0-9]{1,3}\.): 이 부분은 비캡처 그룹. 그룹화는 하지만, 매치 결과에서는 그룹을 별도로 저장하지 않는다.
def is_valid_ip(ip):
    pattern = r'^(?:[0-9]{1,3}\.){3}[0-9]{1,3}$'
    return bool(re.match(pattern, ip))

# 예시 사용
is_valid_ip("192.168.1.1")  # True


True

In [None]:
def is_valid_ip(ip):
  pattern = re.compile(r'^((25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)$')
  return bool(re.match(pattern, ip))

test_ips = [
    "192.168.0.1",    # 유효한 IP
    "255.255.255.255", # 유효한 IP
    "256.256.256.256", # 유효하지 않은 IP
    "192.168.1",      # 유효하지 않은 IP
    "192.168.1.300",  # 유효하지 않은 IP
    "abc.def.ghi.jkl" # 유효하지 않은 IP
]
for ip in test_ips:
    if is_valid_ip(ip):
        print(f"{ip} is a valid IP address.")
    else:
        print(f"{ip} is not a valid IP address.")

192.168.0.1 is a valid IP address.
255.255.255.255 is a valid IP address.
256.256.256.256 is not a valid IP address.
192.168.1 is not a valid IP address.
192.168.1.300 is not a valid IP address.
abc.def.ghi.jkl is not a valid IP address.


Task10_0516. 주어진 파일 이름에서 확장자가 .jpg, .jpeg, 또는 .png인지 확인하세요.

In [15]:
def is_image_file(filename):
    pattern = r'.*\.(jpg|jpeg|png)$'
    return bool(re.match(pattern, filename))

# 예시 사용
is_image_file("image.jpg")  # True


True

Task11_0516. 문자열에서 Python 주석을 제거하세요.

In [16]:
def remove_comments(code):
    pattern = r'#.*' # #으로 시작하고 그 뒤에 어떤 문자든 0개 이상(*) 올 수 있는 문자열
    return re.sub(pattern, '', code, flags=re.MULTILINE)

# 예시 사용
code_with_comments = """
# This is a whole line comment
print("Hello, world!")  # This is a side comment
# Another comment
print("Python is fun!") # Another side comment
"""
clean_code = remove_comments(code_with_comments)
print(clean_code)



print("Hello, world!")  

print("Python is fun!") 



Task12_0516. 지정된 HTML 문자열 내에서 이메일 주소를 찾아서 그 결과를 출력

In [20]:
import re

def find_emails(content):
    """ 웹 페이지 내용에서 이메일 주소를 찾습니다. """
    pattern = r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}'
    emails = re.findall(pattern, content)
    return emails

# 사용 예
html = """
<ul>
  <li>Email: example@example.com</li>
  <li>Contact: contact@sample.org</li>
</ul>
"""
emails = find_emails(html)
print("찾은 이메일 주소:", emails)

찾은 이메일 주소: ['example@example.com', 'contact@sample.org']
