#### 파이썬에서 정규 표현식(Regular Expressions)은 문자열을 처리할 때 매우 강력하고 유연한 도구

#### 기본 개념:
- 패턴 매칭 (Pattern Matching): 특정 패턴이 문자열에 존재하는지 확인. 예를 들어, 이메일 주소나 전화번호와 같은 특정 형식을 갖는 문자열을 찾을 때 사용

- 메타 문자 (Meta Characters): 정규 표현식의 핵심 요소로, 특별한 의미를 가진 문자들. 예를 들어,^, 달러사인, *, +, ?, {}, [], \, |, ()등이 있습니다.

- 리터럴 (Literal): 일반 텍스트 문자. 특별한 의미 없이 문자 그대로를 의미

#### re 모듈 : 파이썬은 정규표현식을 지원하기 위해 기본으로 제공
- re.compile의 결과로 리턴되는 객체를 이용하여 그 이후 작업 수행 #그래서 install 할 필요없음

#### 주요 기능:
- re.match(pattern, string): 문자열 내에서 시작 부분부터 정규표현식과 일치하는지 확인 #무조건시작부분이어야함 중간부분에있으면 X
- re.search(pattern, string): 문자열 전체를 검색하여 주어진 정규표현식과 일치하는 첫번째 위치를 확인 # 전체에시작부분이 아니어도 됨 중간 마지막에 있다! 하면 중간임 처음에오는거 하나만.
- re.findall(pattern, string): 문자열 내에서 주어진 패턴과 일치하는 모든 부분을 찾아 리스트로 반환 # findall 은 전부다..
- re.finditer(): 정규식과 매치되는 모든 문자열을 반복 가능한 객체로 리턴
- re.sub(pattern, repl, string): 문자열 내에서 주어진 패턴과 일치하는 부분을 다른 문자열로 대체 # 
- re.compile(pattern): 주어진 패턴을 컴파일하여 재사용 가능한 정규 표현식 객체를 생성

#### re.match에서 반환되는 match 객체는 클래스의 인스턴스
- Python의 re 모듈에서 match 객체는 re.Match 클래스의 인스턴스로, 정규 표현식과의 일치에 대한 정보를 담고 있다.

- re.Match 클래스의 인스턴스는 다음과 같은 중요한 메소드와 속성을 가지고 있다:
  - group(): 일치하는 문자열을 반환. group(0) 또는 group()은 전체 일치를 반환 # 하고, group(1), group(2), 등은 괄호로 구분된 하위 패턴들의 일치를 반환. ( group 이 안먹혀서 확인해봐야함.... ) -> 그룹이 꼭 있어야 작동.
  - start() 및 end(): 일치하는 부분의 시작과 끝 인덱스를 반환.
  - span(): 일치하는 부분의 시작과 끝 인덱스를 포함하는 튜플을 반환.

In [20]:
import re

match = re.match('apple','apple pie')
print(match.group())
print(match.group(0))
print(match.start())
print(match.end())
print(match.span())

apple
apple
0
5
(0, 5)


In [28]:
import re

search = re.search('apple','sweet apple pie') # 중간에 오는 apple 을 찾아줌
print(search.group())
print(search.group(0))
print(search.start())
print(search.end())
print(search.span())

apple
apple
6
11
(6, 11)


In [31]:
# 그룹을 할때는 괄호를 써서..
# 그룹 선택
p = r"(apple) pie"
t = "apple pie"

match = re.match(p,t)
print(match.group(1))

apple


In [36]:
# Q. group(2)를 출력해보세요.
pattern = r"(apple) (pie)"
t = "apple pie"

match = re.match(pattern,t)
print(match.group(2))

pie


In [46]:
# Q. group(2)를 출력해보세요.
pattern = r"(apple) (pie) (a)"
t = "apple pie a"

match = re.match(pattern,t)
print(match.group(2))
print(match.group(3))


pie
a


In [6]:
import re
#검색하기
if re.search("apple","apple.pie"):
    print("Found an apple")

if re.match("apple","apple.pie"):
    print("oh my banana")
    
# 모든 일치 항목 찾기
print(re.findall('a','ab ac ad')) # 어떤 한 문자와 일치
    
# 문자열 대체하기
print(re.sub('blue','red','blue sky and blue ocean'))
      
# 패턴 컴파일하기
pattern = re.compile('[a-e]')
print(pattern.findall("hello world"))

Found an apple
oh my banana
['a', 'a', 'a']
red sky and red ocean
['e', 'd']


#### 정규 표현식의 기본 구성 요소
1. 리터럴(Literals): 일반 텍스트 문자(예: a, b, 1, 2)

2. 메타 문자(Meta Characters): 특별한 의미를 지닌 문자들
- `.`: 어떤 한 문자와 일치 (newline 제외) # 모든 문자와 일치 할 수 있음 그중에서 하나라는 뜻 줄바꿈은 제외(\n 제외)
- ^: 문자열의 시작과 일치
- 달러사인: 문자열의 끝과 일치
- *: 0번 이상 반복되는 경우와 일치
- +: 1번 이상 반복되는 경우와 일치
- ?: 0번 또는 1번 등장하는 경우와 일치
- {m,n}: 최소 m번, 최대 n번 반복
- []: 문자 집합 중 하나와 일치 (예: [abc]는 a, b, c 중 하나와 일치)
- |: OR 조건 (예: a|b는 a 또는 b)
- (...): 그룹화

3. 특수 시퀀스(Special Sequences):
- \d: 숫자와 일치
- \D: 숫자가 아닌 문자와 일치
- \s: 공백 문자와 일치 # space 관련
- \S: 공백이 아닌 문자와 일치
- \w: 단어 문자(문자, 숫자, 밑줄)와 일치
- \W: 단어 문자가 아닌 것과 일치

In [None]:
[0-9] 와 \d 랑 같음 숫자와 일치..
\n \t 대행 탭 공백문자 \s 공백 문자와 일치
\S 는 \s의 반대. 공백이 아닌 모든문자와일치
\w 단어문자 와 일치
\W 단어문자가아닌것과일치

1. `.` (마침표)
- 의미: 어떤 한 문자와 일치(줄바꿈 문자 제외)
- 예시:
  - 패턴: a.b
  - 매칭 예시: "acb" - 가운데에 c 문자라서 됨, "a*b", "a3b"
  - 불일치 예시: "ab"- 가운데 암것도 없어서 안됨, "a\nb"- 줄바꿈은 안됨
2. ^ (캐럿)
- 의미: 문자열의 시작과 일치
- 예시:
  - 패턴: ^Hello
  - 매칭 예시: "Hello world" - 시작이 Hello 라서 됨
  - 불일치 예시: "world, Hello" - 시작이 world 라서안됨
3. \$ (달러 기호)
- 의미: 문자열의 끝과 일치
- 예시:
  - 패턴: end$ - 끝과 일치라서 뒤에다가 달러사인
  - 매칭 예시: "It's the end" - end가 뒤에오니까 됨
  - 불일치 예시: "end of the story"
4. \* (별표)
- 의미: 앞의 문자가 0번 이상 반복
- 예시:
  - 패턴: a*b # 별표라면 앞에를 봐야함. b앞에 a가 0번이상. 패턴이니까 b는 꼭 있어야함
  - 매칭 예시: "b" - b가 있고 a가 0번 이라 됨, "ab", "aaab"  
  - 불일치 예시: "a" - b 가없음
5. \+ (플러스)
- 의미: 앞의 문자가 1번 이상 반복
- 예시:
  - 패턴: a+b # b앞에 a 가 한번이상 있어야함
  - 매칭 예시: "ab", "aaab"
  - 불일치 예시: "b"- a가 1번이상없음, "a" - b가 없음
6. ? (물음표)
- 의미: 앞의 문자가 0번 또는 1번 등장
- 예시:
  - 패턴: a?b # a가 없거나 한번
  - 매칭 예시: "ab", "b"
  - 불일치 예시: "aab" - 2개있으면 안됨
7. {m,n} (중괄호)
- 의미: 앞의 문자가 최소 m번, 최대 n번 반복
- 예시:
  - 패턴: a{2,3} - 반복
  - 매칭 예시: "aa", "aaa"
  - 불일치 예시: "a"-범위 2~3 만족X, "aaaa"
8. `[]` (대괄호)
- 의미: 대괄호 안의 문자 중 하나와 일치
- 예시:
  - 패턴: [abc] - a,b,c중 하나면 됨
  - 매칭 예시: "a", "b", "c"
  - 불일치 예시: "d" - 대괄호 안의 문자가 아님
9. | (파이프)
- 의미: OR 조건
- 예시:
  - 패턴: a|b - 이중에 하나만 있으면 됨
  - 매칭 예시: "a", "b"
  - 불일치 예시: "c" - 둘다 없으면 안됨 하나라도 있어야함
10. (...) (괄호)
- 의미: 그룹화, 캡처 그룹
- 예시:
  - 패턴: (a|b)c - 그룹화
  - 매칭 예시: "ac", "bc"

- 괄호 ()는 '그룹화'를 위해 사용 : 주로 여러 문자열 패턴을 하나의 단위로 묶거나, 특정 부분의 문자열을 추출하는 데 사용

- 그룹화의 주요 용도:
- 패턴의 일부를 하나의 단위로 묶기 : 괄호는 여러 문자 또는 문자 집합을 하나의 단위로 묶어서, 그 전체에 대해 수량자 (예: *, +, ?, {m,n} 등)를 적용할 수 있게 한다.

- 텍스트 캡처 : 괄호로 묶인 부분은 '캡처 그룹'이 되어, 매칭된 텍스트를 나중에 사용하기 위해 저장. 예를 들어, re.search()나 re.match() 등의 함수로 매치 객체를 얻은 후, group() 메서드를 사용하여 이 텍스트를 추출할 수 있다.

- 백레퍼런스(backreferences): 정규 표현식 내에서 앞서 정의된 그룹을 다시 참조할 수 있다. 이는 패턴이 이전에 매치된 동일한 텍스트와 일치해야 할 때 유용.

- 비캡처 그룹(non-capturing groups): 때로는 괄호를 사용하여 그룹을 만들지만, 매치된 내용을 나중에 사용하고 싶지 않을 때가 있다. 이 경우 (?:...) 형태를 사용하여 그룹을 만든다. 이 그룹은 매칭에는 영향을 주지만, 결과를 저장하지는 않는다.

In [None]:
#### Python에서 로우 스트링
- 문자열 앞에 r이나 R을 붙여 정의
- 주요 목적은 문자열 내의 백슬래시(\)를 이스케이프 시퀀스로 처리하지 않도록 하는 것이다.
- 예를 들어:
    - 일반 문자열: "\\\d" (정규 표현식에서 숫자를 의미하는 \d를 나타내려면 두 개의 백슬래시가 필요)
    - 로우 스트링: r"\d" (한 개의 백슬래시만으로도 정규 표현식에서 \d를 나타낼 수 있음)

In [43]:
import re

# 정규표현식 패턴 : YYYY-MM-DD 형식의 날짜 ( 예 : 2023-04-30 )
pattern = r'(\d{4})-(\d{2})-(\d{2})'

# 검색할 문자열
text = "오늘의 날짜는 2023-04-30 입니다."

# 패턴 검색
match = re.search(pattern, text)

# 매치 결과 확인
if match : 
    print("전체날짜 : ", match.group()) # 전체 매치 ("2023-04-30")
    print("연도 : ", match.group(1)) # 첫 번째 그룹 : ("2023")
    print("월 : ", match.group(2)) # 두 번째 그룹 : ("04")
    print("일 : ", match.group(3)) # 세 번째 그룹 : ("30")
    
else :
    print("매치 되는 날짜가 없습니다.")

전체날짜 :  2023-04-30
연도 :  2023
월 :  04
일 :  30


In [None]:
#### 주요 기능:
- re.match(pattern, string): 문자열 내에서 시작 부분부터 정규표현식과 일치하는지 확인 #무조건시작부분이어야함 중간부분에있으면 X
- re.search(pattern, string): 문자열 전체를 검색하여 주어진 정규표현식과 일치하는 첫번째 위치를 확인 # 전체에시작부분이 아니어도 됨 중간 마지막에 있다! 하면 중간임 처음에오는거 하나만.
- re.findall(pattern, string): 문자열 내에서 주어진 패턴과 일치하는 모든 부분을 찾아 리스트로 반환 # findall 은 전부다..
- re.finditer(): 정규식과 매치되는 모든 문자열을 반복 가능한 객체로 리턴
- re.sub(pattern, repl, string): 문자열 내에서 주어진 패턴과 일치하는 부분을 다른 문자열로 대체 # 
- re.compile(pattern): 주어진 패턴을 컴파일하여 재사용 가능한 정규 표현식 객체를 생성

In [None]:
2. 메타 문자(Meta Characters): 특별한 의미를 지닌 문자들
- `.`: 어떤 한 문자와 일치 (newline 제외) # 모든 문자와 일치 할 수 있음 그중에서 하나라는 뜻 줄바꿈은 제외(\n 제외)
- ^: 문자열의 시작과 일치
- 달러사인: 문자열의 끝과 일치
- *: 0번 이상 반복되는 경우와 일치
- +: 1번 이상 반복되는 경우와 일치
- ?: 0번 또는 1번 등장하는 경우와 일치
- {m,n}: 최소 m번, 최대 n번 반복
- []: 문자 집합 중 하나와 일치 (예: [abc]는 a, b, c 중 하나와 일치)
- |: OR 조건 (예: a|b는 a 또는 b)
- (...): 그룹화

3. 특수 시퀀스(Special Sequences):
- \d: 숫자와 일치
- \D: 숫자가 아닌 문자와 일치
- \s: 공백 문자와 일치 # space 관련
- \S: 공백이 아닌 문자와 일치
- \w: 단어 문자(문자, 숫자, 밑줄)와 일치
- \W: 단어 문자가 아닌 것과 일치

In [None]:
문제1_1113: 문자열 "The cat in the hat."에서 "cat"과 "hat"을 찾으세요.

In [94]:
print(re.findall(r'.at', "The cat in the hat."))

['cat', 'hat']


In [198]:
# 문제1_1113 전유빈님 솔루션
import re

print(re.findall("[ch]*at","The cat in the hat."))

['cat', 'hat']


In [9]:
# 문제1_1113 심주승님 솔루션
import re

g = re.findall('cat|hat', 'The cat in the hat')
print(g)

['cat', 'hat']


In [8]:
import re
text = "The cat in the hat."
pattern = re.compile(r'[cat, hat]')
print(pattern)

re.compile('[cat, hat]')


In [None]:
문제2_1113: 문자열 "bat, cat, rat, fat"에서 "bat", "cat", "rat"을 찾되, "fat"은 제외하세요.

In [202]:
sub_text = re.sub("fat", '', "bat, cat, rat, fat")
print(re.findall(r'\S{3,3}',sub_text))

['bat', 'cat', 'rat']


In [None]:
# 문제2_1113 주용규님 솔루션
import re

p2 = r"[^f]at" # [^f] 는 f를 제외한다, 원래는 시작부분을 뜻함
t2 = "bat, cat, rat, fat"
s2 = re.findall(p2, t2) # (pattern, string)

print(s2)

In [None]:
# 문제2_1113 전유빈님 솔루션
print(re.findall("[bcr]+at","bat, cat, rat, fat")) # bcr있는것만 .. [bcr] !!

In [None]:
문제3_1113: 문자열 "123 abc 456"에서 모든 숫자를 찾으세요.

In [169]:
print(re.findall(r'\d{3}',"123 abc 456"))

['123', '456']


In [213]:
# 문제3_1113 윤성민님 솔루션
import re

text = "123 abc 456"

# pattern = r'\d+' # 숫자가 반복되는것을 출력 # 로스트링을 한이유는 escape되게끔.. \자체로 되게끔.. r 안하면 \\d+ 이런식으로해야함
pattern = '\\d+'
matches = re.findall(pattern, text)

print(matches)

['123', '456']


In [None]:
문제4_1113: 문자열 "Hello, my name is John."에서 첫 단어 "Hello"를 찾으세요.

In [205]:
print(re.findall(r'^Hello',"Hello, my name is John."))

['Hello']


In [215]:
import re
text = "Hello, my name is John."
pattern = r"^Hello"
matches = re.match(pattern,text)
if matches : 
    print(matches.group())

Hello


In [None]:
문제5_1113: 문자열 "The car parked in the garage #42."에서 문장의 마지막 단어 "garage"를 찾으세요.

In [218]:
print(re.search(r'\S*g',"The car parked in the garage #42.").group())

garag


In [216]:
print(re.search('garage','The car parked in the garage #42.').group()) # garage 가 중간에 있어서 search 해야함

garage


In [224]:
import re
p = re.compile("[a-z]+\s") # a부터 z 까지 소문자 알파벳. 하나이상. 공백(스페이스)
m = p.match("python python") # 공백이 있어야 출력.. # match 메소드를 이용해서 m 을 만들고..
m.group() # 공백까지 출력 # 그룹으로 출력

'python '

In [225]:
re.match("[a-z]+\s", "python python").group() # 한줄에 끝. 근데 텍스트가 긴경우에는나눠서 하는것이 좋음

'python '

In [226]:
p.findall("python python")

['python ']

In [228]:
m = p.match("3python")
print(m)

None


In [232]:
m = p.search("3python ")
print(m)

<re.Match object; span=(1, 8), match='python '>


In [243]:
# 문자 클래스 : []
pattern = re.compile("[a-z]+") # 소문자만
# pattern = re.compile("[a-zA-Z0-9]+") # 영대문자 다 숫자까지 다
p1 = pattern.search("Banker")
p2 = pattern.search("banker")
print(p1.group()) # 대문자인 B 만 빼고 anker 출력
print(p2.group()) # 다출력 banker

anker
banker


In [252]:
# group 매치된 문자열을 리턴
# Q. '123456abc' 에서 'a'만 출력하세요.

import re
regex = re.compile('[a]') # 컴파일로 리턴 다시 받고, 대괄호 안에 문자a 를 넣어서 a 가 선택되게끔..
text = '123456abc' 
m = regex.search(text) # 중간에 있는거 출력
m.group() # 그룹으로 출력하면 a 가 나옴

'a'

In [265]:
# Q. "KOREA 대한민국"에서 "대"만 출력하세요.
import re
regex = re.compile("[가-힣]") # 한글 전부다 하려면 가-힣
text = "KOREA 대한민국"
m = regex.search(text)
m.group()

'대'

In [269]:
# search는 문자열 전체를 검색하여 정규식과 매칭되는 패턴을 찾는다.
# a{2}는 a를 2회 반복하여 사용
# Q. "122333c" 를 모두 출력하세요
import re
regex = re.compile("12{2}3{3}c") # 2가 두번반복, 3이 세번반복된것을 골라주는것.
text = "122333cKKKKKK" 
m = regex.search(text) # 텍스트에서 걸러주기..
m.group()

'122333c'

In [280]:
# Q. "aaaaBBBcccDDDeee" 을 모두 출력하세요.
import re
regex = re.compile("a{4}B{3}c{3}D{3}e{3}")
text = "aaaaBBBcccDDDeee"

m = regex.search(text).group()
print(m)
# m.group()

aaaaBBBcccDDDeee


In [298]:
# Q. BC, CC, ABC 모두 C가 출력되는 정규 표현식을 ( ) 에 작성하세요.

import re

# pattern = re.compile("C{1}")
# pattern = re.compile("C")
# pattern = re.compile('[C]+')
# pattern = re.compile('[A-C]+')
pattern = re.compile('[A-C]+')
pattern = re.compile('A?C')

text1 = "BC"
text2 = "CC"
text3 = "ABC"

p1 = pattern.search(text1)
p2 = pattern.search(text2)
p3 = pattern.search(text3)

print(p1)
print(p2)
print(p3)

<re.Match object; span=(1, 2), match='C'>
<re.Match object; span=(0, 1), match='C'>
<re.Match object; span=(2, 3), match='C'>


In [303]:
# C나 A 가 나오게끔
import re

pattern = re.compile('A?C')

text1 = "BC"
text2 = "CC"
text3 = "AC"

p1 = pattern.search(text1)
p2 = pattern.search(text2)
p3 = pattern.search(text3)

print(p1)
print(p2)
print(p3)

<re.Match object; span=(1, 2), match='C'>
<re.Match object; span=(0, 1), match='C'>
<re.Match object; span=(0, 2), match='AC'>


In [309]:
# finditer는 findall과 동일하지만 그 결과로 반복 가능한 객체(iterator object)를 돌려준다.
# 반복 가능한 객체가 포함하는 각각의 요소는 match 객체이다.
p = re.compile("[a-z]+")
result = p.finditer("life is too short")
# print(list(result))
for r in result:print(r.group(),end=" ") # finditer는 for문을 써서 이렇게 출력할수 있다.

life is too short 

In [312]:
# Q. '1234a1234'에서 '1','2','3','4'를 모두 출력하세요.
import re
regex =re.compile('[1234]')
text = '1234a1234'
regex.findall(text)

['1', '2', '3', '4', '1', '2', '3', '4']

In [313]:
# Q. "Python3" is very good programming language!" 에서 ['Python', 'is', 'very', 'good', 'programming', 'language']를
# 모두 출력하세요
pattern = re.compile("[a-zA-Z]+")
pattern.findall("Python3 is very good programming language!")

['Python', 'is', 'very', 'good', 'programming', 'language']

In [319]:
# Dot(.) 메타 문자는 줄바꿈 문자(\n)을 제외한 모든 문자와 매치
import re
p = re.compile("a.+b")
m1 = p.match("a\nb")
m2 = p.match("acb")
m3 = p.match("a12?Ab")
print(m1) #None
print(m2) #acb
print(m3) #a12?Ab

None
<re.Match object; span=(0, 3), match='acb'>
<re.Match object; span=(0, 6), match='a12?Ab'>


In [323]:
# re.DOTALL 옵션은 여러 줄로 이루어진 문자열에서 \n에 상관없이 검색시 사용
p = re.compile("a.b", re.DOTALL)
m = p.match("a\nb")
print(m)
# a
# b

<re.Match object; span=(0, 3), match='a\nb'>


In [None]:
# Q. text에서 what are you doing?만 출력하세요
text = "what are you doing?\nit is going to be late for school"
"\nwe need to hurry up"

In [362]:
# 주용규님 솔루션
text = 'what are you doing?\nit is going to be late for school\
\\nwe need to hurry up'
p = re.compile(r"^[\S\s]+\?") # ^맨앞에서 [\S\s]전부다에서 +하나이상 \?물음표가 마지막 근데 escape하려면 \붙여서..
# r"^[\S\s]+\?" -> '.*' .모든문자한개가 *전체 # 줄바꿈 표시는 안되서 이렇게 하면 됨 그러면 what are you doing? 만 나옴
print(p.search(text).group())

what are you doing?


In [363]:
# 심주승님 솔루션
text = 'what are you doing?\nit is going to be late for school!\nwe need to hurry up'

m = re.compile('what.+')
p = m.match(text)

print(p.group())

what are you doing?


In [None]:
# Q. text에서 전체문장 모두 출력하세요

In [374]:
# 솔루션
text = "what are you doing?\nit is going to be late for school"
"\nwe need to hurry up"
pattern = re.compile(r".*")
m = pattern.findall(text)
print(m.search(text).group())

AttributeError: 'list' object has no attribute 'search'

In [370]:
# 솔루션
text = ("what are you doing?\nit is going to be late for school"
"\nwe need to hurry up") # 괄호가 찾아줄 문장 전체에 들어가야함
p = re.compile(".*",re.DOTALL)
print(p.search(text).group())

what are you doing?
it is going to be late for school
we need to hurry up


In [351]:
# 심주승님 솔루션
text = 'what are you doing?\nit is going to be late for school!\nwe need to hurry up'

m = re.compile('what.*up', re.DOTALL) # what와야하고.(다되는데)*(전부)up까지. 사실상 처음부터 마지막 까지임.
# 그리고 re.DOTALL 이면 스페이스 포함 모두(줄바꿈도 포함.)
p = m.match(text)

# print(p)
print(p.group())

what are you doing?
it is going to be late for school!
we need to hurry up


In [354]:
# 최재빈님 솔루션
import re

text = 'what are you doing?\nit is going to be late for school' '\nwe need to hurry up'

pattern = r'.+'

match = re.search(pattern, text, re.DOTALL)

if match:
    full_text = match.group()
else:
    full_text = "찾으시는 패턴이 없습니다"

print(full_text)

what are you doing?
it is going to be late for school
we need to hurry up


In [376]:
# re.IGNORECASE 또는 re.I 옵션은 대소문자 구분 없이 매치를 수행시 사용
p = re.compile("[a-z]+",re.I)
print(p.match('python'))
print(p.match("Python"))
print(p.match("PYTHON"))

<re.Match object; span=(0, 6), match='python'>
<re.Match object; span=(0, 6), match='Python'>
<re.Match object; span=(0, 6), match='PYTHON'>


In [None]:
# Q. text에서 대소문자 구분없이 전체문장 모두 출력하세요.
text = "Friend fRiend friEnd FRIEND"

In [5]:
# 솔루션
import re
text = "Friend fRiend friEnd FRIEND"
p = re.compile(r"friend",re.I)
# print(p.findall(text))
for i in re:print(r.group(),end=" ")

TypeError: 'module' object is not iterable

In [2]:
# 솔루션
import re
text = "Friend fRiend friEnd FRIEND"
p = re.compile(r"friend",re.I)
list = p.findall(text)
for i in list:
    print(i)

Friend
fRiend
friEnd
FRIEND


In [391]:
# 이민지님 솔루션
text = "Friend fRiend friEnd FRIEND"
p = re.compile('.*', re.I)
print(p.match(text).group())

Friend fRiend friEnd FRIEND


In [401]:
# python 이라는 문자열로 시작하고 그 뒤에 whitespace, 그뒤에 단어가 오는경우
import re
p = re.compile("^python\s\w+") # 맨앞 파이선 스페이스 문자 가 하나이상

data = """python one
life is too short
python two
you need python
python three"""
print(p.findall(data))

['python one']


In [402]:
# re.MULTILINE 또는 re.M옵션으로 ^메타 문자를 각 라인의 처음으로 인식시킴
import re
p = re.compile("^python\s\w+",re.M) # 매줄마다 ^ <- 캐럿을 처음으로 인식시킴 그래서 줄마다 다 출력가능..

data = """python one
life is too short
python two
you need python
python three"""
print(p.findall(data))

['python one', 'python two', 'python three']


In [None]:
# 연습..
import re
pattern = re.compile("^Hello\s\w+")

In [None]:
문제6_1113: 이메일 주소 찾기
- 조건: user@example.com과 같은 이메일 주소를 찾는 정규 표현식을 작성하세요.

In [427]:
# 문제6_1113 솔루션
import re
emails = "user@example.com"
pattern = re.compile(".*\@.*\..*")
m = pattern.finditer(emails)
for i in m:print(i.group(),end=" ")

user@example.com, user@example.com 

In [26]:
# 문제6_1113 황인서님 솔루션
import re 
text = "user@example.com"
pattern = r"\b[a-zA-Z0-9._+-]+\@[a-zA-Z0-9]+\.[a-zA-Z]{2,4}\b" # \b ~~~ \b 은 여기부터 저기까지 막는거. 딴것들이 안들어감 다른거 개입이 안되도록..
email = re.search(pattern, text)
print(email.group())

user@example.com


In [None]:
문제7_1113: 전화번호 검증
- 조건: 010-1234-5678 형태의 대한민국 전화번호와 일치하는 정규 표현식을 작성하세요.

In [499]:
# 문제7_1113 솔루션
import re
phone_numbers = '010-1234-5678'
pattern = re.compile(r"010-\d{4}-\d{4}")
m = pattern.search(phone_numbers)
print(m.group())

010-1234-5678


In [501]:
# 문제7_1113 윤성민님 솔루션 
import re

# phone_pattern = r'[0-9]{3}-[0-9]{4}-[0-9]{4}'
phone_pattern = r'\d{3}-\d{4}-\d{4}'

text = '대한민국 전화번호는 010-1234-5678입니다.'

matches = re.findall(phone_pattern, text)

print(matches)

['010-1234-5678']


In [None]:
문제8_1113: 웹사이트 URL 검증
- 조건: http://www.example.com 형태의 웹사이트 주소와 일치하는 정규 표현식을 작성하세요.

In [447]:
# 문제8_1113 솔루션
websites = 'http://www.example.com'
pattern = re.compile(r"http://www\..*\.com")
m = pattern.search(websites)
print(m.group())

http://www.example.com


In [502]:
# 문제8_1113 최재빈님 솔루션
import re
pattern = r'http://www\.[a-zA-Z0-9]+\.[a-zA-Z]+'

text = 'asdzxv http://www.example.com'

print(re.findall(pattern, text))

['http://www.example.com']


In [36]:
# 문제8_1113 솔루션 # ?를 사용하여 http, https 둘다 할수있게끔..
url_example = "http://www.example.com"
url_pattern = r'http[s]?://www\.[a-zA-Z0-9-]+\.[a-zA-Z]+/?'
if re.match(url_pattern, url_example):
    print("유효한 URL입니다.")
else:
    print("유효하지 않은 URL입니다.")

유효한 URL입니다.


In [None]:
문제9_1113: 날짜 형식 검증
- 조건: YYYY-MM-DD 형식의 날짜와 일치하는 정규 표현식을 작성하세요 (예: 2023-11-09).

In [448]:
# 문제9_1113 솔루션
import re
dates = "2023-11-09"
pattern = re.compile(r"\d{4}-\d{2}-\d{2}")
m = pattern.search(dates)
print(m.group())

2023-11-09


In [None]:
문제10_1113: HTML 태그 제거
- 조건: <p>Hello World</p>와 같은 HTML 태그를 찾아 제거하는 정규 표현식을 작성하세요.

In [504]:
# 문제10_1113 서영우님 솔루션 
p = re.compile(r'\W+\w\W')
print(p.sub('', '<p>Hello World</p>'))

Hello World


In [506]:
# 문제10_1113 주용규님 솔루션 
import re
p10 = re.compile(r'<.*?>') # *? 이렇게하면 특정 특징이 생김....
t10 = r'<p>Hello World</p>'

print(re.sub(p10,'',t10))

Hello World


In [22]:
import re

html_example = '<p>Hello World</p>'
html_pattern = r"<[^>]+>"
m = re.sub(html_pattern, '', html_example)
print(m)

Hello World


In [509]:
# 메타 문자
# |(or와 동일한 의미), ^(문자열의 맨처음), $(문자열의 끝과 매치)
import re
p = re.compile("Crow|Servo")
m = p.match("CrowHello")
print(m)
print()
print(re.search("^Life","Life is too short"))
print(re.search("^Life","My Life"))
print()
print(re.search("Life$","Life is too short"))
print(re.search("Life$","My Life"))

<re.Match object; span=(0, 4), match='Crow'>

<re.Match object; span=(0, 4), match='Life'>
None

None
<re.Match object; span=(3, 7), match='Life'>


In [511]:
# Q. "we are going home" 에서 home 만 출력하세요.
text = "we are going home"
regex = re.compile(r"home$")
m1 = regex.search(text)
print(m1.group())

home


In [514]:
# Q. '199305,1923A,a93247' 에서 '199305' 만 출력하세요.
text = '199305,1923A,a93247'
pattern = re.compile(r"\d{6}")
m = pattern.match(text)
print(m.group())

199305


In [523]:
regex = re.compile(r"^\d+")
m = regex.findall('199305,1923A,a93247')
print(m)

['199305']


In [526]:
# Q. "99food234, a93456\n, a9356ba" 에서 "99food234"만 출력하세요
regex = re.compile(r"^\w+\d") # \w 는 문자,숫자,밑줄 로 시작되고 그게 하나이상이고 그리고 숫자
regex.findall("99food234, a93456\n, a9356ba ")

['99food234']

In [23]:
# \b whitespace 에 의해 구분
# \B whitespace로 구분된 단어가 아닌 경우에만 매치
p = re.compile(r"\bclass\b") # class 블락
print(p.search("no class at all")) # 블락이 된것 출력
print(p.search("the declassified algorithim")) # 블락이 되지않은것 출력 X
print()
q = re.compile(r"\Bclass\B") # class 양쪽에 무언가가 와야함 그러면 출력
print(q.search("no class at all")) # 블락이 된것 출력 X
print(q.search("the declassified algorithim")) # 블락이 되지않은것 출력

<re.Match object; span=(3, 8), match='class'>
None

None
<re.Match object; span=(6, 11), match='class'>


In [2]:
# \1dms cjt qjsWo zoqcj rmfnq ((\b\w+))이 매치한 텍스트와 동일한 텍스트를 다시 찾는다.
# Capturing Group ((\b\w+)): 괄호는 캡처 그룹을 만듭니다. 이 경우 \b\w+ 는 단어 경계로 시작하는 하나 이상의 단어 문자로 이루어진
# 시퀸스를 캡처
import re

pattern = r"(\b\w+)\s+\1"
text = "이것은 중복 중복 단어입니다."

match = re.search(pattern, text)

if match :
    print(match.group()) # "중복 중복"

중복 중복


In [17]:
# 첫 번째 숫자 그룹은 비캡처 그룹 (?:\d{4}) 로 설정되어 있어, 매치 결과는 저장되지 않고 '월'과 '일'만 캡처된다.
import re

pattern = r"(?:\d{4})-(\d{2})-(\d{2})"
text = "오늘의 날짜는 2023-04-30입니다."

match = re.search(pattern, text)

if match : 
#     print("년 : ", match.group()) # 그룹화 안됨. 왜냐면 캡처가 안되기때문. ?: 가 그런의미
    print("월 : ", match.group(1)) # '04'
    print("일 : ", match.group(2)) # '30'
    print(match.group(0))

년 :  2023-04-30
월 :  04
일 :  30
2023-04-30


In [4]:
p = re.compile("((AB)(CD)(EF))+")
m = p.search("DEFABCDEFDEF OK?")
print(m)
print(m.group(0))
print(m.group(1))
print(m.group(2))
print(m.group(3))
print(m.group(4))

<re.Match object; span=(3, 9), match='ABCDEF'>
ABCDEF
ABCDEF
AB
CD
EF


In [None]:
# Q. 정규표현식을 사용하여 text에서 지역코드만 출력하세요.
import re
text = "문의사항이 있으면 032-232-3245 으로 연락주시기 바랍니다."
# 지역코드 = 032

In [8]:
# 솔루션
import re
text = "문의사항이 있으면 032-232-3245 으로 연락주시기 바랍니다."
pattern = re.compile(r"\d{3}")
m = pattern.search(text)
print(m)

<re.Match object; span=(10, 13), match='032'>


In [13]:
# 서영우님 솔루션
text = '문의사항이 있으면 032-232-3245 으로 연락주시기 바랍니다.'
p = re.compile('(\d{3})-(\d{3}-\d{4})')
print(p.search(text).group(1)) # 그룹화.. 그룹화의 목적은 원한는 것만 뽑기 위해..

032


In [14]:
# 지역코드 제외해서 뽑으면....
text = '문의사항이 있으면 032-232-3245 으로 연락주시기 바랍니다.'
p = re.compile('(\d{3})-(\d{3}-\d{4})')
print(p.search(text).group(2))

232-3245


In [16]:
# 그룹이 중첩되어 있는 경우는 바깥쪽부터 시작하여 안쪽으로 들어갈수록 인덱스 증가
# Q. 정규표현식을 사용하여 "park 010-1234-1234" 에서 지역코드만 출력하세요.

p = re.compile(r"(\w+)\s+((\d+)[-]\d+[-]\d+)")
m = p.search("park 010-1234-1234")
print(m)
print(m.group(0))
print(m.group(1))
print(m.group(2))
print(m.group(3))
print(m.group())

<re.Match object; span=(0, 18), match='park 010-1234-1234'>
park 010-1234-1234
park
010-1234-1234
010
park 010-1234-1234


In [49]:
# 그룹핑된 문자열에 이름 붙이기 : 확장 구문 (?P<name>\w+)
p = re.compile(r"(?P<name>\w+)\s+((\d+)[-]\d+[-]\d+)")
m = p.search("park 010-1234-1234")
print(m)
print(m.group("name"))
print(m.group(0))
print(m.group(1))
print(m.group(2))
print(m.group(3)) # 그룹은 바깥게 먼저 이거는 (\d+) 그룹안의 그룹

<re.Match object; span=(0, 18), match='park 010-1234-1234'>
park
park 010-1234-1234
park
010-1234-1234
010


In [63]:
# 그룹명을 이용하여 정규식 내에서 재참조
p = re.compile(r"(?P<word>\w+)\s+(?P=word)")
p.search("Paris in the the spring").group()

'the the'

In [None]:
# Q. 이름으로 그룹을 참조하여 "Lots of punctuation" 에서 Lots을 출력하세요.

In [66]:
# 솔루션
import re
text = "Lots of punctuation"
pattern = re.compile(r"(?P<word>\b\w+\b)")
m = pattern.search( "((( Lots of punctuation)))" )
m.group()

'Lots'

정규 표현식에서 전방탐색(Lookahead) # 난이도 중급 이상
- 특정 패턴 뒤에 오는 문자열을 확인하는 방법으로, 긍정 전방탐색과 부정 전방탐색 두 가지 형태가 있다. 
- 이들은 매칭을 결정하는 조건을 설정하지만, 실제로 해당 문자열을 결과에 포함시키지는 않는다. 즉, 문자열을 '소모(consume)'하지 않는다..

- 긍정 전방탐색 (Positive Lookahead)
    - 형식: (?=...)
    - 설명: 긍정 전방탐색은 ...에 해당하는 정규식 패턴이 일치해야 하지만, 해당 부분은 결과에 포함되지 않는다.
    - 예시: X(?=Y)는 'Y'가 뒤따르는 'X'에 일치합니다. 'X'는 결과에 포함되지만, 'Y'는 포함되지 않는다.
- 부정 전방탐색 (Negative Lookahead)
    - 형식: (?!...)
    - 설명: 부정 전방탐색은 ...에 해당하는 정규식 패턴이 일치하지 않아야 합니다. 여기서도 일치하는 부분은 결과에 포함되지 않는다.
    - 예시: X(?!Y)는 'Y'가 뒤따르지 않는 'X'에 일치합니다. 'X'는 결과에 포함되지만, 'Y'는 검사 대상이지 결과에 포함되지 않는다.

In [67]:
# 전방 탐색
# 긍정 (?=...) ...에 해당되는 정규식과 매치되어야 하며 조건이 통과되어도 문자열이 소모되지 않음
# 부정 (?!...) ...에 해당되는 정규식과 매치되지 않아야 하며 조건이 통과되어도 문자열이 소모되지 않음

p = re.compile(r".+:")
m = p.search("http://google.com")
print(m.group())
print()
p=re.compile(r".+(?=:)") # : 에 해당되는 문자열이 정규식 엔진에 의해 소모되지 않음(검색에는 포함되자만 결과에는 제외)
m = p.search("http://google.com")
print(m.group())
print()

http:

http



긍정 전방탐색 사용

문제1_1114: 문자열 "I love cats but I hate catching colds"에서 'cat' 다음에 's'가 오는 단어만 찾으세요.

In [71]:
# 문제1_1114 솔루션
text = "I love cats but I hate catching colds"
pattern = re.compile(r"cat(?=s)")
m = pattern.search(text)
print(m.group())

cat


In [68]:
import re
text = "I love cats but I hate catching colds"
pattern = re.compile(r'cat(?=s)')
pattern.search(text)

<re.Match object; span=(7, 10), match='cat'>

부정 전방탐색 사용

문제2_1114: 문자열 "7UP, Cherry7UP, 7Down"에서 '7' 뒤에 'UP'이 오지 않는 숫자 7을 찾으세요.

In [74]:
# 문제2_1114 솔루션
text = "7UP, Cherry7UP, 7Down"
pattern = re.compile(r"7(?!UP)")
m = re.search(pattern,text)
print(m.group())

7


문제3_1114: 다음 텍스트에서 화폐 단위('€')가 붙어 있는 숫자만 찾으세요.

"Prices are 30€ for adults, 20 for children and 25€ for seniors."

In [1]:
# 문제3_1114 솔루션
import re
text = "Prices are 30€ for adults, 20 for children and 25€ for seniors."
pattern = re.compile(r"\d+(?=€)")
m = re.finditer(pattern,text)
for i in m :
    print(i.group(), end=" ")

30 25 

In [3]:
import re
text = "Prices are 30€ for adults, 20 for children and 25€ for seniors."
pattern = re.compile(r"\d+(?!€)") # 부정 탐색
m = re.finditer(pattern,text)
for i in m :
    print(i.group(), end=" ") # 3 20 2 가 나오는데 그 이유는 3뒤에오면 안됨 그래서 0유로는 안나오고 3만나옴
    #20같은경우에는 20뒤에 오면안되는데 안와서 그대로 출력됨

3 20 2 

In [4]:
# 문제3_1114 전유빈님 솔루션
import re
p = r'\d+(?=€)'
print(re.findall(p,"Prices are 30€ for adults, 20 for children and 25€ for seniors."))

['30', '25']


문제4_1114: 다음 텍스트에서 'com'으로 끝나는 이메일 주소의 도메인 부분만 추출하세요. (예: 'example@domain.com'에서 'domain')

In [5]:
# 문제4_1114 서영우님 솔루션
p = re.compile(r'\w+.(?=com).+')
m = p.findall('example@domain.com')
print(m)

['domain.com']


In [6]:
# text2 가 주어진 문제4..
text2 = "Contact us at support@company.com, sales@enterprise.com or info@organization.org."
pattern2 = r"(?<=@)[a-zA-Z0-9.-]+(?=\.com)" # ?<= 후방탐색
matches2 = re.findall(pattern2, text2)
print(matches2)

['company', 'enterprise']


In [2]:
# 문자열 바꾸기
# sub 메서드를 사용하면 정규식과 매치되는 부분을 다른 문자로 쉽게 바굴 수 있음
# 바꾸기 횟수를 제어하려면 세 번째 매개변수로 count 값을 넘기면 됨
# subn 역시 sub와 동일한 기능을 하지만 반환 결과를 튜플로 돌려줌. 두 번째 요소는 바꾸기 발생 횟수
p = re.compile("(blue|white|red)")
print(p.sub("colour", "blue socks and red shoes"))
print(p.sub("colour", "blue socks and red shoes", count=1)) # 바꾸기 횟수를 제어
print(p.sub("colur","blue socks and red shoes"))

colour socks and colour shoes
colour socks and red shoes
colur socks and colur shoes


문제5_1114: 텍스트에서 모든 이메일 주소를 'email'로 대체하세요.
    
text = "Contact: john.doe@example.com, jane.smith@workplace.org"

In [7]:
# 문제5_1114 김신미님 솔루션
import re

txt = "Contact: john.doe@example.com, jane.smith@workplace.org"
p = re.compile(r'[a-zA-z0-9.%+-_]+@[a-zA-Z0-9]+\.[A-Za-z]{2,5}')

print(p.sub('email', txt))

Contact: email, email


문제6_1114: 텍스트에서 모든 전화번호를 'phone'으로 대체하세요. 전화번호는 다음과 같은 형식으로 가정합니다: '123-456-7890'.

In [8]:
# 문제6_1114 김학준님 솔루션
import re
p = re.compile(r'\d{3}-\d{3}-\d{4}')
t ='123-456-7890'
m=p.sub('phone',t)
print(m)

phone


In [10]:
# 문제6 text2 가 주어진...
text2 = "Our office numbers are 123-456-7890 and 987-654-3210."
pattern2 = r"\d{3}-\d{3}-\d{4]}"
replaced_text2 = re.sub(pattern2, 'phone')

TypeError: sub() missing 1 required positional argument: 'string'

In [76]:
import re
p = re.compile("\d")
p.sub("","12345abc")

'abc'

In [80]:
# Q. "12345abc"에서 '12345' 만 출력하세요.
import re
str = '12345abc'
re.sub("[^0-9]",'',str)

'12345'

In [84]:
# sub 메서드를 사용할 때 참조 구문을 사용
# 이름 + 전화번호의 문자열을 전화번호 + 이름으로 바꾸는 예
# sub의 바꿀 문자열 부분에 \g<그룹이름>을 사용하면 정규식의 그룹 이름을 참조
p = re.compile(r"(?P<name>\w+)\s+(?P<phone>(\d+)[-]\d+[-]\d+)")
print(p.sub("\g<phone> \g<name>", "park 010-1234-1234")) # \g<phone> \g<name> 은 대체할 문자열

010-1234-1234 park


In [93]:
# 그룹 이름 대신 참조 번호를 사용할 수있음
p = re.compile(r"(?P<name>\w+)\s+(?P<phone>(\d+)[-]\d+[-]\d+)")
print(p.sub("\g<2> \g<1>","park 010-1234-1234"))

010-1234-1234 park


In [91]:
p = re.compile(r"(?P<name>\w+)\s+(?P<number>(\d+)[-]\d+[-]\d+)")
print(p.sub("\g<number> \g<name>", "park 010-1234-1234"))

010-1234-1234 park


In [90]:
# sub 메서드의 매개변수로 함수 넣기
# hexrepl 함수는 match 객체(위에서 숫자에 매치되는)를 입력으로 받아 16진수로 변환하여 돌려주는 함수
# sub의 첫 번째 매개변수로 함수를 사용할 경우 해당 함수의 첫 번째 매개변수에는 정규식과 매치된 match객체가 입력
# 매치되는 문자열은 함수의 반환 값으로 변환

def hexrepl(match):
    value = int(match.group())
    return hex(value)
p = re.compile(r"\d+")
p.sub(hexrepl, "Call 65490 for printing, 49152 for user code.")

'Call 0xffd2 for printing, 0xc000 for user code.'

Greedy (탐욕스러운) 매칭
- Greedy 매칭은 가능한 한 많은 문자와 일치하려고 한다. 즉, 주어진 패턴과 일치하는 문자열 중 가장 긴 것을 찾는다.
- 예를 들어, 정규 표현식 a.*b는 a로 시작하고 b로 끝나는 가장 긴 문자열 부분과 일치한다. (모든문장이 0보다이상이면 .*)

Non-Greedy (비탐욕스러운) 매칭
- Non-Greedy 매칭은 가능한 한 적은 문자와 일치하려고 한다. 즉, 주어진 패턴과 일치하는 문자열 중 가장 짧은 것을 찾는다.
- 예를 들어, 정규 표현식 a.*?b는 a로 시작하고 b로 끝나는 가장 짧은 문자열 부분과 일치합니다.

In [124]:
# 탐욕적
import re
text = "<div>Hello</div><div>World</div>"
pattern = r"<div>.*</div>"
matches = re.findall(pattern, text)
print(matches)

['<div>Hello</div><div>World</div>']


In [125]:
# 비탐욕적
pattern_ng = r"<div>.*?</div>"
matches_ng = re.findall(pattern_ng, text)
print(matches_ng)

['<div>Hello</div>', '<div>World</div>']


1. *? (Non-Greedy Kleene Star)
- Greedy: *는 0회 이상 반복하는 가장 긴 문자열을 찾는다.
- Non-Greedy: *?는 0회 이상 반복하는 가장 짧은 문자열을 찾는다.
2. +? (Non-Greedy Plus)
- Greedy: +는 1회 이상 반복하는 가장 긴 문자열을 찾는다.
- Non-Greedy: +?는 1회 이상 반복하는 가장 짧은 문자열을 찾는다.
3. ?? (Non-Greedy Question Mark)
- Greedy: ?는 0회 또는 1회 반복하는 가장 긴 문자열을 찾는다.
- Non-Greedy: ??는 0회 또는 1회 반복하는 가장 짧은 문자열을 찾는다.
4. {m,n}? (Non-Greedy 범위 반복자)
- Greedy: {m,n}은 m회에서 n회까지 반복하는 가장 긴 문자열을 찾는다.
- Non-Greedy: {m,n}?은 m회에서 n회까지 반복하는 가장 짧은 문자열을 찾는다.

In [131]:
import re
text = "<div>First</div><div>Second</div>"
# Greedy 매칭
print(re.findall(r"<div>.*</div>", text))
# Non-Greddy 매칭
print(re.findall(r"<div>.*?</div>", text))

text = "Hellooooo"
# Greedy 매칭
print(re.findall(r"o+",text))
# Non-Greedy 매칭
print(re.findall(r"o+?",text))

text = "Hello?"
# Greedy 매칭
print(re.findall(r"o?",text))
# Non-Greedy 매칭
print(re.findall(r"o??",text)) # 출력값 요소가 하나 더많은 이유는 Non-Greedy 여기서 매칭이 o 가 가장짧은거 찾는데 1개밖에없으니 0개, 1개 인거 해서 저렇게나온듯

text = "Helloooo"
# Greedy 매칭
print(re.findall(r"o{2,4}",text))
# Non-Greedy 매칭
print(re.findall(r"o{2,4}?",text))

['<div>First</div><div>Second</div>']
['<div>First</div>', '<div>Second</div>']
['ooooo']
['o', 'o', 'o', 'o', 'o']
['', '', '', '', 'o', '', '']
['', '', '', '', '', 'o', '', '']
['oooo']
['oo', 'oo']


In [None]:
문제7_1114: HTML 텍스트에서 \<p> 태그로 둘러싸인 전체 부분을 찾으세요 (Greedy 방식 사용).
    html = "<div>Hello <p>world</p> this is <p>a test</p></div>

In [11]:
# 문제7_1114 최재빈님 솔루션
import re
html_text = "<p>This is the first paragraph.</p><p>This is the second paragraph.</p>"
pattern = r'<p>([^<]*)</p>'
matches = re.findall(pattern, html_text)
matches

['This is the first paragraph.', 'This is the second paragraph.']

In [14]:
import re
html = "<div>Hello <p>world</p> this is <p>a test</p></div>"
# Greedy 매칭
greedy_matches = re.findall(r"<p>.*</p>",html)
print(greedy_matches)

['<p>world</p> this is <p>a test</p>']


In [None]:
문제8_1114: 같은 HTML 텍스트에서 각 <p> 태그로 둘러싸인 부분을 별도로 찾으세요 (Non-Greedy 방식 사용).

In [15]:
# 문제8_1114 김신미님 솔루션
import re

html = "<div>Hello <p>world</p> this is <p>a test</p></div>"
print(re.findall(r'<p>.*?</p>', html)) # ? 붙여줘서 non-greedy로 하고 최소로 만듦

['<p>world</p>', '<p>a test</p>']


문제11_1113: 숫자만 추출
- 조건: 문자열에서 숫자만 추출하는 정규 표현식을 작성하세요 (예: abc1234d5e에서 12345 추출).

In [5]:
# 문제11_1113 솔루션
import re
text = 'abc1234d5e'
pattern = re.compile(r"[0-9]")
m = re.findall(pattern, text)
for i in m :
    print(i, end='')

12345

In [4]:
# 문제11_1113 심주승님 솔루션
import re

p = re.compile('[0-9]+')
m = p.findall('abc1234d5e') 

for i in m:
    print(i, end = '')

12345

In [None]:
# 문제11_1113 전유빈님 솔루션
import re
text = 'abc1234d5e'
re.findall(r'\d',text)

In [6]:
# join 활용
string_with_numbers = 'abc1234d5e'
numbers_patterns = r"\d"
numbers = ' '.join(re.findall(numbers_patterns, string_with_numbers))
print(f"추출된 숫자 : {numbers}")

추출된 숫자 : 1 2 3 4 5


문제12_1113: 대문자로 시작하는 단어 찾기
- 조건: 각 단어가 대문자로 시작하는 경우와 일치하는 정규 표현식을 작성하세요 (예: Hello World에서 Hello와 World 추출).

In [33]:
# 문제12_1113 솔루션
import re
text = "Hello World"
pattern = re.compile(r"[^\s]+", re.I)
m = pattern.finditer(text)
for i in m:print(i.group(),end = " ")

Hello World 

In [35]:
# 문제12_1113 주용규님 솔루션
import re
find_str = re.findall(r'\b[A-Z][a-z]*\b', 'Hello World H H3')
print(find_str)

['Hello', 'World', 'H']


In [23]:
p = re.compile('([A-Z][a-z]*)')
print(p.findall('Hello World Hel Lo Wo Rld'))

['Hello', 'World', 'Hel', 'Lo', 'H', 'Wo', 'Rld']


In [7]:
p = re.compile("[a-z]+")
result = p.finditer("life is too short")
# print(list(result))
for r in result:print(r.group(),end=" ")

life is too short 

In [15]:
import re
text = "Friend fRiend friEnd FRIEND"
p = re.compile(r"friend",re.I)
m = p.finditer(text)
for i in m:print(i.group(),end=" ")

Friend fRiend friEnd FRIEND 

In [18]:
text = "Friend fRiend friEnd FRIEND"
p = re.compile(r"friend",re.I)
list = p.findall(text)
for i in list:
    print(i,end=" ")

Friend fRiend friEnd FRIEND 

문제13_1113: 이메일 유효성 검사
- 조건: 이메일 주소가 유효한 형식인지 검사하는 정규 표현식을 작성하세요. 유효한 이메일 형식은 username@domain.extension과 같습니다.

In [24]:
# 문제13_1113 솔루션
import re
text = "username@domain.extension"
pattern = r"[a-zA-Z0-9_-]{5,20}\@[a-zA-Z0-9]{3,20}\.[a-zA-Z]{2,20}"
m = re.search(pattern, text)
print(m.group())

username@domain.extension


In [23]:
# 문제13_1113 솔루션
# .co.kr 혹은 .co.uk 등과 같은 최상위 도메인을 모두 처리할 수 있음
import re
text = "username@domain.extension"
pattern = r"[a-zA-Z0-9_-]{5,20}\@[a-zA-Z0-9]{3,20}\.[a-zA-Z]{2,20}(?:\.[a-zA-Z]{2,20})?"
m = re.search(pattern, text)
print(m.group())

username@domain.extension


In [None]:
# 문제13_1113 전유빈님 솔루션
email = 'username@domain.extension'
p = r'\w+@+domain.extension'
if re.match(p, email):
    print("유효한 이메일 형식입니다.")
else:
    print("유효하지 않은 이메일 형식입니다.")

In [None]:
# 문제13_1113 솔루션
# .co.kr 혹은 .co.uk 등과 같은 최상위 도메인을 모두 처리할 수 있음
import re
text = "username@domain.extension"
pattern = r"[a-zA-Z0-9_-]{5,20}\@[a-zA-Z0-9]{3,20}\.[a-zA-Z]{2,20}(?:\.[a-zA-Z]{2,20})?"
m = re.search(pattern, text)
print(m.group())

In [None]:
import re
email_example2 = "username@domain.extension"
email_example2 = r"^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9-]+\.[A-Za-z]{2,10}$"
if re.match(email_example2, email_example2):
    print("유효한 이메일 형식입니다.")
else : 
    print("유효하지 않은 이메일 형식입니다.")

문제14_1113: IP 주소 검증
- 조건: 192.168.1.1과 같은 IPv4 주소와 일치하는 정규 표현식을 작성하세요.

In [None]:
# 문제14_1113 최재빈님 솔루션
import re
ip_examples = ["192.168.1.1", "255.255.255.255", "0.0.0.0", 
               "256.1.1.1", "1.1.1.1.1", "123.456.78.90"]
pattern = r'^((25[0-5]|2[0-4]\d|1\d{2}|[1-9]?\d)\.){3}(25[0-5]|2[0-4]\d|1\d{2}|[1-9]?\d)$'
checks = {ip: bool(re.match(pattern, ip)) for ip in ip_examples}
checks

In [None]:
# 문제14_1113 서영우님 솔루션
p = re.compile(r'\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}')
print(p.search('192.168.1.1'))

In [38]:
# 비캡처 그룹 : (?:..)
ip_example = "192.168.1.1"

p = re.compile(r"\b(?:[0-9]{1,3}\.){3}([0-9]{1,3})\b")
match = p.search("192.168.1.1")
print(match.group())
print(match.group(1))

192.168.1.1
1


문제15_1113: 코드 주석 찾기
- 조건: # This is a comment와 같은 파이썬 코드 내의 주석과 일치하는 정규 표현식을 작성하세요.

In [94]:
# 문제15_1113 솔루션
import re
text = '# This is a comment'
pattern = re.compile(r"#.*")
m = re.findall(pattern,text)
print(m)

['# This is a comment']


In [39]:
# 문제15_1113 전유빈님 솔루션
comment = "# This is a comment"
p = r'#.*'
re.match(p,comment).group()

'# This is a comment'

In [40]:
# 문제15_1113 최재빈님 솔루션
import re
code = """
def example():
    return 42  # 주석입니다
# 주석입니다 2
print(example())
"""
# 파이썬 주석을 찾는 정규 표현식 패턴
pattern = r'#.*'
# 패턴과 일치하는 모든 주석 찾기
comments = re.findall(pattern, code)
# 결과 출력
comments

['# 주석입니다', '# 주석입니다 2']

In [41]:
# 문제15_1113 주용규님 솔루션
import re

data = '''python one
life is too short #따뜻한 # 가벼운
python two  
# 주석 샘플 # 확인
you need python  #      담백한
python three #   소박한'''

pattern = r'#\s*[^\n]+'  

matches = re.findall(pattern, data)

for match in matches:
    print(match)

#따뜻한 # 가벼운
# 주석 샘플 # 확인
#      담백한
#   소박한
