In [1]:
%%HTML
<style>
div.prompt {display:none}
</style>
// hide input prompt
$(document).ready(function() {
    $('div.prompt').css('display', 'none');
});


## 정규표현식이란?

정규표현식은 문자열에서 특정한 패턴을 찾거나, 대체하거나 추출하는데 사용되는 문자열.
<br> 즉, 문자열에서 원하는 문자를 찾거나 바꾸기 위한 일종의 패턴이다.
<br> 예를 들어, 정규표현식에서 '.'은 어떤 문자 하나를 의미하고, '*'은 바로 앞의 문자가 0번 이상 반복됨을 의미한다.
<br>또한, '|'는 or 조건을 의미하고 .'^'는 문자열의 시작을 의미한다.
<br> 파이썬에서 정규표현식을 처리하기 위해 're'모듈을 제공한다.
<br>'re' 모듈을 사용하면 문자열에서 패턴을 찾거나, 추출하거나, 대체할 수 있다. 

In [2]:
# 문자열에서 숫자만 추출하는 예시

import re
text = 'Hello, my number is 12345'

numbers = re.findall('\d+',text) # '\d'는 숫자, '+'는 하나 이상의 연속된 문자나 숫자
numbers # 문자열에서 하나 이상의 연속된 숫자(\d+)를 찾아내어 리스트로 반환

['12345']

## 정규표현식의 장단점

장점
- 1.유연성
    - 정규표현식을 사용하면 다양한 패턴을 표현할 수 있다. 예를들어, 특정 문자열이 특정 패턴을 따르는지 여부를 확인하거나, 특정 패턴을 가진 문자열을 찾아 내는 등 다양한 용도로 사용할 수있다.
- 2.간결설
    - 문자열에서 원하는 정보를 추출하는 데에는 정규표현식이 다른 방법에 비해 더 간단하고 직관적이다. 
- 3.속도
    - 정규표현식은 문자열을 일일이 검색하는 것보다 더 빠른 속도로 패턴을 찾아낼 수 있다.
    
단점
- 1.복잡성
    - 정규표현식은 다양한 패턴을 표현할 수 있지만. 그만큼 문법이 복잡하다. 특히 초보자에게는 익숙해지기까지 시간이 걸릴 수 있다.
- 2.이식성
    - 언어나 툴마다 문법이 조금씩 다르기 떄문에, 한번 익힌 정규표현식이 다른 환경에서는 작동하지 않을 수도 있다.
- 3.가독성 
    - 정규표현식을 사용하면 코드의 가독성이 떨어질 수 있다. 특히 매우 복잡한 정규표현식을 작성하면 코드 길이가 길어지고 가독성이 나빠질 수 있다.

In [8]:
# 정규표현식을 이용하여 전화번호 추출하기

#패턴을 설정한다.
pattern = r'\d{3}-\d{4}-\d{4}'  #3자리수 - 4자리수 -4자리수

#패턴 매칭

phone_numbers = ['010-1234-5678','02-555-1234','031-222-3333','010-9942-0118','010-7156-3531']
matched_numbers = [] # 전화번호 패턴에 맞는 문자열을 저장할 빈 리스트

for number in phone_numbers:
    if re.match(pattern, number):
        matched_numbers.append(number) # 매치하는 경우 matched_numbers에 저장. append=추가해라. 
        print(matched_numbers) #이렇게 놓으면 for루프가 반복할때마다 리스트를 출력하기 때문에 결과가 3줄이 나온다.
        
print(matched_numbers) #for 루프가 끝난 다음이므로 총 결과값이 한줄에 표시된다

['010-1234-5678']
['010-1234-5678', '010-9942-0118']
['010-1234-5678', '010-9942-0118', '010-7156-3531']
['010-1234-5678', '010-9942-0118', '010-7156-3531']


## 정규표현식의 구성 요소

정규표현식은 다음과 같은 구성 요소를 가진다.

- 문자: 특정 문자를 표현한다. ex) 'a'는 문자 'a'를 의미한다.
- 메타 문자 : 특별한 의미를 가지는 문자. ex) '.'는 어떤 문자와도 매치되는 문자. 
- 문자 클래스 : 여러개의 문자 중 하나를 선택. 대괄호([])로 표현된다. ex) '[abc]는 'a','b','c' 중 하나에 매칭됨.
- 반복 : 문자 또는 메타 문자가 반복되는 횟수를 지정. '*','+','?','{m},'{m,n} 등으로 표현. ex) 'a'는 'a'가 0번이상 반복되는 문자열에 매칭
- 그룹 : 하나의 문자 또는 메타문자 집합의 그룹화. 괄호()로 표현.  ex) '(abc)+' 는 'abc'가 1번 이상 반복되는 문자열에 매치됨.


## Row String

- 로우스트링은 문자열 안에 있는 이스케이프 문자를 무시하고 문자 그대로 해석하도록 하는 문자열.
- 로우스트링을 사용하면 이스케이프 문자를 사용하지 않고도 백슬래시('\\')를 문자 그대로 사용할 수 있다. 이를 통해 정규표현식, 파일 경로, URL 등과 같은 문자열을 다룰 때 유용하게 사용할 수 있다.
- 로우스트링을 사용하면 백슬래시와 같은 이스케이프 문자를 사용하지 않아도 되므로 가독성이 좋아진다. 

In [9]:
# 로우스트링을 이용한 백슬래시 예시

str1 = 'C:\\Users\\Desktop\\file.txt' # 백슬래시(\)를 두번 써서 특수문자를 표현. -> 문자열이 올바르게 해석되지 않을 수 있음. 

str2 = r'C:\Users\Desktop\file.txt' # 접두사를 사용하여 'raq string'을 나타냄 -> '\'가 특수문자로 해석되지 않고 문자열 그대로 해석됨. 

print(str1)
print(str2) # = 같은 결과값이 출력된다 

C:\Users\Desktop\file.txt
C:\Users\Desktop\file.txt


Q. 그럼 다 로우스트링 쓰면 되지 왜 이스케이프 문자를 사용함?
- 이스케이프 문자를 사용하는 것이 코드의 가독성과 유지 보수성을 향상시키는 경우가 많다. 
- 예를 들어 '.'을 사용해야 하는데 로우스트링으로 하면 이스케이프 기능을 잃고 그냥 . 으로 된다. 

In [10]:
# 예시 2

text1 = 'line\network'  # \n을 역슬래시로 인식해서 문법에 오류가 생긴다. 
text2 = r'line\network' # \를 문자 그대로 사용한다.

print(text1) # 줄바꿈 되어서 문법에 오류 발생
print(text2)

line
etwork
line\network


In [16]:
# 예시 3

# 이스케이프 문자: 특별한 의미를 가지고 있는 문자열을 그대로 해석하도록 사는 문자. 
# r'\n'은 이스케이프 기능을 잃고 \와 n 두 개의 문자로 구성된 문자 리터럴로 해석된다.
text1 = 'Hello, \nworld!'

text2 = 'Hello, \\nworld!' # \를 하나 더 붙이면 그 뒤에 오는 \n이 문자로 인식된다. 

text3 = r'Hello, \nworld!' #로우스트링 적용

print(text1,'\n')

print(text2,'\n')

print(text3)


Hello, 
world! 

Hello, \nworld! 

Hello, \nworld!


In [27]:
# re.findall() = 두개의 인자를 갖는다.
# 첫번째 인자는 찾으려는 패턴을 지정하는 정규표현식.  두번째 인자는 검색 대상이 되는 문자열.


import re
p1 = 'a'  #'a'를 찾아 리스트로 반환
text1 = 'apple'
print(re.findall(p1,text1))

p2 = '.' # 모든 문자열에 일치
t = 'apple'
print(re.findall(p2,t)) #낱개로 출력

p3 = '.+'
print(re.findall(p3,t)) # + 붙이면 묶어서 출력

p4 = '[aeiou]' # 모음 중에서 출력하기
print(re.findall(p4,t))

p5 = 'ba*na' #'b' 다음에 'a'가 0개 이상. 그리고 'n' 그 다음에 'a'가 나오는 문자열
t1 = 'banaana'
print(re.findall(p5,t1))

p6 = '(ba)*na'
print(re.findall(p6,t1))

['a']
['a', 'p', 'p', 'l', 'e']
['apple']
['a', 'e']
['bana']
['ba', '']


In [30]:
#re.search()

import re
p1 = 'a'
t1 = 'apple'
print(re.search(p1,t1))

<re.Match object; span=(0, 1), match='a'>


In [35]:
import re
text = "The quick brown fox jumps over the lazy dog."
# 정규표현식 패턴 생성
pattern = r"\b\w{4}\b"

# 검색 대상 문자열의 시작 부분에서 패턴과 일치하는 문자열을 찾아서 반환
result = re.match(pattern, text)

if result:
    print(result.group())
else:
    print("No match")


No match


In [41]:
import re

p = re.compile(r"\d+")

text = "I have 2 dogs and 3 cats."
matches = re.finditer(p, text)

for match in matches:
    print("Match found at index:", match.start())
    print("Match value:", match.group())


Match found at index: 7
Match value: 2
Match found at index: 18
Match value: 3


In [42]:
pattern = re.compile('ab+c')
match = pattern.search('abbbc') # b+는 b가 1번 이상 반복되기때문에 성립가능.  
if match:
    print('match found!')
else:
    print('No match')

match found!


In [45]:
re.search(pattern,'abbbc')

<re.Match object; span=(0, 5), match='abbbc'>

In [46]:
re.search(pattern,'eeeeabbbc') 

<re.Match object; span=(4, 9), match='abbbc'>

In [48]:
re.match(pattern,'abbbceeee') #시작부분이 일치하므로 매치 성립

<re.Match object; span=(0, 5), match='abbbc'>

In [51]:
re.match(pattern,'eeeeabbbc') # 시작부분이 조건과 맞이 않아 매치되지 않는다.

In [52]:
re.findall(pattern,'abbbceeeabce') # 두개의 답이 출력됨

['abbbc', 'abc']

In [55]:
m = re.finditer(pattern,'abbbceeeabce')
for i in m:
    print(i) #두개의 객체를 생성. - 위치와 값이 출력된다. 

<re.Match object; span=(0, 5), match='abbbc'>
<re.Match object; span=(8, 11), match='abc'>


Q. 정규표현식을 사용하여  text에서 이메일을 추출하세요.
text = "이메일 주소는 abc123@gmail.com입니다"

In [63]:
import re

text = "이메일 주소는 abc123@gmail.com입니다"
pattern = r"[a-z0-9]+@\w+.\w{3}"

re.findall(pattern,text)

['abc123@gmail.com']

In [67]:
import re

text1 = "이메일 주소는 abc123@gmail.com입니다"
pattern1 = r"\w+\d+@+\w{5}.\w{3}"

re.findall(pattern1,text1)

['abc123@gmail.com']

 Q. 정규표현식을 사용하여 text에서 전화번호를 추출하세요.
text = "전화번호는 010-1234-5678 입니다"

In [72]:
import re

text = "전화번호는 010-1234-5678 입니다"
pattern = "\d{3}-\d{4}-\d{4}"

re.findall(pattern,text)

['010-1234-5678']

Q. 정규표현식을 사용하여 text에서 url을 추출하세요.

text = "저의 블로그 주소는 http://www.example.com 입니다"

In [79]:
text = "저의 블로그 주소는 http://www.example.com 입니다"
pattern = "https?://\w+.\w+.[a-z]+"
re.findall(pattern,text)

['http://www.example.com']

In [81]:
text = "저의 블로그 주소는 http://www.example.com 입니다"
pattern = "\w{4}://\w{3}.\w+.\w{3}"
re.findall(pattern,text)

['http://www.example.com']

Q. 정규표현식을 사용하여 html 태그를 제거하세요.

html_string = $"<p>안녕하세요, <b>파이썬</b>입니다.</p>"$

In [84]:
html_string = "<p>안녕하세요, <b>파이썬</b>입니다.</p>"
clean_str = re.sub('<.+?>','',html_string) #<>사이의 문자열을 매칭 . +는 한번이상 반복되는것, ?는 가능한 가장 적게 매칭되도록 한다. 
clean_str

'안녕하세요, 파이썬입니다.'

정규 표현식을 사용하여 문자열에서 패턴을 찾아 다른 문자열로 대체하는 함수
<br>re.sub() 함수는 세 개의 인자를 받습니다
- 첫 번째 인자는 변경할 패턴을 지정
- 두 번째 인자는 변경할 문자열
- 세 번째 인자는 대상 문자열
<br>
<br>re.sub() 함수는 다음과 같은 인수를 사용합니다.
<br>
<br>pattern: 검색할 정규 표현식 패턴입니다.
<br>replacement: 패턴이 일치하는 문자열을 대체할 문자열입니다.
<br>string: 검색 및 대체할 문자열입니다.
<br>count (선택 사항): 변경할 최대 개수입니다. 기본값은 0으로, 모든 패턴이 변경

Q.text = ' Python3 is very good programming language!' 에서 다음을 수행하세요.

- ['Python', 'is', 'very', 'good', 'programming', 'language'] 을 출력
- Python3 출력
- Python 출력
- 숫자만 출력
- Python3를 python으로 대체

In [89]:
text = ' Python3 is very good programming language!'
pattern = '\w+'
re.findall(pattern,text)

['Python3', 'is', 'very', 'good', 'programming', 'language']

In [92]:
text = ' Python3 is very good programming language!'
pattern = '\w+'
re.search(pattern,text).group()

'Python3'

In [94]:
text = ' Python3 is very good programming language!'
pattern = '\w{6}'
re.search(pattern,text).group()

'Python'

In [97]:
text = ' Python3 is very good programming language!'
pattern = '\d+'
re.findall(pattern,text)

['3']

In [96]:
text = ' Python3 is very good programming language!'
tt= re.sub('Python3','python',text)
print(tt)

 python is very good programming language!


In [99]:
# 연습 

text1 = 'python python'  #공백 1개 (중간)
text2 = 'python python ' #공백 2개 (중간+끝)
text3 = '3python '

In [101]:
import re
p = re.compile('[a-z]+\s') #영어 소문자이면서 뒤에 공백이 오는 것 찾기
p.match(text1)# match()는 시작부터 해당 조건을 만족해야 함.. span =(0,7) 해당 값이 인덱스 0~7사이에 있음.(=0~6까지)

<re.Match object; span=(0, 7), match='python '>

In [102]:
p.match(text1).group()

'python '

In [103]:
re.match('[a-z]+\s',text1).group()

'python '

In [104]:
re.findall('[a-z]+\s',text1)

['python ']

In [106]:
re.findall('[a-z]+\s',text2) #text2는 공백이 2개이기 때문에 두개의 답 출력

['python ', 'python ']

In [107]:
re.match('[a-z]+\s',text2).group() # 첫번째 값만 출력

'python '

In [108]:
p.findall(text2) # p변수 설정

['python ', 'python ']

In [111]:
p.match(text3) # 시작부분에 숫자라 매칭실패

In [112]:
p.findall(text3)

['python ']

In [113]:
# 문자 클래스 : []

p = re.compile('[a-z]+') #p변수에 할당
p1 = p.match('Banker') #대문자가 들어가서 안됨.
p2 = p.match('banker')

print(p1)
print(p2)

None
<re.Match object; span=(0, 6), match='banker'>


In [119]:
# Q. '12345abc'에서 'a'만 출력하세요.
text = '12345abc'
# re.search('[a-z]',text).group()
re.search('a',text).group()

'a'

In [122]:
# Q. 'abc12345Abc'에서 'A'만 출력하세요
text = 'abc12345Abc'
re.search('[A-Z]',text).group()
re.search('[A]',text).group()

'A'

In [129]:
# Q. 'KOREA 대한민국'에서 '대'만 출력하세요
text ='KOREA 아대한민국'
p = re.compile('[가-힣]')
re.findall(p,text)[1]

'대'

In [132]:
re.findall('[가-힣]',text)[1]

'대'

In [135]:
# Q. '122333c' 를 모두 출력하세요
text = '122333c' 
re.findall('.+',text)
re.findall('\w+',text)

['122333c']

In [141]:
# Q. '122333c' 를  출력하세요
text = '122333c456' 

# re.findall('12+3+c',text) #['122333c'] 출력
re.search('12{2}3{3}c',text).group() #'122333c' 출력

'122333c'

In [145]:
# Q. 'aaaaBBBcccDDDeee'를 모두 출력하세요
text ='aaaaBBBcccDDDeee'
# re.findall('.+',text)
# re.search('.+',text).group()
re.search('a{4}B{3}c{3}D{3}e{3}',text).group()

'aaaaBBBcccDDDeee'

Q.BC,CC,ABC 모두 C가 출력되는 정규 표현식을 ()에 작성하세요

In [147]:
#pattern = re.compile('C')
pattern = re.compile('C$')

text1 = 'BC'
text2 = 'CC'
text3 = 'ABC'
p1 = pattern.search(text1)
p2 = pattern.search(text2)
p3 = pattern.search(text3)
print(p1)
print(p2)
print(p3)

<re.Match object; span=(1, 2), match='C'>
<re.Match object; span=(0, 1), match='C'>
<re.Match object; span=(2, 3), match='C'>


In [159]:
# Q. '1234a123' 에서 '1','2','3','4'를 모두 출력하세요

text = '1234a123' 
re.findall('\d',text)[:4]

['1', '2', '3', '4']

In [164]:
# Q. '99food234, a93456\n,a9356ba' 에서 '99food234'만 출력하세요.
t = '99food234, a93456\n,a9356ba' 
re.search('\w+',t).group() #방법 1
re.findall('\w*[^,\s]',t)[0] #방법2

'99food234'

In [166]:
text = 'life is too short'

p = re.compile('[a-z]+')
p.search(text).group()

'life'

In [175]:
text = 'life is too short'
result = p.finditer(text)
for i in result:
    print(i.group())

life
is
too
short


In [177]:
# 모든 문자 출력 - findall()

text = "Python3 is very good programming language!"
re.findall('[a-zA-Z]+',text)

['Python', 'is', 'very', 'good', 'programming', 'language']

In [180]:
# 모든 문자 출력 - findall()

text = "Python3 is very good programming language!"
result = re.finditer('[a-zA-Z]+',text)
print(result)
for r in result:
    print(r.group())

<callable_iterator object at 0x000002BC51810730>
Python
is
very
good
programming
language


In [2]:
# match 
import re
text1 = 'life'
text2 = '!!!oh my life'
text3 = '7 id lucky number'

print(re.match('[a-z]+',text1).group()) 

print(re.match('[a-z]+',text2)) # 시작위치에 특수문자라 안됨.

print(re.match('[a-z]+',text3)) # 시작점이 숫자라 안됨.

life
None
None


In [188]:
# martch 객체의 메서드

m = re.match('[a-z]+','pyhton')

print(m)
print(m.group())
print(m.start()) # 시작 위치 반환. = python이 시작하는 위치는 인덱스 0번
print(m.end()) # 끝나는 위치 반환.
print(m.span()) # 문자열의 시작과 끝을 튜플로 반환

<re.Match object; span=(0, 6), match='pyhton'>
pyhton
0
6
(0, 6)


In [193]:
# search 객체의 메서드

m = re.search('[a-z]+','3 pyhton')

print(m)
print(m.group())
print(m.start())
print(m.end())
print(m.span())

<re.Match object; span=(2, 8), match='pyhton'>
pyhton
2
8
(2, 8)


In [194]:
# Dot(.) 메타 문자는 줄바꿈 문자(\n)을 제외한 모든 문자와 매치

text = ['a\nb','abc','a12?Ab']  # .메타문자는 \n을제외한 모든 문자에 대응한다. 
for t in text:
    r= re.match('a.+b',t)
    print(r) 

None
None
<re.Match object; span=(0, 6), match='a12?Ab'>


In [198]:
# re.DOTALL(): 여러줄로 이루어진 문자열에서 \n에 상관없이 검색시 사용

p = re.compile('a.b',re.DOTALL)
m = p.match('a\nb')
m.group()

'a\nb'

In [195]:
import re

text = "Hello\nworld!"

p = re.compile(r".", re.DOTALL)
matches = p.findall(text)

print(matches)


['H', 'e', 'l', 'l', 'o', '\n', 'w', 'o', 'r', 'l', 'd', '!']


In [200]:
text = 'what are you doing? \n it is going to be late for school'
p = re.compile('.*')
m=p.search(text)
print(m.group()) # \n를 허용하지 않기 때문에 그 직전까지의 문장이 출력됨

what are you doing? 


In [205]:
text = 'what are you doing? \n it is going to be late for school'
p = re.compile('.*',re.DOTALL)
m = p.search(text)
print(m.group())

what are you doing? 
 it is going to be late for school


In [221]:
# Q. text에서 전체 문장 모두 출력하세요.
text = 'what are you doing? \nit is going to be late for school \nwe need to hurry up'
p = re.compile('.*',re.DOTALL)
m = p.search(text).group()
print(m)

what are you doing? 
it is going to be late for school 
we need to hurry up


In [219]:
text = 'what are you doing? \nit is going to be late for school \nwe need to hurry up'
pattern = re.compile('.*', re.S)
print(pattern.search(text).group())

what are you doing? 
it is going to be late for school 
we need to hurry up


In [222]:
# re.IGNORECASE 또는 re.I 옵션은 대소문자 구분 없이 추출

re.match('[a-z]+','pAthone',re.I).group()

# ※re.match() 함수나 re.search() 함수로 찾은 결과물은 매치된 텍스트 자체가 아닌 
#매치 객체(match object)를 반환하므로 결과 추출시 group() 필요

'pAthone'

Q. 아래 text에 내용을 모두 출력하세요.
text = ['pAthon','PATHON','pathon','Pathon']

In [11]:
import re
text = ['pAthon','PATHON','pathon','Pathon']

for t in text:
    re.match('[a-z]+',t,re.I).group()
    print(t) #이렇게 하면 5개가 다 나오고 
    
print(t) #이렇게는 최종적으로 1개만 추출됨. 

pAthon 

PATHON 

pathon 

Pathon 

Pathon


In [37]:
# Q. text에서 대소문자 구분없이 전체문장 모두 출력하세요 
# 방법- 먼저 리스트화 해서 나눠 주고 난 뒤 for문 돌려준다. 

text = 'Friend fRiend friEnd FRIEND'
list = re.findall('[a-z]+',text,re.I)
print(list)
for t in list:    
    print(t)

['Friend', 'fRiend', 'friEnd', 'FRIEND']
Friend
fRiend
friEnd
FRIEND


In [38]:
import re
text = 'Friend fRiend friEnd FRIEND'
matches = re.findall('friend',text,re.I)
for m in matches:
    print(m)

Friend
fRiend
friEnd
FRIEND


In [39]:
data = """python one
life is too short
python two
you need python
python three"""

In [44]:
# 파이썬이라는 문자열로 시작하고 그 뒤에 화이트스페이스, 그 뒤에 단어가 오는 경우. 

re.findall('^python\s\w+',data)


['python one']

In [48]:
# re,MULTILINE 또는 re.M 옵션으로 ^ 메타문자를 각 라인의 처음으로 인식시킴
print(re.findall('^python',data),'\n')
print(re.findall('^python',data,re.M)) # 모든 줄의 시작점에 위치한 파이썬 출력

['python'] 

['python', 'python', 'python']


In [51]:
# re.VERBOSE는 정규 표현식의 가독성을 높이기 위한 옵션으로, 정규식에서 주석을 사용할 수 있도록 함. 
# re.VERBOSE 또는 re.X : 이해하기 어려운 정규식을 주석 또는 라인 단위로 구분

# charref = re.compile(r'&[#](0[0-7]+|[0-9]+|x[0-9a-fA-F]+);') # 이 코드를 아래와 같이 보완하여 가독성 높임

charref = re.compile( r"""
&[#]                  # '&[#]' : character reference가 &#로 시작하는 것을 의미 (Start of a numeric entity reference)
(
    0[0-7]+           # 0[0-7]+ : 0으로 시작하고 그 다음에는 0에서 7까지의 숫자가 하나 이상 연속해서 나와야함 = 8진수(Octal form)
  | [0-9]+            # [0-9]+  : 0에서 9까지의 숫자가 하나 이상 연속해서 나와야 함 = 10진수(Decimal form )
  | x[0-9a-f-A-F]+    # x[0-9a-f-A-F]+ : x로 시작하고 그 다음에는 0에서 9 또는 a에서 f 또는 A에서 F까지의 숫자나 (Hexadecimal form)
                      # 알파벳이 하나 이상 연속해서 나와야 함. = 16진수 
)
;                     # ;  : character reference가 ;로 끝나야 한다는 것을 의미(Trailing semicolon)
""",re.VERBOSE) 


# 이 정규식 패턴을 사용하면 HTML 또는 XML 문서에서 character reference를 찾아낼 수 있습니다. 
#예를 들어, &#65;는 "A"를 나타내는 character reference입니다.

"charref"는 "character reference"의 줄임말입니다. character reference는 HTML 및 XML 문서에서 특수 문자를 나타내기 위해 사용되는 형식입니다. 특수 문자는 예약된 HTML 또는 XML 태그 기호로 해석될 수 있는 문자를 말합니다.

In [49]:
import re

text = '''Hello, World!
This is a multi-line
string example.'''

pattern = r'''
    ^hello,     # 'hello,'로 시작하는 줄
    \s+         # 하나 이상의 공백 문자
    world!      # 'world!'로 끝나는 단어
'''

matches = re.findall(pattern, text, re.IGNORECASE | re.MULTILINE | re.VERBOSE)
print(matches)


['Hello, World!']


In [52]:
#파이썬 문자열 리터럴 규칙에 의하여 \\이 \로 변경되어 \section에 전달

p = re.compile('\\section')
p.match('\section')
p.findall('\section\section')  # 현재 상태로는 셋 다 실행 x

[]

In [66]:
# 위 식의 해결방안 = Raw Srting

p = re.compile(r'\\section')
p.match('\section').group()
p.findall('\section\section') 

# 정규식 문자열 앞에 r 문자를 삽입하면 로우스트링 규칙에 의해 백슬래시 2개 대신 1개 전달
# 파이썬 문자열 리터럴 규칙에 의하면 \\이 \으로 변경되어 \section이 전달 
# 정규식 문자열 앞에 r문자를 삽입하면 Raw String 규칙에 의하여 백슬래시 2개 대신 1개 사용

['\\section', '\\section']

In [67]:
# | : or 과 동일한 의미

re.match('Crow|servo', 'CrowHello').group() 

# 두번째 인자로부터 Crow 또는 servo를 추출하라고 했으므로 Crow 출력


'Crow'

In [68]:
# ^ : 문자열의 맨 처음 

re.search('^Life','Life is too short').group()

'Life'

In [69]:
# $ : 문자열의 맨 끝과 매치

re.search('Life$','My Life').group()

'Life'

In [70]:
re. findall('^Life | Life$','Life My Life') 

['Life ', ' Life']

In [75]:
# \A : 문자열의 처음과 매치. 단, re.MULTILINE 옵션 사용해도  ^와 달리 전체 문자열의 처음하고만 매치

data = """Life is too short
Life is good
Life is valuable"""

print(re.findall('^Life',data))
print(re.findall('\ALife',data))
print(re.findall('\ALife',data,re.M))
print(re.findall('Life',data))

['Life']
['Life']
['Life']
['Life', 'Life', 'Life']


In [None]:
# \Z : 문자열의 끝과 매치 . 간, re.MULTILINE과 사용시 $와 달리 전체 문자열의 끝하고만 매치 

In [78]:
data= """Life is too short
Life is good
Life is very good"""

print(re.findall('good\Z',data,re.MULTILINE))
print(re.findall('good$',data,re.MULTILINE))


['good']
['good', 'good']


In [82]:
# Q. 'we are going home'에서 home 만 출력하세요.
data='we are going home'
print(re.search('home\Z',data).group())
print(re.findall('home\Z',data))

home
['home']


In [87]:
#Q. 'home sweet'에서 home 만 출력하세요.
text = 'home sweet'
print(re.search('^home',text).group())
print(re.search('\Ahome',text).group())
print(re.search('\A\w+',text).group())
print(re.search('\A[a-z]+',text).group())

home
home
home
home


In [85]:
# Q. '199305, 1923A, a93247' 에서 '199305'만 출력하세요.
t = '199305, 1923A, a93247' 
re.search('\A\d+',t).group()

'199305'

In [93]:
# Q. text에서 '199305'만 출력하세요.
text='1923A,199305,  a93247' 
print(re.search('\d{6}',text).group())
print(re.findall('(\d+),',text)) #숫자 뒤에 쉼표가 오는 조건을 만족하는 수를 출력

199305
['199305']


In [94]:
# \b : 단어 경계를 나타내는 메타 문자
text1 = 'no class at all'
re.search(r'\bclass\b',text1).group()

# class가 독립된 단어로 존재할 떄만 매치됨.
# 이를 통해 class가 다른 단어의 일부분으로 매치되지 않도록 보장 

'class'

In [102]:
import re

text = "Hello, world! OpenAI is awesome."

# 단어 경계(\b)를 사용하여 "o"로 시작하는 단어를 찾음
re.findall(r'\bo\w+', text,re.I)


['OpenAI']

In [None]:
# \B : 단어 경계가 아님을 나타내는 문자 

In [156]:
#\B는 단어 경계가 아님을 나타내는 메타 문자 = "declassified"라는 단어에서 "class"라는 문자열을 찾음 ★ \B 잘 모르겠다

text2 = 'the declassified algorithim'
re.search(r'\Bclass\B',text2).group()

'class'

In [168]:
import re

text = "Hello, world! OpenAI is awesome."
#re.findall('(\w*o\w+)!?\s', text,re.I)


re.compile(r'\B\w*o\w+\B', re.IGNORECASE|re.UNICODE)

In [178]:
# Q. 정규표현식을 사용하여 text에서 에러가 들어간 부분만 포함하는 리스트를 출력하세요.

text = "에러 1122, 레퍼런스 오류, 에러 1033, 아규먼트 오류, 에러 xxx"
print(re.findall('에러\s\w+',text))
print(re.findall('에러\s[^,]+',text)) # [^,]: 쉼표를 제외한 다른문자가 오는 것을 뜻함.


['에러 1122', '에러 1033', '에러 xxx']
['에러 1122', '에러 1033', '에러 xxx']


Q. 과제6_0425.
( )에 정규표현식을 작성하여 아래와 같이 출력하세요.

['1 apple', '5 oranges', '3 boys', '4 girls', '10 army', '11 mr']

In [182]:
import re
li = '1 apple, 5 oranges, 3 boys, 4 girls; 10 army| 11 mr'

# re.findall('\d+\s\w+',li)

regex = re.compile('\d+\s\w+' )
list = regex.findall(li)
print(list)

['1 apple', '5 oranges', '3 boys', '4 girls', '10 army', '11 mr']


Q. text에서 다음을 수행하세요.

- 'H,h'만 출력하세요.
- 'H,h'가 아닌 것 모두를 출력하세요.

In [188]:
text = 'Hello my friend! Life is short you need Python!'
#'H,h'만 출력하세요.

print(re.findall('h',text,re.I),'\n')

#'H,h'가 아닌 것 모두를 출력하세요.

print(re.sub('[Hh]','',text),'\n') #기억해둘것. 헷갈리기 쉬움 ★

# h를 전부 소문자로 바꾼다면?

print(re.sub('H','h',text))  #오오 된다 >ㅁ<

['H', 'h', 'h'] 

ello my friend! Life is sort you need Pyton! 

hello my friend! Life is short you need Python!


In [198]:
# 그룹핑 
# group() 매치된 전체 문자열, 1번째 그룹, 2번째 그룹, n 번째 그룹
text = 'ABCABCABC OK?'
m = re.search('(ABC)+',text)
print(m.group(0))
print(m.group(1))

ABCABCABC
ABC


Q. text에서 그룹핑을 사용하여 아래와 같이 출력하세요.
<br>ABCDEF
<br>ABCDEF
<br>AB
<br>CD
<br>EF

In [192]:
text = 'DEFABCDEFDEF OK?'
m= re.search('((AB)(CD)(EF))',text)
print(m.group(0))
print(m.group(1))
print(m.group(2))
print(m.group(3))
print(m.group(4))

ABCDEF
ABCDEF
AB
CD
EF


Q.정규 표현식을 사용하여 text 에서 다음 사항을 수행하세요.

지역코드만 출력하세요.
지역코드 제외한 번호만 출력하세요
text= "문의사항 있으면 032-232-3245로 연락주시기 바랍니다."

In [199]:
text= "문의사항 있으면 032-232-3245로 연락주시기 바랍니다."
p = re.compile('\d{3}-\d{4}')
p.findall(text)

['232-3245']

In [219]:
# 그룹핑을 사용해서 출력

p = re.search('((\d+)[-](\d+[-]\d+))',text)
print(p.group(3),'\n')

print(p.group(0),'\n')
print(p.group(1),'\n')
print(p.group(2),'\n')

232-3245 

032-232-3245 

032-232-3245 

032 



In [228]:
text = 'park 010-1234-5678'
m = re.search('(\w+)\s((\d+)[-](\d+[-]\d+))',text)
print(m)
print(m.group(0))
print(m.group())

print(m.group(1))
print(m.group(2))
print(m.group(3))
print(m.group(4))


<re.Match object; span=(0, 18), match='park 010-1234-5678'>
park 010-1234-5678
park 010-1234-5678
park
010-1234-5678
010
1234-5678


In [243]:
# 그룹핑 된 문자열 재참조

# Q. 'Paris is very very beautiful.'에서 'very very'를 출력해보세요.

text = 'Paris is very beautiful beautiful very .'
re.search(r'\b(\w+)\s+(\w+)\s+\2',text).group()

# \1과 같은 역참조 메타 문자를 포함한 정규식 패턴을 사용할 때는 역슬래시 \를 이스케이프하지 않으면 제대로 동작하지 않을 수 있다.
# rawstring 하지않으면 작동되지 않는다. 

'very beautiful beautiful'

In [236]:
import re

text = 'apple banana apple banana apple'
pattern = r'(\b\w+\b)\s+(\b\w+\b)\s+\1\s+\2'
matches = re.findall(pattern, text)
print(matches)  # [('apple', 'banana')]


[('apple', 'banana')]


Q. 아래 text에서 정규표현식을 사용하여 'the the the'를 출력하세요.
text = 'Paris in the the the spring'

In [246]:
text = 'Paris in the the the spring'
re.search(r'\b(\w+)\s\1\s\1',text).group()


'the the the'

Q. 'abcdefghij'에 대하여 중첩을 적용한 서브그룹 5개로 컴파일하여 group()함수를 이용하여 'abcdefghi' 와 'e'를 출력하세요

In [254]:
t = 'abcdefghij'
p = re.search('(a(b(c(d(e)f)g)h)i)j',t)
print(p.group(1))
print(p.group(5))

abcdefghi
e


In [255]:
import re
t ='abcdefghij'
m = re.search(r'((ab)(cd)(e)(fg)(hi))j',t) 
print(m.group(1))
print(m.group(4))

abcdefghi
e


In [256]:
# Q.위 문제에서 모든 서브 그룹에 대한 문자열을 포함하는 튜플을 출력하세요.
print(p.groups())

('abcdefghi', 'bcdefgh', 'cdefg', 'def', 'e')


## 그룹핑된 문자열에 이름 붙이기 

- 정규표현식에서 그룹핑 된 문자열에 이름을 붙이는 방법은 (?P$<name$>pattern)형식을 사용한다.
  이때 name 은 그룹에 붙일 이름이며 pattern은 그룹화 할 정규식 패턴이다 

In [257]:
text = "John's phone number is 123-4565-7890."
p = r'(?P<phone>\d+[-]\d+[-]\d+)'
m = re.search(p,text)
m.group('phone')

'123-4565-7890'

Q. 이름으로 그룹을 참조하여 text 에서 Lots를 출력하세요.

text = 'Lots of punctuation Lots of punctuation'

In [264]:
text = 'Lots of punctuation Lots of punctuation'
p = r'(?P<shop>\w+)'
m= re.search(p,text)
m.group('shop')

'Lots'

In [266]:
# 두개의 이름 적용 

text = 'park 010-1234-1234'
p = re.compile(r'(?P<name>\w+)\s+(?P<phone>(\d+)[-]\d+[-]\d+)')
m = p.search(text)
print(m.group('name'))
print(m.group('phone'))

park
010-1234-1234


In [276]:
# Q. 아래 text에서 그룹명을 word라고 이용하여 'the the' 를 출력하세요 
text = 'Paris in the the spring'
p = re.compile(r'(?P<word>\b(\w+)\s\2)')
m = p.search(text)
print(m.group('word'))


the the


In [277]:
p = re.compile(r'(?P<word>the)\s+(?P=word)') #the 대신 \w+ 를 사용해도 된다. (반복 되는 문자 출력)
re.search(p,text).group()

'the the'

### 전방 탐색
- 전방탐색 : 정규식에서 매치할 문자열의 앞쪽을 일치시키는 것. 일치시킨 문자열은 검색대상에서 제외된다. 이를 사용하면 특정 문자열 채턴 뒤에 오는 문자열을 매치할 때 유용하다.

### 긍정 탐색
- 긍정 탐색 : 조건을 충족하는 부분을 찾을 때 사용. 일치하는 부분을 포함하고 일치하지 않는 부분을 탐색 결과에서 제외한다.
<br>  긍정탐색은 (?=...) 구문을 사용하여 정규식 안에서 표현됩니다.

### 부정 탐색
- 부정탐색: 일치하지 않는 부분을 찾을 떄 사용. 일치하지 않는 부분을 포함하지만, 탐색 결과에서 일치하는 부분을 제외합니다. 
<br> 부정탐색은 (?!...) 구문을 사용하여 정규식 안에서 표현됩니다.

In [281]:
import re
text = 'http://google.com'
p = re.compile(r'.+.:') # .(all)이 +(하나이상) .:
m = p.search(text)
print(m.group())

p2 = re.compile(r'.+(?=:)') # 전방탐색 = ':'에 해당하는 문자열이 정규식 엔진에 의해 소모되지 않음. (검색에는 포함되지만 결과는 안나옴)
m2 = p2.search(text)
print(m2.group())

http:
http


In [282]:
import re

text = 'apple banana avocado orange'
pattern = r'\b(?!a)\w+\b'
matches = re.findall(pattern, text)
print(matches)  # ['banana', 'orange']


['banana', 'orange']


In [283]:
import re

text = '100원 200달러 300원 400엔'
pattern = r'\d+(?=원)'
matches = re.findall(pattern, text)
print(matches)  # ['100', '300']


['100', '300']
