 - https://docs.python.org/3/library/re.html

#### 파이썬이 제공하는 객체 또는 메서드

+ compile() : 정규표현식 객체 생성
+ match() : 문자열의 처음부터 정규식과 매치되는지 조사
+ search() : 문자열 전체를 검색해서 정규식과 매치되는지 조사
+ findall() : 정규식과 매치되는 모든 문자열을 리스트로 리턴
+ finditer() : 정규식과 매치되는 모든 문자열을 반복 가능한 객체로 리턴
+ split() : 문자열 분리
+ sub() : 문자열 변경(교체)
+ ...

In [1]:
import re

In [42]:
# 객체를 생성해서 사용하는 방법
p = re.compile("[0-9] [a-z]+ .+")
print(bool(p.match("3 aldfjladj alsdjflaj343")))

print("---------------------------------------------------")

# 바로 함수를 사용하는 방법
print(bool(re.match("[0-9]+th", "35th is everything")))
print(bool(re.match("[0-9]+th", "aaa bbb ccc 35th is everything")))
print(bool(re.search("[0-9]+th", "aaa bbb ccc 35th is everything")))
print(re.search("[0-9]+th", "aaa bbb ccc 35th is everything"))

print("---------------------------------------------------")

# 전화번호 매칭되는 패턴 작성 : "010-222-2222은 내 전화번호 입니다."
print(bool(re.match("[0-9]{3}-[0-9]{3,4}-[0-9]{4}","010-222-2222은 내 전화번호 입니다.")))

True
---------------------------------------------------
True
False
True
<re.Match object; span=(12, 16), match='35th'>
---------------------------------------------------
True


In [43]:
##### findall() 과 finditer()

data = "life 3333 is 2222 3333 444 too 10 short"
p = re.compile("[a-z]+")

# 반복해서 모든 문자열에서 계속해서 매치 
m = p.findall(data)
print(m)

print("------------------------------------")
m1 = p.finditer(data)
print(m1)

print("------------------------------------")
for i in m1:
    print(i)
    print(i.group())
    print(i.span())

['life', 'is', 'too', 'short']
------------------------------------
<callable_iterator object at 0x000001A9CA1E6670>
------------------------------------
<re.Match object; span=(0, 4), match='life'>
life
(0, 4)
<re.Match object; span=(10, 12), match='is'>
is
(10, 12)
<re.Match object; span=(27, 30), match='too'>
too
(27, 30)
<re.Match object; span=(34, 39), match='short'>
short
(34, 39)


In [106]:
data = "1234 abc가나다ABC_555_6"

# 숫자 1개만 일치하는 패턴
p = re.compile("[0-9]")
m = p.findall(data)
print(m)

# 숫자 1개이상 일치하는 패턴
p = re.compile("[0-9]+")
m = p.findall(data)
print(m)

# 숫자 2개와 일치하는 패턴
p = re.compile("[0-9]{2}")
m = p.findall(data)
print(m)

# 숫자 2개부터 3개까지 일치하는 패턴
p = re.compile("[0-9]{2,3}")
m = p.findall(data)
print(m)


['1', '2', '3', '4', '5', '5', '5', '6']
['1234', '555', '6']
['12', '34', '55']
['123', '555']


In [116]:
data = "1234 abc가나다ABC_555_6 mbc air air"

# bc로 끝나는 세글자(abc, mbc)
p = re.compile("[a-z]bc")
m = p.findall(data)
print(m)

# a로 시작하는 세글자(abc, air, air)
p = re.compile("a[a-z]{2}")
m = p.findall(data)
print(m)

# 가장 마지막에 air로 끝나는 패턴(air)
p = re.compile(".air")
m = p.findall(data)
print(m)

# 가장 처음에 1로 시작하는 숫자들 (1, 1234)
p = re.compile("1[0-9]*")
m = p.findall(data)
print(m)

# 1을 뺀 모든 데이터(234 abc가나다ABC_555_6 mbc air air)
p = re.compile("[^1]+")
m = p.findall(data)
print(m)


['abc', 'mbc']
['abc', 'air', 'air']
[' air', ' air']
['1234']
['234 abc가나다ABC_555_6 mbc air air']


In [46]:
##### split()

data = "mbc,kbs sbs:ytn"

print(data.split(" "))
print(data.split(","))
print("----------------------------")
print(re.split("[\s,:]",data))
print(re.split("[,:]",data))
print(re.split("\W+",data))
print(re.split(",|:| ",data))

['mbc,kbs', 'sbs:ytn']
['mbc', 'kbs sbs:ytn']
----------------------------
['mbc', 'kbs', 'sbs', 'ytn']
['mbc', 'kbs sbs', 'ytn']
['mbc', 'kbs', 'sbs', 'ytn']
['mbc', 'kbs', 'sbs', 'ytn']


In [65]:
##### sub

data = "1234 abc가나다ABC_555_6"

m = re.sub("[0-9]+", "888", data)
print(m)

m = re.sub("[0-9]", "8", data)
print(m)

print("----------------------------------------")

data = "mbc,kbs sbs:ytn"

m = re.sub("\W+",",",data)
print(m)

888 abc가나다ABC_888_888
8888 abc가나다ABC_888_8
----------------------------------------
mbc,kbs,sbs,ytn


In [12]:
##### 컴파일 옵션 : S(or DOTALL), I(or IGNORECASE), M(or MULTILINE)

p = re.compile("a.b",re.S) # 모두 그냥 하나의 문자로 인식 

m1 = p.match("axb is bla bla bla ~~")
print(m1)

m2 = p.match("a+b is bla bla bla ~~")
print(m2)

m3 = p.match("a\nb is bla bla bla ~~")
print(m3)

print("-------------------------------------------------")

# p = re.compile("[a-zA-Z]")
p = re.compile("[a-z]",re.I) # 대소문자 무시

print(p.match("python"))
print(p.match("Python"))

print("-------------------------------------------------")

data = """python one 
life is too short
python two 
you need python 
Python three
"""

# 첫글자 대소문자 상관없이 python으로 시작하는 문자열
p = re.compile("^[p|P]ython.+",re.M) # 여러 줄에서 찾아라 
print(p.findall(data))

<re.Match object; span=(0, 3), match='axb'>
<re.Match object; span=(0, 3), match='a+b'>
<re.Match object; span=(0, 3), match='a\nb'>
-------------------------------------------------
<re.Match object; span=(0, 1), match='p'>
<re.Match object; span=(0, 1), match='P'>
-------------------------------------------------
['python one ', 'python two ', 'Python three']


In [17]:
##### match(), search() 객체의 메서드

p = re.compile("[a-z]+")
data = "python 123 !? python"

m = p.match(data)
print(m)

print(m.group()) # 매치되는 문자의 그룹
print(m.start(), m.end()) # 매치된 문자의 시작 위치, 끝 위치
print(m.span())

<re.Match object; span=(0, 6), match='python'>
python
0 6
(0, 6)


In [26]:
data = """
<a href = "abc1.html">abc1</a>
<a href = "abc2.html">abc2</a>
<a href = "abc3.html">abc3</a>
<a href = "xyz.html">xyz</a>
<a href = "pic.jpg">pic</a>
"""

# [abc1.html, abc2.html, abc3.html, xyz.html, pic.jpg]

p = re.findall("\w+[.]\w+", data)
print(p)

p = re.findall("[a-z0-9]+[.][h|j]\w+",data)
print(p)

p = re.findall("\w+\.\w+",data)
print(p)
               
p = re.findall("\w*[.][a-z]*",data)
print(p)

p = re.findall("[a-z0-9]+[.][a-z]+",data)
print(p)

p = re.findall('href="(.+)"',data)
print(p)

['abc1.html', 'abc2.html', 'abc3.html', 'xyz.html', 'pic.jpg']
['abc1.html', 'abc2.html', 'abc3.html', 'xyz.html', 'pic.jpg']
['abc1.html', 'abc2.html', 'abc3.html', 'xyz.html', 'pic.jpg']
['abc1.html', 'abc2.html', 'abc3.html', 'xyz.html', 'pic.jpg']
['abc1.html', 'abc2.html', 'abc3.html', 'xyz.html', 'pic.jpg']
[]
