- Regular Expression
- 특정한 패턴과 일치하는 문자열을 "검색", "치환", "제거" 하는 기능을 지원
- https://docs.python.org/3.9/library/re.html

### (1) 반복

    - * : 0회 이상
        ab* : a, ab, abb, abbb, ...
        lo*l : ll, lol, lool, loool, ...
        
    - + : 1회 이상
        ab+ : ab, abb, abbb, ...
        
    - ? : 0회 또는 1
        ab? : a, ab
        
    - {m} : m회 반복
        a{3}bc : aaabc
        
    - {m, n} : m회부터 n회까지 반복
        a[2,4]bc : aabc, aaabc, aaaabc
            - [2, 4]처럼 공백 불가
            

### (2) 매칭

    . : 줄바꿈 문자를 제외한 모든 문자와 매치
        a.b : a_b, aab, abb, acb, adb, a1b, ...
        
    ^ : 문자열의 시작과 매치
        ^abc : 앞에 반드시 a로 시작, 하나만 가능 abc
        ^(abc) : 반드시 abc로 시작 abc ...
        
    $ : 문자열의 마지막과 매치
        ...$a : 가나다a, qkqa
        
    [] : 문자 집합 중 한 문자와 매치
        [abc]xyz : axyz, bxyz, cxyz
        [a-z] #부터 까지 한문자 : abc, bbc, cbc, ... zbc
        a[.]b : a.b []안의 '.'은 그냥 '.'
        [abc.^]z : az, bz, cz, .z, ^z
        [^abc]d : ad, bd, cd를 제외한 나머지 문자, 즉 dd, ed, fd, gd
        [0-9]abc : 0abc, 1abc, 2abc, 3abc...9abc
        [^0-9]abc : 숫자를 제외한 abc
        [a-zA-Z0-9]hello : 알파벳 대소문자, 숫자 모두 가능, ahello, Ahello, 0hello, ...
        

## (3) 특수문자(\문자)

    \d : decimal, 모든 숫자와 매치
        ab\d\dc : ab00c, ab01c, ...
        ab[0-9][0-9]c 와 동일
     
    \D : 숫자가 아닌 문자와 매치
    
    \s : 공백 문자와 매치
    
    \S : 공백 문자를 제외한 모든 문자와 매치
    
    \w : 숫자 또는 문자와 매치
    
    \W : 숫자 또는 문자가 아닌 모든 문자와 매치
    
## (4) 파이썬에서 제공하는 정규 표현식 API
    
    - compile() : 정규 표현식 객체 생성
    - match() : 문자열의 처음부터 정규식과 매치되는지를 조사
    - search() : 문자열 전체를 검색하여 정규식과 매치되는지를 조사
    - findall() : 정규식과 매치되는 모든 문자열을 리스트로 리턴
    - finditer() : 정규식과 매치되는 모든 문자열을 반복 가능한 객체로 리턴
    - split() : 문자열 분리
    - sub() : 변경(교체)
    - ...

In [2]:
import re #regular experession

In [14]:
##### 객체를 생성해서 사용하는 방법
p = re.compile("[0-9] [a-z]+ .+")
print(bool(p.match("3 adlfsdfasj asdfioea;"))) # 해당 문자열을 찾았으므로 True
print(bool(p.match("akef 9 akldsfwe aldksfajds"))) # 문자열의 처음부터 검사하기 때문에 뒤에가 맞아도 안 맞으면 빠꾸
print(p.search("akef 9 akldsfwe aldksfajds")) # search는 문자열 전체 중 매치되는 부분 찾음
print(p.match("dfafdsfsasdf afdf adfewa")) # None, 매치되지 않아 객체가 생성되지 않음! 

##### 바로 함수를 사용하는 방법
re.match("[0-9] [a-z]+ .+", "3 adslkfajsdf aopsejdfkajfdsklnlcan")

True
False
<re.Match object; span=(5, 26), match='9 akldsfwe aldksfajds'>
None


<re.Match object; span=(0, 35), match='3 adslkfajsdf aopsejdfkajfdsklnlcan'>

In [3]:
##### 전화번호와 매칭되는 패턴 작성
data = "안녕하세요. 내 나이는 20살이고 전화번호는 010-111-1111입니다. 어쩌구..."
print(re.search("[0-9][0-9][0-9]-[0-9][0-9][0-9]-[0-9][0-9][0-9][0-9]", data))
print(re.search("\d\d\d-\d\d\d-\d\d\d\d", data))
phone = re.search("\d{3}-\d{3}-\d{4}", data)

<re.Match object; span=(25, 37), match='010-111-1111'>
<re.Match object; span=(25, 37), match='010-111-1111'>


In [28]:
print(phone.group(0))
# print(phone.group(1)) # 찾은 게 하나밖에 없으므로 no such group 오류 발생
print(phone.start()) # 찾고 싶은 문자열의 위치
print(phone.end())
print(phone.span())

010-111-1111
25
37
(25, 37)


In [24]:
?phone.group

In [4]:
data = """
park 800905-1049118
kim 700905-1059119
"""

pat = re.compile("(\d{6})-(\d{7})")
print(pat.sub("\g<1>-*******", data)) # 매치된 문자열 중 첫번째 그룹 \g<1>


park 800905-*******
kim 700905-*******


park 800905-800905
kim 700905-700905



#### findall(), finditer()

In [3]:
data = "life 333 is 222 333 too 10 short"

In [16]:
p = re.compile("[a-z]+")

print(p.search(data))
print(p.match(data))

m = p.findall(data)
print(m)

m2 = p.finditer(data)
print(m2)

<re.Match object; span=(0, 4), match='life'>
<re.Match object; span=(0, 4), match='life'>
['life', 'is', 'too', 'short']
<callable_iterator object at 0x00000208F1D5FF10>


In [17]:
for i in m2:
    print(i)
    print(i.group())

<re.Match object; span=(0, 4), match='life'>
life
<re.Match object; span=(9, 11), match='is'>
is
<re.Match object; span=(20, 23), match='too'>
too
<re.Match object; span=(27, 32), match='short'>
short


In [20]:
data = "1234 abc가나다ABC_555_6"

In [29]:
print(re.findall("[0-9]", data))

print(re.findall("[0-9]+", data))

print(re.findall("\d\d", data))
print(re.findall("\d{2}", data))

print(re.findall("\d{2,3}", data))

['1', '2', '3', '4', '5', '5', '5', '6']
['1234', '555', '6']
['12', '34', '55']
['12', '34', '55']
['123', '555']


In [55]:
data = "1234 abc가나다ABC_555_6 mbc air air"

In [64]:
# bc로 끝나는 세글자 문자열 : abc, mbc
print(re.findall("\Sbc", data))

# a로 시작하는 3글자 : abc, air, air
print(re.findall("a\S{2}", data))

# 가장 마지막에 air로 끝나는 문자 : air
print(re.findall("air$", data))

# 가장 처음에 1로 시작하는 숫자들 : 1234
print(re.findall("1\d+", data))

# 1을 뺀 모든 데이터 : 
print(re.findall("[^1]+", data))

['abc', 'mbc']
['abc', 'air', 'air']
['air']
['1234']
['234 abc가나다ABC_555_6 mbc air air']


#### split()

In [67]:
data = "mbc,kbs sbs:ytn"

print(data.split(" "))

print(re.findall("[a-z]{3}", data))

print(re.split(",|:| ", data))
print(re.split("\W", data))

['mbc,kbs', 'sbs:ytn']
['mbc', 'kbs', 'sbs', 'ytn']
['mbc', 'kbs', 'sbs', 'ytn']
['mbc', 'kbs', 'sbs', 'ytn']


#### sub()

In [73]:
data = "1234 abc가나다ABC_555_6"

# m = re.sub("[0-9]+", "888", data)
# print(m)

m = re.sub("[0-9]", "8", data)
print(m)

data = "mbc,  kbs sbs :ytn"

m = re.sub("\W+", ",", data)
print(m)

8888 abc가나다ABC_888_8
mbc,kbs,sbs,ytn


#### 컴파일 옵션 : S(or DOTALL), I(or IGNORECASE), M(or MULTILINE)

In [78]:
p = re.compile("a.b")

m1 = p.match("axb is blabla~")
print(m1)

m2 = p.match("a+b is bla")
print(m2)

m3 = p.match("a\nb is bla")
print(m3)

# .이 모든 것을 대체할 수 있게 하겠다!! \n도!!
p = re.compile("a.b", re.S)

m3 = p.match("a\nb is bla")
print(m3)

<re.Match object; span=(0, 3), match='axb'>
<re.Match object; span=(0, 3), match='a+b'>
None
<re.Match object; span=(0, 3), match='a\nb'>


In [83]:
# 대소문자 구분 없이 찾기
p = re.compile("[a-z]", re.I)

print(p.match("python"))
print(p.match("Python"))

<re.Match object; span=(0, 1), match='p'>
<re.Match object; span=(0, 1), match='P'>


In [87]:
data = """
python on e life is to short
python two you need python
Python three I love you
"""

# p = re.compile("python +[a-z]+", re.I, re.M) # multiline 쓰면 여러줄 인식, 지금은 자동 인식돼서 무용
# p = re.compile("[pP]ython +[a-z]+")
p = re.compile("^[pP]ython\s+[a-z]+", re.M) # 특정 문자로 시작할 경우 여러줄 인식 안 됨

print(p.findall(data))

['python on', 'python two', 'Python three']


In [8]:
news = """
(로스앤젤레스=연합뉴스) 옥철 특파원 = 팀 쿡 애플 최고경영자(CEO)가 16일(현지시간) 실리콘밸리 앞
마당 격인 미국 서부 명문 스탠퍼드대학 학위수여식에서 테크기업들을 향해 쓴소리를 쏟아냈다.쿡은 이
날 연설에서 실리콘밸리 테크기업들은 자신들이 만든 혼란에 대한 책임을 질 필요가 있다고 경고했다.
근래 IT 업계의 가장 큰 이슈인 개인정보 침해, 사생활 보호 문제를 콕 집어 라이벌인 구글, 페이스북
등 IT 공룡을 겨냥한 발언이라는 해석이 나왔다.쿡은 "최근 실리콘밸리 산업은 고귀한 혁신과는 점점
더 거리가 멀어지는 것으로 알려져 있다. 책임을 받아들이지 않고도 신뢰를 얻을 수 있다는 그런 믿음
말이다"라고 꼬집었다.개인정보 유출 사건으로 미 의회 청문회에 줄줄이 불려 나간 경쟁사 CEO들을
향해 일침을 가한 것으로 보인다.그는 또 실리콘밸리에서 희대의 사기극을 연출한 바이오벤처 스타트업
테라노스(Theranos)를 직격했다.쿡은 "피 한 방울로 거짓된 기적을 만들 수 있다고 믿었느냐"면서
"이런 식으로 혼돈의 공장을 만든다면 그 책임에서 절대 벗어날 수 없다"라고 비난했다.테라노스는
손가락 끝을 찔러 극미량의 혈액 샘플만 있으면 각종 의학정보 분석은 물론 거의 모든 질병 진단이
가능한 바이오헬스 기술을 개발했다고 속여 월가 큰손들로부터 거액의 투자를 유치했다가 해당 기술이
사기인 것으로 드러나 청산한 기업이다.쿡은 애플의 경우 프라이버시(사생활) 보호에 초점을 맞춘
새로운 제품 기능들로 경쟁사들에 맞서고 있다며 자사의 데이터 보호 정책을 은근히 홍보하기도 했다.
oakchul@yna.co.kr저작권자(c)연합뉴스. 무단전재-재배포금지
"""

In [57]:
import re
re.search(".+@\S+[.]\D+[.][a-zA-Z]+", news)

<re.Match object; span=(779, 796), match='oakchul@yna.co.kr'>

In [54]:
webs = ['http://www.test.co.kr',
        'https://www.test1.com',
        'http://www.test.com',
        'ftp://www.test.com',
        'http:://www.test.com',
      'htp://www.test.com',
      'http://www.google.com',
      'https://www.homepage.com.']

result =[]

for i in webs:
    result.append(bool(re.match("https?://www[.].+[.]\w+(?!.)", i)))
    
result

[True, True, True, False, False, False, True, False]