## Regular Expression

* https://docs.python.org/3/library/re.html

* 반복<br>
    1) * : 0회 이상 반복 
        ex) ab* : a, ab, abb, abbb, ...
        ex) lo* l : ll, lol, lool, loool, ...
        
    2) + : 1회 이상 반복
        ex) ab+ : ab, abb, abbb, abbbb, ...
        
    3) ? : 0 또는 1회
        ex) ab? : a, ab
        
    4) {m} : m회 반복
        ex) a{3}bc : aaabc
        
    5) {m, n} : m회부터 n회까지 반복
        ex) a{2, 3}bc : aabc, aaabc
        
* 매칭 메타문자<br>
        1) . : 줄바꿈 문자를 제외한 모든 문자와 매치
            ex) a.b : aab, abb, acb, adb, ...
        
        2) ^ : 문자열의 시작과 매치
            ex) ^a : a로 시작하는 걸 다 찾을 수 있음. a, ab, abc, ...
        
        3) $ : 문자열의 마지막과 매치
      ex) a$ : a로 끝나야 함. zbda, ccca, dba, ...
        
        4) [ ] : 문자 집합 중 한 문자를 매치
            ex) [abc]xyz : axyz, bxyz, cxyz
            ex) [a-z]bc : 범위로 지정 가능. abc, bbc, cbc, dbc, ... 
            ex) [a-zA-Z]hello : ahello, Ahello ....
            ex) [a-zA-Z0-9]hello : ahello, Ahello, 0hello, 1hello ....
            ex) [a | b]hello : ahello, bhello
            ex) a[.]b : a.b
            ex) [a^bc]hello : ahello, chello
        
* 특수문자(\문자) <br>
    1) \d : 모든 숫자와 매치
        ex) ab\dc : ab0c, ab1c, ab2c, ...
        ex) ab\d\dc : ab00c, ab01c, ab11c, ...
            = ab[0-9][0-9]c
        
    2) \D : 숫자가 아닌 문자와 매치
        ex) ab\Dc : abac, abbc, abcc, ...
        
    3) \s : 공백과 매치
        ex) ab\sc : ab c
        ex) ab\s\sc : ab  c
    
    4) \S : 공백이 아닌 모든 것과 매치
        ex) ab\Sc : ab0c, ab1c, abac, abbc, ...
        
    5) \w : 숫자 또는 문자와 매치
        ex) ab\wc : abac, abAc, ab0c, ...
            = [a-zA-Z0-9]hello : ahello, Ahello, 0hello, 1hello ....
            
    6) \W : 숫자 또는 문자가 아닌 모든 문자(=특수문자)와 매치

* 파이썬에서 제공하는 객체 또는 메서드(p.298~)
    * compile() : 정규 표현식 객체 생성
    * match() : 문자열의 처음부터 정규식과 매치되는지 조사
    * search() : 문자열 전체를 검색하여 정규식과 매치되는지 조사
    * split() : 문자열 분리
    * findall() : 정규식과 매치되는 모든 문자열을 리스트로 리턴
    * finditer() : 정규식과 매치되는 모든 문자열을 반복가능한 객체로 리턴
    * sub() : 변경, 교체
    ...

In [3]:
import re

# 객체 생성

p = re.compile('[0-9] [a-z]+ .+') # 공백도 문자임. 공백도 매칭되어야 함
## p : 0-9까지 수 중 한 개, a-z 중 1개 이상, 모든 문자 중 1개 이상

print(p.match('3 abc diadjlaj;'))  # 값이 있다.
print(bool(p.match('3 abc diadjlaj;')))  # bool값으로 출력

print(p.match('abc 10 asldfjal;')) # 값이 없다. none
print(bool(p.match('abc 10 asldfjal;'))) # bool값으로 출력

<re.Match object; span=(0, 15), match='3 abc diadjlaj;'>
True
None
False


In [7]:
# 객체를 생성하지 않고 함수 사용 : re.match('패턴', '데이터')

print(bool(re.match('[0-9]*th', '35th')))
print(bool(re.match('[0-9]*th', '     35th'))) # 완전히 같아야 함
print(bool(re.search('[0-9]*th', '     35th')))  # 해당 문자가 포함돼있으면 T

True
False
True


In [19]:
# 010-222-3333 형태의 전화번호를 검색할 수 있도록

import re

phone = re.compile('010-[0-9]{3, 4}-[0-9]{4}')
print(bool(re.match('010-[0-9]{4}-[0-9]{4}','010-5196-4232')))
print(bool(phone.match('010-3332-4223')))
print(bool(phone.match('011-2311-3131')))

True
True
False


In [18]:
p = re.compile('[a-z]+')

m = p.findall('life 333 is 222 too 10 short')
print(m)

m1 = p.finditer('life 333 is 222 too 10 short')
print(m1)

for i in m1 :
    print(i)

['life', 'is', 'too', 'short']
<callable_iterator object at 0x000001B910FD2988>
<re.Match object; span=(0, 4), match='life'>
<re.Match object; span=(9, 11), match='is'>
<re.Match object; span=(16, 19), match='too'>
<re.Match object; span=(23, 28), match='short'>


In [20]:
data = '1234 abc가나다ABC_555_6'

print(re.findall('[0-9]', data))
print(re.findall('[0-9]+', data))
print(re.findall('[0-9]{2}', data))
print(re.findall('[0-9]{2,3}', data))

['1', '2', '3', '4', '5', '5', '5', '6']
['1234', '555', '6']
['12', '34', '55']
['123', '555']


In [36]:
data = '1234 abc가나다ABC_555_6 mbc air air'
data1 = '1234 abc가나다ABC_555_6 mbc air air lsinlkalnsg'
data2 = '1234 abc가나다ABC_555_6 mbc air aginair'

print(re.findall('.bc', data))
print(re.findall('^1+', data))
print(re.findall('[^1]+', data))
print(re.findall('a..', data))
print(re.findall('air$', data)) # data가 air로 끝나서 air 출력. 아니면 안 뜸.
print(re.findall('air$', data1))
print(re.findall('air$', data2))

['abc', 'mbc']
['1']
['234 abc가나다ABC_555_6 mbc air air']
['abc', 'air', 'air']
['air']
[]
['air']


In [31]:
data = 'tom 80, james 100, oscar 50'

print(re.findall('\d', data))  # [0-9] = \d
print(re.findall('\d\d', data)) # [0-9]{2}, \d{2}
print(re.findall('\d\d\d', data)) #[0-9]{3}, \d{3}

['8', '0', '1', '0', '0', '5', '0']
['80', '10', '50']
['100']


In [44]:
# split() : 디폴트가 공백. 기준을 하나만 둘 수 있음

print('mbc,kbs sbs:ytn'.split())
print('mbc,kbs sbs:ytn'.split(','))
print(re.split('\W+', 'mbc,kbs sbs:ytn'))
print(re.split(',|:| ', 'mbc,kbs sbs:ytn'))

['mbc,kbs', 'sbs:ytn']
['mbc', 'kbs sbs:ytn']
['mbc', 'kbs', 'sbs', 'ytn']
['mbc', 'kbs', 'sbs', 'ytn']


In [10]:
# sub()

m = re.sub('[0-9]+', '888', '1234 abc가나다ABC_567')

print(m)

<class 'str'>
888 abc가나다ABC_888


In [14]:
# 'mbc,kbs sbs:ytn'의 구분 기호를 ','로 통일하시오

d = re.sub('\W+', ',', 'mbc,kbs sbs:ytn')
print(type(d))

print(d)

<class 'str'>
mbc,kbs,sbs,ytn


In [5]:
# match 객체의 메서드 => 중복된 데이터는 거를 수 있음.
# findall을 사용해서 중복값도 출력하게 만듦.

p = re.compile('[a-z]+')

m = p.match('python 123 !? python')
print(m)
print(m.group()) # 매치된 데이터 출력
print(m.start(), m.end()) # 매치된 문자열의 시작위치, 끝위치 출력
print(m.span()) # 시작, 끝위치를 튜플로 출력

<re.Match object; span=(0, 6), match='python'>
python
0 6
(0, 6)


In [9]:
# search 객체의 메서드
## search는 데이터 전체에서 찾기 때문에 처음부터 매칭이 안 돼도 실행됨

p = re.compile('[a-z]+')

s = p.search('123 !? python') 
print(s)
print(s.group())
print(s.start(), s.end())
print(s.span())

print('------------------------------------')

m1 = p.match('123 !? python')
print(m1)
print(m1.group()) # match는 처음부터 찾기 때문에 매칭되지 않으면 에러.
print(m1.start(), m1.end())
print(m1.span())

<re.Match object; span=(7, 13), match='python'>
python
7 13
(7, 13)
------------------------------------
None


AttributeError: 'NoneType' object has no attribute 'group'

In [16]:
# 컴파일 옵션 : S(= DOTALL), I(= IGNORECASE), M(= MULTILINE)
## S(= DOTALL) : 줄바꿈(\n)도 매치되게 하기 위한 옵션

p = re.compile('a.b')
m1 = p.match('a+b')
print(m1)

m2 = p.match('a\nb')
print(m2)

s = re.compile('a.b', re.S)
m3 = s.match('a\nb')
print(m3)

<re.Match object; span=(0, 3), match='a+b'>
None
<re.Match object; span=(0, 3), match='a\nb'>


In [20]:
## I(= IGNORECASE) : 대소문자 구별 없이 매치

p = re.compile('[a-z]')
print(p.match('python'))
print(p.match('Python')) # 대문자일 경우 찾을 수 없음

s = re.compile('[a-z]', re.I)
print(s.match('python'))
print(s.match('Python'))

<re.Match object; span=(0, 1), match='p'>
None
<re.Match object; span=(0, 1), match='p'>
<re.Match object; span=(0, 1), match='P'>


In [29]:
## M(= MULTILINE) : 여러 줄에 적용

data = '''python one
life is too short
python two
you need python
python three
'''

p = re.compile('^python\s\w+', re.M)
print(p.findall(data))

data2 = '''python one
life is too short
python two
you need python
Python three
'''

p2 = re.compile('^[p|P]ython\s\w+', re.M)
print(p2.findall(data2))

['python one', 'python two', 'python three']
['python one', 'python two', 'Python three']


In [42]:
data = '''
<a href="abc1.html">abc1</a>
<a href="abc2.html">abc2</a>
<a href="abc3.html">abc3</a>
'''

# ["abc1.html", "abc2.html", "abc3.html"] 출력

p = re.compile('href=(".+")')
print(p.findall(data))

['"abc1.html"', '"abc2.html"', '"abc3.html"']
