+ Regular Expression
+ 특정한 패턴과 일치하는 문자열을 "검색", "치환", "제거"하는 기능을 지원
+ https://docs.python.org/3.9/library/re.html
+ https://docs.oracle.com/javase/8/docs/api/index.html


### (1) 반복

    * : 0회 이상
        ab* : a, ab, abb, abbb, ...
        lo*l :ll, lol, lool, loool, ...
        
    + : 1회 이상
        ab+ : ab, abb, abbb, abbbb, ...
        lo+l : lol, lool, loool, looool, ...
        
    ? : 0회 또는 1회
        ab? : a, ab
        lo?l : ll, lol
        
    {m} : m회 반복
        a{3}bc : aaabc 
        
    {m,n} : m회부터 n회까지
        a{2,4}bc : aabc, aaabc, aaaabc
        

### (2) 매칭

    . : 줄바꿈 문자를 제외한 모든 문자와 매치
        a.b : aab, abb, acb, adb, a1b, ...
        
    ^ : 문자열의 시작과 매치
        ^abc : abc
        ^(abc) : abc ...
        
    $ : 문자열의 마지막과 매치
        ...$a : zdfa
        
    [ ] : 문자집합 중 한 문자와 매치
        [abc]xyz : axyz, bxyz, cxyz
        [a-z]xyz : axyz, bxyz, cxyz, dxyz, ..., zxyz
        a[.]b : a.b
        [abc.^]z : az, bz, cz, .z, ^z
        [^abc]d : ad, bd, cd를 제외한 나머지 문자, 즉 dd, ed, fd, ...
        [0-9]abc : 0abc, 1abc, ..., 9abc
        [^0-9]abc : 숫자를 제외한 abc
        [a-zA-Z0-9]hello : ahello, Ahello, Ohello, ...
        
### (3) 특수문자(\문자)

    \d : 모든 숫자와 매치
        ab\d\dc : ab00c, ab01c, ...
        ad[0-9][0-9]c : 위와 동일
        
    \D : 숫자가 아닌 문자와 매치
    
    \s : 공백 문자와 매치
    
    \S : 공백 문자를 제외한 모든 문자와 매치
    
    \w : 숫자 또는 문자
        
    \W : 숫자 또는 문자가 아닌 모든 문자와 매치
    
    
### (4) 파이썬에서 제공하는 정규표현식 API

+ compile() : 정규 표현식 객체 생성
+ match() : 문자열의 처음부터 정규식과 매치되는지를 조사
+ search() : 문자열 전체를 검색하여 정규식과 매치되는지를 조사
+ findall() : 정규식과 매치되는 모든 문자열을 리스트로 리턴
+ finditer() : 정규식과 매치되는 모든 문자열을 반복 가능한 객체로 리턴
+ split() : 문자열 분리
+ sub() : 변경(교체)
+ ...

In [1]:
import re

##### 객체를 생성해서 사용하는 방법
p = re.compile("[0-9] [a-z]+ .+")
print(p.match("3 akfmkgmf askmkgmldfkm222kmkm"))
print(p.match("3ak"))

print("-------------------------------------")

print(bool(p.match("3 akfmkgmf askmkgmldfkm222kmkm")))
print(bool(p.match("3ak")))

print("-------------------------------------")

print(p.match("asdasd 3 asd ksddd"))   # 처음부터 틀리면 None 반환 
print(p.search("asdasd 3 asd ksddd"))  # 처음에 틀려도 계속 검색

print("-------------------------------------")

##### 바로 함수를 사용하는 방법
print(re.match("[0-9] [a-z]+ .+", "3 akfmkgmf askmkgmldfkm222kmkm"))

<re.Match object; span=(0, 30), match='3 akfmkgmf askmkgmldfkm222kmkm'>
None
-------------------------------------
True
False
-------------------------------------
None
<re.Match object; span=(7, 18), match='3 asd ksddd'>
-------------------------------------
<re.Match object; span=(0, 30), match='3 akfmkgmf askmkgmldfkm222kmkm'>


In [23]:
##### 전화번호와 매칭되는 패턴 작성

data = "안녕하세요. 내 나이는 20살이고 전화번호는 010-111-1111 입니다. 어쩌구..."
phone = re.search("\d\d\d-\d\d\d-\d\d\d\d", data)

In [29]:
print(phone.group(0))
print(phone.start())
print(phone.end())
print(phone.span())

010-111-1111
25
37
(25, 37)


## findall(), finditer()

In [6]:
data = "life 3333 is 222 333 too 10 short"

p = re.compile("[a-z]+")

# p.match(data)
# p.search(data)

m = p.findall(data)
print(m)

m1 = p.finditer(data)
print(m1)

for i in m1:
    print(i)
    print(i.group())
    print(i.span())

['life', 'is', 'too', 'short']
<callable_iterator object at 0x000002BC5577C7F0>
<re.Match object; span=(0, 4), match='life'>
life
(0, 4)
<re.Match object; span=(10, 12), match='is'>
is
(10, 12)
<re.Match object; span=(21, 24), match='too'>
too
(21, 24)
<re.Match object; span=(28, 33), match='short'>
short
(28, 33)


In [14]:
data = "1234 abc가나다ABC_555_6"

#숫자 1개와 일치하는 패턴 : 1, 2, 3, 4, 5, 5, 5, 6
p = re.compile("\d")
m = p.findall(data)
print(m)

#숫자 1개 이상 일치하는 패턴 
p = re.compile("\d+")
m = p.findall(data)
print(m)

#숫자 2개와 일치하는 패턴 
p = re.compile("\d\d")
m = p.findall(data)
print(m)

#숫자 2~3개와 일치하는 패턴 
p = re.compile("\d{2,3}")
m = p.findall(data)
print(m)

['1', '2', '3', '4', '5', '5', '5', '6']
['1234', '555', '6']
['12', '34', '55']
['123', '555']


In [49]:
data = "1234 abc가나다ABC_555_6 mbc air air"

# bc로 끝나는 3글자: abc, mbc
print(re.findall(".bc", data))

# a로 시작하는 3글자 : abc, air, air
print(re.findall("a..", data))

#가장 마지막에 air로 끝나는 문자 : air
print(re.findall("air$", data))

#가장 처음에 1로 시작하는 숫자들 : 1234
print(re.findall("1\d+", data))

# 1을 뺀 모든 데이터 : 234 abc가나다ABC_555_6 mbc air air
print(re.findall("[^1]+", data))

['abc', 'mbc']
['abc', 'air', 'air', 'akm', 'air']
['air']
['1234']
['234 abc가나다ABC_555_6 mbc air air akmdkgmair']


### split()

In [52]:
data = "mbc,kbs sbs:ytn"

print(data.split(" "))

print(re.split(",| |:", data))
print(re.split("\W", data))

['mbc,kbs', 'sbs:ytn']
['mbc', 'kbs', 'sbs', 'ytn']
['mbc', 'kbs', 'sbs', 'ytn']


### sub()

In [56]:
data = "1234 abc가나다ABC_555_6"

m = re.sub("[0-9]+", "888", data)
print(m)
m = re.sub("\d", "8", data)
print(m)

print("---------------------------------")

data = "mbc,kbs     sbs:ytn"
m = re.sub("\W+", ",", data)
print(m)

888 abc가나다ABC_888_888
8888 abc가나다ABC_888_8
---------------------------------
mbc,kbs,sbs,ytn


### 컴파일 옵션 : S(or DOTALL), I(or IGNORECASE), M(or MUTILINE) 

In [59]:
p = re.compile("a.b", re.S)

m1 = p.match("axb is bla~~~")
print(m1)

m2 = p.match("a+b is bla~~~")
print(m2)

m3 = p.match("a\nb is bla~~~")
print(m3)

<re.Match object; span=(0, 3), match='axb'>
<re.Match object; span=(0, 3), match='a+b'>
<re.Match object; span=(0, 3), match='a\nb'>


In [60]:
p = re.compile("[a-z], re.I")

print(p.match("python"))
print(p.match("Python"))

<re.Match object; span=(0, 1), match='p'>
<re.Match object; span=(0, 1), match='P'>


In [68]:
data = """python one
life is too short
python two
you need python
Python three
"""

p = re.compile("python [a-z]+", re.I)
m = p.findall(data)
print(m)

p = re.compile("^[pP]ython [a-z]+", re.M)
m = p.findall(data)
print(m)

['python one', 'python two', 'Python three']
['python one', 'python two', 'Python three']
