### 정규식(Regular Expression)?

정규식은 복잡한 문자열을 처리할 때 사용하는데 파이썬만의 고유문법이 아니라 문자열처리하는 모든 곳에서 사용된다.

정규식은 "정규표현식"의 축약어이다. 정규식이 필요한 이유는 예를 들어서 주민번호의 뒷자리를 블라이딩처리를 하기 위해 "*"문자로 변경할 경우에는 전체 주민번호에서 뒤의 일곱자리를 추출해서 문자로 변경하는 경우, 또한 비밀번호검증, 이메일유효성검사등을 프로그램작성없이 바로 정규식으로 처리할 수가 있다.

파이썬에서는 정규식을 처리하기 위해서는 내장된 모듈을 불러와서 사용해야 한다. 파이썬에서는 정규식을 지원하는 모듈은 `re`이다.

In [1]:
import re
print(dir(re))

['A', 'ASCII', 'DEBUG', 'DOTALL', 'I', 'IGNORECASE', 'L', 'LOCALE', 'M', 'MULTILINE', 'Match', 'Pattern', 'RegexFlag', 'S', 'Scanner', 'T', 'TEMPLATE', 'U', 'UNICODE', 'VERBOSE', 'X', '_MAXCACHE', '__all__', '__builtins__', '__cached__', '__doc__', '__file__', '__loader__', '__name__', '__package__', '__spec__', '__version__', '_cache', '_compile', '_compile_repl', '_expand', '_locale', '_pickle', '_special_chars_map', '_subx', 'compile', 'copyreg', 'enum', 'error', 'escape', 'findall', 'finditer', 'fullmatch', 'functools', 'match', 'purge', 'search', 'split', 'sre_compile', 'sre_parse', 'sub', 'subn', 'template']


In [5]:
# findall(정규식패턴, 문자열)
str = 'Life is too short'
#re.findall?
a = re.findall('a', str)
print(a)

b = re.findall('short', str)
print(b)

c = re.findall('o', str)
print(c)

[]
['short']
['o', 'o', 'o']


In [12]:
# 특정문자열에서 소문자를 모두 찾기
str = 'My id Number is KIM0902_$'

d = re.findall('abcdefghijklmnopqrstuvwxyz', str) # 한 문자열로 인식해서 검색
print(d)

# 소문자를 한 문자단위 기준으로 검색
e = re.findall('[a-z]', str)
print(e)

# 소문자를 한 단어단위로 검색
f = re.findall('[a-z]+', str)
print(f)

# 대문자를 한 문자단위로 검색
g = re.findall('[A-Z]', str)
print(g)

# 대문자를 한 단어단위로 검색
h = re.findall('[A-Z]+', str)
print(h)

# 숫자만 한 문자단위로 검색
i = re.findall('[0-9]', str)
print(i)

# 숫자만 한 단어단위로 검색
j = re.findall('[0-9]+', str)
print(j)

[]
['y', 'i', 'd', 'u', 'm', 'b', 'e', 'r', 'i', 's']
['y', 'id', 'umber', 'is']
['M', 'N', 'K', 'I', 'M']
['M', 'N', 'KIM']
['0', '9', '0', '2']
['0902']


In [21]:
str = 'My id Number is KIM0902_$'

# 소문자,대문자,숫자를 문자단위로 추출
a = re.findall('[0-9a-zA-Z]', str)
print(a)

# 소문자,대문자,숫자를 단어단위로 추출
b = re.findall('[0-9a-zA-Z]+', str)
print(b)

# 특수문자만 추출 즉, 숫자나 문자가 아닌 것만 추철 not(^)의미의 패턴문자사용
c = re.findall('[^0-9a-zA-Z]+', str)
print(c)

# 영문자, 숫자와 _만 추출 : \w
c = re.findall('[\w]', str)
print(c)

# 영문자, 숫자와 _를 제외한 모든 것을 추출
c = re.findall('[^\w]', str)
print(c)
c = re.findall('[\W]', str)
print(c)

['M', 'y', 'i', 'd', 'N', 'u', 'm', 'b', 'e', 'r', 'i', 's', 'K', 'I', 'M', '0', '9', '0', '2']
['My', 'id', 'Number', 'is', 'KIM0902']
[' ', ' ', ' ', ' ', '_$']
['M', 'y', 'i', 'd', 'N', 'u', 'm', 'b', 'e', 'r', 'i', 's', 'K', 'I', 'M', '0', '9', '0', '2', '_']
[' ', ' ', ' ', ' ', '$']
[' ', ' ', ' ', ' ', '$']


In [27]:
# 주민번호 뒷자리 7자리를 *로 블라인딩처리(정규식을 사용하지 않고 작성)
data = '''
    park 800905-1049118
    kim  700905-1059118

'''
# park 800905-*******
# kim  700905-*******
# 결과를 list만들어서 slicing/indexing을 이용해서 뒷자리를 추출해서 처리
# split(), append(), join()

result = []
print(data.split('\n'))
for line in  data.split('\n'):
    words = []
    print(line.split(' '))
    for word in line.split(' '):
        if len(word) == 14 and word[:6].isdigit() and word[7:].isdigit():
            print(word)
            word = word[:6] + '-' + '******'
        words.append(word)
    result.append(' '.join(words))
print('\n'.join(result))    

['', '    park 800905-1049118', '    kim  700905-1059118', '', '']
['']
['', '', '', '', 'park', '800905-1049118']
800905-1049118
['', '', '', '', 'kim', '', '700905-1059118']
700905-1059118
['']
['']

    park 800905-******
    kim  700905-******




In [35]:
import re
data = '''
    park 800905-1049118
    kim  700905-1059118

'''
a = re.compile('(\d{6})[-](\d{7})')
print(a)
print(dir(a))
print(type(a))
print(a.sub('\g<1>-*******', data))

re.compile('(\\d{6})[-](\\d{7})')
['__class__', '__copy__', '__deepcopy__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__le__', '__lt__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'findall', 'finditer', 'flags', 'fullmatch', 'groupindex', 'groups', 'match', 'pattern', 'scanner', 'search', 'split', 'sub', 'subn']
<class 're.Pattern'>

    park 800905-*******
    kim  700905-*******




### 정규표현식

1. 정규표현식의 기초(메타문자)
   
  `. ^ $ * + ? { } [ ] \ | ( )`


2. 메타문자들의 의미

   1) [] : 문자클래스로 만들어진 정규식은 [와 ]사이의 문자들과 일치
      
      자주사용하는 문자클래스
      
      `\d` : 숫자와 매치여부, [0-9]와 동일한 표현식<br>
      `\D` : 숫자가 아닌 것과 매치여부 ^[0-9]와 동일한 표현식<br>
      `\s` : whitespace문자와 매치 [공란\t\n\r\f\v']동일한 표현식<br>
      `\S` : whitespace문자가 아닌 것과 매치 [^공란\t\n\r\f\v']동일한 표현식<br>
      `\w` : 문자,숫자와 매치여부 [a-zA-Z0-9]와 동일<br>
      `\W` : 문자,숫자와 매치여부 [^a-zA-Z0-9]와 동일<br>
      
   2) dot(.) : 줄바꿈문자(\n)를 제외한 모든 문자와 매치
      --> a.b : a + 모든 문자 + b
      
   3) 반복(*) : 별표(*) 바로 앞에 있는 문자가 무한대로 반복되는 문자와 매치
      --> ca*t : cat(o), caaat(o), caaaaaaaaaaaaaaaaat(o), ct(o), cbt(x)
      
   4) 반복(+) : *와 동일한 반복매치인데 다른 점은 반복(*)은 반복회수가 0부터 즉 한번도 안나와도 
                매치되는데 반복(+)는 최소 한번은 나와되는 매치
      --> ca+t: cat(o), caaat(o), caaaaaaaaaaaaaaaaat(o),  ct(x), cbt(x)
      
   5) 반복({m,n}, ?) : 반복횟수를 제한고 싶을 경우에 사용 {}메타문자르 이용한 반복횟수를 고정할
                       수 있다. {m,n}정규식인 경우는 반복횟수가 m부터 n까지의 문자를 매치한다.
                       m,n은 생략이 가능하다.
                       
      (예) {3, } : 반복횟수가 3번이상인 경우, {, 3}는 반복횟수가 3이하를 의미
                   m이 생략되면 0과 동일, n이 생략되면 무한대의 의미를 랒는다. 
                   
                   {1, } : 반복(+)와 동일, {0, } : 반복(*)와 동일
                   
            a. {m} : ca{2}t -> c + a(반드시 2번반복패턴) + t -> cat(x), caat(o)
            b. {m, n} : ca{2,5}t -> c + a(2~5회 반복패턴_ + t -> cat(x), caat(o), caaaaat(o)
            c. ? : 반복은 아니지만 없어도 매치, 있어도 매치 -> ab?c -> abc(o), ac(o)

### 정규식 관련 함수

1. findall() : 정귝식과 매치되는 모든 문자열을 리스트로 리턴
2. match() : 문자열의 처음부터 정규식패턴과 매치여부를 확인후 객체를 리턴
3. search() : 문자열 전체를 검색후 정규식패턴과 매치여부를 확인 후 객체를 리턴
4. finditer(): 정규식패턴과 매치되는 모든 문자열을 iterator객체로 리턴

In [40]:
# 1. match()
p = re.compile('[a-z]+')
print(type(p))

m = p.match('python')
print(type(m))
print(m)

m = p.match('3 python')
print(m)

<class 're.Pattern'>
<class 're.Match'>
<re.Match object; span=(0, 6), match='python'>
None


In [42]:
# 2. search()
m = p.search('python')
print(m)
m = p.search('3 python')
print(m)

<re.Match object; span=(0, 6), match='python'>
<re.Match object; span=(2, 8), match='python'>


In [43]:
# 3. findall()
result = p.findall('Life is too short')
print(result)

['ife', 'is', 'too', 'short']


In [47]:
# 4. finditer()
result = p.finditer('Life is too short')
print(result)
print(type(result))

for r in result:
    print(r)

<callable_iterator object at 0x000002018B2CCCC8>
<class 'callable_iterator'>
<re.Match object; span=(1, 4), match='ife'>
<re.Match object; span=(5, 7), match='is'>
<re.Match object; span=(8, 11), match='too'>
<re.Match object; span=(12, 17), match='short'>


### 정규식 컴파일옵션 

1. DOTALL(S) : dot(.)이 줄바꿈 문자 포함, 모든 문자와 매치할 수 있도록 한다.
2. IGNORECASE(I) : 대소문자와 관계없이 매치할 수 있도록 한다.
3. MULTILINE(M) : 여러줄과 매치할 수 있도록한다(^, $ 메타사용문자와 관계있는 옵셕)
4. VERBOSE(X) : verbose모드사용여부(정규식을 보기편하게 또는 주석을 사용할 수 있도록 한다)

In [51]:
# 1. DOTALL or S:
p = re.compile('a.b', re.S)
m = p.match('a\nb')
print(m)

p = re.compile('a.b')
m = p.match('a\nb')
print(m)

<re.Match object; span=(0, 3), match='a\nb'>
None


In [54]:
# 2. IGNORECASE or I
p = re.compile('[a-z]', re.I)
m = p.match('python')
print(m)

m = p.match('Python')
print(m)

m = p.match('PYTHON')
print(m)

<re.Match object; span=(0, 1), match='p'>
<re.Match object; span=(0, 1), match='P'>
<re.Match object; span=(0, 1), match='P'>


In [56]:
# 3. MULTILINE or M
# '^python\s\w+'
#  ... ^python : python으로 시작하고
#  ... \s : 뒤에 whitespace과 와야하고
#  ... \w : 뒤에 문자와 숫자가 와야 하고
#  ... + : 단어단위로 매치여부를 결정

p = re.compile('^python\s\w+')
data = '''python one
life is too short
python two
you need python
python three
'''
print(p.findall(data))

p = re.compile('^python\s\w+', re.M)
print(p.findall(data))

['python one']
['python one', 'python two', 'python three']


In [60]:
# 4. VERBOSE or X
# 지금껏 알아본 정규식은 매우 간단한 정규식이다. 하지만 정규식 전문가들이 만든 정규식을 보면
# 거의 암호화 수준이다. 이 정규식을 이해하려면 하나하나씩 분석을 해야 하는데 이렇게 복잡한
# 정규식을 주석 또는 라인 단위로 구분할 수 있도록 해주는 옵션이다.
ref = re.compile(r'&[#](0[0-7]+|[0-9]+x[0=9a-fA-F]+);')
ref1 = re.compile(r'''
&[#]             # 숫자로 시작해야 된다.
(
    0[0-7]+      # 8진수
  |  [0-9]       # 10진수
  | x[0-9a-fA-F] # 16진수
)
;                # 맨 뒤에 ;이 나와야 된다.

''', re.VERBOSE)
print(ref)
print(ref1)

re.compile('&[#](0[0-7]+|[0-9]+x[0=9a-fA-F]+);')
re.compile('\n&[#]             # 숫자로 시작해야 된다.\n(\n    0[0-7]+      # 8진수\n  |  [0-9]       # 10진수\n  | x[0-9a-fA-F] # 16진수\n)\n;                # 맨 뒤에 ;이 나와야 된다.\n\n', re.VERBOSE)


### 정규식을 사용할 때 백슬래쉬(\) 문제

정규식을 표현할 때 백슬래쉬를 사용하게 되면 혼란을 주게 된다. 
\section 같은 정규식은 \s 문자가 whitespace로 인식하게 된다. 즉 "[공란\t\r\n\f\v]ection"와 동일한 의미가 된다. 이런 경우에는 \\section으로 정의해야 한다. 즉, \문자가 문자열로 인식하게 할 경우에는
\\(2개)로 정의로 정의해야 한다.

In [61]:
p = re.compile('\\section')

### 심화정규식 (메타문자)

In [65]:
# 1. |는 or : A|B A이거나 B
p = re.compile("Crow|Servo")
m = p.match("CrowHello")
print(m)

m = p.match("ServoHello")
print(m)

m = p.match("HelloServo")
print(m)

<re.Match object; span=(0, 4), match='Crow'>
<re.Match object; span=(0, 5), match='Servo'>
None


In [68]:
# 2. ^ : 맨처음부터 문자열이 일치가 되는지 여부
print(re.search('^Life', 'Life is too short'))
print(re.search('^Life', 'My Life is too short'))

<re.Match object; span=(0, 4), match='Life'>
None


In [69]:
# 3. $ : 맨뒤의 문자가 일치여부
print(re.search('short$', 'Life is too short'))
print(re.search('short$', 'My Life is too short...'))

<re.Match object; span=(12, 17), match='short'>
None


In [None]:
# 4. \A : ^(맨 처음부터)와 동일하지만 re.MULTILINE옵션을 사용할 경우에는 라인과 상관없이 전체
# 문자열의 맨처름과 매치여부, ^는 매 라인마다 매치여부를 결정

In [None]:
# 5. \Z : $와 유사하지만, \A와 반대의미

In [71]:
# 6. \b : 공백을 의미
p = re.compile(r'\bclass\b')
print(p.search('no class at all'))
print(p.search('no myclass at all'))

<re.Match object; span=(3, 8), match='class'>
None


In [73]:
# 7. \B : \b와 반대의미
p = re.compile(r'\Bclass\B')
print(p.search('no class at all'))
print(p.search('no myclassified at all'))

None
<re.Match object; span=(5, 10), match='class'>


In [80]:
# 8. 그롭핑 () : 소괄호는 특정 그룹을 만들어 주는 메타문자이다
p = re.compile('(ABC)+')
m = p.search('ABCABCABC ?')
print(m)
print(m.group())

<re.Match object; span=(0, 9), match='ABCABCABC'>
ABCABCABC


In [84]:
# 그룹핑예제
# 이름 + ' ' + 전화번호 : 홍길동 010-1111-2222
p = re.compile(r'(\w+)\s+\d+[-]\d+[-]\d+')
m = p.search('홍길동 010-1111-2222')
print(m.group(0))

# group(index)
# group(0) : 매치된 전체 문자열을 리턴
# group(1) : 첫번쨰 그룹의 매치된 전체 문자열을 리턴
# group(2) : 두번쨰 그룹의 매치된 전체 문자열을 리턴
# group(n) : n번쨰 그룹의 매치된 전체 문자열을 리턴


print(m.group(1)) # 이름만
# print(m.group(2)) 에러, 그룹이 한개이기 때문에

# 전화번호만
p = re.compile(r'(\w+)\s+(\d+[-]\d+[-]\d+)')
m = p.search('홍길동 010-1111-2222')
print(m.group(2)) 

# 국번만
p = re.compile(r'(\w+)\s+((\d+)[-]\d+[-]\d+)')
m = p.search('홍길동 010-1111-2222')
print(m.group(3)) 

홍길동 010-1111-2222
홍길동
010-1111-2222
010


In [86]:
# 문자열 바꾸기
p = re.compile('blue|white|red')
print(p.sub('color', 'blue and red'))
print(p.sub('color', 'blue and red', count=1))

color and color
color and red


In [93]:
# (실습)비밀번호 정합성 문제
# 1. 비밀번호길이는 6~12자리이어야 한다.
# 2. 숫자와 영문자로 구성
# 3. 소문자와 대문자로 구성
# 4. 특수문자는 사용불가
import re
def pwd_check(pwd):
    
    # 비밀번호길이
    if len(pwd) < 6 or len(pwd) > 12:
        print('%s(%d)의 길이는 6~12자리 이어야 합니다' %(pwd, len(pwd)))
        return False
      
    # 숫자, 문자 유무확인
    # 숫자와 소문자, 대문자로 구성, 특수문자는 불가
    # findall()함수는 리스트로 리턴 첫번째 요소 인덱스가 0
    if re.findall('[a-zA-Z0-9]+', pwd)[0] != pwd:
        print(pwd, ' : 비밀번호는 숫자와 영문자로 구성이 되어야 한다.')
        return False
    
    # 대소문자구분
    # 소문자길이가 0이거나 대문자길이가 0이면 불가
    if len(re.findall('[a-z]', pwd)) == 0 or len(re.findall('[A-Z]', pwd)) == 0:
        print
        print(pwd, ' : 비밀번호는 대소문자로 구성이 되어야 한다.')
        return False  
    
    print(pwd, ' : 정상적인 비밀번호입니다.')
    return True

#pwd_check('12abc')  # NG : 12abc의 길이는 6~12자리 이어야 합니다. 출력
#pwd_check('123abc') # NG : 12abc : 비밀번호는 대소문자로 구성되어야 합니다. 출력
#pwd_check('123abc%')# NG : 12abc : 비밀번호는 특수문자를 사용할 수 없습니다. 출력
pwd_check('123ABc') # OK : 정상적인 비밀번호입니다! 

123ABc  : 정상적인 비밀번호입니다.


True

In [99]:
# 이메일 정합성
def email_check(email):
    exp = re.findall('^[a-z0-9]{2,}@[a-zA-Z0-9]{2,}\.[a-z]{2,}$', email)
    
    if len(exp) == 0:
        print(email, ' 주소가 잘못되었습니다.')
        return False
    
    print(email, '는 정확한 이메일 주소입니다!')
    
email_check('kim@gmail') # NG    
email_check('kim._gmail.com') # NG    
email_check('kim') # NG   
email_check('kim@gmail.com') # OK  

kim@gmail  주소가 잘못되었습니다.
kim._gmail.com  주소가 잘못되었습니다.
kim  주소가 잘못되었습니다.
kim@gmail.com 는 정확한 이메일 주소입니다!
