# 정규식(정규표현식, Regular Expressions)

* `정규식은 정규표현식의 약칭`이다.
* 정규식은 문자열을 처리할 때 사용하는 데 파이썬만의 고유문법이 아니라 문자열을 처리하는 모든 곳에서 사용
* 정규식은 `프로그램작성없이 특정 패턴을 정의해서 그 패턴과 일치하는 문자열을 추출`하는 기능을 지원한다.
* 예를들어 주민번호의 뒷 7자리 블라인딩처리, email형식의 검증등 프로그램없이도 처리할 수가 있다.
* 파이썬에서 이런 정규식을 처리하기 위해 `내장모듈 re`을 지원한다.

In [1]:
import re
help(re)

Help on package re:

NAME
    re - Support for regular expressions (RE).

MODULE REFERENCE
    https://docs.python.org/3.11/library/re.html
    
    The following documentation is automatically generated from the Python
    source files.  It may be incomplete, incorrect or include features that
    are considered implementation detail and may vary between Python
    implementations.  When in doubt, consult the module reference at the
    location listed above.

DESCRIPTION
    This module provides regular expression matching operations similar to
    those found in Perl.  It supports both 8-bit and Unicode strings; both
    the pattern and the strings being processed can contain null bytes and
    characters outside the US ASCII range.
    
    Regular expressions can contain both special and ordinary characters.
    Most ordinary characters, like "A", "a", or "0", are the simplest
    regular expressions; they simply match themselves.  You can
    concatenate ordinary characters, so l

In [6]:
# 1. findall(패턴, string)
# re.findall?

life = 'Life is too short'

# 1) 기본사용법
a = re.findall('a', life)
print(type(a), a)

a = re.findall('o', life)
print(type(a), a)

a = re.findall('short', life)
print(type(a), a)

<class 'list'> []
<class 'list'> ['o', 'o', 'o']
<class 'list'> ['short']


In [20]:
# 2) 특정 문자열에서 소문자를 찾기
my_string = 'My id Number is KIM0902_$'

# a. 소문자를 찾아서 list로 리턴하는 프로그램으로 작성해보기
result = []
for s in my_string:
    if s>='a' and s<='z':
        result.append(s)
print(result)

# []는 문자한개를 문자단위로 검색 옵션
a = re.findall('yid', my_string)
print(a)

a = re.findall('[yid]', my_string)
print(a)

a = re.findall('[abcdefghijklmnopqrstuvwxyz]', my_string)
print(a)

# 알파벳에서 모음(소문자)만 찾기
a = re.findall('[aieou]', '[abcdefghijklmnopqrstuvwxyz]')
print(a)
a = re.findall('[aieou]', my_string)
print(a)
print()

# - : from - to의미
# my_string에 영소문자만 추출하기
a = re.findall('[a-z]', my_string)
print(a)

# + : 문자단위가 아니라 단어단위로 검색
a = re.findall('[a-z]+', my_string)
print(a)


['y', 'i', 'd', 'u', 'm', 'b', 'e', 'r', 'i', 's']
[]
['y', 'i', 'd', 'i']
['y', 'i', 'd', 'u', 'm', 'b', 'e', 'r', 'i', 's']
['a', 'e', 'i', 'o', 'u']
['i', 'u', 'e', 'i']

['y', 'i', 'd', 'u', 'm', 'b', 'e', 'r', 'i', 's']
['y', 'id', 'umber', 'is']


In [22]:
# 3) 특정 문자열에서 대문자를 찾기
my_string = 'My id Number is KIM0902_$'

# 실습1. 문자단위로 대문자만 검색
a = re.findall('[A-Z]', my_string)
print(a)

# 실습2. 단어단위로 대문자만 검색
a = re.findall('[A-Z]+', my_string)
print(a)

# 실습3. 대소문자만 추출(문자단위와 단어단위 각각)
a = re.findall('[a-zA-Z]', my_string)
print(a)

a = re.findall('[a-zA-Z]+', my_string)
print(a)

['M', 'N', 'K', 'I', 'M']
['M', 'N', 'KIM']
['M', 'y', 'i', 'd', 'N', 'u', 'm', 'b', 'e', 'r', 'i', 's', 'K', 'I', 'M']
['My', 'id', 'Number', 'is', 'KIM']


In [48]:
# 4) 특정 문자열에서 숫자를 찾기
my_string = 'My id Number is KIM0902_$'

# 실습1. 숫자만 추출
a = re.findall('[0-9]', my_string)
print(a)

# 실습2. 숫자/대/소문자 추출
a = re.findall('[a-zA-Z0-9]+', my_string)
print(a)

['0', '9', '0', '2']
['0', '9', '0', '2']
['M', 'y', ' ', 'i', 'd', ' ', 'N', 'u', 'm', 'b', 'e', 'r', ' ', 'i', 's', ' ', 'K', 'I', 'M', '_', '$']
['My', 'id', 'Number', 'is', 'KIM0902']


In [37]:
# 5) 특정 문자열에서 특수문자를 찾기
my_string = 'My id Number is KIM0902_$'

a = re.findall('[_$]', my_string)
print(a)

a = re.findall('[~!@#$%^&*()_+=-]', my_string)
print(a)

# ^(not) : 정의된 패턴이 아닌 문자만 추출
a = re.findall('[^a-zA-Z0-9]', my_string)
b = re.findall('[^a-zA-Z0-9]+', my_string)
print(a, b)

['_', '$']
['_', '$']
[' ', ' ', ' ', ' ', '_', '$'] [' ', ' ', ' ', ' ', '_$']


In [45]:
# 6) 영대소문자, 숫자, _만 추출하기
my_string = 'My id Number is KIM0902_$'

a = re.findall('[a-zA-Z0-9_]', my_string)
b = re.findall('[a-zA-Z0-9_]+', my_string)
print(a)
print(b)
print()

# \w : whitespace문자를 의미하는 패턴, [a-zA-Z0-9_]와 동일한 패턴
a = re.findall('[\w]', my_string)
b = re.findall('[\w]+', my_string)
print(a)
print(b)
print()

# 실습1. whitespace문자가 아닌 패턴 추출하기 
# \W : [^a-zA-Z0-9_]와 동일한 패턴
a = re.findall('[\W]', my_string)
b = re.findall('[\W]+', my_string)
print(a)
print(b)

a = re.findall('[^\w]', my_string)
b = re.findall('[^\w]+', my_string)
print(a)
print(b)

['M', 'y', 'i', 'd', 'N', 'u', 'm', 'b', 'e', 'r', 'i', 's', 'K', 'I', 'M', '0', '9', '0', '2', '_']
['My', 'id', 'Number', 'is', 'KIM0902_']

['M', 'y', 'i', 'd', 'N', 'u', 'm', 'b', 'e', 'r', 'i', 's', 'K', 'I', 'M', '0', '9', '0', '2', '_']
['My', 'id', 'Number', 'is', 'KIM0902_']

[' ', ' ', ' ', ' ', '$']
[' ', ' ', ' ', ' ', '$']
[' ', ' ', ' ', ' ', '$']
[' ', ' ', ' ', ' ', '$']


In [51]:
# 7) 패턴문자열
# \d 숫자([0-9\, \D = ^\d or [^0-9]
a = re.findall('[\d]+', my_string)
print(a)

a = re.findall('[\D]+', my_string)
print(a)

# {} 반복
# () 그룹 \g 

['0902']
['My id Number is KIM', '_$']


##### 실습

In [59]:
# 실습(1) 
# 주민번호 뒷 7자리를 *로 블라인딩처리 단, 정규식을 사용하지 말것
# hong 910915-*******
data = '''
    hong 910915-1234567
    park 951118-2345678
'''
result = []
# data.split('\n')
for line in data.split('\n'):
    # print(line.split())
    word_result = []
    for word in line.split():
        # print(word)
        if len(word) == 14 and word[:6].isdigit() and word[7:].isdigit():
            word = word[:7] + '*******'
            # print(word)
        word_result.append(word)
    result.append(' '.join(word_result))
    
print(result)
print('\n'.join(result))

['', 'hong 910915-*******', 'park 951118-*******', '']

hong 910915-*******
park 951118-*******



In [76]:
# 실습(2) 
# 주민번호 뒷 7자리를 *로 블라인딩처리 단, 정규식을 사용할 것
# re.compile : 사용자가 패턴규칙을 만드는 함수
# 그룹패턴 소괄호 (), 반복(길이)의미의 중괄호 {}
# 패턴문자 \d(숫자), \g(그룹)
import re
data = '''
    hong 910915-1234567
    park 951118-2345678
'''

# help(re.compile)
# ptrn = re.compile('(\d{6})[-](\d{7})')
# print(type(ptrn), ptrn)
# # ptrn.sub?
# ptrn.sub('\g<1>', data)
# print(ptrn.sub('\g<1>', data))
# print(ptrn.sub('\g<2>', data))
# print(ptrn.sub('\g<1>-*******', data))
# print('-'*60)
print( re.compile('(\d{6})[-](\d{7})').sub('\g<1>-*******', data))


    hong 910915-*******
    park 951118-*******



## 정규표현식

##### 1. 메타문자(정규식의 기초)
>`공란 dot(.) ^ $ * + ? {}, \ | ()`

##### 2. 메타문자의 의미

1. `[]` : [a-z]와 같이 문자 클래스로 만들어진 정규식, [와 ]사이의 문자들과 일치하는지 여부
    - `\d` : 숫자와 매치여부, `[0-9]`와 동일한 패턴
    - `\D` : 숫자가 아닌 것과 매치여부, `[^0-9]`와 동일한 패턴
    - `\s` : whitespace문자와 매치여부, `[공란\t\n\r\f\v]` 패턴을 의미
    - `\S` : whitespace문자가 아닌 것과 매치여부, `[^공란\t\n\r\f\v]` 패턴을 의미
    - `\w` : 문자,숫자,_와 매치여부, `[0-9a-zA-Z_]`패턴과동일
    - `\W` : 문자,숫자,_ 이외의 문자와 매치여부, `[^0-9a-zA-Z_]`패턴과동일
1. `dot(.)`: 줄바꿈문자(\n)을 제외한 모든 한 개의 문자와 매치여부
    - 예: `a.b` -> a와 b사이의 모든 문자가 있는 문자열과 매치여부
    - a.b : axb(o), axb(o), a\nb(x), axyzb(x), a1b(o)...
1. `*(반복)` : 별표바로앞에 있는 문자가 무한대로 반복되는 문자열과 매치여부
    - 예: `ca*t`
    - cat(o), caaaaaaaaaaaaaaaat(o), ct(o), cbt(x) 
    
1. `+(반복)` : *(반복)과 동일한 반복패턴이지만 다른점 최소한 1개의 문자가 나와야 된다.
    - 예: `ca+t`
    - cat(o), caaaaaaaaaaaaaaaat(o), ct(x), cbt(x) 
1. `반복({m,n}, ?)` : 반복횟수를 지정, `m부터 n까지의 문자열과 매치여부`, m과 n은 생략할 수 있다.
    - 예: {3,} : 반복횟수가 3번이상인 문자열과 매치 여부, 반복횟수가 3번이하를 의미, 
    - m이 생락되면 0과 동일, n이 생략되면 무한을 의미 즉, `{1,}는 +와 동일패턴`
    - `{0,}는 *와 동일패턴`을 의미
       - `{m}`  : ca{2}t -> a가 2번반복하는 문자열과 매치 즉, caat(o), cat(x)
       - `{m,n}`: ca{2, 5} -> a가 2~5번까지 반복하는 문자열 즉, caat(o), caaat(o), caaaaat(o), caaaaaat(x)
1. `소괄호()` : 문자열을 한개의 그룹으로 설정하는 메타문자


##### 3. 정규식관련함수

1. findall() : 정규식과 매치되는 모든 문자열을 리스트로 리턴
1. match()   : 문자열의 처음부터 정규식패턴과 매치여부를 확인후 객체를 리턴
1. search()  : 문자열 전체를 검색한후에 정규식패턴과 매치여부를 확인후 객체를 리턴
1. finditer(): 정규식패턴과 매치되는 모든 문자열을 iterable객체로 리턴

In [86]:
# 1. match
p = re.compile('[a-z]+')
print(type(p), p)
print(dir(p))
print()

m = p.match('Python')
print(type(m), m)

m = p.match('3 Python')
print(type(m), m)

m = p.match('python')
print(type(m), m)
print()

print(type(m.group()), m.group())
print(m.start())
print(m.end())
print(m.span())

<class 're.Pattern'> re.compile('[a-z]+')
['__class__', '__class_getitem__', '__copy__', '__deepcopy__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getstate__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__le__', '__lt__', '__module__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'findall', 'finditer', 'flags', 'fullmatch', 'groupindex', 'groups', 'match', 'pattern', 'scanner', 'search', 'split', 'sub', 'subn']

<class 'NoneType'> None
<class 'NoneType'> None
<class 're.Match'> <re.Match object; span=(0, 6), match='python'>

<class 'str'> python
0
6
(0, 6)


In [95]:
# 2. search()
p = re.compile('[a-z]+')

m = p.search('Python')
print(type(m), m)
print(type(m.group()), m.group())
print(m.start(), m.end(), m.span())
print()

m = p.search('3 Python')
print(type(m.group()), m.group())
print(type(m), m)
print(m.start(), m.end(), m.span())
print()

m = p.search('python')
print(type(m), m)
print(type(m.group()), m.group())
print(m.start(), m.end(), m.span())
print()



<class 're.Match'> <re.Match object; span=(1, 6), match='ython'>
<class 'str'> ython
1 6 (1, 6)

<class 'str'> ython
<class 're.Match'> <re.Match object; span=(3, 8), match='ython'>
3 8 (3, 8)

<class 're.Match'> <re.Match object; span=(0, 6), match='python'>
<class 'str'> python
0 6 (0, 6)



In [102]:
# 3. findall()
p = re.compile('[a-z]+')
result = p.findall('Life is too short')
print(type(result), result)

p = re.compile('[a-z]')
result = p.findall('Life is too short')
print(type(result), result)

p = re.compile('[A-Z]')
result = p.findall('Life is too short')
print(type(result), result)

p = re.compile('(\d{6})[-](\d{7})')
result = p.findall('991118-1234567970105-2345678')
print(result)

p = re.compile('(\d{6})')
result = p.findall('991118-1234567970105-2345678')
print(result)

<class 'list'> ['ife', 'is', 'too', 'short']
<class 'list'> ['i', 'f', 'e', 'i', 's', 't', 'o', 'o', 's', 'h', 'o', 'r', 't']
<class 'list'> ['L']
[('991118', '1234567'), ('970105', '2345678')]
['991118', '123456', '797010', '234567']


In [104]:
# 4. finditer
p = re.compile('[a-z]+')
result = p.finditer('Life is too short')
print(type(result), result)

for i in result:
    print(i)

<class 'callable_iterator'> <callable_iterator object at 0x000001AF75F379D0>
<re.Match object; span=(1, 4), match='ife'>
<re.Match object; span=(5, 7), match='is'>
<re.Match object; span=(8, 11), match='too'>
<re.Match object; span=(12, 17), match='short'>


#### 정규식컴파일 옵션

1. DOTALL(or S)     : dot(.)이 줄바꿈문자를 포함한 모든 문자열과 매치할 수 있도록 하는 옵션
1. IGNORECASE(or I) : 대소문자 구분없이 매치할 수 있도록 하는 옵션
1. MULTILINE(or M)  : 정규식안에 여러줄로 매치할 수 있다록 하는 옵션(`시작^, 끝$`)
1. VERBOSE(or X)    : verbose모드 사용여부(정규식에 주석처리를 할 수 있는 옵션)

* 정규식관련문서
  - https://docs.python.org/ko/3/howto/regex.html

In [107]:
# 1. DOTALL or S : re.DOTALL or re.S
p = re.compile('a.b')
m = p.match('aab')
print(m)

m = p.match('a\nb')
print(m)
print()

p = re.compile('a.b', re.DOTALL)
m = p.match('aab')
print(m)

m = p.match('a\nb')
print(m)

<re.Match object; span=(0, 3), match='aab'>
None

<re.Match object; span=(0, 3), match='aab'>
<re.Match object; span=(0, 3), match='a\nb'>


In [110]:
# 2. IGNORECASE(or I) 
p = re.compile('[a-z]+')
m = p.match('python')
print(m)

m = p.match('Python')
print(m)
print()

p = re.compile('[a-z]+', re.IGNORECASE)
m = p.match('python')
print(m)

m = p.match('Python')
print(m)

<re.Match object; span=(0, 6), match='python'>
None

<re.Match object; span=(0, 6), match='python'>
<re.Match object; span=(0, 6), match='Python'>


In [114]:
# 3. MULTILINE(or M) 
# '^python\s\w+'
# 1) python을 시작해야 하고
# 2) python뒤에 whitespace문자가 와야 하고
# 3) \w : 뒨에 영대소문자, 숫자, _가 와야 한고
# 4) + : 단어단위
p = re.compile('^python\s\w+')
data = '''python one
Life is too short
python two
you need python
python three
'''
result = p.findall(data)
print(result)

p = re.compile('^python\s\w+', re.M)
result = p.findall(data)
print(result)

['python one']
['python one', 'python two', 'python three']


In [115]:
# 4. VERBOSE(or X) 
# 지금껏 실습한 정규식은 매우 간단한 정규식이다. 하지만 전문가가 만든 정규식은 거의 암호화수준이다.
# 그래 이 정규식을 이해하려면 주석 또는 라인단위로 구분해야 하는데 이 구분할 수 있게 해주는 옵션이
# VERBOSE옵션이다.
r = re.compile('(0[0-7]+|[0-9]+|x[0-9a-fA-F]+)')
result = r.findall('06;10;xa')
print(result)

['06', '10', 'xa']


In [117]:
r = re.compile('''
#&[#]               # 숫자로 시작해야 한다.
(
    0[0-7]+ |       # 8진수
     [0-9]+ |       # 10진수
    x[0-9a-zA-Z]+   # 16진수
)
''', re.X)
result = r.findall('06;10;xa')
print(result)

['06', '10', 'xa']


In [8]:
# 정규식 메타문자 : or(|), start(^), end($)
# 1. or(|)는 A|B 즉, `A이거나 B'를 의미
import re
p = re.compile('홍길동|손흥민')

m = p.match('홍길동')
print(m)
m = p.match('손흥민')

print(m)
m = p.match('홍길동손흥민')
print(m)

m = p.match('손흥민홍길동')
print(m)

m = p.match('이강인김민재')
print(m)

<re.Match object; span=(0, 3), match='홍길동'>
<re.Match object; span=(0, 3), match='손흥민'>
<re.Match object; span=(0, 3), match='홍길동'>
<re.Match object; span=(0, 3), match='손흥민'>
None


In [14]:
# 2. start(^) : 문자열의 맨 처음부터
myString = 'Life is too short'
print(re.search('Life', myString))
print(re.search('^Life', myString))
print(re.search('^Life', 'My Life is too short'))
print(re.search('Life', 'My Life is too short'))
print(re.search('^My Life', 'My Life is too short'))

<re.Match object; span=(0, 4), match='Life'>
<re.Match object; span=(0, 4), match='Life'>
None
<re.Match object; span=(3, 7), match='Life'>
<re.Match object; span=(0, 7), match='My Life'>


In [19]:
# 3. end($) : 맨 뒤의 문자열의 일치여부
print(re.search('short', 'My Life is too short'))
print(re.search('^short', 'My Life is too short'))
print(re.search('$short', 'My Life is too short'))
print(re.search('short$', 'My Life is too short'))
print(re.search('short$', 'My Life is too short.'))

<re.Match object; span=(15, 20), match='short'>
None
None
<re.Match object; span=(15, 20), match='short'>
None


##### 연습문제

In [38]:
# 1. 비밀번호정합성
# 1) 비밀번호의 길이 : 6~12
# 2) 숫자와 영문자로 구성
# 3) 소문자와 대문자로 구성
# 4) 특수문자 사용불가
def pwd_check(pwd):
    
    # 1. 비밀번호의 길이 체크
    if len(pwd) < 6 or len(pwd) > 12:
        print(f'{pwd}(길이:{len(pwd)})의 길이는 6~12자리 사이어야 합니다!')
        return
    
    # 2. 숫자,문자 유무 체크
    # 숫자와 대소문자로 구성, 특수문자는 불가
    # findall()
    if re.findall('[a-zA-Z0-9]+', pwd)[0] != pwd:
        print(f'{pwd} : 비밀번호는 숫자와 영대소문자로 구성되어야 합니다!')
        return False
    
    # 3. 대소문자구분
    # 대소문자의 길이가 0이면 에러
    if re.findall('[a-z]', pwd) == 0 or re.findall('[A-Z]', pwd) == 0:
        print(f'{pwd} : 비밀번호는 대소문자로 구성되어야 합니다!')
        return False        
    
    print(f'{pwd}는 정상적인 비밀번호입니다.')
    return True
    
# pwd_check('12abc')   # NG
# pwd_check('123abc')  # NG
# pwd_check('123abc%') # NG
pwd_check('123ABc')  # OK

# 12abc(5)의는 6~12자리 이어야 합니다.
# 123abc  : 비밀번호는 대소문자로 구성되어야 합니다
# 123abc% : 비밀번호는 숫자와 영문자로 구성되어야 합니다!
# 123ABc  : 정상적인 비밀번호 입니다

123ABc는 정상적인 비밀번호입니다.


True

In [39]:
# 2. 이메일정합성
def email_check(email):
    
    exp = re.findall('^[a-z0-9]{2,}@[a-z0-9]{2,}\.[a-z]{2,}$', email)
    if len(exp) == 0:
        print(f'{email} -> email주소가 잘못되었습니다!')
        return False
    
    print(f'{email} -> 정상적인 email주소입니다!')
    return True

email_check('kim@gmail')     #NG
email_check('kim_gmail.com') #NG
email_check('kim')           #NG
email_check('kim@gmail.com') #OK

# kim@gmail --> 이메일주소가 잘못 되었습니다.
# kim_gmail.com --> 이메일주소가 잘못 되었습니다.
# kim --> 이메일주소가 잘못 되었습니다.
# kim@gmail.com --> 정상적인 이메일 주소 입니다!

kim@gmail -> email주소가 잘못되었습니다!
kim_gmail.com -> email주소가 잘못되었습니다!
kim -> email주소가 잘못되었습니다!
kim@gmail.com -> 정상적인 email주소입니다!


True