# Regular Expressions(정규 표현식)
    - 복잡한 문자열을 처리할 때 사용
    - 모든 언어에서 문자열을 처리할 때 공통으로 사용
    - 예 : 주민등록번호의 뒷자리를 '*'로 변경

## 정규 표현식을 사용하지 않는 예

In [11]:
data = '''park 800905-1049110
kim 700905-1059119
lee 880203-2110537
hong 901105-1234567
jang 020319-3205147'''


results = []
for i in data.split('\n'):
    word_result = []
    for j in i.split(' '):
        if len(j) == 14 and j[:6].isdigit() and j[7:].isdigit():
            j = j[:6] + '-' + '*******'
        word_result.append(j)
        
    results.append(' '.join(word_result))
    
print(results)

['park 800905-*******', 'kim 700905-*******', 'lee 880203-*******', 'hong 901105-*******', 'jang 020319-*******']


## 정규 표현식을 이용한 예

In [20]:
data = '''park 800905-1049110
kim 700905-1059119
lee 880203-2110537
hong 901105-1234567
jang 020319-3205147'''

import re

pat = re.compile('(\d{6})[-]\d{7}')
print(pat.sub('\g<1>-*******',data))

park 800905-*******
kim 700905-*******
lee 880203-*******
hong 901105-*******
jang 020319-*******


# 메타 문자(Meta Character)
 - 원래 그 문자의 의미가 아니라 특별한 의미를 가진 문자
 - 분류 : _ , ^ , $ , * , + , ? , [] , {} , \ , | , ()

In [None]:
# []
##[abc] : a 또는 b 또는 c 중 한 개라도 문자와 매칭하는지 검색
##[a-c] : [abc]와 동일
##[0-5] : [012345]
##[a-zA-z] : 알파벳 모든 문자
##[0-9] : 모든 숫자

# ^(not)
##[^0-9] : 숫자가 아닌

# .(dot) : all의 의미
##a.b : 'a + 모든 문자 + b'와 매칭


In [30]:
string = 'My id number is lee0902'

d = re.findall('[a-z]',string)
print(d)
a = re.findall('[a-z]+',string)
print(a)

b = re.findall('[A-Z]',string)
print(b)

c = re.findall('[A-Z]+',string)
print(c)

['y', 'i', 'd', 'n', 'u', 'm', 'b', 'e', 'r', 'i', 's', 'l', 'e', 'e']
['y', 'id', 'number', 'is', 'lee']
['M']
['M']


In [41]:
string = 'My id number is KIN_05025%'

a = re.findall('[a-zA-z0-9]' , string)
print(a)
b = re.findall('[a-zA-z0-9]+' , string)
print(b)
c = re.findall('[^a-zA-z0-9]' , string)
print(c)
d = re.findall('[\w]' , string) # \w : 영문자와 숫자 찾음.
print(d)
e = re.findall('[\w]+' , string)
print(e)
f = re.findall('[\W]' , string) # \W : 영문자 , 숫자 , _ 가 아닌 것들 찾음
print(f)

['M', 'y', 'i', 'd', 'n', 'u', 'm', 'b', 'e', 'r', 'i', 's', 'K', 'I', 'N', '_', '0', '5', '0', '2', '5']
['My', 'id', 'number', 'is', 'KIN_05025']
[' ', ' ', ' ', ' ', '%']
['M', 'y', 'i', 'd', 'n', 'u', 'm', 'b', 'e', 'r', 'i', 's', 'K', 'I', 'N', '_', '0', '5', '0', '2', '5']
['My', 'id', 'number', 'is', 'KIN_05025']
[' ', ' ', ' ', ' ', '%']


In [51]:
#비밀번호 체크하는 함수 구현
## 문자의 길이는 6~~12글자 이내
## 영문자와 숫자를 포함

def check_pass(pwd):
    if len(pwd)<6 or len(pwd)>12:
        print(f'입력받은 {pwd}는 길이가 적당하지 않습니다.')
        return False
    
    
    if re.findall('[\w]+' , pwd)[0] != pwd:
        print(f'{pwd}는 영문자와 숫자로만 이루어져야 합니다')
        return False
    
    #영문자의 소문자 , 대문자는 적어도 한글자는 포함되어야 한다.
    
    if re.findall('[A-Z]' , pwd) == [] or re.findall('[a-z]' , pwd) == []:
        print(f'{pwd}는 소문자와 대문자가 적어도 하나 이상씩 있어야 힙니다.')
        return False
        
    print(f'{pwd}는 올바른 형식의 비밀번호입니다')
    return

In [55]:
check_pass('abcdefG1241')

abcdefG1241는 올바른 형식의 비밀번호입니다


In [None]:
# 이메일 체크 함수
## 첫글자는 영문자의 소문자와 숫자로 이루어지되 2글자 이상이어야 함
## 문자열 사이에 @를 포함
## 마지막은 반드시 .와 함께 영문자 그리고 2글자 이상으로 끝나야 함

In [66]:
def email_check(email):
    #^[a-z] : 시작은 반드시 영문자 소문자여야 함
    #[^a-z] : 영문자 소문자를 포함하지 않아야 함
    #{n} : n글자 , {n,} : 최소 n글자 이상
    #{n,m} : 최소 n글자 , 최대 m글자 반복 , \d{3,5} : 적어도 3~~5개의 숫자는 포함
    #[]$ : 해당 패턴으로 종료되어야 함
    #\문자 : 해당 문자가 반드시 있어야 함
    exp = re.findall('^[a-z0-9]{2,}\@[a-z0-9]{2,}\.[a-z]{2,}$',email)
    
    if len(exp) == 0:
        print(f'{email}의 형식이 올바르지 않습니다')
        return False
    print(f'{email}은 올바른 형식입니다.')
    return

In [67]:
email_check('lee123@naver.com')

lee123@naver.com은 올바른 형식입니다.
