# Regular Expressions(정규 표현식)
- 복잡한 문자열을 처리할 때 사용하는 기법
- 모든 언어에서 문자열을 처리할 때 공통으로 사용
- 예 : 주민등록번호의 뒷자리를 '*'문자로 변경

## 정규 표현식을 사용하지 않는 예

In [3]:
data = """
park 800905-1049118
kim  700905-1059119
lee  880203-2110537
hong 901105-1234567
jang 020319-2205147
"""

result = []
for line in data.split('\n'):
    word_result = []
    for word in line.split(' '):
        if len(word) == 14 and word[:6].isdigit() and word[7:].isdigit():
            
            word = word[:6] + "-" + "*******"

        word_result.append(word)
    result.append(' '.join(word_result))

print('\n'.join(result))


park 800905-*******
kim  700905-*******
lee  880203-*******
hong 901105-*******
jang 020319-*******



## 정규표현식을 이용한 예

In [4]:
import re

In [5]:
data = """
park 800905-1049118
kim  700905-1059119
lee  880203-2110537
hong 901105-1234567
jang 020319-2205147
"""

pat = re.compile('(\d{6})[-]\d{7}')
print(pat.sub('\g<1>-*******', data))


park 800905-*******
kim  700905-*******
lee  880203-*******
hong 901105-*******
jang 020319-*******



# 메타문자(Meta Character)
- 원래 그 문자의 의미가 아니라 특별한 의미를 가진 문자
- 종류 : ., ^, $, *, +, ?, {}, [], \, |, ()

In [6]:
#메타문자 : []
## [abc] : a,b,c 중 한개라도 문자와 매칭
## [a-c] : [abc]와 동일
## [0-5] : [012345]
## [a-zA-Z] : 모든 알파벳
## [0-9] : 모든 숫자
## ^(not) : [^0-9] 숫자가 아닌 문자
## .(dot) : a.b == 'a + 모든문자 + b'

In [9]:
string = 'My id number is kim0902'

#특정 패턴에 해당하는 문자를 찾는 작업
#findall('패턴',문자열)
a = re.findall('a', string)
print(a)

b = re.findall('kim', string)
print(b)

c = re.findall('m', string)
print(c)

[]
['kim']
['m', 'm']


In [13]:
string = 'My id Number is KIM0902'

# 모든 소문자를 찾아서 리스트로 반환
a = re.findall('[a-z]', string)
print(a)

# 단어 단위로 찾는 작업
b = re.findall('[a-z]+',string)
print(b)

#대문자를 글자단위로 찾는 작업
c = re.findall('[A-Z]', string)
print(c)

#대문자를 단어단위로 찾는 작업
d = re.findall('[A-Z]+', string)
print(d)

['y', 'i', 'd', 'u', 'm', 'b', 'e', 'r', 'i', 's']
['y', 'id', 'umber', 'is']
['M', 'N', 'K', 'I', 'M']
['M', 'N', 'KIM']


In [20]:
string = 'My id number is kimw_0502$%'

#영문자와 숫자로만 이루어진 글자 찾는 작업
a = re.findall('[a-zA-Z0-9]', string)
print(a)

#영문자와 숫자로만 이루어진 단어를 찾는 작업
b = re.findall('[a-zA-Z0-9]+', string)
print(b)

# 영문자와 숫자가 아닌 글자 찾는 작업
c = re.findall('[^a-zA-Z0-9]', string)
print(c)

#\w : 영문자와 숫자
d = re.findall('[\w]', string)
print(d)

e = re.findall('[\w]+', string)
print(e)

#\W : 영문자와 숫자 그리고 _가 아닌 경우

f = re.findall('[\W]', string)
print(f)


['M', 'y', 'i', 'd', 'n', 'u', 'm', 'b', 'e', 'r', 'i', 's', 'k', 'i', 'm', 'w', '0', '5', '0', '2']
['My', 'id', 'number', 'is', 'kimw', '0502']
[' ', ' ', ' ', ' ', '_', '$', '%']
['M', 'y', 'i', 'd', 'n', 'u', 'm', 'b', 'e', 'r', 'i', 's', 'k', 'i', 'm', 'w', '_', '0', '5', '0', '2']
['My', 'id', 'number', 'is', 'kimw_0502']
[' ', ' ', ' ', ' ', '$', '%']


In [25]:
# 비밀번호 체크하는 함수 구현
# 문자의 길이는 6~12 이내
# 영문자와 숫자 포함

def check_pass(pwd):
    if len(pwd) <6 or len(pwd)> 12:
        print(f'입력받은 {pwd}는 길이가 적당하지 않습니다.')
        return False
    if re.findall('[\w]+', pwd)[0] != pwd:
        print(f'입력받은 {pwd}는 영문자와 숫자로만 이루어지지 않았습니다.')
        return False
    #영문자의 소문자, 대문자는 적어도 한글자는 포함되어야한다.
    if len(re.findall('[a-z]',pwd)) == 0 or len(re.findall('[A-Z]', pwd)) == 0:
        print(f'입력받은 {pwd}는 적어도 소문자와 대문자가 한글자가 포함되어야 합니다.')
        return False
    #올바른 비밀번호 형식일 경우
    print(f'{pwd}는 올바른 형식의 비밀번호 입니다.')
    return

In [23]:
check_pass('12abc')

입력받은 12abc는 길이가 적당하지 않습니다.


False

In [26]:
check_pass('123abc')

입력받은 123abc는 적어도 소문자와 대문자가 한글자가 포함되어야 합니다.


False

In [None]:
# 이메일 체크함수
# 첫글자는 영문자의 소문자와 숫자로 이루어지되 2글자 이상이어야함
# 문자열사이에 @를 포함해야함
# 마지막은 반드시.와 함께 영문자 그리고 2글자 이상으로 끝나야함

def email_check(email):
    #^[] : 시작, ^[a-z] - 시작은 반드시 영문자 소문자여야한다는의미
    #[^] : 제외, [^a-z] - 영문자의 소문자를 포함하지 않아야 한다는 의미
    #{n} : n개반복
    #{n,m} : 최소 n개, 최대 m개 반복
    #[]$ : 해당 패턴으로 종료
    #\문자 : 해당 문자는 반드시 포함
    exp = re.findall('^[a-z0-9]{2, }@[a-z0-9]{2,}\.[a-z]{2,}$', email)
    
    if len(exp) == 0:
        print(email, '은 형식이 올바르지 않습니다.')
        return
    else:
        print(email, '은 올바른 형식입니다.')
        return