# Regular Expressions(정규 표현식)
- 복잡한 문자열을 처리할 때 사용하는 기법
- 모든 언어에서 문자열을 처리할 때 공통으로 사용
- 예: 주민등록번호의 뒷자리를 * 문자로 변경

## 정규 표현식을 사용하지 않는 예

In [2]:
data = """
Park 800904-1049118
Kim 700905-1059119
Lee 880203-2110537
Hong 901105-1234567
Jang 020319-2205147
"""

result = []
# 전체 텍스트를 공백 문자로 나눈다. split
for line in data.split('\n'):  # data를 줄단위로 가져옴
    word_result = []
    for word in line.split(' '):  # line을 공백단위로 가져옴        
# 나누어진 단어가 주민등록번호형식인지를 조사
        if len(word) == 14 and word[:6].isdigit() and word[7:].isdigit():  # digit: 숫자            
# 주민등록번호 형식이라면 뒷자리를 '*'로 변환
            word = word[:6] + "-" + "*******"        
# 나누어진 단어를 다시 합치는 작업
        word_result.append(word)
    result.append(" ".join(word_result))
    
print("\n".join(result))


Park 800904-*******
Kim 700905-*******
Lee 880203-*******
Hong 901105-*******
Jang 020319-*******



## 정규 표현식을 이용한 예

In [3]:
# 정규 표현식을 위한 re 모듈 포함
import re

data = """
Park 800904-1049118
Kim 700905-1059119
Lee 880203-2110537
Hong 901105-1234567
Jang 020319-2205147
"""

pat = re.compile("(\d{6})[-]\d{7}")
print(pat.sub("\g<1>-*******", data))


Park 800904-*******
Kim 700905-*******
Lee 880203-*******
Hong 901105-*******
Jang 020319-*******



# 메타 문자(Meta Character)
- 원래 그 문자의 의미가 아니라 특별한 의미를 가진 문자
- 종류: ., ^, $, *, +, ?, {}, [], \, |, ()

In [4]:
# 메타문자: []
## [abc]: a,b,c 중 한 개라도 문자와 매칭하는지 
## [a-e]: [abcde]
## [0-4]: [01234]
## [a-zA-Z]: 모든 알파벳
## [0-9]: 모든 숫자
## ^: not
## [^0-9]: 숫자가 아닌 문자
## .(dot): a.b == "a + 모든 문자 + b"

In [8]:
string = "My id number is kim0902"

# 특정 패턴에 해당하는 문자를 찾는 작업
## findall("패턴", 문자열)  -- 문자열에 패턴과 일치하는 모든 문자를 찾는 함수
a = re.findall("a", string) 
print(a)

b = re.findall("kim", string)  
print(b)

c = re.findall("m", string)  
print(c)

[]
['kim']
['m', 'm']


In [11]:
string = "My id Number is KIM0902"

# 모든 소문자를 찾아서 글자단위 리스트로 반환
a = re.findall("[a-z]", string)
print(a)

# 단어 단위(대문자는 제외)로 찾는 작업
b = re.findall("[a-z]+", string)
print(b)

# 대문자를 글자단위로 찾는 작업
c = re.findall("[A-Z]", string)
print(c)

# 대문자를 단어 단위로 찾는 작업
d = re.findall("[A-Z]+", string)
print(d)

['y', 'i', 'd', 'u', 'm', 'b', 'e', 'r', 'i', 's']
['y', 'id', 'umber', 'is']
['M', 'N', 'K', 'I', 'M']
['M', 'N', 'KIM']


In [14]:
string = "My id number is kimw_0502$%"

# 영문자와 숫자로만 이루어진 글자 찾기
a = re.findall("[a-zA-Z0-9]",string)
print(a)

# 영문자와 숫자로만 이루어진 단어 찾기
b = re.findall("[a-zA-Z0-9]+",string)  # 특수문자 제외 
print(b)

# 영문자와 숫자가 글자 찾기
c = re.findall("[^a-zA-Z0-9]",string)
print(c)

# \w: 영문자와 숫자
d = re.findall("[\w]",string)
print(d)

e = re.findall("[\w]+",string)
print(e)

# \W: 영문자와 숫자 그리고 언더바(_) 가 아닌 경우
f = re.findall("[\W]",string)
print(f)


['M', 'y', 'i', 'd', 'n', 'u', 'm', 'b', 'e', 'r', 'i', 's', 'k', 'i', 'm', 'w', '0', '5', '0', '2']
['My', 'id', 'number', 'is', 'kimw', '0502']
[' ', ' ', ' ', ' ', '_', '$', '%']
['M', 'y', 'i', 'd', 'n', 'u', 'm', 'b', 'e', 'r', 'i', 's', 'k', 'i', 'm', 'w', '_', '0', '5', '0', '2']
['My', 'id', 'number', 'is', 'kimw_0502']
[' ', ' ', ' ', ' ', '$', '%']


In [15]:
# 비밀번호 체크하는 함수 구현
## 문자의 길이는 6~12 이내
## 영문자 대소문자와 숫자를 모두 포함

def check_pass(pwd):
    
    # 글자수 체크
    if len(pwd) < 6 or len(pwd) > 12:
        print(f"입력받은 {pwd}는 길이가 적당하지 않습니다.")
        return False
    # 영문자와 숫자로만 구성
    if re.findall("[a-zA-Z0-9]+", pwd)[0] != pwd:
        print(f"{pwd}는 영문자와 숫자로만 이루어져야 합니다.")
        return False
    
    # 영문자의 소문자, 대문자는 적어도 한 글자는 포함되어야 한다.
    if len(re.findall("[a-z]", pwd)) == 0 or len(re.findall("[A-Z]",pwd)) == 0:
        print(f"{pwd}는 적어도 하나의 대,소문자를 포함해야 합니다.")
        return False
    
    # 올바른 비밀번호 형식일 경우
    print("비밀번호가 생성되었습니다.")
    return

In [16]:
check_pass("12abc")

입력받은 12abc는 길이가 적당하지 않습니다.


False

In [17]:
check_pass("123abc")

123abc는 적어도 하나의 대,소문자를 포함해야 합니다.


False

In [18]:
check_pass("*1234abC")

*1234abC는 영문자와 숫자로만 이루어져야 합니다.


False

In [19]:
check_pass("Leesora1")

비밀번호가 생성되었습니다.


In [36]:
# 이메일 체크 함수
## 첫글자는 영문자의 소문자와 숫자로 이루어지되 2글자 이상이어야 함
## 문자열 사이에 @를 포함하여야 함
## 마지막은 반드시 .와 함께 영문자 그리고 2글자 이상으로 끝나야 함

def email_check(email):
    # ^[] : 시작, ^[a-z] - 시작은 반드시 영문자 소문자여야 한다는 의미
    # [^] : 제외, [^a-z] - 영문자의 소문자를 포함하지 않아야 한다는 의미
    # {n} : n개 반복, {2, } : 최소 2글자 이상, {2} : 2글자
    # {n, m} : 최소 n개, 최대 m개 반복, \d{3, 5} : 적어도 숫자가 3-5개는 포함
    # []$ : 해당 패턴으로 종료되어야 함
    # \문자 : 해당 문자는 반드시 포함, \w\w\w
    exp = re.findall("^[a-z0-9]{2, }@[a-z0-9]{2, }\.[a-z]{2, }$", email)
    
    if len(exp) == 0:
        print(email, "은 형식이 올바르지 않습니다.")
        return

    else:
        print(email, "은 올바른 형식입니다.")
        return

In [37]:
email_check("lee@1234")

lee@1234 은 형식이 올바르지 않습니다.


In [38]:
email_check('lee_123.kkk')

lee_123.kkk 은 형식이 올바르지 않습니다.


In [39]:
email_check('lee_123')

lee_123 은 형식이 올바르지 않습니다.


In [40]:
email_check('lee_123@naver.com')

lee_123@naver.com 은 형식이 올바르지 않습니다.


In [41]:
email_check('lee@naver.com')

lee@naver.com 은 형식이 올바르지 않습니다.
