# 정규 표현식
- 복잡한 문자열을 처리할 때 사용하는 기법
- 모든 언어에서 문자열을 처리할때 공통으로 사용
- 예 : 주민등록번호의 뒷자리를 '*' 문자로 변경

## 정규표현식을 사용하지 않은 예

In [1]:
data="""
park 800905-1049118
kim 700905-1059119
lee 880203-2110537
hong 901105-1234567
jang 020319-2205147
"""
result=[] # list()
# 전체 텍스트를 공백문자로 나눈다 split
for line in data.split('\n'):
    word_result=[]
    for word in line.split(' '):        
#나누어진 단어가 주민등록 형식인지를 판단
        if len(word)==14 and word[:6].isdigit() and word[7:].isdigit():      
#주민등록번호 형식이라면 뒷자리를 *로 변환
            word=word[:6]+'-'+'*******'
#나누어진 데이터를 합침
        word_result.append(word)
    result.append(' '.join(word_result))
print('\n'.join(result))



park 800905-*******
kim 700905-*******
lee 880203-*******
hong 901105-*******
jang 020319-*******



## 정규표현식을 이용한 예

In [7]:
#정규표현식을 위한 re 모듈
import re

data="""
park 800905-1049118
kim 700905-1059119
lee 880203-2110537
hong 901105-1234567
jang 020319-2205147
"""

pat=re.compile("(\d{6})[-]\d{7}")
print(pat.sub("\g<1>-*******",data))


park 800905-*******
kim 700905-*******
lee 880203-*******
hong 901105-*******
jang 020319-*******



# 메타문자
- 원래 그 문자의 의미가 아니라 특별한 의미를 가진 문자
- 종류 : , ^ $ * + ? [] {} \ | ()

In [12]:
# 메타문자 : [] 
# [a,b,c] : a,b,c 중 하나라도 문자와 매칭
## [a-c] : [abc] 와 동일
## [0-5] : [012345]
## [a-zA-Z]: 알파벳 모든문자
##[0-9] : 모든 숫자
## ^  : not, [^0-9] 숫자가 아닌, 0~9가 아닌
## .(dot) : a.b == 'a'+ 모든문자+'b'

In [20]:
string='My id num is kim0902'
#특정 패턴에 해당하는 것을 찾는작업
## findall(패턴,문자열) : 해당 패턴에 일치하는 모든 문자

a=re.findall('a',string)
print(a)

b=re.findall('kim',string)
print(b)

c=re.findall('m',string)
print(c)

[]
['kim']
['m', 'm']


In [24]:
string='My id Num is KIM0902'

# 모든 소문자를 찾아서 리스트로 반환
a=re.findall('[a-z]',string)
print(a)


# 단어 단위로 찾는 작업 : + 
b=re.findall('[a-z]+',string)
print(b)

#대문자를 문자단위로
c=re.findall('[A-Z]',string)
print(c)

#대문자를 단어단위로
d=re.findall('[A-Z]+',string)
print(d)

['y', 'i', 'd', 'u', 'm', 'i', 's']
['y', 'id', 'um', 'is']
['M', 'N', 'K', 'I', 'M']
['M', 'N', 'KIM']


In [33]:
string='My id number is kimw_0502$%'

# 영문자와 숫자로만 이루어진 글자 추출
a=re.findall('[a-zA-Z0-9]',string)
print(a)

# 영문자와 숫자로만 이루어진 단어
b=re.findall('[a-zA-Z0-9]+',string)
print(b)


#영문자와 숫자가 아닌
c=re.findall('[^a-zA-Z0-9]',string)
print(c)

# \w(소문자w); 영문자와 숫자
d=re.findall('[\w]',string)
print(d)

e=re.findall('[\w]+',string)
print(e)

# \W (대문자) : 영문자와 숫자, _가 아닌문자
f=re.findall('[\W]',string)
print(f)

['M', 'y', 'i', 'd', 'n', 'u', 'm', 'b', 'e', 'r', 'i', 's', 'k', 'i', 'm', 'w', '0', '5', '0', '2']
['My', 'id', 'number', 'is', 'kimw', '0502']
[' ', ' ', ' ', ' ', '_', '$', '%']
['M', 'y', 'i', 'd', 'n', 'u', 'm', 'b', 'e', 'r', 'i', 's', 'k', 'i', 'm', 'w', '_', '0', '5', '0', '2']
['My', 'id', 'number', 'is', 'kimw_0502']
[' ', ' ', ' ', ' ', '$', '%']


In [8]:
# 비밀번호 체크하는 함수 구현
## 문자의 길이는 6~12 글자 이내
## 영문자와 숫자를 포함

def check_pass(pwd):
    # 글자수 체크
    if len(pwd)<6 or len(pwd)>12:
        print(f'{pwd} 재설정하시오')
        return False
    #영문자와 숫자로만 구성
    if re.findall('[a-zA-Z0-9]+',pwd)[0] != pwd:
        print(f'{pwd}는 영문자와 숫자로만 이루어지지않음')
        return False
    #영문자와 소문자,대문자 적어도 한글짜는 포함되어야함
    if len(re.findall('[a-z]',pwd))<1 or len(re.findall('[A-Z]',pwd))<1:
        print('대소문자 한글자 이상해야됨')
        return False
    
    #올바른 비밀번호형식을 경우
    print(f'[pwd]는 올바름')

In [9]:
pwd=input('입력: ')
check_pass(pwd)

입력: Meddler00
[pwd]는 올바름


In [11]:
# 이메일 체크함수
## 첫글자는 영문자의 소문자와 숫자로 이루어지되 2글자이상
## 문자열 사이에 @를포함
## 마지막은 반드시.와 함께 영문자 2글자 이상으로끝

def email_check(mail):
    # ^[a-z]: 시작문자는 영문자 소문자
    # [^a-z]: 소문자 제외
    # {n}: n개 반복
    # {n,m}: 최소 n개,최대 m개 \d{3,5} 숫자가 3~5개는포함
    # []$: 해당패턴으로 끝나야됨
    # \문자 : 해당문자는 반드시 있어야됨
    exp=re.findall('^[a-z0-9]{2,}@[a-z0-9]{2,}\.[a-z0-9]{2,}$',mail)
    if len(exp)==0:
        print(mail,'은 형식올바르지않음')
        return
    print(mail,'은 올바른 형식임')
    return
    

In [12]:
email_check('adsadas@adad.com')

adsadas@adad.com 은 올바른 형식임


In [45]:
email_check('adsadas@a')

adsadas@a 은 형식올바르지않음


In [46]:
email_check('aadad.com')

aadad.com 은 형식올바르지않음


In [51]:
email_check('lee12@345.com')

lee12@345.com 은 올바른 형식임


In [16]:
email_check('aadad@fuck.fuck')

aadad@fuck.fuck 은 올바른 형식임
