# 정규표현식
## 암호 유효성 검사
- 암호의 유효성을 검사하는 isPassword함수를 만들기
- 암호 유효성 검사 규칙은 다음과 같다
    - 총 길이는 10글자 이상이어야 한다,
    - 1개 이상의 숫자, 영문 대문자, 영문 소문자가 포함되어 있어야 한다
    - !@#$%^&*() 문자중 1개 이상의 특수 문자를 포함해야 한다
    - verify( ) 함수는 isPassword의 결과에 따른 출력을 하는 함수로 제공됨

In [1]:
# 정규식을 사용하지 않은 코드

# 특정 특수 문자인지 확인하는 함수
def isspecial(ch):
    if ch in '!@#$%^&*()':
        return ch
    
# 암호 유효성 검사 함수
def isPassword_1(pw):
    if len(pw) < 10:
        return False
    check = [False] * 4
    for ch in pw:
        if ch.islower()   : check[0] = [True]
        if ch.isupper()   : check[1] = [True]
        if ch.isdecimal() : check[2] = [True]
        if isspecial(ch)  : check[3] = [True]
        if all(check)     : return True
    return False

In [2]:
# 정규식을 사용한 코드
import re

# 암호 유효성 검사 함수
def isPassword_2(pw):
    if len(pw) < 10 : return False
    rules = ( r'[0-9]+', r'[a-z]+', r'[A-Z]+', r'[~!@#$%^&*]+') 
    # []은 문자열을 뜻함 
    # r'[0-9]+ 문자열 중에 0에서 9까지의 수가 하나 이상 반복
    # r'[a-z]+ 문자열 중에서 알파벳이 a부터 z까지 하나 이상 반복
    # r'[~!@#$%^&*()]+' 특수문자'
    for rule in rules:
        if not re.search(rule, pw):return False
    return True

In [3]:
isPassword = isPassword_2

pwlist = ['asbdJKL12**', '123jkKL*', 'ajkdk123kjKL', 'ABC123*^5D']
maxLen = max( len(x) for x in pwlist )
def verity(pw) :
    return f'{pw:<{maxLen}} - {"Correct" if isPassword(pw) else "Wrong"}'

print('\n'.join( verity(pw) for pw in pwlist ))

asbdJKL12**  - Correct
123jkKL*     - Wrong
ajkdk123kjKL - Wrong
ABC123*^5D   - Wrong


#### Practice
-총 길이는 10글자 이상이어야 한다,
- 1개 이상의 숫자, 영문 대문자, 영문 소문자가 포함되어 있어야 한다
- !@#$%^&*() 문자중 1개 이상의 특수 문자를 포함해야 한다
- verify( ) 함수는 isPassword의 결과에 따른 출력을 하는 함수로 제공됨

In [25]:
pwlist = ['asbdJKL12**', '123jkKL*', 'ajkdk123kjKL', 'ABC123*^5D']

def CheckPassword(pw):
    if len(pw) < 10:
        return False
    
    rules = ( r'[a-z]+', r'[A-Z]+', r'[~!@#$%^&*\(\)]+' )
    
    for rule in rules:
        if not re.search(rule, pw):
            return False
    return True

def verify(pw):
    return f'{"Correct" if CheckPassword(pw) else "Wrong"}'

print('\n'.join( verify(pw) for pw in pwlist ))

Correct
Wrong
Wrong
Wrong


In [28]:
print(re.search('a','abc'))
print(re.search('zzdd','adexzzzzeezzdd'))

<re.Match object; span=(0, 1), match='a'>
<re.Match object; span=(10, 14), match='zzdd'>


## 휴대폰 번호 유효성 검사
- 휴대폰 번호 여부를 확인하는 isPhoneNumber 함수 검토
- 휴대폰 번호에 사용되는 규칙
    - 3개의 그룹의 숫자로 되어 있으며 그룹은 ‘-’로 구분
    - 첫 번째 그룹은 3글자이며, [010, 011, 012, 016, 017, 018, 019] 중 하나를 사용함
    - 두 번째 그룹은 3글자 또는 4글자로 되어 있음
    - 세 번째 그룹은 4글자로 되어 있음
    - verify()함수는 isPhoneNumber의 결과에 따른 출력을 하는 함수로 제공됨

In [4]:
pno = [1, 1, 1, 0, 0, 0, 1, 1, 1, 1]
def isPhoneNumber_T1(num):
    if len(num) < 12 or len(num) > 13:
        return False
    
    grp = num.split('-')
    
    if (len(grp) != 3 ):
        return False
    if len(grp[0]) !=3 or grp[0].isdecimal()== False:
        return False
    if grp[0][0:2] != '01':
        return False
    if not pno[int(grp[0][2])]:
        return False
    if len(grp[1]) < 3 or len(grp[1]) > 4 or grp[1].isdecimal() == False:
        return False
    if len(grp[2]) != 4 or not grp[2].isdecimal():
        return False
    return True

In [5]:
def isPhoneNumber_T2(num):
    if re.search(r'^01[0-26-9]-[0-9]{3,4}-[0-9]{4}$', num):
        # ^01: 처음 시작이 01로 시작하고
        # [0-26-9]: 다음 문자열이 0에서 2까지거나 6에서 9까지거나
        # -[0-9]{3,4}: -다음의 문자열이 0에서 9까지의 문자가 3번이나 4번 반복되거나
        # -[0-9]{4}$: - 다음의 문자열이 0에서 9까지 문자가 4번 반복되는 것으로 끝나는 것들을 찾아라
        return True
    return False

In [6]:
isPhoneNumber = isPhoneNumber_T2
phone_numbers = ['010-456-7892',
                 '010-2345-1234',
                 '013-123-1231',
                 '012 1234 1234',
                 '016-12-1234',
                 'TEL: 012-123-1234',
                 '017-123-1234!']

maxLen = max( len(x) for x in phone_numbers )                 
def verity(pn) :
    return  f'{pn:<{maxLen}} - {"Correct" if isPhoneNumber(pn) else "Wrong"}'   

answers = [ verity(pn) for pn in phone_numbers]
print('\n'.join(answers))

010-456-7892      - Correct
010-2345-1234     - Correct
013-123-1231      - Wrong
012 1234 1234     - Wrong
016-12-1234       - Wrong
TEL: 012-123-1234 - Wrong
017-123-1234!     - Wrong


#### Practice
- 휴대폰 번호 여부를 확인하는 isPhoneNumber 함수 검토
- 휴대폰 번호에 사용되는 규칙
    - 3개의 그룹의 숫자로 되어 있으며 그룹은 ‘-’로 구분
    - 첫 번째 그룹은 3글자이며, [010, 011, 012, 016, 017, 018, 019] 중 하나를 사용함
    - 두 번째 그룹은 3글자 또는 4글자로 되어 있음
    - 세 번째 그룹은 4글자로 되어 있음
    - verify()함수는 isPhoneNumber의 결과에 따른 출력을 하는 함수로 제공됨

In [57]:
phone_numbers = ['010-456-7892',
                 '010-2345-1234',
                 '013-123-1231',
                 '012 1234 1234',
                 '016-12-1234',
                 'TEL: 012-123-1234',
                 '017-123-1234!']

def CheckPhone(number):
    if re.search(r'^01[0-26-9]-[0-9]{3,4}-[0-9]{4}$', number):
        return True
    return False

def verify(number):
    return f'{number} - {"Correct" if CheckPhone(number) else "Wrong"}'

for number in phone_numbers:
    print( verify(number) )

010-456-7892 - Correct
010-2345-1234 - Correct
013-123-1231 - Wrong
012 1234 1234 - Wrong
016-12-1234 - Wrong
TEL: 012-123-1234 - Wrong
017-123-1234! - Wrong


### 문자열에서 휴대폰 번호 검색
- 문자열에서 휴대폰 번호를 검색 및 출력하는 코드 확인
- 문자열은 문자와 숫자가 함께 사용되며, 여러 휴대폰 번호 포함 가능
    - msg = 'julie 010-123-1234 peter 011-1234-1234 office 031-123-1234'
 - 휴대폰 번호에 사용되는 규칙
    - 3개의 그룹의 숫자로 되어 있으며 그룹은 ‘-’로 구분
    - 첫 번째 그룹은 3글자이며, [010, 011, 012, 016, 017, 018, 019] 중 하나를 사용함
    - 두 번째 그룹은 3글자 또는 4글자로 되어 있음
    - 세 번째 그룹은 4글자로 되어 있음

In [7]:
msg = 'julie 010-123-1234 peter 011-1234-1234 office 031-123-1234'
pno = [1, 1, 1, 0, 0, 0, 1, 1, 1, 1]

def isPhoneNumber(num):
    if len(num) < 12 or len(num) > 13:
        return False
    
    grp = num.split('-')
    
    if (len(grp) != 3 ):
        return False
    if len(grp[0]) !=3 or grp[0].isdecimal()== False:
        return False
    if grp[0][0:2] != '01':
        return False
    if not pno[int(grp[0][2])]:
        return False
    if len(grp[1]) < 3 or len(grp[1]) > 4 or grp[1].isdecimal() == False:
        return False
    if len(grp[2]) != 4 or not grp[2].isdecimal():
        return False
    return True

idx = 0
for i in range(len(msg)-12):
    phone12 = msg[i:i+12]
    phone13 = msg[i:i+13]
    phone = None
    if isPhoneNumber(phone12):
        phone = phone12
    elif isPhoneNumber(phone13):
        phone = phone13
    if phone:
        idx += 1
        print(f'Phone number{idx} : {phone}')

Phone number1 : 010-123-1234
Phone number2 : 011-1234-1234


In [68]:
msg = 'julie 010-123-1234 peter 011-1234-1234 office 031-123-1234'

r = re.finditer(r'01[0-26-9]-[0-9]{3,4}-[0-9]{4}',msg)
for idx, m in enumerate(r, start = 1):
    print(f'Phone number{idx}: {m.group()}')

Phone number1: 010-123-1234
Phone number2: 011-1234-1234


#### Practice
- 문자열에서 휴대폰 번호를 검색 및 출력하는 코드 확인
- 문자열은 문자와 숫자가 함께 사용되며, 여러 휴대폰 번호 포함 가능
- msg = 'julie 010-123-1234 peter 011-1234-1234 office 031-123-1234'
     - 휴대폰 번호에 사용되는 규칙
        - 3개의 그룹의 숫자로 되어 있으며 그룹은 ‘-’로 구분
        - 첫 번째 그룹은 3글자이며, [010, 011, 012, 016, 017, 018, 019] 중 하나를 사용함
        - 두 번째 그룹은 3글자 또는 4글자로 되어 있음
        - 세 번째 그룹은 4글자로 되어 있음

In [87]:
msg = 'julie 010-123-1234 peter 011-1234-1234 office 031-123-1234'

r = re.finditer(r'01[0-26-9]-[0-9]{3,4}-[0-9]{4}', msg)

for idx, j in enumerate(r, start=1):
    print(f'Phond number{idx}: {j.group()}')

Phond number1: 010-123-1234
Phond number2: 011-1234-1234


# 정규식 패턴 작성

## 정규식의 이해
- 문자 집합의 패턴이 일치하는지 검사하기 위해 사용하는 표현식
- re 모듈을 import 하여야 사용할 수 있음
- 작업의 패턴 표현
    - 처리 하고자 하는 작업을 패턴으로 표현하는 방법
    - 핸드폰 번호 검색: '-'로 구분된 3-(3|4)-4개의 숫자
    - 성이 yoon인 사람: yoon으로 시작하는 문자열
- 정규식 사용의 장점
    - 작업을 패턴으로 표현하면 직관적인 표현이 됨
    - 검색 대상이 큰 경우 보다 빠른 결과를 얻을 수 있음
    - 코드의 작성 길이가 짧아짐
   

## 정규식 사용법

In [9]:
print('\nabc')


abc


In [10]:
print(r"\nabc")

\nabc


In [11]:
pattern = re.compile(r'abc')  # raw string 패턴 문자열 -> pattern으로 객체화 시킴

mc1 = re.search(pattern, '123abcd') # '123abcd' 에서 pattern의 패턴이 존재하는가?
mc2 = re.search(r'abc', '123abcd')  # '123abcd'에서 'abc'의 패턴이 존재하는가? -> Match 객체
mc3 = pattern.search('123abcd')

print(type(pattern), type(mc1), end='\n')

for mc in mc1, mc2, mc3:
    print(f'{mc.start()}~{mc.end()}에 {mc.group()}존재')


<class 're.Pattern'> <class 're.Match'>
3~6에 abc존재
3~6에 abc존재
3~6에 abc존재


### Practice

In [114]:
# '123abcd'에서 'abc'의 패턴을 탐색하기

pattern = re.compile(r'abc')

mc1 = re.search(pattern, '123abcd')
mc2 = re.search(r'abc','123abcd')
mc3 = pattern.search('123abcd')

for i in mc1, mc2, mc3:
    print(f'{i.start()}~{i.end()}에 {i.group()}이 존재')

3~6에 abc이 존재
3~6에 abc이 존재
3~6에 abc이 존재


In [118]:
# 여러 번호 중에 정확한 번호만을 출력하기
Number = ['010-9999-1444','Tel: 010-1111-2222', '02-333-9999',
          '010-1234-567', '010-1234-5678', '010-9876-5432']

pattern = re.compile(r'^[0-9]{2,3}-[0-9]{3,4}-[0-9]{4}$')

for number in Number:
    number = re.search(pattern, number)
    if number:
        print(f'{number.group()}는 알맞는 번호이며 패턴은 {number.start()}~{number.end()}에 있습니다.')

010-9999-1444는 알맞는 번호이며 패턴은 0~13에 있습니다.
02-333-9999는 알맞는 번호이며 패턴은 0~11에 있습니다.
010-1234-5678는 알맞는 번호이며 패턴은 0~13에 있습니다.
010-9876-5432는 알맞는 번호이며 패턴은 0~13에 있습니다.


In [138]:
# 이메일 주소 검사하기
emails = ['python@mail.example.com', 'python+kr@example.com',              # 올바른 형식
          'python-dojang@example.co.kr', 'python_10@example.info',         # 올바른 형식
          'python.dojang@e-xample.com',                                    # 올바른 형식
          '@example.com', 'python@example', 'python@example-com']          # 잘못된 형식

pattern = re.compile(r'^[a-zA-Z+-_.]+@[a-zA-Z.]+\.[a-z]+$')

for email in emails:
    check = re.search(pattern, email)
    if check:
        print(email)

python@mail.example.com
python+kr@example.com
python-dojang@example.co.kr
python_10@example.info


## Character Class
- character class: [ ] 내부에 문자를 나열한 것
    - 나열된 문자 중 한 개 문자의 사용을 의미
- 종류:
    - [abc]: abc 중 한 개 문자
    - [a-z]: a부터 z까지 범위의 문자 중 한 개 문자
    - [a-zA-Z]: 알파벳 소문자, 대문자 모두 중 한 개 문자
    - [^0-9]: ^를 사용하면 not의 의미임, 숫자를 제외한 모든 문자에서 한 개 문자
    - [0-9]는 '1'이나 '2'와 같은 str타입이지만 의미가 숫자인 것을 말한다.

In [88]:
# 첫번째 글자 숫자, 두번째 글자 a/b/c 중 한 글자, 세번째 글자 c~z 사이 글자가 아닌 글자
mc = re.search(r'[0-9][abc][^c-z]', '123abcd')

if mc:
    print(f'{mc.start()}~{mc.end()}에 {mc.group()}존재')
else:
    print('문자열에 패턴이 존재하지 않음')

2~5에 3ab존재


### Practice

In [144]:
# 첫번째 글자 숫자, 두번째 글자 a/b/c 중 한 글자, 세번째 글자 c~z 사이 글자가 아닌 글자
# 어느 시작지점에서 어느 끝 지점에 어떤 패턴이 존재하는 지를 출력하시오

test_list = ['123aseci', 'adx123eo', '1cazdie', '1xijdclkdn']

check = re.compile(r'^[0-9][abc][^c-z]')

for index, word in enumerate(test_list, start=1):
    test = re.search(check, word)
    if test:
        print(f'test_list에서 {index}번째 요소는 {test.start()}에서 {test.end()}까지 {test.group()}이 존재합니다')

test_list에서 3번째 요소는 0에서 3까지 1ca이 존재합니다


## 횟수 관련 메타 문자
- 메타문자: 특별한 용도로 사용되는 문자
    - x*: x를 0개 이상 사용(없어도 된다)
    - x+: x를 1개 이상 사용
    - x?: x를 0 또는 1개 사용(없어도 되고 있으면 1번 사용된다)
    - x{n}: x를 n개 사용
    - x{n,k}: x를 n개 이상, k개 이하 사용

In [89]:
def printMatch(pstr, data):
    print(pstr)
    for x in data:
        mc = re.search(pstr, x)
        maxLen = max(len(x) for x in data)
        if mc:
            print(f'{x:{maxLen}} : {mc.start()}~{mc.end()}에 {mc.group()}존재함')
        else:
            print(f'{x:{maxLen}} : 문자열에 {pstr} 패턴이 존재하지 않음')

In [91]:
# 숫자가 0회 이상 사용된 패턴 찾기 (Greedy)
# Greedy: 가장 긴 문자를 반환한다.
dataList = ('','1','12','1234','abc','1a')
printMatch(r'[0-9]*',dataList)

[0-9]*
     : 0~0에 존재함
1    : 0~1에 1존재함
12   : 0~2에 12존재함
1234 : 0~4에 1234존재함
abc  : 0~0에 존재함
1a   : 0~1에 1존재함


In [94]:
# 알파벳 소문자가 1회 이상 사용된 패턴 찾기 (Greedy)
dataList = ('c', 'ab', 'abcd', 'a12', '123', 'ABC')
printMatch(r'[a-z]+',dataList)

[a-z]+
c    : 0~1에 c존재함
ab   : 0~2에 ab존재함
abcd : 0~4에 abcd존재함
a12  : 0~1에 a존재함
123  : 문자열에 [a-z]+ 패턴이 존재하지 않음
ABC  : 문자열에 [a-z]+ 패턴이 존재하지 않음


In [97]:

dataList = ('c', 'ab', 'abcd', 'a12', '123', 'ABC')
printMatch(r'[a-z]+?',dataList)

[a-z]+?
c    : 0~1에 c존재함
ab   : 0~1에 a존재함
abcd : 0~1에 a존재함
a12  : 0~1에 a존재함
123  : 문자열에 [a-z]+? 패턴이 존재하지 않음
ABC  : 문자열에 [a-z]+? 패턴이 존재하지 않음


In [95]:
# 알파벳 대문자가 없거나 1회 사용된 패턴 찾기
dataList = ('', 'F', 'AB', '1C2', '123')
printMatch(r'[A-Z]?', dataList)

[A-Z]?
    : 0~0에 존재함
F   : 0~1에 F존재함
AB  : 0~1에 A존재함
1C2 : 0~0에 존재함
123 : 0~0에 존재함


In [98]:
# 숫자가 3회 연속 사용된 패턴 찾기
dataList = ('123', '12345', '12', 'ab1234de')
printMatch(r'[0-9]{3}', dataList)

[0-9]{3}
123      : 0~3에 123존재함
12345    : 0~3에 123존재함
12       : 문자열에 [0-9]{3} 패턴이 존재하지 않음
ab1234de : 2~5에 123존재함


In [99]:
# 숫자가 2회 ~ 4회 연속 사용된 패턴 찾기
dataList = ('1', '12','123', '1234', '12345')
printMatch(r'[0-9]{2,4}',dataList)

[0-9]{2,4}
1     : 문자열에 [0-9]{2,4} 패턴이 존재하지 않음
12    : 0~2에 12존재함
123   : 0~3에 123존재함
1234  : 0~4에 1234존재함
12345 : 0~4에 1234존재함


In [101]:
# 숫자가 3회 이상 연속 사용된 패턴 찾기
dataList = ('12','123', '1234', '12345', 'abc1234ef')
printMatch(r'[0-9]{3,}', dataList)

[0-9]{3,}
12        : 문자열에 [0-9]{3,} 패턴이 존재하지 않음
123       : 0~3에 123존재함
1234      : 0~4에 1234존재함
12345     : 0~5에 12345존재함
abc1234ef : 3~7에 1234존재함


In [102]:
# 숫자가 3회 이하 연속 사용된 패턴 찾기 (0개 포함)
dataList = ('abc', '1', '12', '123', '1234', '12345')
printMatch(r'[0-9]{,3}', dataList)

[0-9]{,3}
abc   : 0~0에 존재함
1     : 0~1에 1존재함
12    : 0~2에 12존재함
123   : 0~3에 123존재함
1234  : 0~3에 123존재함
12345 : 0~3에 123존재함


### Practice
- 메타문자: 특별한 용도로 사용되는 문자
    - x*: x를 0개 이상 사용(없어도 된다)
    - x+: x를 1개 이상 사용
    - x?: x를 0 또는 1개 사용(없어도 되고 있으면 1번 사용된다)
    - x{n}: x를 n개 사용
    - x{n,k}: x를 n개 이상, k개 이하 사용

In [192]:
test = ['xps', 'test', 'hi', 'xxxxxx', 'ktx']

def ttt(strings):
    
    for string in strings:
        regex = re.search(r'x?', string)
        if regex:
            print(f'{string}은 규칙에 성립합니다.')
        else:
            print(f'{string}은 규칙에 성립하지 않습니다.')
            
ttt(test)

xps은 규칙에 성립합니다.
test은 규칙에 성립합니다.
hi은 규칙에 성립합니다.
xxxxxx은 규칙에 성립합니다.
ktx은 규칙에 성립합니다.


In [183]:
test = ['xadb', 'adv', 'adexe']
def tt(strings):
    
    for string in strings:
        check = re.search('x+', string)
        maxlEn = max(len(string) for string in string)
        if check:
            print(f'{string} :{maxlEn}은 "x+"규칙에 만족하며 {check.start()}~{check.end()}에 규칙이 존재하며 일치하는 규칙은 {check.group()}입니다.', end='\n')
        else:
            print(f'{string}은 "x+"규칙에 만족하지 않습니다.', end='\n')
    print(check)
tt(test)

xadb :1은 "x+"규칙에 만족하며 0~1에 규칙이 존재하며 일치하는 구간은 x입니다.
adv은 "x+"규칙에 만족하지 않습니다.
adexe :1은 "x+"규칙에 만족하며 3~4에 규칙이 존재하며 일치하는 구간은 x입니다.
<re.Match object; span=(3, 4), match='x'>


In [175]:
te = re.search('x*', 'ddddd')
if te:
    print(f'"ddddd"는 "x*"규칙에 포함됩니다.')

"ddddd"는 "x*"규칙에 포함됩니다.


In [165]:
def PrintMatch(pstr, tstrs):
    print(pstr)
    
    for tstr in tstrs:
        regex = re.search(pstr, tstr)
        maxLen = max(len(tstr) for tstr in tstrs)
        if regex:
            print(f'{tstr:{maxLen}}: {regex.start()}~{regex.end()}에 {regex.group()}이 존재함')
        else:
            print(f'{tstr:{maxLen}}: 문자열에 {pstr} 패턴이 존재하지 않음')
            
# 숫자가 3회 이하 연속 사용된 패턴 찾기 (0개 포함)        
tstrs = ('abc', '1', '12', '123', '1234', '12345')
PrintMatch(r'[0-9]{,3}', tstrs)


[0-9]{,3}
abc  : 0~0에 이 존재함
1    : 0~1에 1이 존재함
12   : 0~2에 12이 존재함
123  : 0~3에 123이 존재함
1234 : 0~3에 123이 존재함
12345: 0~3에 123이 존재함


In [171]:
# 숫자가 3회 이상 연속 사용된 패턴 찾기
dataList = ('12','123', '1234', '12345', 'abc1234ef')
PrintMatch(r'[0-9]{3,}',dataList)

[0-9]{3,}
12       : 문자열에 [0-9]{3,} 패턴이 존재하지 않음
123      : 0~3에 123이 존재함
1234     : 0~4에 1234이 존재함
12345    : 0~5에 12345이 존재함
abc1234ef: 3~7에 1234이 존재함


In [170]:
# 숫자가 2회 ~ 4회 연속 사용된 패턴 찾기
dataList = ('1', '12','123', '1234', '12345')
PrintMatch(r'[0-9]{2,4}',dataList)

[0-9]{2,4}
1    : 문자열에 [0-9]{2,4} 패턴이 존재하지 않음
12   : 0~2에 12이 존재함
123  : 0~3에 123이 존재함
1234 : 0~4에 1234이 존재함
12345: 0~4에 1234이 존재함


In [166]:
# 숫자가 3회 연속 사용된 패턴 찾기
dataList = ('123', '12345', '12', 'ab1234de')
PrintMatch(r'[0-9]{3}',dataList)

[0-9]{3}
123     : 0~3에 123이 존재함
12345   : 0~3에 123이 존재함
12      : 문자열에 [0-9]{3} 패턴이 존재하지 않음
ab1234de: 2~5에 123이 존재함


In [167]:
# 알파벳 대문자가 없거나 1회 사용된 패턴 찾기
dataList = ('', 'F', 'AB', '1C2', '123')
PrintMatch(r'[A-Z]?',dataList)

[A-Z]?
   : 0~0에 이 존재함
F  : 0~1에 F이 존재함
AB : 0~1에 A이 존재함
1C2: 0~0에 이 존재함
123: 0~0에 이 존재함


In [168]:
# 알파벳 소문자가 1회 이상 사용된 패턴 찾기 (Greedy)
dataList = ('c', 'ab', 'abcd', 'a12', '123', 'ABC')
PrintMatch(r'[a-zA-z]+', dataList)

[a-zA-z]+
c   : 0~1에 c이 존재함
ab  : 0~2에 ab이 존재함
abcd: 0~4에 abcd이 존재함
a12 : 0~1에 a이 존재함
123 : 문자열에 [a-zA-z]+ 패턴이 존재하지 않음
ABC : 0~3에 ABC이 존재함


In [169]:
# 숫자가 0회 이상 사용된 패턴 찾기 (Greedy)
# Greedy: 가장 긴 문자를 반환한다.
dataList = ('','1','12','1234','abc','1a')
PrintMatch(r'[0-9]*', dataList)

[0-9]*
    : 0~0에 이 존재함
1   : 0~1에 1이 존재함
12  : 0~2에 12이 존재함
1234: 0~4에 1234이 존재함
abc : 0~0에 이 존재함
1a  : 0~1에 1이 존재함


## 여러 가지 메타 문자

- .: 문자 한 개(\n은 제외)
- ^x: 문자열의 시작이 x
- x$: 문자열의 끝이 x
- x|y: x,y 중 하나 (여러번 나열 가능)
    - x|y|z (x, y, z 중 하나)

In [104]:
# a로 시작하고 o로 끝나는데 사이에 2개의 문자가 있는 패턴 검색
dataList = ('a12o','abco','aBo','a123o')
printMatch(r'^a..o', dataList)

^a..o
a12o  : 0~4에 a12o존재함
abco  : 0~4에 abco존재함
aBo   : 문자열에 ^a..o 패턴이 존재하지 않음
a123o : 문자열에 ^a..o 패턴이 존재하지 않음


In [107]:
# \n이 포함된 패턴을 검색하고 싶다면?
ret = re.search('.abc','\nabc')
print('result of search .abc: ', ret)
# None 값이 나오게 된다.

ret = re.search('.abc','\nabc', re.S)
print('result of search .abc: ', ret, ret.group())
display(ret.group())

result of search .abc:  None
result of search .abc:  <re.Match object; span=(0, 4), match='\nabc'> 
abc


'\nabc'

In [108]:
# 1개 이상의 알파벳 소문자로 시작되는 패턴에서 '알파벳 소문자' 검색
dataList = ('a12','kbs','123a','KBstar')
printMatch(r'^[a-z]+', dataList)

^[a-z]+
a12    : 0~1에 a존재함
kbs    : 0~3에 kbs존재함
123a   : 문자열에 ^[a-z]+ 패턴이 존재하지 않음
KBstar : 문자열에 ^[a-z]+ 패턴이 존재하지 않음


In [109]:
# 1개 이상의 숫자로 끝나는 패턴에서 '숫자'검색
dataList= ('ab123','UP3','a12b')
printMatch(r'[0-9]+$', dataList)

[0-9]+$
ab123 : 2~5에 123존재함
UP3   : 2~3에 3존재함
a12b  : 문자열에 [0-9]+$ 패턴이 존재하지 않음


In [110]:
# abc 또는 123 패턴 찾기
dataList = ('abcdef','-1234-','12431','axybz')
printMatch(r'abc|123', dataList)

abc|123
abcdef : 0~3에 abc존재함
-1234- : 1~4에 123존재함
12431  : 문자열에 abc|123 패턴이 존재하지 않음
axybz  : 문자열에 abc|123 패턴이 존재하지 않음


881103-1231233 => None
891312-1234512 => None
1990-12-28 => None


## 그룹 관련 메타 문자

- ( x ): ( )안의 내용을 그룹화하고 내용이 캡처됨, 그룹 번호 1번부터 부여
- \1...\99: 캡쳐된 그룹 1번 ~ 99번 사용
- (?:x): 그룹으로 인정되지만, 캡처 및 그룹번호 부여되지 않음
- ```(?P<name>x)```: ( )안의 내용을 그룹화하고 내용을 캡쳐함. 그룹의 이름을 지정
    - 사용 시 'name'으로 사용 (예) match.group('name')
    - 그룹 번호로도 사용할 수 있음 (위치에 따른 번호)
- 캡처: 저장되는 것을 의미하며, 후에 그룹번호를 사용해 꺼내 사용 가능함
- 다른 메타 문자 종류는 ```re.__doc__```를 사용하도록 한다.

In [None]:
# 1. 숫자 그룹 => 숫자 3글자
# 2. 구분 기호 그룹 => : 또는 - 또는 공백 문자가 있을 수 있으며, 그룹 지정
# 3. 그룹번호 부여하지 않은 숫자 => 숫자 3글자 또는 4글자
# 4. 2번에서 사용된 구분 기호 => 첫 번째 구분 기호와 동일한 것을 사용함
# 5. 이름을 pnum으로 갖는 숫자 그룹 => 숫자 4글자

pattern = re.compile(r'')
mc = re.search