# 정규표현식

|표현식|설명|
|-|-|
|`^x`|시작한다|
|`x$`|종료|
|`x\|y`|x 또는 y|
|`x{n}`|반복|
|`x{n, m}`|n부터 최대 m번이하까지 반복|
|`[xy]`|x와 y중 하나 선택|
|`[^xy]`|xy를 제외한 나머지 문자들|
|`[a-z]`|a부터 z까지|
|`\d`|숫자 의미|
|`\D`|숫자가 아닌것|
|`\w`|한 문자의미|
|`\W`|문자가 아닌것|

|Flag|설명|
|-|-|
|`g`|Global : 문자열 내 모든 패턴 검색|
|`i`|Ignore Case : 대소문자 식별 X|
|`m`|Multi line : 다중 라인의 문자열인 겨우도 검색함|

In [47]:
# 정규표현식 라이브러리
import re

In [131]:
# match(패턴, 문자열)
# 패턴 중 가-힣만 찾는다. 찾고자하는 문자열이 맨앞에 있어야함
test = re.match('[가-힣]', 'ABCDabcd가나다')
# None
print(f'결과물 : {test} type : {type(test)}')

# 패턴 중 가-힣만 찾는다. 찾고자하는 문자열이 맨앞에 있어야함
test = re.match('[가-힣]', '가나다ABCDabcd')
# '가' 한개의 글자만 갖고옴
print(f'결과물 : {test[0]} type : {type(test)}')

결과물 : None type : <class 'NoneType'>
결과물 : 가 type : <class 're.Match'>


In [133]:
# search(패턴, 문자열)
# 패턴 중 가-힣만 찾는다. 찾고자하는 문자열이 아무데나 있어도됨
test = re.search('[가-힣]', 'abcd가나라마마efg')
# '가' 한개의 글자만 갖고옴
print(f'결과물 : {test[0]} type : {type(test)}')

결과물 : 가 type : <class 're.Match'>


In [134]:
# findall(패턴, 문자열)
# 패턴 중 가-힣만 찾는다. 반환 : list
test = re.findall('[가-힣]', '테스트ABCD가나다라abcd')
# ['테', '스', '트', '가', '나', '다', '라']
print(f'결과물 : {test} type : {type(test)}')

결과물 : ['테', '스', '트', '가', '나', '다', '라'] type : <class 'list'>


In [136]:
# finditer(패턴, 문자열)
# 패턴 중 가-힣만 찾는다. 반환 : iterator(반복자)
test = re.finditer('[가-힣]', '테스트  ABCDa가나다라bcd')
# 반복자는 반복문을 통해서 데이터를 가져와야함
for word in test:
    print(f'결과물 : {word[0]} type : {type(word)}')

결과물 : 테 type : <class 're.Match'>
결과물 : 스 type : <class 're.Match'>
결과물 : 트 type : <class 're.Match'>
결과물 : 가 type : <class 're.Match'>
결과물 : 나 type : <class 're.Match'>
결과물 : 다 type : <class 're.Match'>
결과물 : 라 type : <class 're.Match'>


In [135]:
# fullmatch(패턴, 문자열) :: 완벽히 일치해야함
# 패턴 중 가나다인 것만 추출한다.
test = re.fullmatch('가나다', '테스트 ABCDabcd')
print(f'결과물 : {test} type : {type(test)}')

test = re.fullmatch('가나다', '가나다')
print(f'결과물 : {test[0]} type : {type(test)}')

결과물 : None type : <class 'NoneType'>
결과물 : 가나다 type : <class 're.Match'>


In [105]:
# split(패턴, 문자열, 최대 split수)
# 대문자, 소문자 A~Z까지 모든 영어를 기준으로 쪼갠다. 
test = re.split('[A-Za-z]', 'abaabaasabvaa테스트 데이터 ')
print(f'결과물 : {test} type : {type(test)}')

# 2개 이상부터는 쪼개지 않는다.
test = re.split('[A-Za-z]', 'abaabaasabvaa테스트 데이터 ', 2)
print(f'결과물 : {test} type : {type(test)}')

결과물 : ['', '', '', '', '', '', '', '', '', '', '', '', '', '테스트 데이터 '] type : <class 'list'>
결과물 : ['', '', 'aabaasabvaa테스트 데이터 '] type : <class 'list'>


In [115]:
# sub(패턴, 교체할 문자열, 문자열, 최대 교체 수)
# 대문자, 소문자 A~Z까지 '가'로 바꾼다.
test = re.sub('[A-Za-z]', '가', 'abcdefgABCD')
print(f'결과물 : {test} type : {type(test)}')

# 2개 이상부터는 바뀌지 않는다.
test = re.sub('[A-Za-z]', '가', 'abcdefg', 2)
print(f'결과물 : {test} type : {type(test)}')

결과물 : 가가가가가가가가가가가 type : <class 'str'>
결과물 : 가가cdefg type : <class 'str'>


In [118]:
# subn(패턴, 교체할 문자열, 문자열, 최대 교체 수)
# 대문자, 소문자 A~Z까지 '가'로 바꾼 결과와 개수를 tuple로 출력한다.
test = re.subn('[A-Za-z]', '가', 'abcdefABCD')
print(f'결과물 : {test} type : {type(test)}')

# 2개 이상부터는 바뀌지 않는다.
test = re.subn('[A-Za-z]', '가', 'abcdefABCD', 2)
print(f'결과물 : {test} type : {type(test)}')

결과물 : ('가가가가가가가가가가', 10) type : <class 'tuple'>
결과물 : ('가가cdefABCD', 2) type : <class 'tuple'>


In [121]:
# compile(패턴)
# 패턴을 미리 지정해줌
test = re.compile('[A-Za-z]')
# 문자 대체
result = test.sub('가', 'abcd')
print(f'결과물 : {result} type : {type(result)}')



결과물 : 가가가가 type : <class 'str'>
