#정규 표현식(Regular Expression)

## 정규 표현식(정규식)
- 복잡한 문자열을 처리할 때 사용하는 기법으로, 파이썬만의 고유 문법이 아니라 문자열을 처리하는 모든 곳에서 사용된다.   
- 일반적인 문자(a~z)와 메타문자(meta characters)라고 부르는 특수한 문자를 조합해서 특정 문자열 패턴을 작성하기 위한 언어이다.

- 메타문자 : 원래 그 문자가 가진 뜻이 아닌 특별한 용도로 사용되는 문자이다. 정규 표현식에서 사용되는 문자 . ^ $ * + ? {} [] \ | ()
- 공식문서 : https://docs.python.org/ko/3/howto/regex.html

## 파이썬에서 정규 표현식을 지원하는 re 모듈
- re.compile을 이용하여 정규 표현식을 컴파일한다.

## 정규식을 이용한 문자열 검색
  -  컴파일된 패턴(정규식을 컴파일한 결과) 객체를 이용하여 문자열 검색을 수행하는 4가지 메소드

|메소드|목적|
|---|---|
|match( )|문자열의 처음부터 정규식과 매치되는지 조사한다.|
|search( )|문자열 전체를 검색하여 정규식과 매치되는지 조사한다.|
|findall( )|정규식과 매치되는 모든 문자열(substring)을 리스트로 리턴한다.|
|finditer( )|정규식과 매치되는 모든 문자열(substring)을 반복 가능한 객체로 리턴한다.|

## match( )메서드와 search( )메서드를 수행한  결과로 리턴한 match객체의 메서드들
 - group( ) : 매치된 문자열을 리턴한다.
 - start( ) : 매치된 문자열의 시작 위치를 리턴한다.
 - end( ) : 매치된 문자열의 끝 위치를 리턴한다.
 - span( ) :매치된 문자열의 (시작 ,끝)에 해당되는 튜플을 리턴한다.

# 정규표현식 문자

In [None]:
import re
print(dir(re))

['A', 'ASCII', 'DEBUG', 'DOTALL', 'I', 'IGNORECASE', 'L', 'LOCALE', 'M', 'MULTILINE', 'Match', 'Pattern', 'RegexFlag', 'S', 'Scanner', 'T', 'TEMPLATE', 'U', 'UNICODE', 'VERBOSE', 'X', '_MAXCACHE', '__all__', '__builtins__', '__cached__', '__doc__', '__file__', '__loader__', '__name__', '__package__', '__spec__', '__version__', '_cache', '_compile', '_compile_repl', '_expand', '_locale', '_pickle', '_special_chars_map', '_subx', 'compile', 'copyreg', 'enum', 'error', 'escape', 'findall', 'finditer', 'fullmatch', 'functools', 'match', 'purge', 'search', 'split', 'sre_compile', 'sre_parse', 'sub', 'subn', 'template']


### 점(.) 기호 - 한개의 임의의 문자를 나타낸다.

In [None]:
r = re.compile('a.c')

In [None]:
m = r.search('kabcadc')   # 일치하는 문자열 span=(0, 3)에 있다    # 처음꺼만 출력됨
print(m)
print(m.group())
print(m.start())
print(m.end())
print(m.span())

<re.Match object; span=(1, 4), match='abc'>
abc
1
4
(1, 4)


In [None]:
m = r.search('kabcadc',pos=3)   # 일치하는 문자열 span=(4, 7)에 있다    # pos이용해서 그다음열
print(m)
print(m.group())
print(m.start())
print(m.end())
print(m.span())

<re.Match object; span=(4, 7), match='adc'>
adc
4
7
(4, 7)


In [None]:
m = r.search('kabcadc',pos=5)   # 일치하는 문자열 없으면 None 으로 반환
print(m)


None


### ? 기호
- ?앞의 문자가 존재할 수도 있고, 존재하지 않을 수도 있는 경우
- ?{0,1}의미한다   - 생략하거나 한번

In [None]:
r = re.compile('ab?c')

In [None]:
m = r.search('test ac data')
print(m)
print(m.group())
print(m.start())
print(m.end())
print(m.span())

<re.Match object; span=(5, 7), match='ac'>
ac
5
7
(5, 7)


In [None]:
m = r.search('test abbc data')   # b 두번반복 오류발생
print(m)
print(m.group())
print(m.start())
print(m.end())
print(m.span())

None


AttributeError: ignored

### * 기호
- * 기호 앞의 문자가 0개 이상일 경우를 나타낸다.
- *: {0, }

In [None]:
r = re.compile('ab*c')

In [None]:
m = r.search('abbbc')
print(m)
print(m.group())
print(m.start())
print(m.end())
print(m.span())

<re.Match object; span=(0, 5), match='abbbc'>
abbbc
0
5
(0, 5)


In [None]:
m = r.search('abbbtc')   # ab와 c 사이에 t 가 있으므로 오류발생
print(m)
print(m.group())
print(m.start())
print(m.end())
print(m.span())

None


AttributeError: ignored

### + 기호
- + 기호는 1개 이상의 문자가 있어야 함
- + : {1, }

In [None]:
r = re.compile('ab+c')     # a와c 사이에 b가 하나 이상 있어야함

In [None]:
m = r.search('abc')   # ab와 c 사이에 t 가 있으므로 오류발생
print(m)
print(m.group())
print(m.start())
print(m.end())
print(m.span())

<re.Match object; span=(0, 3), match='abc'>
abc
0
3
(0, 3)


In [None]:
m = r.search('abbbbc')   # ab와 c 사이에 t 가 있으므로 오류발생
print(m)
print(m.group())
print(m.start())
print(m.end())
print(m.span())

<re.Match object; span=(0, 6), match='abbbbc'>
abbbbc
0
6
(0, 6)


In [None]:
r = re.compile('ac')

### ^기호
- 시작되는 글자를 지정

In [None]:
r = re.compile('^a')

In [None]:
m = r.search('abcd')   # ab와 c 사이에 t 가 있으므로 오류발생
print(m)
print(m.group())
print(m.start())
print(m.end())
print(m.span())

<re.Match object; span=(0, 1), match='a'>
a
0
1
(0, 1)


### {숫자} 기호
- 문자에 해당 기호를 붙이면 , 해당 문자를 숫자만큼 반복한다.

In [None]:
r = re.compile('ab{2}c')

In [None]:
m = r.search('abbce')   # b 2개
print(m)
print(m.group())
print(m.start())
print(m.end())
print(m.span())

<re.Match object; span=(0, 4), match='abbc'>
abbc
0
4
(0, 4)


In [None]:
m = r.search('abbbce')   # 3개
print(m)


None


### {숫자1, 숫자2} 기호
- 문자에 해당 기호를 붙이면, 해당 문자를 숫자1 이상 숫자2 이하만큼 반복한다
- 반복횟수를 고정시킬때 사용한다.

In [None]:
r = re.compile('ca{2,4}t')

In [None]:
m = r.search('caaat')   # 4개 까지 가능
print(m)
print(m.group())
print(m.start())
print(m.end())
print(m.span())

<re.Match object; span=(0, 5), match='caaat'>
caaat
0
5
(0, 5)


In [None]:
m = r.search('caaaaat')   # 5개 None
print(m)


None


In [None]:
m = r.search('caat caaat caaaaat')   # 앞에꺼만
print(m)

<re.Match object; span=(0, 4), match='caat'>


In [None]:
m = r.match('test caat caaat caaaaat')   # 앞에꺼만
print(m)

None


In [None]:
m = r.match('caat caaat caaaaat')   # 앞에꺼만
print(m)

<re.Match object; span=(0, 4), match='caat'>


In [None]:
m = r.findall('test caat caaat caaaaat') # 조건에 만족하는거 list로 반환
print(m)

['caat', 'caaat']


In [None]:
m = r.finditer('test caat caaat caaaaat') # 조건에 만족하는거 list로 반환
print(m)
for i in m:
  print(i)
  print(i.group())
  print(i.start())
  print(i.end())
  print(i.span())

<callable_iterator object at 0x7a7970fed930>
<re.Match object; span=(5, 9), match='caat'>
caat
5
9
(5, 9)
<re.Match object; span=(10, 15), match='caaat'>
caaat
10
15
(10, 15)


###{숫자, } 기호
- 문자에 해당 기호를 붙이면 문자를 숫자 이상만큼 반복한다

In [None]:
r = re.compile('a{2,}bc')

In [None]:
m = r.search('abc')
print(m)

None


In [None]:
m = r.search('aaabc')
print(m)

<re.Match object; span=(0, 5), match='aaabc'>


### [] 기호
- [ ] 안에 문자들을 넣으면 그문자들 중 한개의 문자와 매치라는 의미를 가진다

In [None]:
r = re.compile('[abc]')

In [None]:
m = r.search('korea')
print(m)

<re.Match object; span=(4, 5), match='a'>


In [None]:
r = re.compile('[a-z]')

In [None]:
m = r.search('12ab3')  #숫자중 문자위치 확인가능
print(m)

<re.Match object; span=(2, 3), match='a'>


In [None]:
m = r.search('12AB3')  #대소문자 구분
print(m)

None


In [None]:
r = re.compile('[a-z]+')
m = r.findall('li2fe is to short 3')  # 영어만 추출 리스트로
print(m)

['li', 'fe', 'is', 'to', 'short']


In [None]:
r = re.compile('[a-z]')
m = r.findall('li2fe is to short 3')  # 문자하나하나 영어만 추출
print(m)

['l', 'i', 'f', 'e', 'i', 's', 't', 'o', 's', 'h', 'o', 'r', 't']


###[^문자] 기호
- ^기호 뒤에 붙은 문자들을 제외한 모든 문자와 매치하는 역활을 한다.

In [None]:
r = re.compile('[^abc]')
m = r.search('test')  # none
print(m)

<re.Match object; span=(0, 1), match='t'>


In [None]:
m = r.findall('ta')  # ta에서 a뺴고
print(m)

['t']


In [None]:
m = r.findall('taf')  # taf 에서 a 빼고
print(m)

['t', 'f']


## 정규 표현식 옵션


### DOTALL : 줄바꿈 문자를 포함하여 모든 문자와 매치할 수 있도록 한다.

In [None]:
r = re.compile('a.b')
m = r.search('a\nb')
print(m)

None


In [None]:
r = re.compile('a.b',re.DOTALL)    # \n 이런거 원래 인식못하는데 인식하게 함  DOTALL대신 약어로 S 사용가능
#r = re.compile('a.b',re.S)   위에꺼 약어 같은거
m = r.search('a\nb')
print(m)

<re.Match object; span=(0, 3), match='a\nb'>


### IGNORECASE : 대소문자에 관계없이 매치할 수 있도록 한다.

In [None]:
r = re.compile('[a-z]')
m = r.search('Life is to')   # 대문자라 두번째  i 부터 인식
print(m)

<re.Match object; span=(1, 2), match='i'>


In [None]:
r = re.compile('[a-z]', re.IGNORECASE) # 약어 I(대문자 I)
r = re.compile('[a-z]', re.I)
m = r.search('Life is to')   # 대문자인식
print(m)

<re.Match object; span=(0, 1), match='L'>


### MULTILINE : 여러 라인에서 매치되는 데이터를 가져올 때 사용한다

- \d : [0-9]와 동일한 표현식  (숫자)
- \D : [^0-9]와 동일한 표현식 (반대의 의미)
- \s : 공백 [\t\n\r\f] 와 동일한 표현식
- \S : [^\t\n\r\f] 와 동일한 표현식
- \w : [a-zA-Z0-9_]와 도일한 표현식
- \W : [^a-zA-Z0-9_]와 도일한 표현식

In [None]:
r = re.compile('^python\s\w+')   # python 으로 시작하고  # \s 공백 \w 영문자 숫자
m = r.findall('''python one
life is too short
python two
you need python
python _
python 9
python three''')

print(m)

['python one']


In [None]:
r = re.compile('^python\s\w+',re.MULTILINE)   # python 으로 시작하고  # \s 공백 \w 영문자 숫자
m = r.findall('''python one
life is too short
python two
you need python
python _
python 9
python three''')

print(m)

['python one', 'python two', 'python _', 'python 9', 'python three']


### re.split()
- 입력된 정규 표현식을 기준으로 문자열들을 분리하여 리스트로 리턴
- 자연어 처리에 있어서 많이 사용되는 정규 표현식 함수중 하나이다.

In [None]:
text = '사과 딸기 수박 메론 바나나'
re.split(' ',text)

['사과', '딸기', '수박', '메론', '바나나']

In [None]:
text = '''사과               #줄바꿈을 기준으로 해서 나눠줌
딸기
수박
메론
바나나'''
re.split('\n',text)

['사과               #줄바꿈을 기준으로 해서 나눠줌', '딸기', '수박', '메론', '바나나']

In [None]:
text = '사과+딸기++수박+++메론+++바나나'
re.split('\+{1,}',text)   # 한개 이상의 플러스

['사과', '딸기', '수박', '메론', '바나나']

In [None]:
text = '''
이름:홍길동
전화번호"010-1234-5678
나이:30
성별:남
'''

In [None]:
r = re.compile('[0-9]+')
r.findall(text)

['010', '1234', '5678', '30']

In [None]:
re.findall('[0-9]+',text)

['010', '1234', '5678', '30']

In [None]:
print(re.split('[0-9]+',text))
print(re.split(r'([0-9]+)',text))

['\n이름:홍길동\n전화번호"', '-', '-', '\n나이:', '\n성별:남\n']
['\n이름:홍길동\n전화번호"', '010', '-', '1234', '-', '5678', '\n나이:', '30', '\n성별:남\n']


### 전방탐색
- ?= 긍정적 전방탐색
- ?! 부정적 전방탐색

In [None]:
p = re.compile('.*[.](?=bar$|cf$)')     # bar 로 끝나거나 cf 로 끝나는거 '$'는 끝탠다는 의미의 연산자 중간에 | 는 or로 쓰인듯
#p = re.compile('.*[.](?!bar$|cf$)')
file = ['foo.bar','autoexec.bat','sendmail.cf', 'sample.bar.jpg','test.bar.bar']

for item in file:
  m = p.search(item)
  print(m)

  if m :
    print(m.group(), m.start(), m.end())

<re.Match object; span=(0, 4), match='foo.'>
foo. 0 4
None
<re.Match object; span=(0, 9), match='sendmail.'>
sendmail. 0 9
None
<re.Match object; span=(0, 9), match='test.bar.'>
test.bar. 0 9


### subn()
- 정규표현식 문자열이 있으면 대체 문자열로 변경후 튜플로 리턴한다.

In [None]:
p = re.compile('(blue|while|red)')
m = p.subn('color','blue socks and red socks') # subn('대체문자','대상문자')
print(m)

('color socks and color socks', 2)
