# 정규 표현식(Regular Expression)
 - 정규 표현식
   - 특정한 규칙을 가진 문자열의 집합을 표현하는데 사용하는 형식 언어

 - 정규 표현식 사용
   - 문자열과 관련된 문제 해결을 위해 사용
   - 문자열 치환 검색 추출 등
   - 문자열의 유효성 검사
     - Email 주소 전화번호 , 웹사이트 주소 등
 - 장점
   - 다양한 입력 문자열 처리가 간결
   - 범용성 다양한 프로그래밍 언어에서 지원
   - 생산성 향상
 - 단점
   - 정규 표현식 자체의 어려움
   - 소스 코드가 어려워짐

## 정규 표현식 예제
 - 정규 표현식 객체 사용
   - 정규식 객체를 생성 : compile(pattern)
     - 동일 패턴을 여러 번 검색하는 경우 편리하게 사용
     - re 모듈 함수들은 pattern 파라미터 없이 호출이 가능
       - -> search(string, pos), match(string, pos) 등

In [1]:
import re

# compile() 사용 안함(정규식 객체 생성x, 매번 패턴 입력)
m=re.match('[a-z]+','Python')
print(m)
print(re.search('apple', 'I like apple!'))

None
<re.Match object; span=(7, 12), match='apple'>


In [2]:
# compile() 사용 (정규식 객체(p) 생성, 여러 번 사용)
p=re.compile('[a-z]+') # 알파벳 소문자
m=p.match('python')
print(m)
print(p.search('I like apple 123'))

<re.Match object; span=(0, 6), match='python'>
<re.Match object; span=(2, 6), match='like'>


In [3]:
# findall() 함수 : 일치하는 모든 문자열을 리스트로 리턴
p=re.compile('[a-z]+')
print(p.findall('life is too short'))

['life', 'is', 'too', 'short']


In [6]:
# search() 함수 : 일치하는 첫 번째 문자열만 리턴
result=p.search('I like apple 123')
print(result)

result=p.findall('I like apple 123')
print(result)
print(result[0])

<re.Match object; span=(2, 6), match='like'>
['like', 'apple']
like


### match 객체 메소드

In [8]:
# 전화번호 분석
import re

# ^ .. $ 을 명시해야 정확한 자리수 검사가 이루어짐
tel_checker = re.compile("^(\d{2,3})-(\d{3,4})-(\d{4})$")
print(tel_checker.match('02-123-4567'))
print(tel_checker.match('053-95045678'))
print(tel_checker.match('053950-4567'))

<re.Match object; span=(0, 11), match='02-123-4567'>
None
None


In [15]:
# groups()
m=tel_checker.match('02-123-4567')

print(m.groups())    # 매칭 결과를 튜플로 출력

# group()
print(m.group())     # 매칭된 전체 문자열 반환
print(m.group(0))    # .group()과 동일
print(m.group(1))    # 매칭되는 첫 번째
print(m.group(2,3))  # 매칭되는 2,3번째

# start(), end()
print(m.start())     # 매칭된 문자열의 시작 인덱스
print(m.end())       # 마지막 인덱스 +1

# span()
print(m.span())      # 매치된 문자열의 시작,끝에 해당하는 인덱스를 튜플로 반환

('02', '123', '4567')
02-123-4567
02-123-4567
02
('123', '4567')
0
11
(0, 11)


### 전방 탐색(lookahead)
 - 전방 긍정 탐색 : (?=패턴)
   - 패턴과 일치하는 문자열을 만나면 패턴 앞의 문자열 반환
 - 전방 부정 탐색 : (?!패턴)
   - 패턴과 일치하지 않는 문자열을 만나면 해당 문자열 반환

In [18]:
import re

# 전방 긍정 탐색
lookahead1=re.search('.+(?= won)','1000 won')
print(lookahead1)

lookahead2=re.search('.+(?=log:)','2022-07-01 00:00:01 ABC.log: 전방탐색')
print(lookahead2)

# 전방 부정 탐색
lookahead3=re.search('\d{4}(?!-)','010-1234-5678')
print(lookahead3)

<re.Match object; span=(0, 4), match='1000'>
<re.Match object; span=(0, 24), match='2022-07-01 00:00:01 ABC.'>
<re.Match object; span=(9, 13), match='5678'>


### 후방 탐색(lookbehind)
 - 후방 긍정 탐색 : (?<=패턴)
   - 패턴과 일치하는 문자열을 만나면 패턴 뒤의 문자열 반환
 - 후방 부정 탐색 : (?<!패턴)
   - 패턴과 일치하지 않는 문자열을 만나면 해당 문자열 반환

In [19]:
import re

# 후방 긍정 탐색
lookbehind1=re.search('(?<=log:).+','2022-07-01 00:00:01 ABC.log: this is python')
print(lookbehind1)

lookbehind2=re.search('(?<=log:).+','USD: $51')
print(lookbehind2)

# 후방 부정 탐색
lookbehind3=re.search('\\b(?<!\$)\\d+\\b','I paid $30 for 100 apples.')
print(lookbehind3)

lookbehind4=re.search(r'\b(?<!\$)\d+\b','I paid $30 for 100 apples.')
print(lookbehind4)

<re.Match object; span=(28, 43), match=' this is python'>
None
<re.Match object; span=(15, 18), match='100'>
<re.Match object; span=(15, 18), match='100'>
