### 정규표현식(Regular Expressions)

- 정규식
- 복잡한 문자열을 처리할 때 사용하는 프로그래밍 기법


### 정규표현식의 메타 문자

- 문자클래스 [] : [와 ] 사이의 문자들과 매치 
- Dot(.) : 모든 문자
- 반복(+) 정규식 
- 반복(*) 정규식
- ? 정규식
- 반복({m,n}) 정규식

In [1]:
# 정규표현식 라이브러리 가져오기
import re

In [None]:
# 문자클래스 [] : [과 ] 사이에 있는 문자들을 패턴으로 정함
# 예제1.
# [abc] : 문자 a, b, c 중에 하나 매치
# 'a' : 'a'가 하나 있으므로 매칭 O
# 'before' : 'b'가 하나 있으므로 매칭 O
# 'love' : a, b, c 중 아무것도 매칭되는게 없으므로 매칭 X

In [None]:
# 예제2.
# [a-d] : from-to, a부터 d까지의 문자 중에 하나의 문자와 매치하는지 확인
# [abcd] 와 [a-d]는 완전히 같은 의미
# [a-zA-Z] : 알파벳(대소문자 구분 없이) 하나의 문자와 매치되는지 확인
# [0-9] : 모든 숫자에 대해서 매치

In [None]:
# 반복(*) 정규식 : 왼쪽에 온 문자를 0~무한대(메모리문제로 약 2억개) 반복
# 예제
# pattern : ca*t  => c로 시작하고 t로 끝나되 a는 가운데 몇 개가 와도 됨
# 'ct' : 매칭
# 'caaat' : 매칭
# 'cat' : 매칭
# 'caaaaaaaaaaaaaaaaaaaaaaaat' : 매칭
# 'coat' : 매칭X

In [None]:
# 반복(+) 정규식 : 바로 앞 문자가 최소 1번 최대 무한대 반복
# 예제
# pattern : ca+t
# 'ct' : x
# 'cat' : o
# 'caaaaaaaaaaaat' : o

In [None]:
# 반복({m, n}) 정규식 : 왼쪽 문자의 반복횟수 지정. m이상 n이하
# + : {1,}
# * : {0,}
# pattern : ca{2}t
# 'ct' : x
# 'cat' : x
# 'caat' : o

In [None]:
# ? 정규식 : {0, 1}
# 예제
# pattern : ab?c == ab{0, 1}c
# 'abc' : o
# 'ac' : o

###  정규식을 이용한 문자열 검색
- pattern = re.compile('정규식')
- pattern.match() : 문자열의 처음부터 정규식과 매치되는지 조사한다.
    - 매치된 문자열 확인 : obj.group()
- pattern.search() : 문자열 전체를 검색하여 정규식과 매치되는지 조사한다.
    - 매치된 문자열 확인 : obj.group()
- pattern.findall() : 정규식과 매치되는 모든 문자열(substring)을 리스트로 리턴한다
    - 매치된 문자열 확인 : obj가 리스트로 반환

In [2]:
# 정규식 필터링을 위한 컴파일 객체 생성
# re.compile()
# 소문자 알파벳 a부터 g까지의 문자열 중 하나와 매치여부를 확인하는 패턴
pattern = re.compile('[a-g]')

#### match()

In [4]:
# 소문자 알파벳 a부터 g까지의 문자열 중 하나와 매치여부를 확인하는 패턴
# 매치된 결과
result = pattern.match('axy')

In [5]:
result

<re.Match object; span=(0, 1), match='a'>

In [6]:
# 적용한 문자열에서 패턴과 매칭된 결과물 반환
result.group()

'a'

In [7]:
# 매칭이 되지 않는다면
result2 = pattern.match('xya')

In [8]:
result2

In [9]:
# 매칭 결과 없음(match()는 첫 번째 문자 검사)
result2.group()

AttributeError: 'NoneType' object has no attribute 'group'

In [13]:
# 정규식 반환 결과의 사용예제
# 패턴 생성, 문자열 검색 작업 완료
def match_check(result):
    if result:
        msg = 'Match Found : {}'.format(result.group())
    else:
        msg = 'No Match Found'
    return msg
match_check(result)

'Match Found : a'

#### search()

In [15]:
# 예제 1
result3 = pattern.search('xya')

In [16]:
result3

<re.Match object; span=(2, 3), match='a'>

In [17]:
# search() 의 결과물 역시 .group() 으로 확인가능
result3.group()

'a'

In [18]:
# 예제 2
result4 = pattern.search('xyab')

In [19]:
# search같은 경우는 여러 문자(열)이 매칭이 되어도 가장 앞서는 인덱스 자료 하나만 반환
result4.group()

'a'

#### findall()

In [21]:
# 예제
# 결과를 리스트로 반환
# abc, fg=>pattern [a-g] => a부터 g까지 알파벳중 하나와 매치
result5 = pattern.findall('xyabc 123 fg')

In [22]:
# findall은 변수 그 자체에 리스트로 자료가 저장되기 때문에 .group()을 쓰지 않는다.
result5

['a', 'b', 'c', 'f', 'g']

### 정규식 예제 코드 작성

In [None]:
# [abc] : 문자 a, b, c 중 매치
# "a"는 정규식과 일치하는 문자인 "a"가 있으므로 매치
# "before"는 정규식과 일치하는 문자인 "b"가 있으므로 매치
# "dude"는 정규식과 일치하는 문자인 a, b, c 중 어느 하나도 포함하고 있지 않으므로 매치X

In [24]:
# 여러분들이 직접 p1 변수에 '[abc]' 패턴으로 정규식 변수를 생성해주세요.
p1 = re.compile('[abc]')

In [26]:
# match 메서드와 search 메서드를 활용해 'a'라는 문자가 패턴과 일치하는지 확인해주세요.
p1.match('a')
p1.search('a')

<re.Match object; span=(0, 1), match='a'>

In [29]:
# 'before' 문자열은 match, search, findall 메서드를 순차적으로 사용해서 확인해보세요.
p1.match('before')
p1.search('before')
p1.findall('before')

['b']

In [32]:
# 'coco' 패턴에 대해서 한 번 세 가지를 모두 사용해보세요.
p1.match('coco')
p1.search('coco')
p1.findall('coco')

['c', 'c']

### *, +를 이용하는 예시

In [39]:
# 아무 글자나 3글자 매칭
p2 = re.compile('...')

In [40]:
p2.match('......')

<re.Match object; span=(0, 3), match='...'>

In [61]:
# 이메일 패턴 감지하기
# .* -> 글자수 0~ 무한대, 문자 종류 상관 없음
# .+ -> 글자수 1~ 무한대, 문자 종류 상관 없음
# [a-zA-Z0-9] => 영문자, 숫자만 입력받기
# [a-zA-Z0-9]+ => 영문자, 숫자만 1글자 이상 입력받기
p3 = re.compile("[a-zA-Z0-9]+[@].+[.].+")

In [62]:
p3.search('파이썬파이썬@naver.com')