## 정규 표현식
특정한 규칙을 가진 문자열의 집합을 표현하는데 사용하는 형식 언어  
텍스트 데이터를 전처리(pre-processing)에 유용한 도구

정규 표현식의 사용 예시
+ 웹 페이지에서 핸드폰 번호를 수집할 때 (010-3312-1001)
+ 웹 페이지에서 email 주소를 수집할 때 (pystock@outlook.com)
+ 사용자가 입력한 email 주소가 올바른 지 확인하고자 할 때

파이썬에서 정규식을 다루는 모듈 `re`

In [1]:
import re

주민등록번호를 포함하고 있는 텍스트가 있다.  
데이터에 포함된 모든 주민등록번호의 뒷자리를 * 문자로 변경하라.  

In [2]:
text = '''
park 800905-1049118
kim 700905-1059119
'''



앞으로 배울 정규식을 사용하면 짧은 코드로 동일한 기능을 구현할 수 있다. 

In [3]:
import re

text = '''
park 800905-1049118
kim 700905-1059119
'''

p = re.compile(r"(\d{6})-\d{7}")
text1 = p.sub(r"\1-*******", text)
print(text1)


park 800905-*******
kim 700905-*******



### 파이썬3의 re 모듈
파이썬 정규표현식 모듈인 re에서 지원하는 함수로, 특히 findall, search, split, sub 등이 많이 쓰임

| 모듈 함수 | 설명 |
| :-: | :- |
| re.compile() | 정규표현식을 정의(컴파일)하는 함수 |
| re.search() | 문자열 전체에 대해서 정규표현식과 매치되는지를 검색 |
| re.match() | 문자열의 처음이 정규표현식과 매치되는지를 검색 |
| re.split() | 정규 표현식을 기준으로 문자열을 분리하여 리스트로 반환 |
| re.findall() | 매치되는 모든 경우의 문자열을 찾아서 리스트로 리턴 |
| re.finditer() | 매치되는 모든 경우의 문자열을 찾아서 iterator로 리턴 |
| re.sub() | 정규 표현식과 일치하는 부분에 대해서 다른 문자열로 대체 |

#### 패턴을 정의하는 compile
찾고자 하는 패턴이 빈번한 사용되는 경우에 미리 컴파일해놓고 재사용  
속도와 편의성면에서 유리함

In [4]:
# 찾을 단어는 "가능" 이라는 문자열 임을 미리 정의
p = re.compile(r'가능')

#### 패턴 전체를 찾는 findall
문자열에서 검출된 패턴 전체를 리스트로 반환

In [5]:
text = "불가능을 가능하게!"

m = re.findall(p, text)
print(m)

['가능', '가능']


p 객체에도 `findall`이 정의돼 있어 더 짧은 코드로 표현 가능

In [6]:
text = "불가능을 가능하게!"

m = p.findall(text)
print(m)

['가능', '가능']


#### 하나의 결과를 객체로 반환하는 search

In [7]:
import re

text = "불가능을 가능하게!"
p = re.compile("가능")
m = p.search(text)
print(m)

<re.Match object; span=(1, 3), match='가능'>


#### 패턴으로 문자열을 분할하는 split

In [8]:
text = "불가능을 가능하게!"
p = re.compile(r"가능")
m = p.split(text)
print(m)

['불', '을 ', '하게!']


#### 패턴으로 문자열을 치환하는 sub

In [9]:
text = "010-1234-5678"
p = re.compile(r"-")
m = p.sub("/", text)
print(m)

010/1234/5678


#### 연습문제 
아래 텍스트 데이터에서 단어(기린)의 출현 빈도를 계산하고 출력하세요.

In [10]:
text = '''내가 그린 기린 그림은 잘 그린 기린 그림이고
네가 그린 기린 그림은 잘 못 그린 기린 그림이다.'''




### 정규 표현식 - 메타 문자
정규 표현식에서 사용하는 기호  
표현식 내부에서 특수한 의미를 갖는 문자

| 특수 문자 | 설명 |
| :-: | :- |
| . | 한 개의 임의의 문자 |
| ? | 앞의 문자가 존재할 수도 있고, 존재하지 않을 수도 있음 |
| * | 문자가 0개 이상 존재 |
| + | 앞의 문자가 1개 이상 존재 |
| ^ | 뒤의 문자열로 시작 |
| $ | 앞의 문자열로 종료 |
| { } | 숫자만큼 반복 |
| {숫자1, 숫자2 } | 숫자1이상 숫자2이하 반복 |
| {숫자1,  } | 숫자1이상 반복 |
| [  ] | 대괄호 안의 문자 중 하나 |
|  A\|B  | A또는 B로 [AB] 와 같은 의미 |

다음 코드의 의미는?  
`abc*` 
`abc+` 
`abc{2,4}` 
`abc{2,}` 

연습하기 : https://regex101.com/

#### 범위 표현

`[A-Z]` : 대문자 중 하나, [ABCDEFGHIJKLMNOPQRSTUVWXYZ]  
`[a-z]` : 소문자 중 하나, [abcdefghijklmnopqrstuvwxyz]  
`[0-9]` : 숫자 중 하나, [0123456789]  
`[A-z]` : all characters between ASCII A to ASCII z  
`[가-힣]` : 한글

다음 문자열에서 엑셀 파일의 이름만 출력하라.  
`['a1.xls','b1.xls', 'c1.xls']`

In [19]:
text = '''
회계 장부 a1.xls
월급 내역 b1.xls
c1.xls 개인정보 
'''
p = re.compile(r"..\.xls")
p.findall(text)

['a1.xls', 'b1.xls', 'c1.xls']

In [20]:
p = re.compile(r"[a-z0-9]{2}.xls")
p.findall(text)

['a1.xls', 'b1.xls', 'c1.xls']

In [23]:
text = '''
회계 장부 a1.xls
월급 내역 b1.xls
c1.xls 개인정보 
Aaa1.xls
aa1.xls
'''
p = re.compile(r"[A-Za-z0-9].xls") # 두글자 이상도 있고, 대분자도 있고~
p.findall(text)

['1.xls', '1.xls', '1.xls', '1.xls', '1.xls']

`?`는 존재하거나 그렇지 않은 경우에 대해 사용할 수 있음  
예를 들어 전화번호에는 `-`를 포함하는 경우도 있고 그렇지 않은 경우도 있음  
010-1212-1212 / 01012121212

In [24]:
text = '''
Brayden Jo 010-8212-1212 Brayden.jo@outlook.com
Lukas Yoo 01087671212 Lukas.yoo@gmail.com
'''

In [28]:
p = re.compile(r"[0-9]{3}-?[0-9]{4}-?[0-9]{4}")
p.findall(text)

['010-8212-1212', '01087671212']

#### 문자 클래스
메타 문자 중에서도 자주 사용되는 기능을 정의

| 문자 클래스 | 설명 |
| :-: | :- |
| \d | 모든 숫자를 가리키며 [0-9]와 같다 |
| \D | 숫자를 제외한 모든 문자 |
| \s | 공백을 의미하며 [\t\n\r\f\v] |
| \S | 공백을 의미하며 [^\t\n\r\f\v] |
| \w | 문자 또는 숫자 [a-zA-Z0-9가-힣] |
| \W | 문자도 숫자도 아닌것을 의미 [^a-zA-Z0-9가-힣] |


연습문제. 다음과 같은 결과가 출력되도록 정규 표현식을 작성하라.  
`['010', '8212', '1212', '010', '8767', '1212'] `

In [13]:
text = '''
Brayden Jo 010-8212-1212 brayden.jo@outlook.com
Lukas Yoo 010-8767-1212 lukas.yoo@gmail.com
'''
p = re.compile(r"      ")



메타 문자, 문자 클래스, 함수를 활용하여 아래 이메일만 출력하라.  
`'ben@forta.com', 'support@forta.com', 'spam@forta.com'`

In [14]:
text = '''
Send personal email to ben@forta.com. For questions
about a book use support@forta.com. Feel free to send
unsolicited email to spam@forta.com (wouldn't it be
nice if it were that simple, huh?).
'''
p = re.compile(r"      ")

