# 정규표현식 (Regular Expression)

정규표현식(Regular Expression)을 줄여서 Regex라고 표현하는데, 정규표현식을 사용하는 이유는 문자열 <font color='blue'>**검색**</font>과 <font color='blue'>**치환**</font>이 전부입니다. 정규표현식은 찾고자하는 텍스트가 가변적일때 매우 유용합니다.

## 정규표현식 사용하여 문자열 찾기

```python
import re
# ...
result = re.findall(pattern, string)
```

일단 정규표현식을 사용하는 몇가지 상황들을 보고, 배워보도록 합시다.

In [3]:
# 대문자로 시작하는 단어들 찾기
str1 = """
Aha this is Python 2016 class.
Where are you from?
"""

In [4]:
# 일단 import re를 해주세요. re(-gex, -gular expression)의 줄임말이겠죠.
import re

In [5]:
# A부타 Z까지 문자중 하나가 앞에 오고, 그 다음 아무 문자(\w+, 공백 제외) 오는 패턴을 만들어서 찾는겁니다.
re.findall("[A-Z]\w+", str1)

['Aha', 'Python', 'Where']

In [6]:
# 특정 파일 포맷을 찾고 싶다!
string = """
sales1.xls
orders3.xls
sale2.xls
sam.xls
na1.xls
na2.xls
sa1.xls
"""

In [7]:
# n,s로 시작하고, 그 다음 바로 a가 오고, 그 다음 바로 숫자가 오는 엑셀(.xls) 파일 포맷을 찾고 싶습니다.
re.findall("[ns]a[0-9]\.xls", string)

['na1.xls', 'na2.xls', 'sa1.xls']

In [8]:
# ^을 사용하면 숫자를 제외할 수도 있습니다.
re.findall("[ns]a[^0-9]\.xls", string)

['sam.xls']

## 일단 http://regexr.com 에 들어가서 연습을 해봅시다!

우리는 찾고자하는 문자열의 '패턴'(Pattern)을 만드는데 집중하면 됩니다.

### 1. 모든 문자 찾기 => 마침표(.) 
ab, ap, ma, za 이런 것을 찾으려면?

- a.
- .a
- a..

### 2. 메타 문자 찾기 => 역슬래시(\\)
진짜 마침표(.)를 찾고 싶으면 역슬래시(\\)로 escape를 해야합니다. 메타 문자란 정규표현식에서 특별한 의미를 가지고 있는 문자들을 말합니다. 계속해서 배우겠지만, 마침표(.), 물음표(?), 별표(*) 등이 있습니다. 다른 메타 문자에 대한 것들도 마찬가지로 역슬래시(\\)를 사용해 모두 escape하면 됩니다.

- \\.
- \\[ 
- \\*

In [9]:
sample_str = """
Welcome to RegExr v2.0 by gskinner.com!

Edit the Expression & Text to see matches. Roll over matches or the expression for details. Undo mistakes with cmd-z. Save & Share expressions with friends or the Community. A full Reference & Help is available in the Library, or watch the video Tutorial.

Sample text for testing:
abcdefghijklmnopqrstuvwxyz ABCDEFGHIJKLMNOPQRSTUVWXYZ
0123456789 _+-.,!@#$%^&*();\/|<>"'
12345 -98.7 3.141 .6180 9,000 +42
555.123.4567	+1-(800)-555-2468
foo@demo.net	bar.ba@test.co.uk
www.demo.com	http://foo.co.uk/
http://regexr.com/foo.html?q=bar
"""

In [10]:
print re.findall("a.", sample_str)

['at', 'at', 'ai', 'ak', 'av', 'ar', 'av', 'ai', 'ab', 'ar', 'at', 'al', 'am', 'ab', 'ar', 'a@', 'ar']


In [11]:
print re.findall("s.", sample_str)

['sk', 'ss', 'se', 's.', 's ', 'ss', 's.', 'st', 's ', 'ss', 's ', 's ', 's ', 'st', 'st', 'st']


In [12]:
print re.findall("s\.", sample_str)

['s.', 's.']


### 3. 문자 집합으로 찾기
'a OR b OR f 중에 찾고 싶다.'할땐 문자 집합 (대괄호, [ ])를 사용합니다. 대시(-)를 사용해 범위를 지정할 수도 있습니다. [ascii 코드](http://www.asciitable.com/) 순서로 들어가므로, [Z-A]와 같은 패턴은 무효한 패턴입니다. 

- [abf]
- [a-f]
- [a-z]
- [a-zA-Z]
- [0-9]
- [A-Za-z0-9]|

In [13]:
# 대문자, 소문자
print re.findall("[A-Z][a-z]", sample_str)

['We', 'Re', 'Ex', 'Ed', 'Ex', 'Te', 'Ro', 'Un', 'Sa', 'Sh', 'Co', 'Re', 'He', 'Li', 'Tu', 'Sa']


In [14]:
# 버젼 찾기
print re.findall("[a-z][0-9]\.[0-9]", sample_str)

['v2.0']


### 4. 제외하고 찾기 => 캐럿(^)
이건 제외하고 찾고 싶을 땐, 캐럿(^)을 사용합니다. 캐럿은 문자 집합 안에 넣어 사용해주세요.

- [^0-9]

위의 특정 패턴 파일명 찾기 예제를 참고해주세요.

### 5. 메타 문자
., ^, [, ( 등 이렇게 정규표현식에서 특별한 의미를 가지는 문자들을 메타 문자라고 합니다.

- \d => [0-9]
- \D => [^0-9]
- \w => [a-zA-Z0-9_]  밑줄(\_)이 있는 이유는 대개 파일이나 디렉터리 이름, 애플리케이션 변수명, 데이터베이스 객체 이름 등에 사용되기 때문이다.
- \W => [^a-zA-Z0-9_]    
- \s => 모든 공백 문자. ([^\f\n\r\t\v])
- \S => 공백 문자가 아닌 모든 문자. ([^\f\n\r\t\v])

<!--
- \r, \n, \t
- \x => 16진수 값 표시. \x0A(아스키문자 10)은 줄바꿈 문자가 되며, \n과 기능이 같다. 
- \0 => 8진수 값 표시. \011(아스키 문자 9)는 탭 문자이며, \t와 기능이 같다.
-->

실제로 되는지 http://regexr.com 에서 확인해봅시다!

In [15]:
# 파이썬 문자열에서는 몇 줄인지 알고 싶을 때, \n을 사용할 수 있습니다.
print len(re.findall("\n", sample_str))

13


In [16]:
string = """
11231
A1C2E3
4930
F3a3
wef(32)
FILE_NAME_123
9430FQ
!@#123
"""

In [17]:
print re.findall("\w\d\w\d\w\d", string)

['A1C2E3']


### 6. 하나 이상 찾기 => 더하기(+)
문자 하나 이상 찾을때는 더하기(+)를 붙이면 됩니다. a가 a를 찾으면, a+는 하나 이상 연속된 a를 찾습니다. [0-9]가 하나의 숫자를 찾으면, [0-9]+는 연속된 숫자를 찾습니다. 

### 7. 0개 이상 찾기 => 별표(*)
0개 이상 찾을때는 별표(*)를 사용합니다.

### 8. 0개 이상 1개 이하 찾기 => 물음표(?)
0개 이상 1개 이하 찾을땐 물음표(?)를 사용합니다.

In [18]:
# 제대로 된 email 찾기
emails = """
hunjae@ab180.co
hunjae@@hunjae.com
hun@jae.jung.com
kevin-hello@gmailcom
_hello_@hunjae.com
h.j_jung@ab180.co
.hun@ab180.co
"""

In [19]:
# \w+ @ \w+ \. \w+
print re.findall("\w+@\w+\.\w+", emails)

['hunjae@ab180.co', 'hun@jae.jung', '_hello_@hunjae.com', 'j_jung@ab180.co', 'hun@ab180.co']


In [20]:
# h.j_jung에서 h가 짤렸네요. 마침표(.)를 포함시켜줘야 합니다. 참고로 문자 집합(대괄호)안에서는 escape할 필요가 없습니다.
print re.findall("[\w.]+@[\w.]+\.[\w.]+", emails)

['hunjae@ab180.co', 'hun@jae.jung.com', '_hello_@hunjae.com', 'h.j_jung@ab180.co', '.hun@ab180.co']


In [21]:
# 보통 이메일 처음에는 .을 찍지 않아요
print re.findall("\w+[\w.]*@[\w.]+\.[\w.]+", emails)

['hunjae@ab180.co', 'hun@jae.jung.com', '_hello_@hunjae.com', 'h.j_jung@ab180.co', 'hun@ab180.co']


In [22]:
https = """
The URL is http://www.naver.com/, to connect securely 
use https://www.naver.com instead.

how about httpssss://www.naver.com
"""

In [23]:
print re.findall("http://[\w./]+", https)

['http://www.naver.com/']


In [24]:
print re.findall("http[s]*://[\w./]+", https)

['http://www.naver.com/', 'https://www.naver.com', 'httpssss://www.naver.com']


In [25]:
# re.findall("https?://[\w./]+", https) 도 가능하지만, 혼란을 방지하고자 문자집합[] 사용을 권장합니다.
print re.findall("http[s]?://[\w./]+", https)

['http://www.naver.com/', 'https://www.naver.com']


### 구간 정하기 => 중괄호({})

몇번 이상 몇번이하 반복되는 것들을 지정하기 위해서는 중괄호({})를 사용합니다.

In [26]:
interval_str = """
.css_class {
    background-color: "#336633";
}

.css_class {
    font-color: "#0075ff";
}

#0075fa123
#0075
#0075f
"""

In [27]:
# #0075fa123이 나와버렸네요. 이 안에서도 6개가 매칭이 되긴 되었기 때문입니다.
re.findall("#[0-9a-zA-Z]{6}", interval_str)

['#336633', '#0075ff', '#0075fa']

In [28]:
# 캐럿(^)을 사용해 뒤에 문자가 더 나오는 것들은 제외합니다.
re.findall("#[0-9a-zA-Z]{6}[^\w]", interval_str)

['#336633"', '#0075ff"']

In [29]:
# 날짜 패턴을 찾아봅시다.
interval_str_2 = """
4/08/15
10-6-2004
10-31-2015
02/2/2
01-01-01
"""

In [30]:
# 실제 유효한 날짜인지 체크는 불가능하므로, 유효한지 검사하기 전에 패턴 검사로 실시하는 경우가 많습니다.
re.findall("\d{1,2}[-\/]\d{1,2}[-\/]\d{4}", interval_str_2)

['10-6-2004', '10-31-2015']

In [31]:
# {3,}로 '3개 이상'일치하는 것을 찾을 수도 있습니다. 더하기(+)는 {1,}와 같습니다.
re.findall("\d{1,2}[-\/]\d{1,2}[-\/]\d{2,}", interval_str_2)

['4/08/15', '10-6-2004', '10-31-2015', '01-01-01']

### Greedy quantifier, Lazy quantifier

Matching 개수에 따라 다르게 사용하는 *,?,+ 들을 수량자(quantifier)라고 합니다. 수량자는 기본적으로 가능한한 큰 덩어리를 찾으려고 하는데, 이는 애초에 수량자가 greedy(탐욕적)하게 설계되었기 때문입니다.

In [32]:
quantifier_str = """
<b>python</b> Hello <b>2016</b>
"""

In [33]:
# b 태그 두개를 찾고 싶었는데, 결과 값이 아래와 같이 나왔네요. 욕심부려서 한꺼번에 많이 가져왔다고 해서 greedy(탐욕적)하다고 말합니다. 
# 수량자는 찾으려는 텍스트를 앞에서부터 찾는 것이 아니라, 텍스트 마지막에서 시작해서 거꾸로 찾기 떄문입니다.
re.findall("<[bB]>.*</[bB]>", quantifier_str)

['<b>python</b> Hello <b>2016</b>']

In [34]:
# 수량자(quantifier)뒤에 ?를 붙이면 게으른(Lazy) 수량자가 됩니다.
re.findall("<[bB]>.*?</[bB]>", quantifier_str)

['<b>python</b>', '<b>2016</b>']

---

In [35]:
import pandas as pd
dframe_list = pd.io.html.read_html("https://msdn.microsoft.com/en-us/library/3206d374(v=vs.110).aspx") # pd.read_clipboard()

In [36]:
qf_df = dframe_list[0]
qf_df

Unnamed: 0,0,1,2
0,Greedy quantifier,Lazy quantifier,Description
1,*,*?,Match zero or more times.
2,+,+?,Match one or more times.
3,?,??,Match zero or one time.
4,{n},{n}?,Match exactly n times.
5,"{n,}","{n,}?",Match at least n times.
6,"{n,m}","{n,m}?",Match from n to m times.


In [37]:
qf_df.columns = qf_df.iloc[0]
qf_df.reindex(qf_df.index.drop(0))

Unnamed: 0,Greedy quantifier,Lazy quantifier,Description
1,*,*?,Match zero or more times.
2,+,+?,Match one or more times.
3,?,??,Match zero or one time.
4,{n},{n}?,Match exactly n times.
5,"{n,}","{n,}?",Match at least n times.
6,"{n,m}","{n,m}?",Match from n to m times.



## 참고
- http://regexr.com
- https://msdn.microsoft.com/en-us/library/3206d374(v=vs.110).aspx
- http://blog.vinceliu.com/2008/02/non-greedy-regular-expression-matching.html
- http://www.softpanorama.org/Editors/Vimorama/vim_regular_expressions.shtml