# 정규식(regular expression)

복잡한 문자열 패턴을 정의하는 문자열을 정규식(regex, regexp)이라고 한다.
정규식을 구현한 패키지는 `re`인데 문자열 패턴을 정의하고 정의된 패턴에 부합하는 문자열을 검색하고 추출하는 기능도 제공한다.

정규식은 문자열의 집합이나 문자열의 집합 간의 연산을 나타내는 상수들로 구성된다.
문자열의 집합을 나타내기 위해 이 집합의 원소들이 만족해야 하는 패턴을 나타낸 것이 정규식이다.
그리고 패턴을 나타내기 위해 메타 문자(metacharacter)라고 하는 특별한 기호를 사용한다.

1. `ㅣ`: or 논리 연산자이다. 예를 들어 정규식 `gray|grey`는 `gray` 또는 `grey`를 나타낸다.
2. `()`: 패턴을 평가하기 위한 연산의 범위와 우선 순서를 나타내기 위해 ()로 감싸 집단화한다. 예를 들어, 정규식 `gray|grey`와 `gr(a|e)y`는 동일한 패턴을 나타낸다.
3. 반복 지정자(quantifier):  문자 또는 ()로 감싼 집단 뒤에 사용되어 앞의 문자 또는 집단이 몇 번 반복되는지를 지정한다. ?, *, +, {n}, {m, n} 등이 있다.
    * `?`: 0 또는 1번의 반복을 나타낸다. 예를 들어, `colou?r`은 `color` 또는 `colour`를 나타내는 정규식이다.
    * `*`: 0번 이상의 반복을 나타낸다. 예를 들어,  `ab*c`는 `ac`, `abc`, `abbc`, `abbbc` 등의 문자열을 나타내는 정규식이다.
    * `+`: 1번 이상의 반복을 나타낸다. 예를 들어, `ab+c`는 `abc`, `abbc`, `abbbc` 등의 문자열을 나타내는 정규식이다.
    * `{m}`:	정확히 n번 반복되는 것을 나타낸다.
    * `{m,}`: m번 이상의 반복을 나타낸다.
    * `{m,n}`: m번 이상 n번 미만의 반복을 나타낸다.
4. `.`: 줄바꿈 문자를 제외한 임의 문자 하나를 나타낸다.
5. `^`: 문자열의 시작을 나타내는 메타 문자이며, 메타 문자 `[]` 안에 사용되면 `[]` 기재된 문자가 아닌 문자를 나타내는 메타 문자이다.
6. `$`: 문자열의 끝을 나타내는 메타 문자이지만, 메타 문자 `[]` 안에 사용되면 `$` 문자를 의미한다.
7. `[]`: `[]` 안에 기재된 문자 중 한 문자를 나타내는 메타 문자이다.
8. `\\`: `\`
9. `\d`: `[0-9]`, `[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]`와 동일하다.
10. `\D': `[^0-9]`와 동일하다.
11. `\s`: 한 개의 공백문자를 나타낸다. `[\t\n\r\f\v]`와 동일하다.
12. `\S`: 공백문자가 아닌 한 개의 문자를 나타낸다.
13. `\w`: 숫자 또는 영문자인 한 개의 문자를 나타낸다. `[a-zA-Z0-9]`와 동일하다.
14. `\W`: 숫자 또는 영문자가 아닌 한 개의 문자를 나타낸다.
15. `\b`: 단어의 경계를 나타내는 문자를 나타내는 메타문자로 공백문자, 영문자나 숫자가 아닌 문자를 나타낸다.
16. `\B`: 단어의 경계를 나타내는 문자가 아닌 문자를 나타내는 메타 문자이다.

## 정규식 예제

1. '[0-9]': 0, 1, ..., 9 중 하나의 정수
2. '[0-9]'+: 한 자리 이상의 정수, '\d+'와 동일함.
3. '\s*\d+': 0개 이상의 공백문자 다음에 오는 한 자리 이상의 정수
4. '\s*(\d+)': 0개 이상의 공백문자 다음에 오는 한 자리 이상의 정수가 오는 문자열 뿐만 아니라 일부분인 정수 부분만 추출하고자 할 때의 정규식
5. 'href="(.*)"': href="한 개 이상의 문자로 구성된 문자열" 형태의 문자열 전체 뿐만 아니라 괄호로 감싼 부분만 별도로 추출하기 위한 정규식

In [1]:
fi = open('./datasets/news.txt')
txt = fi.read()
fi.close()
print(txt)

국내 증권업계에서 베트남은 매력적이긴 하나 수익을 내기 어려운 국가라는 인식이 강했다.
10년 전 전세계를 강타한 글로벌 금융위기로 베트남 증시가 휘청이면서 당시 국내에 설정된 베트남 펀드 수익률이 크게 꺾인 아픔도 있다.
하지만 최근 들어 한국 금융투자업계가 베트남 시장의 문을 다시 두드리기 시작했다.
베트남 정부의 적극적인 외국인 투자 유치 정책이 효과를 발휘하면서 베트남 증시는 2017년 한 해 동안 40% 이상 상승했다.
베트남 펀드 수익률도 다시 고공비행 중이다.
인구 1억명의 베트남은 전체 인구의 70%가 생산가능인구(15~64세)인 젊은 국가다.
30세 미만 인구 비중은 주요 신흥국 가운데 인도와 인도네시아 다음으로 높다.
전문가들은 “베트남의 무서운 경제 성장세가 2018년에도 지속될 것”이라고 내다봤다.
KB증권은 지난달 29일(현지시간) 베트남 하노이에서 자회사 ‘KBSV(KB Securities Vietnam)’의 공식 출범 행사를 개최했다.
KBSV의 전신(前身)은 베트남 증권사인 매리타임증권이다. KB증권은 2017년 10월 매리타임증권을 인수한 뒤 약 3달간 재출범 준비를 해왔다.
매리타임증권은 베트남에서 자산 기준 27위, 자기자본 기준 24위의 중소형 증권사였다.
KB증권은 KBSV를 베트남 선두권 증권사로 육성한다는 계획이다.
베트남에 진출했거나 진출 예정인 한국 기업을 위한 인수합병(M&A) 자문, 자금조달 주선, 신사업 추진 컨설팅 등도 지원할 예정이다.



패턴을 나타낼 때 특별한 기호를 많이 사용하기 때문에 되도록이면 raw string으로 입력하는 것이 바람직하다.
`re` 모듈의 `compile()` 함수를 이용해서 패턴을 나타낸 문자열을 컴파일하여 정규식 객체를 생성한다.
다음은 % 기호가 붙은 부분을 추출하는 패턴을 지정하고 컴파일하는 예이다.

In [2]:
import re
pattern = r'\d+%'
regexp = re.compile(pattern)

정규식 객체의 `match()`, `findall()`, `search()` 등의 메소드를 이용해서 문자열을 검색한다.

1. `match()` 메소드는 문자열을 전체가 패턴에 맞는지 검사한다.
2. `search()` 메소드는 패턴에 맞는 첫 번째 부분 문자열을 추출한다.
3. `findall()` 메소드는 패턴에 맞는 모든 부분 문자열을 추출한다.

In [3]:
match = regexp.match(txt)
print(match)

None


In [4]:
match = regexp.search(txt)
print(match)
print(match.group())
print(match.group(1))

<_sre.SRE_Match object; span=(229, 232), match='40%'>
40%


IndexError: no such group

In [5]:
matches = re.findall(regexp, txt)
print(matches)

['40%', '70%']


다음은 % 기호가 붙은 부분에서 % 기호를 제외한 나머지 부분을 추출하는 예이다.

In [6]:
pattern = r'(\d+)%'
regexp = re.compile(pattern)

In [7]:
match = regexp.search(txt)
print(match)
print(match.group())
print(match.group(1))

<_sre.SRE_Match object; span=(229, 232), match='40%'>
40%
40


In [8]:
matches = regexp.findall(txt)
print(matches)

['40', '70']


다음은 괄호로 감싼 부분만 찾아서 괄호 속만 추출하는 예이다.

In [9]:
pattern = r'\((.+?)\)'
regexp = re.compile(pattern)
print(regexp)

re.compile('\\((.+?)\\)')


In [10]:
matches = regexp.findall(txt)
print(matches)

['15~64세', '현지시간', 'KB Securities Vietnam', '前身', 'M&A']


In [11]:
fi = open('./datasets/sample_food_menu.xml', 'r')
xml = fi.read()
fi.close()
print(xml)

<?xml version="1.0" encoding="UTF-8"?>
<breakfast_menu>
  <food>
    <name>Belgian Waffles</name>
    <price>$5.95</price>
    <description>Two of our famous Belgian Waffles with plenty of real maple syrup</description>
    <calories>650</calories>
  </food>
  <food>
    <name>Strawberry Belgian Waffles</name>
    <price>$7.95</price>
    <description>Light Belgian waffles covered with strawberries and whipped cream</description>
    <calories>900</calories>
  </food>
  <food>
    <name>Berry-Berry Belgian Waffles</name>
    <price>$8.95</price>
    <description>Light Belgian waffles covered with an assortment of fresh berries and whipped cream</description>
    <calories>900</calories>
  </food>
  <food>
    <name>French Toast</name>
    <price>$4.50</price>
    <description>Thick slices made from our homemade sourdough bread</description>
    <calories>600</calories>
  </food>
  <food>
    <name>Homestyle Breakfast</name>
    <price>$6.95</price>
    <description>Two eggs, bacon or s

In [15]:
food_pattern = r"<name>(.+?)</name>"
food_re = re.compile(food_pattern)
print(food_re)

re.compile('<name>(.+?)</name>')


In [16]:
foods = food_re.findall(xml)
print(foods)

['Belgian Waffles', 'Strawberry Belgian Waffles', 'Berry-Berry Belgian Waffles', 'French Toast', 'Homestyle Breakfast']


In [20]:
price_pattern = r"<price>\$(\d+\.\d+)</price>"
price_re = re.compile(price_pattern)
prices = price_re.findall(xml)
print(prices)
prices = [float(price) for price in prices]
print(prices)

['5.95', '7.95', '8.95', '4.50', '6.95']
[5.95, 7.95, 8.95, 4.5, 6.95]


In [21]:
import pandas as pd
data = {'food': foods, 'price': prices}
data = pd.DataFrame(data)
data.head()

Unnamed: 0,food,price
0,Belgian Waffles,5.95
1,Strawberry Belgian Waffles,7.95
2,Berry-Berry Belgian Waffles,8.95
3,French Toast,4.5
4,Homestyle Breakfast,6.95


## 연습문제

1. 이메일 주소를 검색하기 위한 정규식을 인터넷에서 검색해보시오.
2. 휴대전화 번호, 유선전화 번호 등의 전화번호를 검색하기 위한 정규식을 인터넷에서 검색해보시오.
3. `datasets` 디렉토리에 있는 `sample.html` 파일에서 특정한 패턴을 문자열을 검색해보시오.
4. `datasets` 디렉토리에 있는 `sample_cd_catalog.xml`에서 CD의 제목과 발매년도를 추출해보시오.