# 정규표현식(Regular expression, regex)

## 1. 정규표현식이란?
- 문자열을 패턴으로 구분한 표현식
- re패키지로 사용 (`import re`)

In [1]:
import re

## 2. 메타문자
- 정규표현식에서 사용하는, 원래 그 문자가 가진 뜻이 아닌 특별한 용도로 사용하는 문자

### 2.1. 문자클래스 `[]`
- `[]`사이의 문자들과 매치
- `[abc]`의 의미는 a, b, c 문자 중 하나만이라도 맞으면 된다는 의미이다.

#### 2.1.1. 범위 표현
- `-`으로 범위를 표시할 수 있다.
- `[A-Za-z]` : 알파벳 전체
- `[0-9]` : 숫자 전체

#### 2.1.2. NOT
- 문자 앞에 `^`을 붙여 not을 표현할 수 있다.
- `[^0-9]`: 숫자가 아닌 문자

#### 2.1.3. 별도표기
- 자주 사용하는 표현의 경우 별도표기가 존재한다.
- 대/소문자는 서로 반대의 경우를 나타낸다.(대문자 = ^소문자)
    - `\d`: 숫자와 매치, `[0-9]`와 동일
    - `\D`: 숫자가 아닌 것과 매치, `[^0-9]`와 동일
    - `\s`: whitespace 문자와 매치, `[ \t\n\r\f\v]`와 동일. ` `(공백), `\t`, `\n`등의 문자를 whitespace문자라고 한다.
    - `\S`: whitespace 문자가 아닌 것과 매치, `[^ \t\n\r\f\v]`와 동일
    - `\w`: 문자+숫자(alphanumeric)와 매치, `[a-zA-Z0-9_]`와 동일
    - `\W`: 문자+숫자(alphanumeric)가 아닌 문자와 매치, `[^a-zA-Z0-9_]`와 동일

### 2.2. 점 `.`
- 줄바꿈 문자 `\n`을 제외한 모든 문자와 매치
- `[.]`의 경우?

- `a.b` vs `a[.]b`

### 2.3. 반복
- 바로 앞의 문자를 몇개든 반복하는 값이 있으면 매치
- `*`, `+`, `{}`, `?` 메타문자

#### 2.3.1. `*`
- 앞의 문자를 0~무한대(2억개)까지 반복하는 어떤 문자든 매치

- `ca*t`

- ct?

- cat?

- caat?

#### 2.3.2. `+`
- 앞의 문자를 1~무한대(2억개)까지 반복하는 어떤 문자든 매치

- `ca+t`

- ct?

- cat?

- caat?

#### 2.3.3. `{}`
- `{최소반복횟수,최대반복횟수}`
- 앞의 문자를 최소반복횟수만큼은 반복하고 최대반복횟수보다는 적게 반복하는 문자와 매치
- `{2}`: 딱 두번 반복
- `{2,}`: 두번 이상~무한대 반복
- `{,2}`: 반복횟수 두번 이하

- `ca{2}t`

- ct?

- cat?

- caat?

- caaat?

- `ca{2,}t`

- ct?

- cat?

- caat?

- caaat?

- `ca{,2}t`

- ct?

- cat?

- caat?

- caaat?

- `ca{1,3}t`

- ct?

- cat?

- caat?

- caaat?

#### 2.3.4. `?`
- 앞의 문자가 있어도 되고 없어도 되고
- `{0,1}`과 같은 의미

- `ca?t`

- ct

- cat

- caat

### 2.4. 그룹지정 메타문자 `()`
- 소괄호 안에 있는 부분을 각기 다른 그룹으로 지정한다.
- 후에 더 자세히 서술

### 2.5. 위치지정 메타문자 `^`, `$`
- 문자 앞에 `^`메타문자가 붙어있다면 이 패턴은 문자열의 맨 처음부터 맞아야만 한다.
- 문자 뒤에 `$`메타문자가 붙어있따면 이 패턴은 문자열의 가장 뒤에 있어야만 한다.
- `[]` 안에 쓰이는 `^`메타문자와는 뜻이 다르다.
- `^happy.*python$`

### 2.6. 메타문자 escape sequence `\`(backslash)
- 메타문자나 `\`(backslash) 자체를 regex의 조건 문자로 쓰고 싶을 땐 바로 앞에 `\`를 한번 더 붙여주면 된다.

## * %d 등에 사용하는 `%`와 \n등에 사용하는 `\`의 정확한 용어를 알고 계신가요?

- `%`: format specifier(형식지정자)
- `\`: escape sequence(탈출문자열, 이스케이프 문자, 이스케이프 시퀀스)

## 3. 정규표현식 함수

- compile
    - 해당 정규 표현식을 패턴으로 만들겠다는 뜻

In [1]:
import re
p = re.compile("[a-z]+")
s = "python9python"
p.search(s)

<_sre.SRE_Match object; span=(0, 6), match='python'>

In [2]:
pattern = re.compile("[a-z]+")

- match
    - 해당 문자의 처음부터 패턴을 검사함

In [3]:
match = pattern.match("python")
match

<_sre.SRE_Match object; span=(0, 6), match='python'>

In [4]:
match = pattern.match(" python")
match

- match메서드의 결과확인 메서드(match, search 모두 동일 메서드 제공)
    - .group()
    - .groups()
    - .start()
    - .end()
    - .span()

In [5]:
match = pattern.match("python")
match.group()

'python'

- 그룹지정 메타문자 `()`
    - 소괄호 안에 있는 부분을 각기 다른 그룹으로 지정한다.

In [6]:
pattern = re.compile("([a-z]?)([a-z]+)")

In [7]:
match = pattern.match("python")
match.group()

'python'

In [8]:
match.groups()

('p', 'ython')

In [9]:
match.start()

0

In [10]:
match.end()

6

In [11]:
match.span()

(0, 6)

### * compile없이 사용하는 방법?

In [12]:
# 사실 컴파일 함수 없이도 이렇게 사용이 가능하다.
re.match("([a-z]?)([a-z]+)", "python").groups()

('p', 'ython')

In [13]:
# pattern을 미리 정의하고 진행하는 경우
pattern = {1, 2, 3}
pattern.intersection({2, 3, 4})

{2, 3}

In [14]:
# 바로 해당 클래스에서 사용하는 경우
set.intersection({1, 2, 3}, {2, 3, 4})

{2, 3}

- search
    - match 메서드와 비슷하지만, search는 문자열의 처음부터 맞아야 하는 것이 아닌, 문자열 전체 중에서 맞는 부분이 있으면 결과를 반환한다

In [15]:
pattern = re.compile("([a-z]?)([a-z]+)")
search = pattern.search(" python") # match함수는 문자의 첫자리부터 맞는지 확인하므로 결과값 없음
search.groups()

('p', 'ython')

In [16]:
search.span()

(1, 7)

In [17]:
pattern = re.compile("^happy.*python$")
st_end = pattern.search(" hi happy python day!")
print(st_end)

None


In [18]:
pattern = re.compile("^happy.*python$")
st_end = pattern.search("happy merry christmas! python")
print(st_end)

<_sre.SRE_Match object; span=(0, 29), match='happy merry christmas! python'>


- findall
    - 해당 문자열에서 패턴에 맞는 모든 문자들을 리스트 형태로 반환

In [19]:
pattern = re.compile("[a-z]+")
findall = pattern.findall(" hi happy python day!")
findall

['hi', 'happy', 'python', 'day']

In [20]:
pattern = re.compile("([a-z]?)([a-z]+)")
findall = pattern.findall(" hi happy python day!")
findall

[('h', 'i'), ('h', 'appy'), ('p', 'ython'), ('d', 'ay')]

- sub

In [21]:
pattern = re.compile("happy")
sub = pattern.sub("awesome", " hi happy python day!") # ("해당되는 패턴을 바꿀문자열", 전체 문자열)
sub

' hi awesome python day!'

In [22]:
re.sub("happy", "awesome", " hi happy python day!") # ("패턴", "해당되는 패턴을 바꿀문자열", 전체 문자열)

' hi awesome python day!'

## 예제

### 그루핑 예제

In [23]:
import string
pt = string.printable
print(pt)

0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~ 	



In [24]:
result = re.findall("([0-9]+)([a-z]{2})", pt)
print(result)

[('0123456789', 'ab')]


### 예제

In [25]:
# 이메일 주소 찾기
s = "저의 이메일 주소는 pdj1224@gmail.com 입니다. 또한 radajin1224@gmail.com 도 가지고 있습니다."
p = "[0-9a-zA-Z_.]+@[0-9a-z]+\.[0-9a-z]+"
re.findall(p, s)

['pdj1224@gmail.com', 'radajin1224@gmail.com']

In [7]:
# 주민등록번호 : group 나눠서 변경 : 761211-1023334 -> 761211-*******
# () 그룹핑을 사용
# \g<index>: index번째 그룹 표현 표현식
s = "저의 주민번호는 761211-1023334 또는 7612111023334 입니다."
p = "([0-9]{6})[-]?([1-4][0-9]{6})"
print(re.findall(p, s))
re.sub(p, "\g<1>-*******", s)

[('761211', '1023334'), ('761211', '1023334')]


'저의 주민번호는 761211-******* 또는 761211-******* 입니다.'

## * Greedy search vs Lazy(non-greedy) search
- 정규표현식은 기본적으로 "탐욕스런" 검색(~=최대검색)을 한다. (해당 조건이 맞는 가장 긴 결과를 출력한다.)
- 이와 반대되는 개념은 해당 조건의 최소매칭을 검색하는 것

- "a (b) c (d) e" 요 문자열에서 (b)만 꺼내고 싶다.
- 작성해야 할 패턴문은?

- `\(.*\)`

# 자 돌려보자!

In [None]:
x = "a (b) c (d) e"
greedy = re.search("\(.*\)", x).group()
greedy

# ????
- 처음 시작 (와 끝 )사이에 있는 모든 문자를 싹다 가져와버렸네...
- `(b)`만 가져오려면..?
- 반복 메타문자 뒤에 `?`를 붙여주면 최소검색!

In [27]:
x = "a (b) c (d) e"
greedy = re.search("\(.*\)", x).group()
lazy = re.search("\(.*?\)", x).group()
greedy, lazy

('(b) c (d)', '(b)')

##### Quiz 1
- `1234-5678-2345-6789` `1234 5678 2345-6789` 와 같은 카드 번호가 입력되면 가장 마지막 4자리를 `*`로 변경하는 코드를 작성하세요.

    ```
    comment = "저의 카드 번호는 1234-2331-1123-9485와 7384 1234 5432 1222와 73841234-5432 1222 입니다."
    ```

##### Quiz 2
- 중고나라 전화번호 패턴 찾아서 전화번호 숫자로 바꾸는 코드를 작성하세요.
- 01o일이삼3구칠82 -> (정규표현식 패턴 + sub) -> 01012339782
- 아래의 문자열을 정규표현식을 이용하여 숫자로된 전화번호만 추출하는 코드를 작성하세요.

    ```
    s = "안녕하세요, 저의 전화번호는 영일공-48구삼삼7이사 그리고 010사팔구삼삼구삼일 입니다. 둘중에 하나로 연락하세요"
    ```

- 결과

    ```
    '01048933724', '01048933931'
    ```