<center><img src='https://raw.githubusercontent.com/Jangrae/img/master/title.png' width=500/></center>

# 9.정규 표현식

- Python 만의 기능이 아닌, 문자열을 다루는 여러 곳에서 사용되는 공통된 표현식입니다.
- 다소 이해하기 어려울 수 있지만, 알아두면 정말 편리한 기능입니다.


## 9.1.정규식 사용 전/후 비교

- 기존의 반복문으로 처리하던 것을 정규 표현식으로 처리하면 코드가 단순해집니다.
- 물론 정규식에 대해 알지 못하면 암호(?)같은 느낌일 것입니다.
- 우선 다음과 같이 이름과 전화번호가 섞여 있는 문자열이 있습니다.

In [38]:
# 이름과 전화번호가 섞여 있는 문자열
peoples = '홍길동: 010-1234-5678 한사랑: 010-4321-8765 일지매: 010-2143-6587'

- 위 문자열에서 전화번호 뒤 네 자리를 XXXX로 변경하려고 합니다.
- 기존 반복문과 정규식을 사용하는 방법 중 무엇이 간결한지 비교합니다.

**1) 기존 반복문으로 처리**

- 기존 반복문으로 전화번호 뒤 네 자리를 XXXX로 변경합니다.

In [None]:
# 전화번호 뒷자리 숨기기
phone_x = []
for word in peoples.split(' '):
    if len(word) == 13 and word[:3].isdigit() and word[4:8].isdigit() and word[9:13].isdigit():
        word = word[0:8] + '-XXXX'
        phone_x.append(word)
    else:
        phone_x.append(word)
peoples_new = ' '.join(phone_x)
print(peoples_new)

**2) 정규식으로 처리**

- 정규식으로 전화번호 뒤 네 자리를 XXXX로 변경합니다.



In [40]:
# 전화번호 뒷자리 숨기기
import re
re.sub(r'(\d{3}[-]\d{4})[-]\d{4}', r'\g<1>-XXXX', peoples)

'홍길동: 010-1234-XXXX 한사랑: 010-4321-XXXX 일지매: 010-2143-XXXX'

- 위 구문은 다음과 같이 작성할 수도 있습니다.
- 특정 패턴을 이후에 반복해서 사용할 때 좋은 방법입니다.

In [42]:
# 전화번호 뒷자리 숨기기
import re
pat = re.compile(r'(\d{3}[-]\d{4})[-]\d{4}')
pat.sub(r'\g<1>-XXXX', peoples)

'홍길동: 010-1234-XXXX 한사랑: 010-4321-XXXX 일지매: 010-2143-XXXX'

<img src='https://raw.githubusercontent.com/jangrae/img/master/practice_01.png' width=120 align = "left"/>

[문1] 위 코드를 참조하여 다음 코드의 의미를 파악하세요.

In [44]:
# 이름과 주민번호가 섞여 있는 문자열
peoples = '홍길동: 800104-1049234 일지매: 760405-1052114'

# 주민번호 뒷자리 숨기기
rsdn_x = []
for word in peoples.split(' '):
    if len(word) == 14 and word[:6].isdigit() and word[7:].isdigit():
        word = word[:6] + '-*******'
        rsdn_x.append(word)
    else:
        rsdn_x.append(word)
peoples_new = ' '.join(rsdn_x)
print(peoples_new)

홍길동: 800104-******* 일지매: 760405-*******


[문2] 위 코드를 정규식을 사용하는 방법으로 재작성하세요.

In [46]:
# 이름과 주민번호가 섞여 있는 문자열
peoples = '홍길동: 800104-1049234 일지매: 760405-1052114'

# 주민번호 뒷자리 숨기기
import re
pat = re.compile('(\\d{6})[-]\\d{7}')
pat.sub('\\g<1>-*******', peoples)


'홍길동: 800104-******* 일지매: 760405-*******'

## 9.2.기본적인 정규식

- 정규식을 사용하려면 re 라이브러리를 불러와야 합니다.

In [None]:
# 모듈 불러오기
import re

- 다음과 같은 메서드를 사용해 특정 패턴의 문자열을 확인할 수 있습니다.
    - match() 메서드: 문자열 처음부터 정규식과 매치 여부를 확인합니다.
    - search() 메서드: 문자열 전체를 대상으로 정규식과 매치 여부 확인합니다.
    - findall() 메서드: 정규식과 매치되는 모든 문자열을 리스트 형태로 반환합니다.
    - finditer() 메서드: 정규식과 매치되는 모든 문자열을 반복 가능한 개체로 반환합니다.

### 9.2.1.특정 문자 또는 문자열 포함 여부 확인

- match() 메서드는 문자열 처음부터 정규식와 매치 여부를 확인합니다.

In [50]:
# 맨 앞에 'a' 문자가 있는지 확인
string = 'I have a Dream.'
re.match('a', string)

- search() 메서드는 문자열 전체를 대상으로 정규식과 매치 여부를 확인합니다.

In [53]:
# 문자열에 'a' 문자가 있는지 확인
string = 'I have a Dream.'
re.search('a', string)

<re.Match object; span=(3, 4), match='a'>

- 조건문을 사용해 문자열에서 특정 문자 또는 문자열이 존재하는 지 표시할 수 있습니다.

In [56]:
string = 'I have a Dream.'
result = re.search('a', string)
if result:
    print('찾음')
else:
    print('못찾음')

찾음


- 매치된 결과를 다음과 같은 메서드로 확인할 수 있습니다.
    - group():	매치된 문자열을 반환합니다.
    - start():	매치된 문자열의 시작 위치를 반환합니다.
    - end():	매치된 문자열의 끝 위치를 반환합니다.
    - span():	매치된 문자열의 (시작, 끝)에 해당하는 튜플을 반환합니다.

In [59]:
# 'a' 문자 찾기
string = 'I have a Dream.'
result = re.search('a', string)
print(result.group())
print(result.start())
print(result.end())
print(result.span()) # (result.start , result.end)

a
3
4
(3, 4)


In [None]:
# 'Dream' 문자열 찾기
string = 'I have a Dream.'
result = re.search('Dream', string)
print(result.group())
print(result.start())
print(result.end())
print(result.span())

- findall() 메서드는 정규식과 매치되는 모든 문자열을 리스트 형태로 반환합니다.

In [None]:
# 'a' 문자 찾기
string = 'I have a Dream.'
re.findall('a', string)

In [None]:
# 'ave' 문자열 찾기
string = 'I have a Dream.'
re.findall('ave', string)

- finditer() 메서드는 정규식과 매치되는 모든 문자열을 반복 가능한 객체로 반환합니다.
- 반복 가능하다는 것은 반복문에 사용가능하다는 의미입니다.

In [None]:
# 반복문으로 표시
string = 'I have a Dream.'
result = re.finditer('a', string)
for i in result:
    print(i)

### 9.2.2.나열된 문자 포함여부 확인

- 대괄호([ ]) 안에 문자를 나열하여 그 문자들 포함 여부를 확인합니다.

In [None]:
# 'a', 'h', 'm' 문자 찾기
string = 'I have a Dream.'
re.findall('[ahm]', string)

In [None]:
# 'a', 'v', 'e' 문자 찾기
string = 'I have a Dream.'
re.findall('[ave]', string)

In [None]:
# 같은 문자 한 번만 표시
string = 'I have a Dream.'
result = list(set(re.findall('[ave]', string)))
result.sort()
print(result)

- ^를 사용해 나열되지 않은 문자들 포함 여부를 확인할 수 있습니다.

In [None]:
# 'a', 'v', 'e' 이외의 문자 찾기
string = 'I have a Dream.'
result = list(set(re.findall('[^ave]', string)))
result.sort()
print(result)

### 9.2.3.범위 안의 문자 포함여부 확인

- 빼기 기호(-)를 사용해 문자의 범위를 지정합니다.

In [None]:
# 'a' ~ 'm' 문자 찾기
string = 'I have a Dream.'
re.findall('[a-m]', string)

In [None]:
# 'a' ~ 'm' 문자 찾기(대/소문자 무시)
string = 'I have a Dream.'
re.findall('[a-mA-M]', string)

In [None]:
# 'a' ~ 'm' 이외의 문자 찾기(대/소문자 무시)
string = 'I have a Dream.'
re.findall('[^a-mA-M]', string)

In [None]:
# 숫자 찾기 #1
string = 'I am 20 years old.'
re.findall('[0-9]', string)

In [None]:
# 숫자 찾기 #2
string = 'I am 20 years old.'
re.findall('[0-9]+', string)

### 9.2.4.두 문자 사이의 문자 포함여부 확인

- 정규식의 Dot(.) 메타 문자는 줄바꿈 문자인 \n을 제외한 모든 문자와 매치됩니다.

In [None]:
# 'a'와 'e'문자 사이에 문자 하나를 포함하는 문자열 확인
string = 'I have a Dream.'
re.findall('a.e', string)

In [None]:
# 'r'과 'm'문자 사이에 문자 하나를 포함하는 문자열 확인
string = 'I have a Dream.'
re.findall('r.m', string)

### 9.2.5.문자 반복 확인

- 문자의 반복을 확인하는 여러 메타 문자가 있습니다.

In [None]:
# o가 0회 이상 반복된 경우
string = 'cl col Coor coool pool cooool'
re.findall('co*l', string)

In [None]:
# o가 1회 이상 반복된 경우
string = 'cl col Coor coool pool cooool'
re.findall('co+l', string)

In [None]:
# o가 1회 반복된 경우
string = 'cl col Coor coool pool cooool'
re.findall('co{1}l', string)

In [None]:
# o가 1 ~ 4회 반복된 경우
string = 'cl col Coor coool pool cooool'
re.findall('co{1,4}l', string)

In [None]:
# o가 0 ~ 1회 반복된 경우
string = 'cl col Coor coool pool cooool'
re.findall('co?l', string)