# 정규표현식 축약표현

## \s 란?
white space(스페이스, 탭, 엔터 등등) 문자인 것 찾을때 사용하고,[\t\n\r\f\v]의 축약표현임

- 참고

참고
여기서 \r은 Carriage Return으로 개행문자, \n도 개행문자다. 두 차이는 \n은 단순히 다음 줄로 넘어가는 것을 말한다. 그냥 엔터같은 느낌이다. 하지만 \r은 앞에 공백이 있을 경우 그 공백이 없어지고 뒤에 문자열이 온다. 즉, \r은 커서를 제일 앞으로 보낸 후 문자열을 입력한다.

\v는 vertical tab(수직 탭)으로, 프린터의 수직 이동을 빠르게 하기 위해 사용되었다고 함. 지금은 딱히 사용하지 않음. 파이참 에디터에서 출력해보면 띄어쓰기보다 살짝 작게 띄어쓰기하는 화이트스페이스 임을 알 수 있다.

\f는 form feed인데, 파이참에서 출력해보면 \v와 비슷함. 하지만 터미널 횐경에서 출력해보면

```text
“Hello\fWorld”

출력:
Hello
     World
```

이와 같이 출력됨. 즉, \f 바로 다음부터는 다음줄 바로 아래로 옮긴후 뒤 문자를 출력함. \v도 마찬가지임

## \S(대문자) 란?
[^ \t\n\r\f\v]의 축약표현임, 즉 white space가 아닌 문자를 찾을 때 사용. 예를들어 알파벳이나 숫자 같은 문자 찾을때

- 주의해야할 점은잘보면 ^뒤에 space(공간)가 있음. 그냥 단순히 띄어쓰기가 아니라 그 space도 포함해서 ^(not)하겠다는 것임.
- [^ \t\n\r\f\v] (O)
- [^\t\n\r\f\v] (X)

In [285]:
import re

pattern = r'\S'
pattern = re.compile(pattern)
text = 'a1b2 c  '
print(pattern.findall(text))

pattern = r'[^ \t\n\r\f\v]'
pattern = re.compile(pattern)
text = 'a1b2 c  '
print(pattern.findall(text))

['a', '1', 'b', '2', 'c']
['a', '1', 'b', '2', 'c']


## \b 란?
\b는 단어 경계(word boundary)로, 단어와 비단어 문자 간의 경계를 의미

In [26]:
# \bcar <- 이렇게 쓰면 car(~어쩌구~)에서 car를 뽑아낼 수 있음
print(r"\bcar")
print(re.findall(r'\bcar', 'car'))
print(re.findall(r'\bcar', '1car'))
print(re.findall(r'\bcar', 'car1'))

print()
print(r"\bcar\b")
# \bcar\b <- 이렇게 쓰면 딱 car
print(re.findall(r'\bcar\b', 'car'))
print(re.findall(r'\bcar\b', '1car'))
print(re.findall(r'\bcar\b', 'car1'))

\bcar
['car']
[]
['car']

\bcar\b
['car']
[]
[]


## \d 란?

\d는 숫자(digit)로, [0-9]를 축약표현한 것이다. 만약 \d{2} 이렇게 쓰면 연속된 두개의 숫자를 찾겠다는 것을 의미하고, 만약 \d{3,4}이렇게 쓰면 최소 3번이상, 최대 4번까지 반복되는 숫자를 찾겠다는 의미다.

## \D 란?
[^0-9]의 축약표현

## 정규표현식에서 괄호 
- [] 이거는 문자집합

- () 이거는 그룹

# 문자반복관련 정규표현식

## *란?
*는 바로 앞에 문자패턴이 0회 이상 반복되는 것을 의미

In [41]:
#사용예시
import re

text = "a가 있고, b도 있고, bb도 있고, ba도 있고 baa도 있다."
pattern = r"b[a]*"
print(re.findall(pattern,text))

# 정규표현식을 b[a]* 이렇게 작성하면
# b가 나오고 그 바로뒤에 a가 안나올 수도 있고, 나올수도있는 모든 경우를 매치시킨다.

['b', 'b', 'b', 'ba', 'baa']


## .(점)이란?
.(점)은 바로 앞에 문자패턴이 딱 1회만 있는 것을 의미

In [143]:
import re

## 'A.C'에서 .은 한개의 문자를 뜻한다 따라서 A와 C사이에 문자가 0개 또는 2개 이상인 경우는 매치하지않는다.
pattern = re.compile('A.C') #패턴 객체 생성
print(pattern.search('ABC'))
print(pattern.search('A1C'))
print(pattern.search('A11C'))
print(pattern.search('AC'))

<re.Match object; span=(0, 3), match='ABC'>
<re.Match object; span=(0, 3), match='A1C'>
None
None


## ?(물음표)란?
앞에 문자가 없거나 1번만 표시되는 패턴찾을 때 사용(있거나 없거나)

## +(플러스)란?
앞에 문자가 1회 이상 반복되는 패턴찾을 때 사용

## n번 반복에 대한 옵션은 어떻게 할까?

{n} 또는 {m,n} 사용하면 된다.

- {n} 이것은 찾는 문자 패턴이 n번만 반복한다는 의미
- {m,n} 이것은 찾는 문자 패턴이 m 이상 n 이하 반복한다는 의미

# 정규표현식관련 파이썬 라이브러리

## match VS search

In [164]:
import re
pattern = re.compile(r'[a-z]+')

print(pattern.match('Hello'))
print(pattern.search('Hello'))
# match는 처음부터 매치가 안되면 문자열 패턴을 찾지 않고,
# search는 처음에 매치 안되도 두번째 문자부터 패턴을 다시 찾아낸다.

None
<re.Match object; span=(1, 5), match='ello'>


## split

In [169]:
import re
pattern = re.compile(r':')
text = '안녕:하십니까'
print(pattern.split(text))

['안녕', '하십니까']


# 정규표현식 활용

## 정규표현식 활용1 - 핸드폰 번호 매치시키기

In [36]:
text = "제 예전 핸드폰 번호는 010-123-4567 이었고, 지금 핸드폰 번호는 010-1234-5678 입니다."
pattern = r"\b010-\d{3,4}-\d{4}\b"
# 꼭 r(raw string)을 붙여야 한다. 이스케이프 문자 해석하지 않고 그대로 출력하기 위함
print(re.findall(pattern,text))

['010-123-4567', '010-1234-5678']


## 정규표현식 활용2 - 주민번호 매치시키기

In [153]:
text ='''
이것은 유효한 주민번호일까? 990101-1999999 이건 정상 992102-9887777 이건 이상한 주민번호.
980230-1234567 이것도 정상, 9703301234567 이건 하이픈이 없지만 그래도 정상 주민번호.
'''
pattern = r"(\d{2}([0]\d|[1][0-2])([0][1-9]|[1-2]\d|[3][0-1])[-]*[1-4]\d{6})"
print(re.findall(pattern,text))

# 정상적인 주민번호만 추출하는 것을 확인할 수 있다.
# re.findall을 사용하면 괄호 친것에 대해서 매치되는것을 튜플에 담아서 출력하는 것 같다.

[('990101-1999999', '01', '01'), ('980230-1234567', '02', '30'), ('9703301234567', '03', '30')]


In [256]:
text ='''
이것은 유효한 주민번호일까? 990101-1999999 이건 정상 992102-9887777 이건 이상한 주민번호.
980230-1234567 이것도 정상, 9703301234567 이건 하이픈이 없지만 그래도 정상 주민번호.
'''
pattern = r"(\d{2}([0]\d|[1][0-2])([0][1-9]|[1-2]\d|[3][0-1])[-]*[1-4]\d{6})"
pattern = re.compile(pattern)
print(pattern.findall(text))

# 정상적인 주민번호만 추출하는 것을 확인할 수 있다.
# re.findall을 사용하면 괄호 친것에 대해서 매치되는것을 튜플에 담아서 출력하는 것 같다.

[('990101-1999999', '01', '01'), ('980230-1234567', '02', '30'), ('9703301234567', '03', '30')]


## 아래 정규표현식을 해석해보자
- (\d{2}([0]\d|[1][0-2])([0][1-9]|[1-2]\d|[3][0-1])[-]*[1-4]\d{6}) 

### \d{2}
이 부분은 주민번호 앞자리 생년월일중 연도에 해당한다. 숫자 두자리를 아무거나 올 수 있다는 것을 의미한다.

### ([0]\d|[1][0-2])
이 부분은 주민번호 앞자리 생년월일중 월에 해당한다. 앞에 0 하나가 오면 뒤에 아무 숫자 상관없이 온다. 또는 앞에 1 하나가 오면 뒤에 0~2숫자 하나가 온다.(이렇게 만든 이유는 13월, 14월과 같이 이상한 생년월일 가진 주민번호가  매치되는 것을 방지하기 위해)

### ([0][1-9]|[1-2]\d|[3][0-1])
이 부분은 주민번호 앞자리 생년월일중 일에 해당한다. 앞에 0이 오면 뒤에 아무숫자 한개 상관없이 온다. 또는 앞에 1 ~ 2사이의 수 하나오면 뒤에 아무숫자 상관없이 하나 올 수 있고, 앞에 3이 하나오면 뒤에 숫자는 0~1사이의 수 하나가 온다.(이렇게 만든 이유는 32일, 33일 같은 이상한 생년월일 가진 주민번호가 매치되는 것을 방지하기 위해)

### [-]*
하이픈이 있거나 없거나 다 매치 시키겠다는 의미(하이픈 0개 이상이면 다 매치). 위 출력에서도 보면 알 수 있듯 9703301234567 이렇게 하이픈 없이 작성된 주민번호도 매치되었다.

### [1-4]\d{6}
이 부분은 주민번호 뒷자리 부분으로, 주민번호 뒷자리 맨 앞이 첫자리가 1~4이면서, 그 뒤로 나머지 6자리가 아무숫자가 오면 매치 시키겠다는 의미다.


## 정규표현식 활용3 - 뒤에 대괄호와 그 안에 숫자가 들어간 형태 지우기

In [218]:
import re

text = "(정규표현식) - REGEX를 연습해보자 [2]"
pattern = '\[[0-9]+\]'
print(re.sub(pattern, '', text))

#여기서 역슬래시(\)는 이스케이프 문자로 \[ 이렇게 쓰면 [ 이 괄호 자체를 나타냄
#[0-9]+는 하나 이상의 수를 의미

(정규표현식) - REGEX를 연습해보자 


## 정규표현식 활용4 - 주민번호 뒷자리 가리기

In [219]:
text = "990101-1234567"
pattern = r'-[0-9]{7}'
print(re.sub(pattern,'-*******',text))

990101-*******


### 주민번호 뒷자리 가리는 또 다른 방법

In [239]:
text = "123456-1234567"
pattern = re.compile(r"(\d{6}-\d{1})\d{6}") # 성별이 남자인것만
print(pattern.match(text))
print(pattern.sub("\g<1>******", text)) 
# \g<1>은 위 re.compile부분에서 ()괄호로 묶었던 첫번째 그룹을 뜻한다

pattern = re.compile(r"(\d{6}-)\d{7}") # 성별이 남녀모두
print(pattern.match(text))
print(pattern.sub("\g<1>******", text)) 


<re.Match object; span=(0, 14), match='123456-1234567'>
123456-1******
<re.Match object; span=(0, 14), match='123456-1234567'>
123456-******


## 정규표현식 활용5 - 핸드폰 번호 뒷자리 가리기

In [250]:
text = "010-1234-5678"
pattern = r"\d{4}$"  # $는 정규 표현식에서 문자열의 끝을 나타내는 메타 문자,(참고:문자열의 앞을 나타내는 메타 문자는 ^)
print(re.sub(pattern, "****", text))
# 이 방법은 별로 좋지 않음 그 이유는 핸드폰번호가 꼭 맨 끝 문자열에 온다는 보장이 없으므로

010-1234-****


### 핸드폰 번호 뒷자리 가리는 또 다른 방법 (그룹이용\g<1>)

In [241]:
text = "010-1234-5678"
pattern = r"(\d{3}-\d{4}-)\d{4}" 
print(re.sub(pattern, "\g<1>****", text))

010-1234-****


### 핸드폰 가운데 4자리도 가려보기

In [245]:
text = "010-1234-5678"
pattern = r"(\d{3}-)\d{4}(-\d{4})"  # $는 정규 표현식에서 문자열의 끝을 나타내는 메타 문자
print(re.sub(pattern, "\g<1>****\g<2>", text))

010-****-5678


# 정규표현식 띄어쓰기에 따른 차이

In [280]:
matches = re.findall(r'([^ \t\n\r\f\v]+) ', "Hello world")
print(matches)  # 출력: ['Hello']

matches = re.findall(r'([^ \t\n\r\f\v]+ )', "Hello world")
print(matches)  # 출력: ['Hello ']

matches = re.findall(r'([^ \t\n\r\f\v]+)', "Hello world")
print(matches)  # 출력: ['Hello’, ‘world’]

matches = re.findall(r'([^\t\n\r\f\v]+)', "Hello world")
print(matches)  # 출력: ['Hello world']
 
#띄어쓰기가 어디서 있는지 없는지에 따라서 결과가 다름.

['Hello']
['Hello ']
['Hello', 'world']
['Hello world']


In [287]:
matches = re.findall(r'( [^ \t\n\r\f\v]+)', "Hello world")
print(matches)  # 출력: [' world']

matches = re.findall(r' ([^ \t\n\r\f\v]+)', "Hello world")
print(matches)  # 출력: ['world']

#괄호를 중심으로 추출하는 것을 알 수 있다. 따라서 두 결과가 다르다. 물론 매칭은 똑같이 하지만
#괄호 안쪽에 스페이스가 있으면 스페이스도 같이 추출하고, 밖에 있으면 스페이스를 추출하지않음

[' world']
['world']
