In [1]:
import re

## 문자 클래스
- \d -> 숫자 [0-9]
- \D -> 비숫자 [^0-9]
- \w -> 숫자 + 문자 [a-zA-Z0-9]
- \W -> 숫자 + 문자가 아닌 것 [^a-zA-Z0-9]
- \s -> 공백[\t\n\r\f\v]
- \S -> 비공백 [^\t\n\r\f\v]
- \b -> 단어 경계('\w'와 '\W'의 경계)
- \B -> 비단어 경계

## 집전화번호
- 0[2-6][1-5]?(\)|-)?[2-9]\d{2,3}-\d{4}
- 지역본호 같은 경우 - 또는 )로 받도록 하고 국번호와 개별번호 사이는 -가 올때 체크

In [14]:
# 집전화번호 정규식 컴파일
집전화번호 = re.compile("0[2-6][1-5]?(\)|-)?[2-9]\d{2,3}-\d{4}")

In [15]:
#제대로 매치되는지 확인
집전화번호.match("031-511-1335")

<re.Match object; span=(0, 12), match='031-511-1335'>

In [16]:
#틀린 형식의 번호를 했을때 매치되지 않는다.
집전화번호.match('010-4943-1481')

## IP주소
- ((25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)
- 1 ~ 199, 200 ~ 249, 250 ~ 255 사이의 숫자이면서 뒤에 '.'이 있는 텍스트가 3번 반복되는 것을 체크

In [17]:
ip = re.compile('((25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)')

In [18]:
#제대로된 형식의 ip주소 매치 확인
ip.match('127.0.0.2')

<re.Match object; span=(0, 9), match='127.0.0.2'>

In [20]:
#틀린 형식의 ip주소 매치 확인
ip.match('300.255.255.255')

## 우편번호
- 구 우편번호 : \d{3}-\d{3}
- 신 우편번호 : \d{5}
- 구/신 우편번호 : (\d{3}-\d{3}|\d{5})
- 구 우편번호 경우 숫자3자리-숫자3자리 이며 신 우편번호 경우 숫자5자리이다.

In [23]:
우편번호 =re.compile('(\d{3}-\d{3}|\d{5})')

In [24]:
#제대로된 형식의 우편번호 매치 확인
우편번호.match('12225')

<re.Match object; span=(0, 5), match='12225'>

In [25]:
#틀린 형식의 우편번호 매치
우편번호.match('5555-123')

## 주민등록번호
- \d{2}([0]\d|[1][0-2])([0][1-9]|[1-2]\d|[3][0-1])[-]*[1-4]\d{6}
- 맨앞 정수 2자리는 아무 숫자나 가능
- 월은 첫자리가 0인 경우 뒤에 어떤 정수든 가능 / 첫자리가 1인 경우 뒤에 0,1,2만 가능
- 일은 첫자리가 0일 경우 뒤에 1-9가능 1,2일 경우 다가능, 3일 경우 0,1만 가능
- 뒷자리 첫숫자는 1-4만 가능 / 나머지는 1-9가능

In [26]:
주민번호 = re.compile('\d{2}([0]\d|[1][0-2])([0][1-9]|[1-2]\d|[3][0-1])[-]*[1-4]\d{6}')

In [27]:
주민번호.match('981212-1054212')

<re.Match object; span=(0, 14), match='981212-1054212'>

In [28]:
주민번호.match('891232-1234567')

## URL
- https?:\/\/(www\.)?[-a-zA-Z0-9@:%._\+~#=]{2,256}\.[a-z]{2,6}\b([-a-zA-Z0-9@:%_\+.~#()?&//=]*)
- 웹 url은 http, https 반드시 포함
- (https?:\/\/)?(www\.)?[-a-zA-Z0-9@:%._\+~#=]{2,256}\.[a-z]{2,6}\b([-a-zA-Z0-9@:%_\+.~#?&//=]*)
- http(s)가 있으나 없으나 상관 없음

In [31]:
url = re.compile(r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+')

In [33]:
url.match('https://www.example.com')

<re.Match object; span=(0, 23), match='https://www.example.com'>

In [34]:
url.match('www.naver.com')