# 정규 표현식

데이터를 원하는 패턴에 맞게 검색, 수정하기 위해 사용.

___

## Meta Characters

### .
- 어떤 문자나 상관없이 해당.
- a.b: a와 b 사이에 어떤 문자라도 오는 패턴.
- .x: x로 끝나는 패턴.

### *
- 최소 0번 이상 나오는 것.
- a*b: ab, aab, aaab, aaaab, aaaaab, ...
- .*: 모든 문자열.

### +
- 최소 1번 이상 나오는 것.
- a+b: aab, aaab, aaaab, aaaaab, ...

### {n, m}
- 최소 n번, 최대 m번 나오는 것.
- ab{1}c: abc
- ab{2, 6}c: abbc, abbbc, abbbbc, abbbbbc, abbbbbbc

### ?
- 한번 나오거나 아예 나오지 않는 것.
- ab?c, b{0, 1}: ac, abc

### \b(.*)\b
- 시작과 끝이 모두 문자(한글 제외)인 모든 표현.
- 하나의 어절 단위로 찾는다.

### \B(.*)\B
- 시작과 끝을 제외한 모두가 문자인 모든 표현.

___

## Character Classes

### []
- 대괄호 안의 문자들은 전부 or로 묶여있다.
- [abc]: a나 b나 c가 들어간 모든 표현
- [a-z]: 영문 소문자가 들어간 모든 표현
- [^a-z]: 영문 소문자가 들어가지 않은 모든 표현
- [a-zA-Z0-9]: 영문 소문자가 들어갔거나 영문 대문자가 들어갔거나 숫자가 들어간 모든 표현
- [가-힣]: 한글 글자가 들어간 모든 표현
- [\d]: 숫자가 들어간 모든 표현
- [\D]: 문자가 들어간 모든 표현
- [\s]: white space(공백)가 들어간 모든 표현

___

## Anchors

### ^
- starting position(특정 문자로 시작)

### $
- ending position(특정 문자로 끝)

___

## Match Method

예: stackoverflow라는 문자열이 주어졌을 때
- s.*o 결과: stackoverflo(greedy reg expression: 조건을 만족하는 가장 큰 덩어리를 찾음)
- s.*?o 결과: stacko(lazy reg expression: 조건을 만족하는 경우 바로 검색 종료)

<([a-zA-Z][a-zA-Z0-9]*)>(.*?)<\/\1>

= <(첫글자 영문자)(영어 or 숫자 0회 이상)>모든 문자 0회 이상</(첫글자 영문자)(영어 or 숫자 0회 이상)>

= html 태그 찾는 expression.
    * 예: <h1>Heading</h1>
- \/: /를 바로 사용할 수 없기에 \ 뒤에 /을 붙여 사용.
- \1: 앞에서 정의한 조건을 뒤에서 그대로 사용.

## <([a-zA-Z][a-zA-Z0-9]*)[^>]'*'>(.*?)<\/\1>

= <(첫글자 영문자)(영어 or 숫자 0회 이상)(>가 아닌 모든 문자 0회 이상)>모든 문자 0회 이상</(앞조건 반복)>

= html 태그 + 속성값이 들어간 html 태그 검색 가능.
    * 예: <h1 style="color:red">Heading</h1>
- [^>]*을 사용하여 태그가 닫히기 전 다른 문자가 존재하는 표현도 찾을 수 있다.

## (\+?[0-9]{2}[\s\-]?)?0?1[0-9][\s\-]?[\d]{4}[\s\-][\d]{4}
- +82-010-1234-5678
- +82 010-1234-5678
- +8210-1234-5678
- 82-010-1234-5678
- 82 010 1234 5678
- 010-1234-5678
- 전화번호(국가코드 포함+미포함) 검색 가능.

___

## Regular Experssion In Python

In [1]:
import re

In [10]:
content = "Hello World"

dot = re.compile("(H..).(o..)")
print(type(dot))
plus = re.compile("l+")

<class '_sre.SRE_Pattern'>


re.compile: regular expression pattern을 regular expression object로 저장.

In [5]:
re.search(dot, content)

<_sre.SRE_Match object; span=(0, 7), match='Hello W'>

In [11]:
re.search(plus, content)

<_sre.SRE_Match object; span=(2, 4), match='ll'>

In [14]:
re.search('W', content)

<_sre.SRE_Match object; span=(6, 7), match='W'>

re.search: 패턴이 처음 일치하는 위치 반환.

In [6]:
re.match(dot, content)

<_sre.SRE_Match object; span=(0, 7), match='Hello W'>

In [12]:
re.match(plus, content)

In [13]:
re.match('W', content)

re.match: 문자열이 시작부터 패턴과 일치하는지 조사.

In [15]:
result = re.findall(plus, content)
result

['ll', 'l']

re.findall: 문자열 내에서 패턴과 일치하는 모든 결과를 리스트로 저장.

In [16]:
data = """
park 800905-1111111
kim 900719-2111111
"""

In [17]:
pattern = re.compile("\d{6}-\d{7}")

re.findall(pattern, data)

['800905-1111111', '900719-2111111']

주민번호 검색

In [18]:
pattern = re.compile("(\d{6})-(\d{7})")

re.findall(pattern, data)

[('800905', '1111111'), ('900719', '2111111')]

grouping: ()를 사용하여 주민번호 앞자리, 뒷자리 분리.

In [19]:
pattern.findall(data)

[('800905', '1111111'), ('900719', '2111111')]

같은 결과.

In [20]:
pattern.sub("\g<1>-*******", data)

'\npark 800905-*******\nkim 900719-*******\n'

g<1>: 1번 group(주민번호 앞자리 검색) 활용

-*******: 2번 group(주민번호 뒷자리 검색)은 검색 결과를 *******로 대체.

In [21]:
p = re.compile("Crow|Servo")
m = p.match('CrowHello')
print(m)

<_sre.SRE_Match object; span=(0, 4), match='Crow'>


In [22]:
print(re.search('^Life', 'Life is too short'))
print(re.search('^Life', 'My Life'))
print(re.search('Life', 'My Life'))

<_sre.SRE_Match object; span=(0, 4), match='Life'>
None
<_sre.SRE_Match object; span=(3, 7), match='Life'>


^...: ...으로 시작하는 문자열 검색.

In [23]:
print(re.search('short$', 'Life is too short'))
print(re.search('My$', 'My Life'))

<_sre.SRE_Match object; span=(12, 17), match='short'>
None


$...: ...으로 끝나는 문자열 검색.

In [24]:
p = re.compile("(ABC)+")
print(re.search(p, "ABCABCABCA"))
print(re.search(p, "ABCABCABCA").group())

<_sre.SRE_Match object; span=(0, 9), match='ABCABCABC'>
ABCABCABC


In [25]:
p = re.compile(r'\bclass\b')
print(re.search(p, "no class at all"))
print(re.search(p, "one subclass is"))
print(re.search(p, "the declassified algorithm"))

<_sre.SRE_Match object; span=(3, 8), match='class'>
None
None


\bclass\b: ' class '이 포함된 문자열 검색.(어절 단위로 잘라 단어 검색)

r'\b: 이스케이프 문자 사용시 r을 꼭 붙여줘야한다.

In [26]:
p = re.compile(r'\Bclass\B')
print(re.search(p, "no class at all"))
print(re.search(p, "one subclass is"))
print(re.search(p, "the declassified algorithm"))

None
None
<_sre.SRE_Match object; span=(6, 11), match='class'>


\Bclass\B: '.+class.+' 패턴 검색(class 앞, 뒤에 문자가 존재하는 문자열 검색)

In [28]:
pattern = re.compile("(\d{6})-(\d{7})")
data = """
park 800905-1111111
kim 900719-2111111
"""

result = re.search(pattern, data)
print(result)
print(result.group())
print(result.group(1))
print(result.group(2))

<_sre.SRE_Match object; span=(6, 20), match='800905-1111111'>
800905-1111111
800905
1111111


패턴 검색 결과를 grouping하여 indexing.

In [29]:
p = re.compile(r"\w+\s+\d+[-]\d+[-]\d+")
result = p.search("park 010-1234-1234")
result

<_sre.SRE_Match object; span=(0, 18), match='park 010-1234-1234'>

In [30]:
p = re.compile(r"(\w+)\s+(\d+)[-](\d+)[-](\d+)")
result = p.search("park 010-1234-1234")
print(result.group(1))
print(result.group(2))
print(result.group(3))
print(result.group(4))

park
010
1234
1234


In [32]:
p = re.compile(r"(\w+) (\w+)")

result = re.search(p, "Issac Newton, physicist")
result.group()

'Issac Newton'

In [33]:
result.group(1), result.group(2), result.group(1,2)

('Issac', 'Newton', ('Issac', 'Newton'))

In [34]:
p.sub("\g<2> \g<1>", "Issac Newton, physicist")

'Newton Issac, physicist'

패턴의 순서를 바꿔 패턴과 일치하는 문자열의 순서를 바꿨다.

In [35]:
p = re.compile("a[.]{3,}b")

result1 = re.search(p, "acccb")
result2 = re.search(p, "a...b")
result3 = re.search(p, "aaab")
result4 = re.search(p, "a.cccb")

print(result1)
print(result2)
print(result3)
print(result4)

None
<_sre.SRE_Match object; span=(0, 5), match='a...b'>
None
None


a와 b 사이에 .이 3번 이상 등장하는 문자열 검색.

In [39]:
text = """
park 010-9999-9988
kim 010-9909-7789
lee 010-8789-7768
"""

p = re.compile(r'(\d{3})[-](\d{4})[-](\d{4})')

result = re.findall(p, text)
result

[('010', '9999', '9988'), ('010', '9909', '7789'), ('010', '8789', '7768')]

In [40]:
print(p.sub("\g<1>-\g<2>-####", text))


park 010-9999-####
kim 010-9909-####
lee 010-8789-####



전화번호를 검색하는 패턴을 사용하여 문자열에서 검색한 후 마지막 4자리는 ####으로 대체하였다.

In [41]:
email = """
park@naver.com
kim@daum.net
lee@myhome.co.kr
"""

p = re.compile(r'.*[@].*[.]\w{3}')

result = re.findall(p, email)
print(result)

['park@naver.com', 'kim@daum.net']


.com이나 .net으로 끝나는 이메일 주소만 검색

In [42]:
data = "정규식 너무 싫다"

p = re.compile(r'\W')
re.split(p, data)

['정규식', '너무', '싫다']

문자열을 어절 단위로 잘랐음.