# Why 정규표현식

주민등록번호를 포함하고 있는 텍스트가 있다. 이 텍스트에 포함된 모든 주민등록번호의 뒷자리를 * 문자로 변경해 보자.

In [0]:
data = """
park 800905-1049118
kim  700905-1059119
"""

In [0]:
result = []
for line in data.split("\n"):
    word_result = []
    for word in line.split(" "):
        if len(word) == 14 and word[:6].isdigit() and word[7:].isdigit():
            word = word[:6] + "-" + "*******"
        word_result.append(word)
    result.append(" ".join(word_result))
print("\n".join(result))


park 800905-*******
kim  700905-*******



In [0]:
import re 

pat = re.compile("(\d{6})[-]\d{7}")
print(pat)
print(pat.sub("\g<1>-*******", data))

re.compile('(\\d{6})[-]\\d{7}')

park 800905-*******
kim  700905-*******



# 정규표현식





In [0]:
# 파이썬 정규식은 re(regular expression) 모듈을 사용한다
import re 

주로 정규식을 사용하기전에 특정 패턴을 컴파일을 해야한다.

re.compile 의 결과를 받아서 이후 작업을 수행한다.

일단은 잘 모르겠으니 실행부터 해보자

In [0]:
# txt 라는 변수에 'Hello Python을 넣어준다.'
txt = 'Hello Python'
# x는 re 의 search ~~ 의 결과 
# 정규식 패턴 : ^Hello.*Python$ 
# 해석을 위해 메타 문자 등장을 기준으로 패턴을 분리해서 해독
# ^Hello                   / .                           / *                 / Python$
# Hello 로 문장이 시작되고 / 줄바꿈 문자를 제외한 문자가 / 0번 이상 반복되고 / Python으로 문장이 끝난다.
#
x = re.search('^Hello.*Python$', txt)

if x:
  print("Match")
else:
  print("Not Match")

Not Match


# Re Function

re 모듈은 다음과 같은 기능을 제공한다

findall - 정규식과 매치되는 모든 문자열(substring)을 리스트로 돌려준다.

match - 문자열의 처음부터 정규식과 매치되는지 조사한다.

search - 문자열의 전체를 검색하여 정규식과 매치되는지 조사한다.

split - 일치하는 분할 문자열 리스트를 돌려준다

compile - 패턴을 객체화 시켜서 돌려줍니다.

finditer - 정규식과 매치되는 모든 문자열(substring)을 반복 가능한 객체로 돌려준다.

## findall 

정규식과 매치되는 모든 문자열(substring)을 리스트로 돌려준다.

### 메타 문자(meta characters)

. ^ $ * + ? { } [ ] \ | ( )

※ 메타 문자란 원래 그 문자가 가진 뜻이 아닌 특별한 용도로 사용하는 문자를 말한다.

[ ]  - 괄호 사이의 문자들과 매치

\    - 특수 처리 (천천히 알아가도록 하자) + (슬래쉬(/) 아닙니다 )

.  -  줄바꿈 문자(\n)를 제외한 모든 문자와 매치 (점 하나 찍혀있습니다) 

^ - ~ 으로 시작한다

$ - ~ 으로 끝난다

''* - 0번 이상 반복된다  ( 별* 표시 입니다. 자꾸 목차로 변경되어서 앞에 "가 추가 되었습니다)

''+ - 1번 이상 반복된다  ( 위와 같습니다.)

? -  0번 이상 1번 이하

{ } - 정확한 횟수 지정

| - 하나 또는

() - 그룹 패턴 

In [0]:
txt = 'Hello SBA'

# a부터 m 까지 
x = re.findall("[a-m]",txt)
x = re.findall("[abcdefghijklm]",txt)
print(x)

['e', 'l', 'l']


In [0]:
txt = '안녕 디지몬'

# 한글 음절의 첫 시작인 '가' 마지막 음절인 '힣' 으로 한글 음절을 다 찾아낼수있다
# 단, UTF-8과 EUC-KR 인코딩이 다른 결과를 가져온다는 점 인지해두셨으면 합니다.
x = re.findall('[가-힣]',txt)
print(x)

['안', '녕', '디', '지', '몬']


In [0]:
txt = "소보루 빵은 2500원이다."

# 쌤쌤
x = re.findall('[0-9]',txt)
print(x)

['2', '5', '0', '0']


In [0]:
txt = 'Life is too short, you must need Python'

# P (아무말)*4 n
x = re.findall('P....n',txt)
print(x)

['Python']


In [0]:
txt = 'Life is too short, you must need Python'

# Life 로 시작
x = re.findall('^Life',txt)
print(x)

['Life']


In [0]:
txt = 'Life is too short, you must need Python'

# Python으로 끝
x = re.findall('Python$',txt)
print(x)

['Python']


In [0]:
txt = '오늘은 오렌지 상자를 들고 오늘 열리는 장터에 가서 오징어와 교환하러가는날'

# 오늘 [은]이 0번 이상 등장 -> 오늘, 오늘은, 오늘은은은 오늘은은은은
x=re.findall('오늘은*',txt) 
print(x)

['오늘은', '오늘']


In [0]:
txt = '오늘은 오렌지 상자를 들고 오늘 열리는 장터에 가서 오징어와 교환하러가는날'

# 오늘 [은]이 1번 이상 등장 -> 오늘은, 오늘은은, 오늘은은은
x=re.findall('오늘은+',txt)
x

['오늘은']

In [0]:
txt = 'Life is too short, you must need Python'

# n이 1번, e가 2번 나오는 패턴
x = re.findall('ne{2}',txt)
x

['nee']

In [0]:
txt = 'Life is too short, you must need Python'

# short 또는 Python 만 추출
x= re.findall('short | Python',txt)
print(x)

['short', 'Python']


### Sets [ ]

[ ] - 괄호 사이의 문자들과 매치

In [0]:
txt = 'Life is too short, you must need Python'

# [ist] : i, s, t 를 추출
x=re.findall('[ist]',txt)
print(x)

['i', 'i', 's', 't', 's', 't', 's', 't', 't']


In [0]:
txt = 'Life is too short, you must need Python'

# [a-o] : 알파벳 a o 사이를 추출
x= re.findall('[a-o]',txt)
print(x)

['i', 'f', 'e', 'i', 'o', 'o', 'h', 'o', 'o', 'm', 'n', 'e', 'e', 'd', 'h', 'o', 'n']


In [0]:
txt = 'Life is too short, you must need Python'

# [a-o] : 알파벳 a o 사이를 제외하고 추출
x=re.findall('[^a-o]',txt)
print(x)

['L', ' ', 's', ' ', 't', ' ', 's', 'r', 't', ',', ' ', 'y', 'u', ' ', 'u', 's', 't', ' ', ' ', 'P', 'y', 't']


In [0]:
txt = "소보루 빵은 2500원이다."

# 숫자 0 과 5 를 추출
x=re.findall('[05]',txt)
x

['5', '0', '0']

In [0]:
txt = "소보루 빵은 2500원이다."

# 숫자 0 에서 4 사이를 추출
x=re.findall('[0-4]',txt)
x

['2', '0', '0']

In [0]:
txt = "소보루 빵은 이제부터 41000원이다."

# 숫자 00 에서 39 사이를 추출
x=re.findall('[0-3][0-9]',txt)
x

['10', '00']

In [0]:
txt = "Soboro Bread is 4000 Won"

x=re.findall("[a-zA-Z]",txt)
print(x)

['S', 'o', 'b', 'o', 'r', 'o', 'B', 'r', 'e', 'a', 'd', 'i', 's', 'W', 'o', 'n']


### 특별 처리 ("\\")

여러가지가 있지만 자주 사용되는 부분을 다루겠습니다.

\d - 숫자와 매치 

\D - 숫자가 아닌것과 매치 = [^0-9]  

*[ ] (Set) 안에서는 ^표시는 부정을 의미합니다*

\s - 공백 문자와 매치 [ \t\n\r\f\v]

\S - 공백 문자가 아닌것과 매치 [^ \t\n\r\f\v]

\A - 시작 문자와 매치

\Z - 끝 문자와 매치





In [0]:
txt = "소보루 빵은  2500원이다."

# \d는 숫자와 매치 되는 특수 케이스.
x=re.findall('\d',txt)
#x=re.findall('[0-9]',txt)
x

['2', '5', '0', '0']

In [0]:
txt = "소보루 빵은 2500원이다."

# \D는 숫자와 매치 되는 특수 케이스.
x=re.findall('\D',txt)
x

['소', '보', '루', ' ', '빵', '은', ' ', '원', '이', '다', '.']

In [0]:
txt = "소보루 빵은  2500원이다."

# 2,3,4,5 와 매치되는 패턴.
x=re.findall('[2-5]',txt)
x

['2', '5']

In [0]:
txt = "소보루 빵은  2500원이다."

# 2,3,4,5 와 매치되지 않는 패턴.
x=re.findall('[^2-5]',txt)
x

['소', '보', '루', ' ', '빵', '은', ' ', ' ', '0', '0', '원', '이', '다', '.']

In [0]:
txt = "소보루 빵은  2500원이다."

# \s는 공백과 매치 되는 특수 케이스.
x=re.findall('\s',txt)
x

[' ', ' ', ' ']

In [0]:
txt = "소보루 빵은  2500원이다."

# \d는 숫자와 매치 되는 특수 케이스.
x

['소', '보', '루', '빵', '은', '2', '5', '0', '0', '원', '이', '다', '.']

In [0]:
txt = 'Life is too short, you must need Python'

# Life 로 시작 ^Life 와 동일
x = re.findall("\ALife", txt)
x

['Life']

In [0]:
txt = 'Life is too short, you must need Python'

# Life 로 시작 Python$ 와 동일
x

['Python']

## Search

span 으로 패턴과 처음으로 매칭되는 (start_index, end_index)를 반환해준다


In [0]:
txt = 'Life is too short, you must need Python'

# Python 과 매치되는 부분의 위치를 찾아서 반환한다.
x=re.search('Python',txt)
print(x)

<_sre.SRE_Match object; span=(33, 39), match='Python'>

In [0]:
# 일치하는 인덱스를 튜플 형태로 가져온다
print(x.span())

(33, 39)


In [0]:
# 시작하는 인덱스를 반환한다.
print(x.start())

33


In [0]:
# 끝나는 인덱스를 반환한다.
print(x.end())

39


In [0]:
# 객체의 string 은 원본 문장을 포함하고 있다
print(x.string)

Life is too short, you must need Python


In [0]:
# 매치된 문자열을 돌려준다
x.group()

'Python'

## split

패턴과 매칭되는 기준으로 텍스트를 잘라줍니다

In [0]:
txt = 'Life is too short, you must need Python'

# 공백을 기준으로 자른다
x=re.split(' ',txt)
print(x,type(x))

['Life', 'is', 'too', 'short,', 'you', 'must', 'need', 'Python'] <class 'list'>


In [0]:
txt = 'Life is too short, you must need Python'

# 공백을 기준으로 자른다 , 첫 한개만
x=re.split(' ',txt,maxsplit=1)
print(x)

['Life', 'is too short, you must need Python']


## sub 

패턴과 매칭되는 부분을 교체

In [0]:
txt = 'Life is too short, you must need Python'
x= re.sub(' ','\t', txt)
# 공백을 찾아서 \t 로 바꿔준다
print(x)

Life	is	too	short,	you	must	need	Python


In [0]:
txt = 'Life is too short, you must need Python'
x=re.sub(' ','\n', txt, count=2)
# 공백을 찾아서 \n 로 바꿔준다
print(x)

Life
is
too short, you must need Python


## Compile

지금까지는 일회성 패턴을 가지고 작업을 했었다.

이제는 반복적으로 사용이 가능한 컴파일 객체를 만들어보려고 한다.

컴파일에는 몇가지 옵션이 존재한다.

DOTALL(S) - .이 줄바꿈 문자를 포함하여 모든 문자와 매치할 수 있도록 한다.

IGNORECASE(I) - 대소문자 관계없이 매치

MULTILINE(M) - 여러줄과 매치할 수 있도록 한다

VERBOSE(X) - 정규식을 보기 편하게 만들수 있고, 주석 사용 가능

In [0]:
txt = 'Life is too short, you must need Python'

# [ist] : i, s, t 를 추출

print(x)

['i', 'i', 's', 't', 's', 't', 's', 't', 't']


In [0]:
txt = 'Life is too short, you must need Python'
# [ist] : i, s, t 를 추출
p.findall(txt)

['i', 'i', 's', 't', 's', 't', 's', 't', 't']

In [0]:
txt = "A great visualization python library used to work with Keras. It uses python's graphviz library to create a presentable graph of the neural network you are building."
print(p.findall(txt))

['t', 'i', 's', 'i', 't', 'i', 't', 'i', 's', 't', 'i', 't', 's', 't', 's', 's', 't', 's', 'i', 'i', 't', 't', 's', 't', 't', 't', 'i', 'i']


In [0]:
p

re.compile(r'[ist]', re.UNICODE)

compile 을 사용하면 코드상으로 한줄을 더 사용해야한다

하지만 반복적으로 정규식을 처리해야할때는 컴파일을 통해

'객체'를 만들어주는게 편리하다.

### DOTALL (S)

여러 줄로 구성된 문자열에서 \n(줄 바꿈)에 상관없이 검색할때 사용

In [0]:
# a.b : a와 b사이에 줄바꿈을 제외한 모든 문자 패턴
m = p.match('a\nb')
print(m)

None


In [0]:
# DOTALL 옵션으로 인해서 줄바꿈도 허용하는 패턴
m = p.match('a\nb')
print(m)

<_sre.SRE_Match object; span=(0, 3), match='a\nb'>


In [0]:
# DOTALL 이 너무 길면 S만 써도 똑같다.
m = p.match('a\nb')
print(m)


<_sre.SRE_Match object; span=(0, 3), match='a\nb'>


### IGNORECASE(I) 

대소문자 관계없이 매치

In [0]:
txt = 'Life is too short, you must need Python'

print(p.match(txt))

None


In [0]:
txt = 'Life is too short, you must need Python'

print(p.match(txt))

<_sre.SRE_Match object; span=(0, 4), match='Life'>


In [0]:
txt = 'Life is too short, you must need Python'

print(p.match(txt))

<_sre.SRE_Match object; span=(0, 4), match='Life'>


### MULTILINE (M)

여러줄에 걸쳐서 패턴 매칭

In [0]:
# ^python\s\w : 문장이 python으로 시작하며, \s (공백)이 뒤따라오며, 이어서 문자 또는 숫자가 +(0번 이상) 나오는 패턴

data = """python one
life is too short
python two
you need python
python three"""

print(p.findall(data))

['python one']


In [0]:

data = """python one
life is too short
python two
you need python
python three"""

print(p.findall(data))

['python one', 'python two', 'python three']


In [0]:
# \A 는 메타문자 ^과 동일한 의미였지만, MULTILINE 에서는 다르다.


data = """python one
life is too short
python two
you need python
python three python"""

print(p.findall(data))

['python one']


In [0]:
# \Z  는 메타문자 $ 과 동일한 의미, MULTILINE에서는 다르다

print(p.findall(data))

['python', 'python']


In [0]:

print(p.findall(data))

['python']


### VERBOSE (X)

정규식을 보기 편하게 만들수 있고, 주석 사용 가능

In [0]:
# 다음과 같은 패턴이 존재한다고 가정하자 (실제로 이런식으로 사용된다)
# 무척이나 암호같고 해석이 쉽지 않다.
p = re.compile(r'&[#](0[0-7]+|[0-9]+|x[0-9a-fA-F]+);')

In [0]:
# 옵션을 사용하면 문자열에 사용된 whitespace는 컴파일할 때 제거된다
# (단 [ ] 안에 사용한 whitespace는 제외). 그리고 줄 단위로 #기호를 사용하여 주석문을 작성할 수 있다.

charref = re.compile(r"""
 &[#]                # Start of a numeric entity reference
 (
     0[0-7]+         # Octal form
   | [0-9]+          # Decimal form
   | x[0-9a-fA-F]+   # Hexadecimal form
 )
 ;                   # Trailing semicolon
""", re.VERBOSE)

# Backslach (\) Problem

우리가 \section 이라는 문자열 탐색을 위해서 정규식을 만들려고 한다

\section 이라는 정규식은 \s 가 공백으로 해석되어 원하는 방식으로 매칭이 되지 않는다

\ 문자를 문자열임을 명시하기 위해 \\\\ 를 이용해 특수 처리를 해야하는데,

실제 파이썬 정규식 엔진에서는 문자열 규칙에 따라 \\\\ 가 \ 로 변경되어 \section 이 전달된다

결국 우리가 원하는 \section 이라는 문자열을 찾기 위해서는 \\\\\\\\section 처리를 해야한다

(실제로 이 텍스트 소스를 확인해보면 \ 4개를 적기위해 \ 8개를 적어놨다.)

그래서 Raw String 이라는 규칙이 생겨났고, 정규식 패턴 앞에 r 문자를 삽입하면 Raw String 규칙에 따라 \\\\대신 \를 사용해도 동일한 의미를 가진다.

In [0]:

p

re.compile(r'\\section', re.UNICODE)

In [0]:

p

re.compile(r'\\section', re.UNICODE)

# Grouping ( )

반복적인 패턴을 조사하는 정규식 

In [0]:

m = p.search('ABCABCABC OK?')
print(m)

print(m.group())

<_sre.SRE_Match object; span=(0, 9), match='ABCABCABC'>
ABCABCABC


In [0]:
# 해석 : 

m = p.search("park 010-1234-1234")

In [0]:

m = p.search("park 010-1234-1234")
m.group(1)

'park'

In [0]:

m = p.search("park 010-1234-1234")
m.group(2)

'010-1234-1234'

In [0]:

m = p.search("park 010-1234-1234")
m.group(3)

'010'

# 한글 코드 범위

In [0]:
# 정규식은 unicode 를 따른다
# ㄱ ~ ㅎ 0x3131 ~ 0x314e
# ㅏ ~ ㅣ 0x314f ~ 0x3163
# 가 ~ 힣 0xac00 ~ 0xd7a3

In [0]:
re.compile(".*[.].*$")

re.compile(r'.*[.].*$', re.UNICODE)

In [0]:
re.compile('.*[.][^t].*$')

re.compile(r'.*[.][^t].*$', re.UNICODE)

In [0]:
re.compile('.*[.]())