# 정규식 사용 vs 비사용

## 주민등록번호 암호화
<pre>
data = '''
park 800904-1234567
kim 841204-1015334
'''

[실행 예시]
park 800904-*******
kim 841204-*******
</pre>

In [9]:
# 정규식 비사용

data = '''
park 800904-1234567
kim 841204-1015334
'''

result = []

for line in data.split('\n'): # line은 park 800904-1234567 / kim 841204-1015334
    word_result = []
    for word in line.split(): # word는 park / 800904-1234567
        if len(word) == 14 and word[:6].isdigit() and word[7:].isdigit():
            # 총 14자 & 앞의 6자(생년월일)는 숫자 & 뒤의 7자도 숫자
            word = word[:6] + '-' + '*******'
        word_result.append(word) # ['park', '800904-*******'] ['kim', '841204-*******']
    result.append(' '.join(word_result)) # join : 리스트를 구분자를 기준으로 결합하여 문자열로 반환
print('\n'.join(result))


park 800904-*******
kim 841204-*******



In [10]:
# 정규식 사용

import re
# 정규표현식 관련 모듈은 re

data = '''
park 800904-1234567
kim 841204-1015334
'''

# 정규 표현식의 패턴을 만들기
pat = re.compile('(\d{6})[-]\d{7}')
# compile은 괄호 안의 패턴과 일치하는 문자열을 찾아 특정 형식으로 바꾸겠다는 것
# \d는 숫자를 의미
# {}는 숫자의 갯수를 의미
# []는 문자 class : 포함되어야할 문자를 넣기
# ()은 그룹핑 : 첫번째 그룹으로 만들겠다~
print(pat.sub('\g<1>-*******', data))
# sub는 문자열 대체 함수 : 첫번째 그룹에 있는 값을 그대로 쓰고, 나머지는 *


park 800904-*******
kim 841204-*******



# 문자열 검색

## sj

### [ ]  ' '

In [19]:
import re

# [ ]
p = re.compile('a[bc]d')
# a 또는 b 또는 c의 포함 여부
m = p.match('abd') # 매치 YES
print(m) # abd
m = p.match('acd') # 매치 YES
print(m) # acd


# ' '
p = re.compile('abcd')
# abc의 포함 여부
m = p.match('bcd') # 매치 NO
m = p.match('abcd') # 매치 YES
print(m) # abcd



# 알파벳 또는 숫자의 포함 여부
p = re.compile('[a-zA-Z0-9]')
p = re.compile('[\w]')

# 알파벳과 숫자의 미포함 여부
p = re.compile('[^a-zA-Z0-9]')
p = re.compile('[W]')

# 숫자
p = re.compile('[0-9]')
p = re.compile('[\d]')
p = re.compile('[^0-9]')
p = re.compile('[\D]')

# 공백
p = re.compile('[\s]')
p = re.compile('[\S]')

p = re.compile('ab[\s]c')
m = p.match('abc') # 매치 NO
m = p.match('ab c') # 매치 YES
print(m) #ab c
m = p.match('ab cdef') # 매치 YES
print(m) #ab c

<re.Match object; span=(0, 3), match='abd'>
<re.Match object; span=(0, 3), match='acd'>
<re.Match object; span=(0, 4), match='abcd'>
<re.Match object; span=(0, 4), match='ab c'>
<re.Match object; span=(0, 4), match='ab c'>


### dot (.)

In [13]:
# dot(.)

# ab로 시작하여 c로 끝나되, 그 사이에 어떤 문자든 하나가 올 수 있으나 공백 제외
p = re.compile('ab.c')
m = p.match('ab\nc') # 매치 NO
m = p.match('ab가c') # 매치 YES
print(m) # ab가c

p = re.compile('ab.{2}c')
m = p.match('ab가나c') # 매치 YES
print(m) # ab가나c

<re.Match object; span=(0, 4), match='ab가c'>
<re.Match object; span=(0, 5), match='ab가나c'>


### 반복 : *  +  {m,n}

In [14]:
# 반복(*)
p = re.compile('ca*t')
# 기본적으로 c와t를 포함하며, *앞의 a는 0번~무한번 반복될 수 있다.
m = p.match('ct') # 매치 YES
print(m) # ct
m = p.match('cat') # 매치 YES
print(m) # cat
m = p.match('caaaat') # 매치 YES
print(m) # caaaat

# 반복(+)
p = re.compile('ca+t')
# 기본적으로 c와t를 포함하며, +앞의 a는 1번~무한번 반복될 수 있다.
m = p.match('ct') # 매치 NO
m = p.match('cat') # 매치 YES
print(m) # cat
m = p.match('caaaat') # 매치 YES
print(m) # caaaat

# 반복 횟수 지정 ({m,n})
p = re.compile('ca{7}t')
p = re.compile('ca{2,}t')
p = re.compile('ca{,5}t')
p = re.compile('ca{2,5}t')
# 기본적으로 c와t를 포함하며, {}앞의 a는 7번 이상 반복된다.
# 기본적으로 c와t를 포함하며, {}앞의 a는 2번 이상 반복된다.
# 기본적으로 c와t를 포함하며, {}앞의 a는 5번 이하 반복된다.
# 기본적으로 c와t를 포함하며, {}앞의 a는 2번 이상, 5번 이하 반복된다.

<re.Match object; span=(0, 2), match='ct'>
<re.Match object; span=(0, 3), match='cat'>
<re.Match object; span=(0, 6), match='caaaat'>
<re.Match object; span=(0, 3), match='cat'>
<re.Match object; span=(0, 6), match='caaaat'>


### ?  $  ^

In [10]:
# ?
p = re.compile('ca?t')
# ?앞의 a는 하나 있거나 없다.
m = p.match('ct') # 매치 YES
print(m) # ct
m = p.match('cat') # 매치 YES
print(m) # cat
m = p.match('caaaat') # 매치 NO

# $
p = re.compile('cat$')
# $앞의 cat로 끝난다. (여러 줄의 문자열이라면 마지막 줄만 적용된다)
m = p.match('ct') # 매치 NO
m = p.match('cat') # 매치 YES
print(m) # cat
m = p.match('catdog') # 매치 NO
m = p.match('dogcat') # 매치 NO (처음에 일치 안하면 none이므로)
m = p.search('dogcat') # 서치 YES
print(m) # cat

# ^
p = re.compile('^cat')
# ^뒤의 cat로 시작한다.
m = p.match('ct') # 매치 NO
m = p.match('cat') # 매치 YES
print(m) # cat
m = p.match('caaaat') # 매치 NO
m = p.match('catdog') # 매치 YES
print(m) # cat

<re.Match object; span=(0, 2), match='ct'>
<re.Match object; span=(0, 3), match='cat'>
<re.Match object; span=(0, 3), match='cat'>
None
<re.Match object; span=(0, 3), match='cat'>
<re.Match object; span=(0, 3), match='cat'>


## t

In [12]:
import re

p = re.compile('[a-z]+')
# 알파벳 한 번 이상 반복되면 일치
# 소문자 알파벳으로 되어있나

### match()
- 문자열의 처음부터 정규식과 매치되는 지를 조사

In [14]:
m1 = p.match('python')
print(m1)
# <re.Match object; span=(0, 6), match='python'>
# 0에서부터 6까지 전부 다 매치된다.
print(m1.group())
# 일치되는 문자열을 반환한다
# python

m2 = p.match('Python')
print(m2)
# None # P가 대문자이므로 매치 X
# print(m2.group()) # err

m3 = p.match('pytHon')
print(m3)
# <re.Match object; span=(0, 3), match='pyt'>
# 0에서부터 2까지 전부 다 매치된다.
print(m3.group())

m4 = p.match('3 python')
print(m4)
# None # 숫자 3으로 시작하므로 매치 X
# print(m4.group()) # err

<re.Match object; span=(0, 6), match='python'>
python
None
<re.Match object; span=(0, 3), match='pyt'>
pyt
None


### search()
- 문자열의 처음부터 검색하는 것이 아니라 문자열 전체를 검색한다.

In [17]:
m = p.search('3 python')
print(m)
# <re.Match object; span=(2, 8), match='python'>
print(m.group())

<re.Match object; span=(2, 8), match='python'>
python


### [문제] 전화번호 추출하기
다음의 전화번호 데이터에서 전화번호만 추출하는 정규표현식을 작성하시오.

In [36]:
import re

phone = ['홍길동:010-1234-5678', '우리집, 02.555.3333']

for p in phone:
    s = re.compile('\d{2,3}[-.]\d{3,4}[-.]\d{4}')
    w = s.search(p)
    # w = s.findall(p)
    # w = s.finditer(p)
    print(w.group())

010-1234-5678
02.555.3333


In [33]:
# A.
# 컴파일과 서치의 동시수행
import re

phone = ['홍길동:010-1234-5678', '우리집, 02.555.3333']

for p in phone:
    m = re.search('\d{2,3}[-.]\d{3,4}[-.]\d{4}', p)
    print(m.group())

010-1234-5678
02.555.3333


### findall()

In [44]:
import re

p = re.compile('[a-z]+')
result = p.findall('life is too short')
print(result)

['life', 'is', 'too', 'short']


# 컴파일 옵션

## DOTALL
- dot(.) 메타문자가 줄바꿈 문자(\n)을 포함하여 모든 문자와 매치한다

In [45]:
import re

m = re.match('a.b', 'a\nb')
print(m) # NONE

# m = re.compile('a.b')
# s = m.match('a\nb')
# print(s) # NONE

None


In [46]:
p = re.compile('a.b', re.DOTALL)
m = p.match('a\nb')
print(m) # <re.Match object; span=(0, 3), match='a\nb'>

<re.Match object; span=(0, 3), match='a\nb'>


In [49]:
s = '''hello
python'''

p = re.compile('hello.python', re.DOTALL)
m = p.match(s)
print(m) # <re.Match object; span=(0, 12), match='hello\npython'>

<re.Match object; span=(0, 12), match='hello\npython'>


## IGNORECASE
- 대소문자와 관계 없이 매치한다

In [50]:
p = re.compile('[a-z]+', re.IGNORECASE)
m = p.match('Python')
print(m) # <re.Match object; span=(0, 6), match='Python'>

<re.Match object; span=(0, 6), match='Python'>


## MULTILINE

<pre>
^, $ 메타문자를 문자열의 각 줄마다 적용한다
- ^ : 문자열의 처음
- $ : 문자열의 마지막
</pre>

In [56]:
p = re.compile('^python\s\w+')
# python이라는 단어로 시작, 공백 문자 하나, 문자 또는 숫자가 하나 이상 반복

text = '''python one
life is too short
python two
you need python
python three'''

m = p.findall(text)
print(m) # ['python one']

['python one']


In [24]:
p = re.compile('^python\s\w+', re.MULTILINE)
# python이라는 단어로 시작, 공백 문자 하나, 문자 또는 숫자가 하나 이상 반복

text = '''python one
life is too short
python two
you need python
python three'''

m = p.findall(text)
print(m) # ['python one', 'python two', 'python three']

['python one', 'python two', 'python three']


# 백슬래시 문제

In [59]:
# 역슬래시 2번 : X

import re

p = re.compile('\\section')
m = p.search('What is \section and example?')
print(m) # None

None


In [60]:
# 역슬래시 4번 : O

import re

p = re.compile('\\\\section')
m = p.search('What is \section and example?')
print(m) # <re.Match object; span=(8, 16), match='\\section'>

<re.Match object; span=(8, 16), match='\\section'>


In [63]:
# r과 역슬래시 2번 : O

import re

p = re.compile(r'\\section')
m = p.search('What is \section and example?')
print(m) # <re.Match object; span=(8, 16), match='\\section'>

<re.Match object; span=(8, 16), match='\\section'>


# 메타문자

## |
- or의 의미

In [27]:
p = re.compile('Crow|Servo')
m1 = p.match('CrowServo')
print(m1) # <re.Match object; span=(0, 4), match='Crow'>

m2 = p.match('ServoCrow')
print(m2) # <re.Match object; span=(0, 5), match='Servo'>

<re.Match object; span=(0, 4), match='Crow'>
<re.Match object; span=(0, 5), match='Servo'>


## \b
- 앞뒤가 공백으로 된 단어와 일치 
- Raw String 문자(r)을 붙여줘야 함
- cf) \s는 공백 포함 여부를 검사 // \b는 공백 구분 여부를 검사

In [1]:
import re
p = re.compile(r'\bclass\b')
# 양쪽에 \b를 써야한다

print(p.search('no class at all'))
# <re.Match object; span=(3, 8), match='class'>
print(p.search('the declassified algorithm')) # None
print(p.search('one subclass is'))
# None

<re.Match object; span=(3, 8), match='class'>
None
None


- \b와 \s의 차이

In [2]:
import re

# 공백을 포함하지 않고 매치 결과 반환
m = re.search(r'[a-zA-Z]\w*\b', '123 abc 123')
# 알파벳이 있고, 문자가 0~무한번 반복, 공백으로 구분
print(m) # <re.Match object; span=(4, 7), match='abc'>

<re.Match object; span=(4, 7), match='abc'>


In [3]:
import re

# 공백을 포함해서 매치 결과 반환
m = re.search(r'[a-zA-Z]\w*\s', '123 abc 123')
# 알파벳이 있고, 문자가 0~무한번 반복, 공백 포함
print(m) # <re.Match object; span=(4, 8), match='abc '>

<re.Match object; span=(4, 8), match='abc '>


## \
- 정규표현식에서 사용하는 문자 그대로 표현하려면 앞에 \를 붙임

In [9]:
m = re.search('안녕하세요?', '여러분 안녕하세요?')
# ?는 있거나 없거나
print(m) # <re.Match object; span=(4, 9), match='안녕하세요'>

<re.Match object; span=(4, 9), match='안녕하세요'>


In [13]:
m = re.search('안녕하세요\?', '여러분 안녕하세요?')
print(m) # <re.Match object; span=(4, 10), match='안녕하세요?'>

<re.Match object; span=(4, 10), match='안녕하세요?'>


# 그룹핑

In [3]:
import re

p = re.compile('(ABC)+')
# ABC가 하나의 그룹으로 묶였고, ABC가 한 번 이상 반복되면 일치
m = p.search('ABCABCABC OK?')

print(m) # <re.Match object; span=(0, 9), match='ABCABCABC'>
print(m.group(0)) # ABCABCABC # 일치된 전체 문자열 반환
print(m.group(1)) # ABC # 첫 번째 그룹에 해당하는 문자열 반환

<re.Match object; span=(0, 9), match='ABCABCABC'>
ABCABCABC
ABC


In [19]:
p = re.compile('(\w+)\s+(\d+[-]\d+[-]\d+)')
# (숫자 또는 문자가 하나 이상 반복되는 그룹), 공백이 하나 이상, (숫자가 하나 이상, -, 숫자가 하나 이상, -, 숫자가 하나 이상인 그룹)
m = p.search('park 010-1234-5678')
print(m) # re.Match object; span=(0, 18), match='park 010-1234-5678'>
print(m.group(0)) # park 010-1234-5678
print(m.group(1)) # 이름만 # park
print(m.group(2)) # 전화번호만 # 010-1234-5678

<re.Match object; span=(0, 18), match='park 010-1234-5678'>
park 010-1234-5678
park
010-1234-5678


In [29]:
# 그룹이 중첩된 경우에는 바깥쪽부터 시작하여 안쪽으로 들어갈수록 인덱스가 증가
p = re.compile('(\w+)\s+((\d+)[-]\d+[-]\d+)')
m = p.search('park 010-1234-5678')

print(m)
print(m.group(0)) # park 010-1234-5678
print(m.group(1)) # 이름만 # park
print(m.group(2)) # 전화번호만 # 010-1234-5678
print(m.group(3)) # 국번번호만 # 010
# 이름이 group1
# 번호가 group2
# 국번번호가 group3

<re.Match object; span=(0, 18), match='park 010-1234-5678'>
park 010-1234-5678
park
010-1234-5678
010


## \번호를 이용한 그룹 재참조

In [32]:
m = re.match(r'(a)(b)\1\2', 'abab')
# 그룹핑된 문자열 a와 문자열 b의 일치 여부를 찾는 것
# 그룹을 다시 재참조하였으므로 \1는 a를 가리키고, \2는 b를 가리킨다.
# <re.Match object; span=(0, 4), match='abab'>
print(m.group())
print(m.group(1))
print(m.group(2))

abab
a
b


In [40]:
# 2개의 동일한 단어를 연속적으로 사용해야 일치
# 똑같은 문자열이 두 번 사용되는 것 찾기

p = re.compile(r'(\b\w+)\s+\1')
# (단어의 앞뒤가 공백이면서 숫자 또는 문자가 한 번 이상 반복된 것의 그룹), 공백이 하나 이상, (1번 그룹)
# \b는 단어 앞뒤로 공백이 있는 지를 찾는 것 (공백으로 구분된 단어를 찾는 것)
# \s는 공백이 있는 지를 찾는 것
p.search('Paris in the the spring')
# <re.Match object; span=(9, 16), match='the the'>
print(p.search('Paris in the the spring').group())
# 'the the'

the the


In [44]:
# 그룹핑에 이름 붙이기
# (?P<그룹 이름>정규표현식)

p = re.compile('(?P<name>\w+)\s+((\d+)[-]\d+[-]\d+)')
m = p.search('park 010-1234-5678')
print(m.group('name')) # park

park


# 전방탐색 / 후방탐색 (조건부 탐색)

## 긍정 전방 탐색

In [36]:
import re

p = re.compile('.+(?=:)')
# 역슬래시 제외한 모든 문자열이 한 번 이상 반복
# 표현식 1의 문자열 .+의 뒤와 표현식 2의 문자열 :이 매치된다면, 표현식 1을 매치 결과로 반환한다.
# protocol의 값만 추출할 때 사용 가능

m = p.search('http://www.naver.com')
print(m.group()) # http

http


## 부정 전방 탐색

In [39]:
import re

# 파일 이름의 확장자 중 bat 파일만 제외하고 추출하기
file_names = ['autoexec.bat', 'python.exe', 'sysinfo.cf']

p = re.compile('.+[.](?!bat).+')
# 역슬래시 제외한 모든 문자열이 한 번 이상 반복되다가
# 표현식 1의 문자열 .+의 뒤와 표현식 2의 문자열 bat와 매치되지 않으면, 표현식 1을 매치 결과로 반환한다.
# 역슬래시 제외한 모든 문자열이 한 번 이상 반복

for file in file_names:
    m = p.search(file)
    if m :
        print(m.group())
        
# python.exe
# sysinfo.cf

python.exe
sysinfo.cf


## 긍정 후방 탐색

In [40]:
import re

p = re.compile('(?<=\$)[0-9]+[.][0-9]+')
# 숫자가 하나 이상, . , 숫자가 하나 이상
# 표현식 2인 [0-9]+[.][0-9]+ 앞이 표현식 1의 문자열 \$와 매치하면, 표현식 2를 매치 결과로 반환한다.
m = p.search('ABC01: $23.45')
print(m.group()) # 23.45

23.45


## 부정 후방 탐색

# 문자열 바꾸기

In [48]:
p = re.compile('blue|white|red')
s = p.sub('colour', 'blue socks and red shoes', count=1)
# count=1 # 제일 먼저 발견된 것 하나만 바꾸겠다
print(s)

colour socks and red shoes


# 한글 찾기 / 한글 제거

In [42]:
s = '한글이에요. good morning. 안녕하세요'
m = re.findall('[ㄱ-힣]+', s)
print(m)
# ['한글이에요', '안녕하세요']

['한글이에요', '안녕하세요']


In [46]:
s = '한글이에요. good morning. 안녕하세요'
m = re.findall('[^ㄱ-힣]+', s)
print(m)
# ['. good morning. ']

['. good morning. ']


In [47]:
s = '한글이에요. good morning. 안녕하세요'
m = re.findall('[^ㄱ-힣.\s]+', s)
# 한글, ., 공백 모두 제외
print(m)
# ['good', 'morning']

['good', 'morning']
