# 정규표현식 (Regular Expression, regex)
_본 자료는 안수찬 강사님의 파이썬을 활용한 업무자동화 Camp (fast campus)의 강의자료를 기반으로 만들어졌습니다._  
만든이 : 김보섭  

* 정규표현식 (Regular Expression, regex)
    - 특정 텍스트 (구문) 패턴을 찾는것 
    - 더 알고 싶다면 다음의 링크를 참고 : https://wikidocs.net/1669 (점프 투 파이썬, 정규표현식 chapter)

### Basic

In [1]:
text = '''저는 4형제가 있습니다.\
 안수찬, 안성찬, 안서찬, 안순찬 4명의 형제가 사이좋게 지내고 있습니다. 첫째는 안수찬입니다.'''

In [2]:
print(text)

저는 4형제가 있습니다. 안수찬, 안성찬, 안서찬, 안순찬 4명의 형제가 사이좋게 지내고 있습니다. 첫째는 안수찬입니다.


In [3]:
# 안*찬
# ['안수찬', '안성찬', '안서찬', '안순찬']
'안\w찬' # \w => word (character 1개)
         # \d => 숫자 1개
         # \s => whitespace

'안\\w찬'

In [4]:
import re
brother_pattern = re.compile('안\w찬')

In [5]:
brother_pattern

re.compile(r'안\w찬', re.UNICODE)

In [6]:
brothers = brother_pattern.findall(text)
brothers

['안수찬', '안성찬', '안서찬', '안순찬', '안수찬']

In [7]:
list(set(brothers))

['안성찬', '안순찬', '안수찬', '안서찬']

In [8]:
# 3자리숫자 뽑아보기
text = '123 에서 100 을 빼면 23 이다.'
numbers_pattern = re.compile('\d\d\d')
numbers_pattern.findall(text)

['123', '100']

In [9]:
numbers_pattern = re.compile('\d{3}') # 기본적으로 1개를 의미하지만 {n} (n개의 표현을)
numbers_pattern.findall(text)

['123', '100']

In [10]:
# 2자리, 3자리숫자 뽑기
numbers_pattern = re.compile('\d{2,3}') #{m, n } -> n ~ m
numbers_pattern.findall(text)

['123', '100', '23']

### Special character 
* "*" : 0~n 개
* "+" : 1~n 개
* "?" : 0, 1개

In [11]:
# abc, abbc, abbbc, abbbbc, ac
text = 'this is abc family : abc, dbe, abbc, abbbc, fdsa, abbbbc, ac'

In [12]:
abc_pattern = re.compile('ab*c')
abc_pattern.findall(text)

['abc', 'abc', 'abbc', 'abbbc', 'abbbbc', 'ac']

In [13]:
# ly로 끝나는 모든 텍스트를 뽑는 정규표현식
# butterfly, dragonfly, soundly, happly...
text = 'I am happly butterfly, on soundly something'
ly_pattern = re.compile('\w+ly')
ly_pattern.findall(text)

['happly', 'butterfly', 'soundly']

In [14]:
re.findall('\w+ly', text)

['happly', 'butterfly', 'soundly']

### Example : 전화번호 추출 

In [15]:
# **-****-****
# ***-****
# ***-****-****

In [16]:
with open('./phonenumbers.txt', 'r', encoding = 'utf8') as io:
    data = io.read()

In [17]:
data

'01022205736\n한글\n010-2220-5736\n이건 뽑으면 안되는 값\n02-2220-5736\n12345\n02.2220.5736\n01434239'

In [18]:
io = open('./phonenumbers.txt', 'r')


In [19]:
phonenumber_pattern = '\d{2,3}[-.]?\d{4}[-.]?\d{4}'
phonenumber_pattern = re.compile(phonenumber_pattern)

In [20]:
print(phonenumber_pattern)
result = phonenumber_pattern.findall(data) # list형태의 output
result

re.compile('\\d{2,3}[-.]?\\d{4}[-.]?\\d{4}')


['01022205736', '010-2220-5736', '02-2220-5736', '02.2220.5736']

In [21]:
# 여기에서 불필요한 값들은 replace
list(map(lambda x : re.sub('[-.]', '', x), result))

['01022205736', '01022205736', '0222205736', '0222205736']

###  Grouping
ABC라는 문자열이 계속해서 반복되는지 조사하는 정규식을 작성하고 싶다고 하자. 어떻게 해야 할까?

### Example : 문자열의 특정부분만 치환하기
예제상황은 이벤트 당첨자들의 번호를 공개 할 수없는 상황이라 뒤의 네자리만 공개하는 상황을 가정한 예제, 간략하게는 아래와 같다.  
 * 010-2220-5736 -> 010-****-5736
 * 010.2220.5736 -> 010-****-5736
 * 01022205736 -> 010-****-5736

In [22]:
# example1 : 
phonenumbers = '''
12숫자
123숫자
234숫자
김보섭
'''

phonenumber_pattern = '(?P<first>\d{2,3})(?P<second>숫자)' # 특정 정규표현식을 grouping하고 이름을 할당
phonenumber_pattern = re.compile(phonenumber_pattern)

In [23]:
phonenumber_pattern.findall(phonenumbers)

[('12', '숫자'), ('123', '숫자'), ('234', '숫자')]

In [24]:
# example2
# 정규표현식에서 '()' group을 만드나 group의 이름을 할당하지않는 예제
phonenumbers = '''
010-2220-5736
01022205736
010.2220.5736
'''

phonenumber_pattern = '(\d{2,3})([.-]?)(\d{3,4})([.-]?)(\d{4})'
phonenumber_pattern = re.compile(phonenumber_pattern)
phonenumber_pattern.findall(phonenumbers)

[('010', '-', '2220', '-', '5736'),
 ('010', '', '2220', '', '5736'),
 ('010', '.', '2220', '.', '5736')]

In [25]:
# example3
# 정규표현식에서 '()' group의 이름을 할당하는 예제
phonenumbers = '''
010-2220-5736
01022205736
010.2220.5736
'''

# 아래의 코드에서 '()' grouping 안에 ?P<문자열>은 group의 이름을 주는 것으로 줘도되고 안줘도된다.
# group에 이름을 할당함으로써 얻는 이점은 문자열의 group에 이름으로 접근하여 어떤 처리를 한번에 할 수 있다는 것
phonenumber_pattern = '(?P<first>\d{2,3})(?P<second>[.-]?)(?P<third>\d{3,4})(?P<fourth>[.-]?)(?P<fifth>\d{4})'
phonenumber_pattern = re.compile(phonenumber_pattern)
phonenumber_pattern.findall(phonenumbers)

[('010', '-', '2220', '-', '5736'),
 ('010', '', '2220', '', '5736'),
 ('010', '.', '2220', '.', '5736')]

In [26]:
# \g<first> : 처음 compile 할 때, (?P<first>~~)로 이름을 준 정규표현식의 group과 matching
# \g<second> : 처음 compile 할 때, (?P<second>~~)로 이름을 준 정규표현식의 group과 matching
phonenumber_pattern.sub('\g<first>-****-\g<fifth>', phonenumbers)

'\n010-****-5736\n010-****-5736\n010-****-5736\n'

In [27]:
print(phonenumber_pattern.sub('\g<first>-****-\g<fifth>', phonenumbers))


010-****-5736
010-****-5736
010-****-5736



In [28]:
# example4
text = '''
안수찬 900223-1234567
안성찬 910223-1234789
안서찬 910224-1234098
'''

In [29]:
pattern = re.compile('(?P<name>\w+) (?P<birth>\d{6})-(?P<secret>\d{7})')

In [30]:
pattern.sub('\g<name>(\g<birth>-*******)', text)

'\n안수찬(900223-*******)\n안성찬(910223-*******)\n안서찬(910224-*******)\n'

In [31]:
print(pattern.sub('\g<name>(\g<birth>-*******)', text))


안수찬(900223-*******)
안성찬(910223-*******)
안서찬(910224-*******)

