### 정규표현식으로 특정 문자열을 찾은 뒤 다른 문자열로 바꾸는 방법
문자열을 바꿀 때는 `sub 함수`를 사용하며 패턴, 바꿀 문자열, 문자열, 바꿀 횟수를 넣어준다. 여기서 바꿀 횟수를 넣으면 지정된 횟수만큼 바꾸며 바꿀 횟수를 생략하면 찾은 문자열을 모두 바꾼다.
* re.sub('패턴' , '바꿀 문자열', '문자열', '바꿀 횟수')

In [1]:
import re

In [2]:
# apple 또는 orange를 fruit로 바꿈
re.sub('apple|orange', 'fruit', 'apple box orange tree')    

'fruit box fruit tree'

In [3]:
# 숫자만 찾아서 n으로 바꿈
re.sub('[0-9]+', 'n', '1 2 soo 3 yeon hello 7 world 8 !')

'n n soo n yeon hello n world n !'

---

sub 함수는 바꿀 문자열 대신 `교체 함수`를 지정할 수도 있다. <br>교체 함수는 매개변수로 매치 객체를 받으며 바꿀 결과를 문자열로 반환한다.

* 교체함수 (매치객체)
* re.sub('패턴', '교체 함수', '문자열', '바꿀횟수')

In [5]:
def multiple10(m):        # 매개변수로 매치 객체를 받음
    n = int(m.group())    # 매칭된 문자열을 가져와서 정수로 변환
    return str(n * 10)    # 숫자에 10을 곱한 뒤 문자열로 변환해서 반환

In [6]:
re.sub('[0-9]+', multiple10, '1 2 soo 3 yeon hello 7 world 8 !')

'10 20 soo 30 yeon hello 70 world 80 !'

mutiple10 함수에서 group 메서드로 매칭된 문자열을 가져와서 정수로 바꾼다.<br> 그리고 숫자에 10을 곱한 뒤, 문자열로 변환해서 반환한다.

교체 함수의 내용이 간단하다면 다음과 같이 람다 표현식을 만들어서 넣어도 됩니다.

In [9]:
re.sub('[0-9]+', lambda m : str(int(m.group())* 10), '1 2 soo 3 yeon hello 7 world 8 !')

'10 20 soo 30 yeon hello 70 world 80 !'

---

### 찾은 문자열을 결과에 다시 사용하기
정규표현식으로 찾은 문자열을 가져와서 결과에 다시 사용
* 정규표현식을 그룹으로 묶는다. 
* 바꿀 문자열에서 \\숫자 형식으로 매칭된 문자열을 가져와서 사용

다음은 'hello 1234'에서 hello는 그룹 1, 1234는 그룹 2로 찾은 뒤 그룹 2, 1, 2, 1 순으로 문자열의 순서를 바꿔서 출력한다.

In [11]:
re.sub('([a-z]+) ([0-9]+)', '\\2 \\1 \\2 \\1', 'hello 1234')    # 그룹 2, 1, 2, 1 순으로 바꿈

'1234 hello 1234 hello'

In [15]:
re.sub('([a-z]+) ([0-9]+)', '\\2 \\1 \\2 \\1', 'sooyeon 1234') 

'1234 sooyeon 1234 sooyeon'

In [16]:
re.sub('([a-z]+) ([0-9]+)', '\\2 \\1 \\2 \\1', ') 

'1234 sooyeon 1234 sooyeon 1234 sooyeon 1234 sooyeon'

{ "name": "james" }'을 '<name>james</name>' 형식으로

In [17]:
re.sub('({\s*)"(\w+)":\s*"(\w+)"(\s*})', '<\\2>\\3</\\2>', '{ "name": "james" }')

'<name>james</name>'

* 맨 처음 ({\s*)은 {와 공백을 찾으므로 '{ '을 찾는다. 
* 마지막 (\s*})은 공백과 }를 찾으므로 ' }'를 찾는다.
* 중간에 있는 "(\w+)":\s*"(\w+)"은 :을 기준으로 양 옆의 name과 james를 찾는다. 
* 바꿀 문자열은 '<\\2>'과 같이 그룹 2 name과 그룹 3 james만 사용하고 그룹 1 '{ ', 그룹 4 '} '는 버린다.

### 정규 표현식으로 찾은 문자열을 사용
<img src=https://dojang.io/pluginfile.php/14024/mod_page/content/3/043001.png>

만약 그룹에 이름을 지었다면 \\g<이름> 형식으로 매칭된 문자열을 가져올 수 있다(\\g<숫자> 형식으로 숫자를 지정해도 된다).

* \\g<이름>
* \\g<숫자>

In [18]:
re.sub('({\s*)"(?P<key>\w+)":\s*"(?P<value>\w+)"(\s*})', '<\\g<key>>\\g<value></\\g<key>>', '{ "name": "james" }')

'<name>james</name>'

#### 참고 raw 문자열 사용하기 
정규표현식의 특수 문자를 판단하려면 \를 붙여야 한다. <br>여기서 문자열 앞에 r을 붙여주면 원시(raw) 문자열이 되어 \를 붙이지 않아도 특수 문자를 그대로 판단할 수 있다. 

따라서 raw 문자열에서는 \\숫자, \\g<이름>, \\g<숫자>는 \숫자, \g<이름>, \g<숫자> 형식처럼 \를 하나만 붙여서 사용할 수 있다.

### r'\숫자 \g<이름> \g<숫자>'

In [19]:
re.sub('({\s*)"(\w+)":\s*"(\w+)"(\s*})', r'<\2>\3</\2>', '{ "name": "james" }')

'<name>james</name>'