# Unit 43 정규표현식 사용하기

정규표현식(regular expression)은 일정한 규칙(패턴)을 가진 문자열을 표현하는 방법입니다. 복잡한 문자열 속에서 특정한 규칙으로 된 문자열을 검색한 뒤 추출하거나 바꿀 때 사용

## 43.1 문자열 판단하기

문자열에 특정 문자열이 포함되어 있는지 판단하기
정규표현식은 re 모듈을 가져와서 사용하며 match 함수에 정규표현식 패턴과 판단할 문자열을 넣는다.
- ```re.match("패턴", "문자열")```

In [2]:
# "Hello, world!" 문자열에 "Hello"와 "Python"이 있는지 판단
import re

print(re.match("Hello", "Hello, world!"))  # 문자열이 있으므로 정규표현식 매치 객체가 반환됨
print(re.match("Python", "Hello, world!"))  # 문자열이 없으므로 아무것도 반환되지 않음

<re.Match object; span=(0, 5), match='Hello'>
None


### 43.1.1 문자열이 맨 앞에 오는지 맨 뒤에 오는지 판단하기

문자열 앞에 ^를 붙이면 문자열이 맨 앞에 오는지 판단하고, 문자열 뒤에 $를 붙이면 문자열이 맨 뒤에 오는지 판단한다.
- ```^문자열```
- ```문자열$```

이때는 match 대신 search 함수를 사용한다. search는 문자열 일부분이 매칭되는지 판단한다.
- ```re.search("패턴", "문자열")```

In [3]:
print(re.search("^Hello", "Hello, world!"))
print(re.search("world!$", "Hello, world!"))

<re.Match object; span=(0, 5), match='Hello'>
<re.Match object; span=(7, 13), match='world!'>


### 43.1.2 지정된 문자열이 하나라도 포함되는지 판단하기

| 는 특정 문자열에서 지정된 문자열(문자)이 하나라도 포함되는지 판단한다.
- ```문자열|문자열```
- ```문자열|문자열|문자열|문자열```

In [4]:
# "hello|world"는 문자열에서 "hello" 또는 "world"가 포함되는지 판단한다.
print(re.match("hello|world", "hello"))  # hello 또는 world가 있으므로 패턴에 매칭됨

<re.Match object; span=(0, 5), match='hello'>


## 43.2 범위 판단하기

문자열이 숫자로 되어있는지 판단하기
[] 대괄호 안에 숫자 범위를 넣으며 * 또는 +를 붙인다.
숫자 범위는 0-9처럼 표현하고 *는 문자(숫자)가 0개 이상 있는지, +는 1개 이상 있는지 판단한다.
- ```[0-9]*```
- ```[0-9]+```

In [5]:
print(re.match("[0-9]*", "1234"))  # 0-9까지 0개 이상 있으니 패턴에 매칭
print(re.match("[0-9]+", "1234"))  # 0-9까지 1개 이상 있으니 패턴에 매칭
print(re.match("[0-9]+", "abcd"))  # 0-9까지 1개 이상 없으므로 패턴에 매칭되지 않음
print(re.match("[0-9]*", "abcd"))  # 0-9까지 0개 이상이니 패턴에 매칭

<re.Match object; span=(0, 4), match='1234'>
<re.Match object; span=(0, 4), match='1234'>
None
<re.Match object; span=(0, 0), match=''>


In [6]:
print(re.match("a*b", "b"))  # b에는 a가 0개 이상이므로 매칭
print(re.match("a+b", "b"))  # b에는 a가 1개 이상 없으므로 매칭되지 않음
print(re.match("a*b", "aab"))  # aab에는 a가 0개 이상이므로 매칭
print(re.match("a+b", "aab"))  # aab에는 a가 1개 이상이므로 매칭

<re.Match object; span=(0, 1), match='b'>
None
<re.Match object; span=(0, 3), match='aab'>
<re.Match object; span=(0, 3), match='aab'>


### 43.2.1 문자가 한 개만 있는지 판단하기

?와 .을 사용한다.
?는 ? 앞의 문자(범위)가 0개 또는 1개인지 판단하고, .은 .이 있는 위치에 아무 문자(숫자)가 1개 있는지 판단한다.
- 문자?
- [0-9]?
- .

In [7]:
print(re.match("abc?d", "abd"))  # abd에서 c 위치에 c가 0개 있으므로 패턴에 매칭됨
print(re.match("ab[0-9]?c", "ab3c"))  # [0-9] 위치에 숫자가 1개 있으므로 패턴에 매칭됨
print(re.match("ab.d", "abxd"))  # .이 있는 위치에 문자가 1개 있으므로 패턴에 매칭됨

<re.Match object; span=(0, 3), match='abd'>
<re.Match object; span=(0, 4), match='ab3c'>
<re.Match object; span=(0, 4), match='abxd'>


### 43.2.2 문자 개수 판단하기

문자 뒤에 {개수} 형식을 지정한다.
- 문자{개수}
- (문자열){개수}

In [8]:
# h{3}은 h가 3개 있는지 판단
# (hello){3}은 hello가 3개 있는지 판단

print(re.match("h{3}", "hhhello"))
print(re.match("(hello){3}", "hellohellohelloworld"))

<re.Match object; span=(0, 3), match='hhh'>
<re.Match object; span=(0, 15), match='hellohellohello'>


In [9]:
# 특정 범위의 문자(숫자)가 몇개 있는지 판단
# 휴대전화의 번호 형식에 맞는지 판단
print(re.match("[0-9]{3}-[0-9]{4}-[0-9]{4}", "010-1000-1000"))  # 숫자 3-4-4 패턴 매칭됨
print(re.match("[0-9]{3}-[0-9]{4}-[0-9]{4}", "010-1000-100"))  # 매칭되지 않음

<re.Match object; span=(0, 13), match='010-1000-1000'>
None


In [10]:
# 문자(숫자)의 개수 범위 지정
# {시작개수, 끝개수}
# (문자){시작개수, 끝개수}
# (문자열){시작개수, 끝개수}
# [0-9](시작개수, 끝개수)

print(re.match("[0-9]{2,3}-[0-9]{3,4}-[0-9]{4}", "02-100-1000"))  # 2~3개-3~4개-4개
print(re.match("[0-9]{2,3}-[0-9]{3,4}-[0-9]{4}", "02-10-1000"))  # 매칭되지 않음

<re.Match object; span=(0, 11), match='02-100-1000'>
None


### 43.2.3 숫자와 영문 문자를 조합해서 판단하기

영문 문자 범위는 a-z, A-Z로 표현한다.

In [11]:
print(re.match("[a-zA-Z0-9]+", "Hello1234"))  # a~z, A~Z, 0~9 까지 1개 이상이므로 매칭
print(re.match("[A-Z0-9]+", "hello"))  # 매칭되지 않음

<re.Match object; span=(0, 9), match='Hello1234'>
None


In [12]:
# 한글
print(re.match("[가-힣]+", "홍길동"))  # 매칭됨

<re.Match object; span=(0, 3), match='홍길동'>


### 43.2.4 특정 문자 범위에 포함되지 않는지 판단하기

문자(숫자) 범위 앞에 ^를 붙인다.
- ```[^범위]*```
- ```[^범위]+```

In [13]:
# [^A-Z]+ 는 대문자를 제외한 모든 문자(숫자)가 1개 이상 있는지 판단
print(re.match("[^A-Z]+", "Hello"))  # 대문자가 있으므로 매칭되지 않음
print(re.match("[^A-Z]+", "hello"))  # 대문자가 없으므로 매칭
print()

# 범위로 시작할 때는
# ^[범위]* / [범위]$
# ^[A-Z]+ -> 대문자로 시작하는지 판단
print(re.search("^[A-Z]+", "Hello"))  # 대문자로 시작하므로 매칭
print()

# 특정 문자(숫자) 범위로 끝나는지 확인
# [범위]+$ / [범위]*$
print(re.search("[0-9]+$", "Hello1234"))  # 숫자로 끝나므로 매칭

None
<re.Match object; span=(0, 5), match='hello'>

<re.Match object; span=(0, 1), match='H'>

<re.Match object; span=(5, 9), match='1234'>


### 43.2.5 특수문자 판단하기

특수문자를 판단할 때는 특수문자 앞에 \를 붙인다.
단, [] 안에서는 \를 붙이지 않아도 되지만 에러 발생 시 \를 붙인다.

In [14]:
print(re.search("\*+", "1 ** 2"))  # *이 들어있는지 판단
print(re.match("[$()a-zA-Z0-9]+", "$(document)"))  # $, (), 문자, 숫자가 들어있는지 판단

<re.Match object; span=(2, 4), match='**'>
<re.Match object; span=(0, 11), match='$(document)'>


단순히 숫자인지 문자인지 판단할 때는 \d, \D, \w, \W 를 사용하면 편하다
- ```\d: [0-9] 와 같음, 모든 숫자```
- ```\D: [^0-9] 와 같음, 숫자를 제외한 모든 문자```
- ```\w: [a-zA-Z0-9_] 와 같음 영문 대소문자, 숫자, 밑줄 문자```
- ```\W: [^a-zA-Z0-0_] 와 같음 영문 대소문자, 숫자, 밑줄 문자를 제외한 모든 문자```

In [15]:
print(re.match("\d+", "1234"))  # 모든 숫자이므로 매칭
print(re.match("\D+", "Hello"))  # 숫자를 제외한 모든 문자이므로 매칭
print(re.match("\w+", "Hello_1234"))  # 매칭
print(re.match("\W+", "(:)"))  # 매칭

<re.Match object; span=(0, 4), match='1234'>
<re.Match object; span=(0, 5), match='Hello'>
<re.Match object; span=(0, 10), match='Hello_1234'>
<re.Match object; span=(0, 3), match='(:)'>


### 43.2.6 공백 처리하기

공백은 " " 처럼 공백 문자를 넣어도 되고 \s 또는 \S 로 표현할 수도 있다.
- ```\s: [ \t\n\r\f\v] 와 같음, 공백(스페이스)```
- ```\S: [^ \t\n\r\f\v] 와 같음, 공백을 제외하고 \t, \n, \r, \f, \v 만 포함```

In [16]:
print(re.match("[a-zA-Z0-9 ]+", "Hello 1234"))  # ' '로 공백 표현
print(re.match("[a-zA-Z0-9\s]+", "Hello 1234"))  # \s로 공백 표현

<re.Match object; span=(0, 10), match='Hello 1234'>
<re.Match object; span=(0, 10), match='Hello 1234'>


> 참고: 같은 정규표현식 패턴을 자주 사용할 때

match나 search 함수에 정규표현식 패턴을 지정하는 방법은 비효율적
같은 패턴을 자주 사용할 때는 compile 함수를 사용하여 정규표현식 객체로 만든 뒤 match, search 메서드를 호출하면 된다.

```python
객체 = re.compile("패턴")
객체.match("문자열")
객체.search("문자열")
```

In [17]:
p = re.compile("[0-9]+")  # 정규표현식 객체로 만듦
print(p.match("1234"))  # 정규표현식 객체에서 match 메서드 사용
print(p.search("hello"))

<re.Match object; span=(0, 4), match='1234'>
None


## 43.3 그룹 사용하기

정규표현식을 그룹으로 묶는 방법
해당 그룹과 일치하는 문자열을 얻어올 때 사용한다.
- (정규표현식) (정규표현식)

In [22]:
# 공백으로 구분된 숫자를 두 그룹으로 나누어서 찾은 뒤 각 그룹에 해당하는 문자열을 가져온다.
# 매치객체.group(그룹숫자)

m = re.match("([0-9]+) ([0-9]+)", "10 295")
# 첫 번째 그룹에 매칭된 문자열 반환
print(m.group(1))

# 두 번째 그룹에 매칭된 문자열 반환
print(m.group(2))

# 매칭된 문자열 한꺼번에 반환
print(m.group())
print(m.group(0))

# groups 메서드는 각 그룹에 해당하는 문자열을 튜플로 반환한다.
print(m.groups())

10
295
10 295
10 295
('10', '295')


In [27]:
# 그룹 개수가 많아지면 숫자로 그룹을 구분하기 힘들어짐
# 이때는 그룹 이름을 지으면 편리함
# (?P<이름>정규식)

m = re.match("(?P<func>[a-zA-Z_][a-zA-Z0-9_]+)\((?P<arg>\w+)\)", "print(1234)")
print(m.group("func"))
print(m.group("arg"))

print
1234


### 43.3.1 패턴에 매칭되는 모든 문자열 가져오기

그룹 지정 없이 패턴에 매칭되는 모든 문자열을 가져오려면 findall 함수를 사용한다.
- re.findall("패턴", "문자열")

In [28]:
print(re.findall("[0-9]+", "1 2 Fizz 4 Buzz Fizz 7 8"))

['1', '2', '4', '7', '8']


> 참고: *, +와 그룹 활용하기

+과 *을 조합하여 사용할 때는 그룹으로 묶어서 사용한다.
```(.[0-9]+)*```는 점과 영문 소문자가 1개 이상 있는지 판단하고 이것 자체가 0개 이상인지 판단한다. 즉, 규칙은 반드시 지켜야 하지만 있어도 되고 없어도 되는 상황에 사용한다.

In [31]:
print(re.match("[a-z]+(.[a-z]+)*$", "hello.world"))  # .world는 문자열이므로 패턴에 매칭됨
print(re.match("[a-z]+(.[a-z]+)*$", "hello.1234"))  # .1234는 숫자이므로 매칭 안 됨
print(re.match("[a-z]+(.[a-z]+)*$", "hello"))  # .뒤에 문자열이 없어도 매칭됨

<re.Match object; span=(0, 11), match='hello.world'>
None
<re.Match object; span=(0, 5), match='hello'>


## 43.4 문자열 바꾸기

문자열을 바꿀 때는 sub 함수를 사용하여 패턴, 바꿀 문자열, 문자열, 바꿀 횟수를 넣어 준다.
바꿀 횟수를 생략하면 찾은 문자열을 모두 바꾼다.
- re.sub("패턴", "바꿀문자열", "문자열", 바꿀횟수)

In [32]:
# apple 또는 orange를 찾아서 fruit로 바꾸기
print(re.sub("apple|orange", "fruit", "apple box orange tree"))

fruit box fruit tree


In [33]:
# 숫자만 찾아서 n으로 바꾸기
print(re.sub("[0-9]+", "n", "1 2 fizz 4 buzz fizz 7 8"))

n n fizz n buzz fizz n n


sub 함수는 바꿀 문자열 대신 교체 함수를 지정할 수 있다.
교체함수는 매개변수로 매치 객체를 받으며 바꿀 결과를 문자열로 반환한다.
- 교체함수(매치객체)
- re.sub("패턴", 교체함수, "문자열", 바꿀횟수)

In [34]:
# 숫자를 찾은 뒤 숫자를 10배로 만든다.
def multiple10(m):  # 매개변수로 매치 객체를 받음
    n = int(m.group())  # 매칭된 문자열을 가져와 정수로 변환
    return str(n*10)  # 숫자에 10을 곱한 뒤 문자열로 변환

print(re.sub("[0-9]+", multiple10, "1 2 Fizz 4 Buzz 7 8"))

10 20 Fizz 40 Buzz 70 80


In [35]:
# 교체함수 내용이 간단하면 람다 표현식 사용
print(re.sub("[0-9]+", lambda m: str(int(m.group()) * 10), "1 2 Fizz 4 Buzz Fizz 7 8"))

10 20 Fizz 40 Buzz Fizz 70 80


### 43.4.1 찾은 문자열을 결과에 다시 사용하기

정규표현식을 그룹으로 묶고 바꿀 문자열에서 ```\\숫자``` 형식으로 매칭된 문자열을 가져와서 사용할 수 있다.

In [36]:
# "hello 1234"에서 hello는 그룹1, 1234는 그룹2로 찾은 뒤 그룹2, 1, 2, 1 순으로 문자열의 순서를 바꿔서 출력

print(re.sub("([a-z]+) ([0-9]+)", "\\2 \\1 \\2 \\1", "hello 1234"))

1234 hello 1234 hello


In [38]:
# { "name": "james" } 를 <name>james</name> 형태로 바꾸기
print(re.sub('({\s*)"(\w+)":\s*"(\w+)"(\s*})', "<\\2>\\3</\\2>", '{ "name": "james" }'))

<name>james</name>


In [41]:
# 그룹에 이름을 지은 경우
# \\g<이름>
# \\g<숫자>
print(re.sub('({\s*)"(?P<key>\w+)":\s*"(?P<value>\w+)"(\s*})', '<\\g<key>>\\g<value></\\g<key>>', '{ "name": "james" }'))

<name>james</name>


> 참고: raw 문자 사용하기
> 특수 문자를 판단하려면 \를 붙여야 하는데 여기서 문자열 앞에 r을 붙여주면 raw 문자열이 되어 \를 붙이지 않아도 특수문자 그대로 판단할 수 있다.

In [44]:
print(re.sub('({\s*)"(\w+)":\s*"(\w+)"(\s*})', r'<\2>\3</\2>', '{ "name": "james" }'))

<name>james</name>
