# 입문자를 위한, 파이썬/R 데이터 분석 

## Today's mission

- Python 정규표현식

## 점프투파이썬 정규표현식

- https://wikidocs.net/1642

In [1]:
data = """
park 800905-1049118
kim  700905-1059119
"""

In [2]:
data

'\npark 800905-1049118\nkim  700905-1059119\n'

In [3]:
print(data)


park 800905-1049118
kim  700905-1059119



In [4]:
result = []

In [5]:
word_result = []

In [6]:
line = data.split("\n")[2]
print(line)

kim  700905-1059119


In [7]:
for word in line.split(" "):
    word_result = []
    print(word)
    if len(word) == 14 and word[:6].isdigit() and word[7:].isdigit():
        word = word[:6] + "-" + "*******"
    word_result.append(word)
result.append(" ".join(word_result))   

kim

700905-1059119


In [8]:
word_result

['700905-*******']

In [9]:
result

['700905-*******']

In [10]:
for line in data.split("\n"):
    word_result = []
    for word in line.split(" "):
        if len(word) == 14 and word[:6].isdigit() and word[7:].isdigit():
            word = word[:6] + "-" + "*******"
        word_result.append(word)
    result.append(" ".join(word_result))    

In [11]:
print("\n".join(result))

700905-*******

park 800905-*******
kim  700905-*******



In [12]:
import re 

data = """
park 800905-1049118
kim  700905-1059119
"""

pat = re.compile("(\d{6})[-]\d{7}")
print(pat.sub("\g<1>-*******", data))


park 800905-*******
kim  700905-*******



## 정규 표현식

정규 표현식(정규식)이란 프로그래밍에서 문자열을 다룰 때 문자열의 일정한 패턴을 표현하는 일종의 형식 언어를 말하며, 영어로는 regular expression를 줄여 일반적으로 regex라 표현한다. 정규 표현식은 파이썬만의 고유 문법이 아니라 문자열을 처리하는 모든 프로그래밍에서 사용되는 공통 문법이기에 한 번 알아두면 파이썬 뿐만 아니라 다른 언어에서도 쉽게 적용할 수 있다. 본 책의 내용은 아래 페이지의 내용을 참고하여 작성되었다.

```
https://docs.python.org/3.10/howto/regex.html
```

### 정규 표현식을 알아야 하는 이유

만약 우리가 크롤링한 결과물이 다음과 같다고 하자.

```
"동 기업의 매출액은 전년 대비 29.2% 늘어났습니다."
```

만일 이 중에서 [29.2%]에 해당하는 데이터만 추출하려면 어떻게 해야 할까? 얼핏 보기에도 꽤나 복잡한 방법을 통해 클렌징을 해야 한다. 그러나 정규 표현식을 이용할 경우 이는 매우 간단한 작업이다.

In [13]:
import re

data = '동 기업의 매출액은 전년 대비 29.2% 늘어났습니다.'
re.findall('\d+.\d+%', data)

['29.2%']

'\d+.\d+%'라는 표현식은 '숫자.숫자%'의 형태를 나타내는 정규 표현식이며, re 모듈의 `findall()` 함수를 통해 텍스트에서 해당 표현식의 글자를 추출할 수 있다. 이제 정규 표현식의 종류에는 어떠한 것들이 있는지 알아보도록 하자.

### 메타문자

프로그래밍에서 메타 문자(Meta Characters)란 문자가 가진 원래의 의미가 아닌 특별한 용도로 사용되는 문자를 말한다. 정규 표현식에서 사용되는 메타 문자는 다음과 같다.

```
. ^ $ * + ? { } [ ] \ | ( )
```

정규 표현식에 메타 문자를 사용하면 특별한 기능을 갖는다.

#### 문자 클래스([ ])

정규 표현식에서 대괄호([ ])는 **대괄호 안에 포함된 문자들 중 하나와 매치**를 뜻한다. 예를 들어 'apple', 'blueberry', 'coconut'이 정규표현식이 [ae]와 어떻게 매치되는지 살펴보자.

- 'apple'에는 정규표현식 내의 a와 e가 모두 존재하므로 매치된다.
- 'blueberry'에는 e가 존재하므로 매치된다.
- 'coconut'에는 a와 e 중 어느 문자도 포함하고 있지 않으므로 매치되지 않는다.

만일 [ ] 안의 두 문자 사이에 하이픈(-)을 입력하면 두 문자 사이의 범위를 의미한다. 즉 [a-e]라는 정규 표현식은 [abcde]와 동일하며, [0-5]는 [012345]와 동일하다. 흔히 [a-z]는 알파벳 소문자를, [A-Z]는 알파벳 대문자를, [a-zA-Z]는 모든 알파벳을, [0-9]는 모든 숫자를 뜻한다. 또한 [ ]안의 ^는 반대를 뜻한다. 즉 [^0-9]는 숫자를 제외한 문자만 매치를, [^abc]는 a,b,c를 제외한 모든 문자와 매치를 뜻한다.

자주 사용하는 문자 클래스의 경우 별도의 표기법이 존재하여 훨씬 간단하게 표현할 수 있다.

```{table} 자주 사용하는 문자 클래스
:name: character_class
| 문자 클래스 | 설명 |
| --- | --- |
| \d | 숫자와 매치, [0-9]와 동일한 표현식 |
| \D | 숫자가 아닌 것 매치, [^0-9]와 동일한 표현식 |
| \s | whitespace(공백) 문자와 매치, [ \t\n\r\f\v]와 동일한 표현식 |
| \S | whitespace 문자가 아닌 것과 매치, [^\t\n\r\f\v]와 동일한 표현식 |
| \w | 문자+숫자(alphanumeric)와 매치, [a-zA-Z0-9]와 동일한 표현식 |
| \W | 문자+숫자(alphanumeric)가 아닌 문자와 매치, [^a-zA-Z0-9]와 동일한 표현식 |
```

{numref}`character_class`에서 알 수 있듯이 대문자로 표현된 문자 클래스는 소문자로 표현된 것의 반대를 의미한다.

#### 모든 문자(.)

Dot(.) 메타 문자는 줄바꿈 문자인 \n을 제외한 모든 문자와 매치되며, Dot 하나당 임의의 한 문자를 나타낸다. 정규 표현식 `a.e`는 'a+모든문자+e'의 형태다. 즉 a와 e 문자 사이에는 어떤 문자가 들어가도 모두 매치가 된다. 'abe', 'ace', 'abate', 'ae'의 경우 정규식 `a.e`와 어떻게 매치되는지 살펴보자.

- 'abe': a와 e 사이에 b라는 문자가 있으므로 정규식과 매치된다.
- 'ace': a와 e 사이에 c라는 문자가 있으므로 정규식과 매치된다.
- 'abate': a와 e 사이에 문자가 하나가 아닌 여러개가 있으므로 매치되지 않는다.
- 'ae': a와 e 사이에 문자가 없으므로 매치되지 않는다.

만일 정규식이 a[.]c의 형태일 경우는 'a.c'를 의미한다. 즉 a와 c사이의 dot(.)은 모든 문자를 의미하는 것이 아닌 문자 그대로인 .를 의미한다.

#### 반복문

정규 표현식에는 반복을 의미하는 여러 메타문자가 존재한다. 먼저 `*`의 경우 `*` 바로 앞에 있는 문자가 0부터 무한대로 반복될 수 있다는 의미다.  `ca*t` 이라는 정규식은 c 다음의 a가 0부터 무한대로 반복되고 t로 끝이난다는 의미로, 'ct', 'cat', 'caat', 'caaaat' 모두 정규식과 매치된다.

반면 메타문자 `+`는 최소 1번 이상 반복될 때 사용된다. `ca+t` 라는 정규식은 c 다음의 a가 1번 이상 반복된 후 t로 끝남을 의미하며, 위 예제에서 ct는 a가 없으므로 매치되지 않는다.

메타문자 `{ }`를 사용하면 반복 횟수를 고정할 수 있다. 즉 {m, n}은 반복 횟수가 m부터 n까지 고정된다. m 혹은 n은 생략할 수도 있으며, {3, }의 경우 반복 횟수가 3 이상, {, 3}의 경우 반복 횟수가 3 이하를 의미한다. 

메타문자 `?`는 {0, 1}과 동일하다. 즉 `?` 앞의 문자가 있어도 되고 없어도 된다는 의미다.

#### 기타 메타문자

이 외에도 정규 표현식에는 다양한 메타문자가 존재한다.

- `|`: or과 동일한 의미다. 즉 `expr1 | expr2`라는 정규식은 expr1 혹은 expr2 라는 의미로써, 둘 중 하나의 형태만 만족해도 매치가 된다.
- `^`: 문자열의 맨 처음과 일치함을 의미한다. 즉 `^a` 정규식은 a로 시작하는 단어와 매치가 된다.
- `$`: `^`와 반대의 의미로써, 문자열의 끝과 매치함을 의미한다. 즉, `a$`는 a로 끝나는 단어와 매치가 된다.
- `\`: 메타문자의 성질을 없앨때 붙인다. 즉 `^`이나 `$` 문자를 메타문자가 아닌 문자 그 자체로 매치하고 싶은 경우 `\^`, `\$`의 형태로 사용한다.
- `()`: 괄호안의 문자열을 하나로 묶어 취급한다.

### 정규식을 이용한 문자열 검색

대략적인 정규 표현식을 익혔다면, 실제 예제를 통해 문자열을 검색하는 법을 알아보자. 파이썬에서는 re(regular expression) 모듈을 통해 정규 표현식을 사용할 수 있다. 정규 표현식과 관련된 메서드는 다음과 같다.

- `match()`: 시작부분부터 일치하는 패턴을 찾는다.
- `search()`: 첫 번째 일치하는 패턴을 찾는다.
- `findall()`: 일치하는 모든 패턴을 찾는다.
- `finditer()`: `findall()`과 동일하지만 그 결과로 반복 가능한 객체를 반환한다.

간단한 실습을 해보도록 하자.

#### `match()`

In [14]:
import re

p = re.compile('[a-z]+')
type(p)

re.Pattern

파이썬에서는 re 모듈을 통해 정규 표현식을 사용할 수 있으며, `re.compile()`을 통해 정규 표현식을 컴파일하여 변수에 저장한 후 사용할 수 있다. `[a-z]+`는 알파벳 소문자가 1부터 여러개까지를 의미하는 표현식이다.

In [15]:
m = p.match('python')
print(m)

<re.Match object; span=(0, 6), match='python'>


`match()` 함수를 통해 처음부터 정규 표현식과 일치하는 패턴을 찾을 수 있다. python이라는 단어는 알파벳이 여러개가 있는 경우이므로 match 객체를 반환한다.

In [16]:
m.group()

'python'

match 객체 뒤에 `group()`을 입력하면 매치된 텍스트만 출력할 수 있다.

In [17]:
m = p.match('Use python')
print(m)

None


'Use python 이라는 문자열은 맨 처음의 문자 'U'가 대문자로써, 소문자를 의미하는 정규 표현식 `[a-z]+`와는 매치되지 않아 None을 반환한다.

In [18]:
m = p.match('PYTHON')
print(m)

None


PYTHON이라는 단어는 대문자이므로 이 역시`[a-z]+`와는 매치되지 않는다. 이 경우 대문자에 해당하는 `[A-Z]+` 표현식을 사용해야 매치가 된다.

In [19]:
p = re.compile('[가-힣]+')
m = p.match('파이썬')
print(m)

<re.Match object; span=(0, 3), match='파이썬'>


한글의 경우 알파벳이 아니므로 모든 한글을 뜻하는 `[가-힣]+` 표현식을 사용하면 매치가 된다.

#### `search()`

`search()` 함수는 첫 번째 일치하는 패턴을 찾는다.

In [20]:
p = re.compile('[a-z]+')
m = p.search('python')
print(m)

<re.Match object; span=(0, 6), match='python'>


'python'이라는 문자에 search 메서드를 수행하면 match 메서드를 수행한 것과 결과가 동일하다.

In [21]:
m = p.search('Use python')
print(m)

<re.Match object; span=(1, 3), match='se'>


'Use python' 문자의 경우 첫번째 문자인 'U'는 대문자라 매치가 되지 않지만, 그 이후의 문자열 'se'는 소문자로 구성되어 있기에 매치가 된다. 이처럼 `search()`는 문자열의 처음부터 검색하는 것이 아니라 문자열 전체를 검색하며, 첫 번째로 일치하는 패턴을 찾기에 띄어쓰기 이후의 'python'은 매치되지 않는다.

#### `findall()`

`findall()`은 하나가 아닌 일치하는 모든 패턴을 찾는다.

In [22]:
p = re.compile('[a-zA-Z]+')
m = p.findall('Life is too short, You need Python.')
print(m)

['Life', 'is', 'too', 'short', 'You', 'need', 'Python']


이번에는 대소문자 모든 알파벳을 뜻하는 `[a-zA-Z]+` 표현식을 입력하였다. 그 후 'Life is too short, You need Python.'라는 문자에 `finall()` 메서드를 적용하면 정규 표현식과 매치되는 모든 단어를 리스트 형태도 반환한다.

#### finditer()

마지막으로 `findall()`과 비슷한 `finditer()` 함수의 결과를 살펴보자.

In [23]:
p = re.compile('[a-zA-Z]+')
m = p.finditer('Life is too short, You need Python.')
print(m)

<callable_iterator object at 0x0000029D75B3BD30>


결과를 살펴보면 반복 가능한 객체(iterator object)를 반환한다. 이는 for문을 통해 출력할 수 있다.

In [24]:
for i in m:
    print(i)

<re.Match object; span=(0, 4), match='Life'>
<re.Match object; span=(5, 7), match='is'>
<re.Match object; span=(8, 11), match='too'>
<re.Match object; span=(12, 17), match='short'>
<re.Match object; span=(19, 22), match='You'>
<re.Match object; span=(23, 27), match='need'>
<re.Match object; span=(28, 34), match='Python'>


### 정규 표현식 연습해보기

위에서 배운 것들을 토대로 실제 크롤링 결과물 중 정규 표현식을 사용해 원하는 부분만 찾는 연습을 해보도록 하자.

In [25]:
num = """r\n\t\t\t\t\t\t\t\r\n\t\t\t\t\t\t\t\t15\r\n\t\t\t\t\t\t\t\t23\r\n\t\t\t\t\t\t\t\t29\r\n\t\t\t\t\t\t\t\t34\r\n\t\t\t\t\t\t\t\t40\r\n\t\t\t\t\t\t\t\t44\r\n\t\t\t\t\t\t\t\r\n\t\t\t\t\t\t"""

위의 HTML 결과물에서 숫자에 해당하는 부분만 추츨해보도록 하자.

In [26]:
import re

p = re.compile('[0-9]+')
m = p.findall(num)
print(m)

['15', '23', '29', '34', '40', '44']


\n, \t와 같은 문자를 없애는 방법으로 클렌징을 할 수도 있지만, 숫자를 의미하는 '[0-9]+' 정규 표현식을 사용하면 훨씬 간단하게 추출할 수 있다.

In [27]:
dt = '> 오늘의 날짜는 2022.12.31 입니다.'

이번에는 위의 문장에서 날짜에 해당하는 '2022.12.31' 혹은 '20221231' 만 추출해보도록 하자.

In [28]:
p = re.compile('[0-9]+.[0-9]+.[0-9]+')
p.findall(dt)

['2022.12.31']

정규 표현식 '[0-9]+.[0-9]+.[0-9]+'은 [숫자.숫자.숫자] 형태를 의미하며, 이를 통해 '2022.12.31'을 추출한다.

In [29]:
p = re.compile('[0-9]+')
m = p.findall(dt)
print(m)

['2022', '12', '31']


정규 표현식에 `[0-9]+`을 입력할 경우 숫자가 개별로 추출되므로, 추가적인 작업을 통해 '20221231' 형태로 만들어주면 된다.

In [30]:
''.join(m)

'20221231'

`join()` 함수는 `'구분자'.join(리스트)` 형태이므로, 구분자에 ''를 입력하면 리스트 내의 모든 문자를 공백없이 합쳐서 반환한다.

```{note}
아래의 웹사이트에서 정규 표현식을 연습하고 테스트할 수 있다. 크롤링 후 내가 선택하고자 하는 문자를 한 번에 정규 표현식을 이용해 추출하는 것은 초보자 단계에서는 쉬운일이 아니므로, 아래 웹사이트에서 텍스트를 입력하고 이를 추출하는 정규 표현식을 알아낸 후, 이를 파이썬에 적용하는 것이 훨씬 효율성이 높다.

- https://regexr.com
- https://regex101.com
```