# 정규표현식 (Regular Expression)

- 특정한 규칙을 가진 문자열을 찾기 위한 패턴
- 정규 표현식을 사용하면 대량의 텍스트 데이터에서 특정 패턴을 효율적으로 추출, 삭제, 대체 가능 

In [1]:
import re

### Syntax

**정규 표현식 기본 문법**

| 특수 문자 | 설명 | 예시 |
|---|---|---|
| . | 임의의 한 문자 | `a.c` : `abc`, `a1c` 등과 매치 |
| ? | 앞 문자가 0개 또는 1개 있을 때 매치 | `ab?c` : `abc`, `ac`와 매치 |
| * | 앞 문자가 0개 이상 있을 때 매치 | `ab*c` : `ac`, `abc`, `abbc` |
| + | 앞 문자가 1개 이상 있을 때 매치 | `ab+c` : `abc`, `abbc` |
| ^ | 문자열이 특정 문자로 시작할 때 매치 | `^abc` : `abcde`, `abc`와 매치 |
| $ | 문자열이 특정 문자로 끝날 때 매치 | `abc$` : `deabc`, `abc`와 매치 |
| {n} | 문자가 정확히 n번 반복될 때 매치 | `a{2}b` : `aab`와 매치 |
| {n,m} | 문자가 n번 이상 m번 이하 반복될 때 매치 | `a{2,4}b` : `aab`, `aaab`, `aaaab` |
| [ ] | 대괄호 안의 문자 중 하나와 매치 | `[abc]` : `a`, `b`, `c` |
| [^ ] | 대괄호 안의 문자 제외하고 매치 | `[^abc]` : `d`, `e`, `1` |
| \| | OR 연산자로 둘 중 하나와 매치 | `a\|b` : `a` 또는 `b` |


##### 임의의 한 글자 . 

In [None]:
# 정규표현식 객체 
reg_exp = re.compile('a.c')     # 여기서 한 글자는 .을 의미한다 (a와 c 사이에 임의의 한글자가 들어있는 패턴.)
# 내가(사람이) 쓴 것을 컴퓨터가 이해할 수 있는 형태로 변환하는 것이 compile 
print(reg_exp.search('abc'))    # span : 위치를 나타내줌 / span=(0, 3) → 문자열에서 인덱스 0부터 3 이전까지('abc') 일치했다는 의미
print(reg_exp.search('aethjawefenafc'))
print(reg_exp.search('abbbbbbbbbc'))
print(reg_exp.search('aXc'))
print(reg_exp.search('a c'))
print(reg_exp.search('ac'))
print(reg_exp.search('bc'))

# search는 하나만 가지고 오고, findall은 매치되는 패턴을 모두 다 가지고 온다. 

<re.Match object; span=(0, 3), match='abc'>
<re.Match object; span=(11, 14), match='afc'>
None
<re.Match object; span=(0, 3), match='aXc'>
<re.Match object; span=(0, 3), match='a c'>
None
None


##### 수량자 * : 0개 이상

In [None]:
reg_exp = re.compile('ab*c')    # a와 c 사이에 b가 0개 이상 들어가기만 하면 된다. 다만 다른 문자가 들어가는건 안됨 
                                # a로 시작 + b가 0개 이상 + c로 끝  (이 조건을 모두 만족해야한다) 
print(reg_exp.search('ac'))
print(reg_exp.search('ab'))
print(reg_exp.search('abc'))
print(reg_exp.search('adc'))
print(reg_exp.search('abbbbbbbbc'))

<re.Match object; span=(0, 2), match='ac'>
None
<re.Match object; span=(0, 3), match='abc'>
None
<re.Match object; span=(0, 10), match='abbbbbbbbc'>


##### 수량자 ? : 0개 또는 1개 

In [None]:
reg_exp = re.compile('ab?c')   # a로 시작 + b가 0개 또는 1개 + c로 끝  (이 조건을 모두 만족해야한다)  

print(reg_exp.search('ac'))
print(reg_exp.search('ab'))
print(reg_exp.search('abc'))
print(reg_exp.search('adc'))
print(reg_exp.search('abbbbbbbbc'))

<re.Match object; span=(0, 2), match='ac'>
None
<re.Match object; span=(0, 3), match='abc'>
None
None


##### 수량자 + : 1개 이상 

In [None]:
reg_exp = re.compile('ab+c')   # a로 시작 + b가 1개 이상 + c로 끝  (이 조건을 모두 만족해야한다)  

print(reg_exp.search('ac'))
print(reg_exp.search('ab'))
print(reg_exp.search('abc'))
print(reg_exp.search('adc'))
print(reg_exp.search('abbbbbbbbc'))

None
None
<re.Match object; span=(0, 3), match='abc'>
None
<re.Match object; span=(0, 10), match='abbbbbbbbc'>


##### 수량자 {n} : 정확히 n개

In [12]:
reg_exp = re.compile('ab{3}c')   # a로 시작 + b가 n(3)개 + c로 끝  (이 조건을 모두 만족해야한다)  

print(reg_exp.search('ac'))
print(reg_exp.search('abc'))
print(reg_exp.search('abbc'))
print(reg_exp.search('abbbc'))
print(reg_exp.search('abbbbc'))
print(reg_exp.search('abbbbbc'))

None
None
None
<re.Match object; span=(0, 5), match='abbbc'>
None
None


##### 수량자 {min, max} : min ~ max개

In [None]:
reg_exp = re.compile('ab{1,3}c')   # a로 시작 + b가 min(1)개 이상 max(3)개 이하 + c로 끝  / {1,3} 띄어쓰기 X 

print(reg_exp.search('ac'))
print(reg_exp.search('abc'))
print(reg_exp.search('abbc'))
print(reg_exp.search('abbbc'))
print(reg_exp.search('abbbbc'))
print(reg_exp.search('abbbbbc'))

None
<re.Match object; span=(0, 3), match='abc'>
<re.Match object; span=(0, 4), match='abbc'>
<re.Match object; span=(0, 5), match='abbbc'>
None
None


| 정규식 패턴 | 의미 |
|------------|------|
| `\b` | 단어 경계(Word Boundary) |
| `\d` | 숫자(0-9) |
| `\D` | 숫자가 아닌 문자 |
| `\s` | 공백 문자 (스페이스, 탭, 개행 등) |
| `\S` | 공백이 아닌 문자 |
| `\w` | 단어 문자 (알파벳, 숫자, `_`) |
| `\W` | 단어 문자가 아닌 것 (특수 문자 등) |
| `.`  | 개행 문자를 제외한 모든 문자 |
| `^`  | 문자열의 시작 |
| `$`  | 문자열의 끝 |
| `*`  | 0회 이상 반복 |
| `+`  | 1회 이상 반복 |
| `?`  | 0회 또는 1회 존재 |
| `{n}` | 정확히 `n`회 반복 |
| `{n,}` | `n`회 이상 반복 |
| `{n,m}` | `n`회 이상 `m`회 이하 반복 |
| `()`  | 그룹화 (서브패턴) |
| `|`  | OR 연산자 (예: `cat|dog` → "cat" 또는 "dog") |
| `[]`  | 문자 집합 (예: `[a-z]`, `[0-9]`) |
| `[^]` | 부정 문자 집합 (예: `[^a-z]` → 알파벳 소문자가 아닌 문자) |


##### 정규표현식에 맞는 패턴을 다 찾고 싶다면?

In [None]:
reg_exp = re.compile('a.c') # a와 c사이에 한글자 
text = 'aiuwbvabcilscjnvpqoejfefabcnawoeifnawof'

# reg_exp.search(text) : 하나만 찾음 

for temp in re.finditer(reg_exp, text): # finditer : 반복할 수 있는 형태(시퀀스)로 반환  
    print(temp)

<re.Match object; span=(6, 9), match='abc'>
<re.Match object; span=(24, 27), match='abc'>


##### 문자 매칭 [] : []안에 있는 것 중 한 글자 

In [None]:
reg_exp = re.compile('[abc]', re.IGNORECASE)    # re.IGNORECASE : 대소문자 구분없이  

print(reg_exp.search('안녕하세요, abc입니다!'))
print(reg_exp.search('안녕하세요, cba입니다!'))
print(reg_exp.search('안녕하세요, ABC입니다!'))

<re.Match object; span=(7, 8), match='a'>
<re.Match object; span=(7, 8), match='c'>
<re.Match object; span=(7, 8), match='A'>


In [24]:
# reg_exp = re.compile('[abcdefghijklmnopqrstuvwxyz]')
reg_exp = re.compile('[a-zA-Z0-9]')

print(reg_exp.search('300살 X, 안녕하세요 x!'))

<re.Match object; span=(0, 1), match='3'>


##### 시작하는 문자열 ^

In [None]:
reg_exp = re.compile('^who')    # (who로 시작하는 문자열을 찾는다)

print(reg_exp.search('who is who'))
print(reg_exp.search('is who'))

print(re.findall('who', 'who is who'))  # findall(찾을 패턴, 찾을 대상)
print(re.findall('^who', 'who is who'))
print(re.findall('^who', 'is who'))

<re.Match object; span=(0, 3), match='who'>
None
['who', 'who']
['who']
[]


### re 모듈 함수 & re 객체 메소드

##### 메소드 search() : 문자열 패턴 검사

In [None]:
reg_exp = re.compile('ab')  # 패턴이기 때문에 'ab'가 포함되기만하면 된다다

print(reg_exp.search('abc'))
print(reg_exp.search('123'))
print(reg_exp.search('123abc'))

<re.Match object; span=(0, 2), match='ab'>
None
<re.Match object; span=(3, 5), match='ab'>


##### 메소드 match() : 시작하는 문자열 패턴 검사 

In [30]:
reg_exp = re.compile('ab')

print(reg_exp.match('abc'))
print(reg_exp.match('123'))
print(reg_exp.match('123abc'))

<re.Match object; span=(0, 2), match='ab'>
None
None


##### 함수 split() : 정규식 패턴으로 분할

In [37]:
text = "Apple Banana Orange"

split_text1 = re.split('[BO]', text) # B와 O를 기준으로 text를 분할 
split_text2 = re.split('[bo]', text) 
split_text3 = re.split('[bo]', text, flags=re.IGNORECASE)
split_text1, split_text2, split_text3

(['Apple ', 'anana ', 'range'],
 ['Apple Banana Orange'],
 ['Apple ', 'anana ', 'range'])

##### 함수 findall() : 매칭된 결과 모두 반환

In [39]:
text = "제 전화번호는 010-1234-5678 입니다."

nums1 = re.findall('[0-9]', text)
nums2 = re.findall('[0-9]+', text)
nums3 = re.findall('[0-9]+-[0-9]+-[0-9]+', text)
nums1, nums2, nums3

(['0', '1', '0', '1', '2', '3', '4', '5', '6', '7', '8'],
 ['010', '1234', '5678'],
 ['010-1234-5678'])

##### 함수 sub() : 문자열 대체

In [None]:
text = "Hello, everyone! Welcome to NLP🤖🤖🤖"

sub_text1 = re.sub('[a-zA-Z ]', '', text)       # [XX ] : XX패턴인 것에 대해 매칭 / 매칭된 것을 '' 즉, 공백으로 대체
sub_text2 = re.sub('[^a-zA-Z ]', '', text)      # [^XX ] : XX패턴이 아닌 것에 대해 매칭, 즉 알파벳과 공백이 아닌 것에 대해 매칭 / 매칭된 것은 '' 즉, 공백으로 대체 
sub_text3 = re.sub('[^a-zA-Z ]', '👍', text)    # 매칭된 것을 👍로 대체 
sub_text1, sub_text2, sub_text3

(',!🤖🤖🤖',
 'Hello everyone Welcome to NLP',
 'Hello👍 everyone👍 Welcome to NLP👍👍👍')

### 정규표현식 토큰화 

In [None]:
from nltk.tokenize import RegexpTokenizer

text = "He's a runner, but not a long_distance runner. His number is 1234."

# tokenizer = RegexpTokenizer('[a-zA-Z0-9_]+')
tokenizer = RegexpTokenizer(r'\w+') # \w = 영문자, 숫자, _를 허용. 따라서 위의 것과 같은 결과를 출력한다 
tokens = tokenizer.tokenize(text)
tokens

['He',
 's',
 'a',
 'runner',
 'but',
 'not',
 'a',
 'long_distance',
 'runner',
 'His',
 'number',
 'is',
 '1234']