In [2]:
import numpy as np
import pandas as pd
import re

# 정규 표현식 문법

## .기호
한 개의 임의의 문자 

In [3]:
r = re.compile('a.c')
r.search('kkk') # unmatch: 아무런 결과 출력X

In [4]:
r.search('abc') # match

<re.Match object; span=(0, 3), match='abc'>

## ?기호
앞의 문자가 존재할 수도/존재하지 않을 수도 있음

In [7]:
r = re.compile('ab?c')
r.search('abbc')

In [9]:
r.search('abc')

<re.Match object; span=(0, 3), match='abc'>

In [11]:
r.search('ac')

<re.Match object; span=(0, 2), match='ac'>

## *기호
앞의 문자가 0개 이상임

In [13]:
r = re.compile('ab*c')
r.search('a')

In [14]:
r.search('ac')

<re.Match object; span=(0, 2), match='ac'>

In [15]:
r.search('abc')

<re.Match object; span=(0, 3), match='abc'>

In [17]:
r.search('abbbbc')

<re.Match object; span=(0, 6), match='abbbbc'>

## +기호
앞의 문자가 1개 이상

In [18]:
r = re.compile('ab+c')
r.search('ac')

In [19]:
r.search('abc')

<re.Match object; span=(0, 3), match='abc'>

In [21]:
r.search('abbbbc')

<re.Match object; span=(0, 6), match='abbbbc'>

## ^기호
^ab: ab로 시작됨

In [23]:
r = re.compile('^ab')

r.search('bbc')
r.search('zab')

In [24]:
r.search('abc')

<re.Match object; span=(0, 2), match='ab'>

In [26]:
r.search('acb')

## 문자{숫자}
문자가 숫자만큼 반복됨

In [27]:
r  = re.compile('ab{2}c')

r.search('ac')
r.search('abc')

In [29]:
r.search('abbc')

<re.Match object; span=(0, 4), match='abbc'>

## 문자{숫자1, 숫자2}
숫자1 이상 숫자2 이하만큼 문자가 반복됨

In [30]:
r = re.compile('ab{2,8}c')

r.search('ac')
r.search('abc')

In [32]:
r.search('abbc')

<re.Match object; span=(0, 4), match='abbc'>

In [34]:
r.search('abbbbbbc')

<re.Match object; span=(0, 8), match='abbbbbbc'>

## 문자{숫자,}
문자를 숫자 이상만큼 반복

In [37]:
r = re.compile('a{2,}bc')

r.search('bc')
r.search('aa')
r.search('abc')

In [39]:
r.search('aabc')

<re.Match object; span=(0, 4), match='aabc'>

## []
- \[ab\]: a 또는 b와 매치
- \[a-zA-Z\]: 알파벳 전부를 의미

In [40]:
r = re.compile('[abc]')
r.search('zzz')

In [41]:
r.search('a')

<re.Match object; span=(0, 1), match='a'>

In [42]:
r.search('aaaaaaa')

<re.Match object; span=(0, 1), match='a'>

In [45]:
r.search('baaaaaac') 

<re.Match object; span=(0, 1), match='b'>

## [^]
[^abc]: a, b, c가 아닌 모든 문자

In [46]:
r = re.compile('[^abc]')

r.search('a')
r.search('ab')
r.search('b')

In [47]:
r.search('d')

<re.Match object; span=(0, 1), match='d'>

# 정규 표현식 함수

## re.match()와 re.search()
---
**search**
- 문자열 전체에 대해 정규표현식이 매치하는 지 탐색

**match**
- 문자열의 시작에 대해 정규표현식이 매치하는 지 탐색

In [55]:
r = re.compile('ab.')
print(r.match('kkkabc'))
print(r.match('abckkk'))

None
<re.Match object; span=(0, 3), match='abc'>


In [50]:
r.search('kkkabc')

<re.Match object; span=(3, 6), match='abc'>

단, **search**는 매치되는 문자열이 여러 개일 경우 첫 문자열만 반환함

In [56]:
print(r.search('abcKKabd')) # abc
print(r.search('abdKKabc')) # abd

<re.Match object; span=(0, 3), match='abc'>
<re.Match object; span=(0, 3), match='abd'>


## re.split()

In [58]:
text = 'I have apple.'
re.split(' ',text)

['I', 'have', 'apple.']

In [62]:
text = '''I
have
apple.'''

re.split('\n',text)

['I', 'have', 'apple.']

## re.findall()
정규 표현식과 매치되는 **모든** 문자열을 **리스트**로 반환

In [63]:
text = '010-1234-5678'

re.findall('\d+',text)

['010', '1234', '5678']

In [65]:
re.findall('ice cream',text)

[]

## re.sub()
re.sub( pattern, replace, text ) 

In [67]:
text = "Regular expression : A regular expression, regex or regexp[1] (sometimes called a rational expression)[2][3] is, in theoretical computer science and formal language theory, a sequence of characters that define a search pattern."

preprocessed_text = re.sub('[^a-zA-Z]', ' ', text)
print(preprocessed_text)

Regular expression   A regular expression  regex or regexp     sometimes called a rational expression        is  in theoretical computer science and formal language theory  a sequence of characters that define a search pattern 


# 예제

In [68]:
text = """100 John    PROF
101 James   STUD
102 Mac   STUD"""

In [72]:
# 공백 기준 자르기
re.split('\s+',text)

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

In [74]:
# 숫자 추출
re.findall('\d+',text)

['100', '101', '102']

In [76]:
# 대문자
re.findall('[A-Z]',text)

['J', 'P', 'R', 'O', 'F', 'J', 'S', 'T', 'U', 'D', 'M', 'S', 'T', 'U', 'D']

In [78]:
# 대문자가 연속으로 4번 등장하는 경우
re.findall('[A-Z]{4}',text)

['PROF', 'STUD', 'STUD']

In [79]:
# 대문자 다음 소문자
re.findall('[A-Z][a-z]+',text)

['John', 'James', 'Mac']