# 정규 표현식(Regular Expression)

In [4]:
import re

## 1. 정규표현식 실습

In [6]:
re.search('a.c', 'kkk')

### ? 기호

In [7]:
r = re.compile('ab?c')
r.search('abbc')

In [8]:
r.search('abc')

<re.Match object; span=(0, 3), match='abc'>

In [9]:
r.search('ac')

<re.Match object; span=(0, 2), match='ac'>

- \* 기호: 바로 앞의 문자가 0개 이상일 경우

In [10]:
r = re.compile("ab*c")
r.search('a')

In [11]:
r.search('abbbbbc')

<re.Match object; span=(0, 7), match='abbbbbc'>

- \+ 기호: 앞의 문자가 최소 1개 이상

In [13]:
r = re.compile('ab+c')
r.search('ac')

In [14]:
r.search('abbbbbc')

<re.Match object; span=(0, 7), match='abbbbbc'>

- \^ 기호: 시작되는 글자를 지정

In [15]:
re.search('^a', 'bbc')

In [16]:
re.search('^a', 'ab')

<re.Match object; span=(0, 1), match='a'>

- {숫자} 기호: 해당 문자를 숫자만큼 반복한 것

In [17]:
r = re.compile('ab{2}c')
r.search('ac')
r.search('abc')

In [18]:
r.search('abbc')

<re.Match object; span=(0, 4), match='abbc'>

- {숫자1, 숫자2} 기초: 해당 문자를 숫자1 이상 숫자2 이하만큼 반복

In [24]:
r = re.compile('ab{2,8}c')
r.search('ac')
r.search('abc')

In [26]:
r.search('abbbbbc')

<re.Match object; span=(0, 7), match='abbbbbc'>

- \[]기호: 문자들 중 한 개의 문자와 매치라는 의미

In [27]:
r = re.compile('[abc]')
r.search('zzz')

In [28]:
r.search('baac')

<re.Match object; span=(0, 1), match='b'>

In [29]:
# 소문자
re.search('[a-z]', 'ABC')

In [30]:
re.search('[a-z]', 'AbC')

<re.Match object; span=(1, 2), match='b'>

In [34]:
# 문자 또는 숫자
re.search('[0-9A-Za-z]', '$%^&')
re.search('\w', '$%^&')

- \[^문자] 기호: ^ 뒤에 붙은 문자들을 제외한 모든 문자를 매치

In [31]:
r = re.compile('[^abc]')
r.search('a')
r.search('ab')
r.search('b')

In [32]:
r.search('d1')

<re.Match object; span=(0, 1), match='d'>

In [None]:
# 한글과 공백을 제외한 모든 문자를 제거
re.sub('[^ㅅ-ㅎㅏ-ㅣ가-힣]', '', '한글과 space, 7을 제외한 모든 문자를 제거')

## 2. re 모듈 함수

In [35]:
re.match('ab.', 'kkkabc')

In [38]:
re.search('ab.', 'kkkabc')

<re.Match object; span=(3, 6), match='abc'>

- re.split()

In [39]:
text = '사과 딸기 수박 메론 바나나'
re.split(' ', text)

['사과', '딸기', '수박', '메론', '바나나']

In [40]:
text.split()

['사과', '딸기', '수박', '메론', '바나나']

In [41]:
text = """사과      딸기
수박
메론              바나나"""
text.split()

['사과', '딸기', '수박', '메론', '바나나']

In [42]:
re.split('\s', text)

['사과',
 '',
 '',
 '',
 '',
 '',
 '딸기',
 '수박',
 '메론',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '바나나']

- re.findall()

In [43]:
text = """이름 : 김철수
전화번호 : 010 - 1234 - 5678
나이 : 30
성별 : 남"""
re.findall('\d+', '김철수')

[]

- re.sub()

In [44]:
text = """Regular expression : A regular expression, regex or regexp[1]
(sometimes called a rational expression)[2][3]
is, in theoretical computer science and formal language theory,
a sequence of characters that define a search pattern."""
re.sub('[^a-zA-Z]', ' ', text)

'Regular expression   A regular expression  regex or regexp     sometimes called a rational expression        is  in theoretical computer science and formal language theory  a sequence of characters that define a search pattern '

## 3. 정규표현식 텍스트 전처리 예제

In [45]:
text = """100 John    PROF
101 James   STUD
102 Mac   STUD"""

re.split('\s+', text)

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

In [46]:
re.findall('\d+', text)

['100', '101', '102']

In [47]:
re.findall('[A-Z]+', text)

['J', 'PROF', 'J', 'STUD', 'M', 'STUD']

In [49]:
re.findall('[A-Z]{4}', text)

['PROF', 'STUD', 'STUD']

In [50]:
re.findall('[A-Z][a-z]+', text)

['John', 'James', 'Mac']

## 4. POSIX 정규 표현식

In [51]:
re.findall('[:alpha:]', '1 b C')

[]