# 정규 표현식(Regular Expression)

In [1]:
import re


## 1. 정규표현식 실습

- . 기호 : 한 개의 임의의 문자를 나타냅니다. (줄바꿈 문자인 \n는 제외)

In [2]:
re.search('a.c','kkk')

In [3]:
re.search('a.c','abc')

<re.Match object; span=(0, 3), match='abc'>

- ? 기호 : 앞의 문자가 존재할 수도 있고, 존재하지 않을 수도 있습니다. (문자가 0개 또는 1개)

In [4]:
r = re.compile('ab?c')
r.search('abbc')

In [6]:
r.search('abc')

<re.Match object; span=(0, 3), match='abc'>

In [8]:
r.search('ac')

<re.Match object; span=(0, 2), match='ac'>

- \* 기호 : *은 바로 앞의 문자가 0개 이상일 경우를 나타냅니다. 앞의 문자는 존재하지 않을 수도 있으며, 또는 여러 개일 수도 있습니다.

In [9]:
r=re.compile("ab*c")
r.search("a") # 아무런 결과도 출력되지 않는다.

In [10]:
r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

In [11]:
r.search("abc") 

<re.Match object; span=(0, 3), match='abc'>

In [12]:
r.search("abbbbc") 

<re.Match object; span=(0, 6), match='abbbbc'>

- +기호 : +는 *와 유사합니다. 하지만 다른 점은 앞의 문자가 최소 1개 이상이어야 한다는 점입니다.

In [16]:
r=re.compile("ab+c")
r.search("ab") # 아무런 결과도 출력되지 않는다.

In [14]:
r.search("abc") 

<re.Match object; span=(0, 3), match='abc'>

In [15]:
r.search("abbbbc") 

<re.Match object; span=(0, 6), match='abbbbc'>

- {} 기호 : 문자에 해당 기호를 붙이면, 해당 문자를 숫자만큼 반복한 것을 나타냅니다. 예를 들어서 정규 표현식이 ab{2}c라면 a와 c 사이에 b가 존재하면서 b가 2개인 문자열에 대해서 매치합니다.

In [17]:
r=re.compile("ab{2}c")
r.search("ac") # 아무런 결과도 출력되지 않는다.
r.search("abc") # 아무런 결과도 출력되지 않는다.

In [18]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

- { , } 기호 : 문자에 해당 기호를 붙이면, 해당 문자를 숫자1 이상 숫자2 이하만큼 반복합니다. 예를 들어서 정규 표현식이 ab{2,8}c라면 a와 c 사이에 b가 존재하면서 b는 2개 이상 8개 이하인 문자열에 대해서 매치합니다.

In [19]:
r=re.compile("ab{2,8}c")
r.search("ac") # 아무런 결과도 출력되지 않는다.
r.search("abc") # 아무런 결과도 출력되지 않는다.

In [20]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

In [21]:
r.search("abbbbbbbbc")

<re.Match object; span=(0, 10), match='abbbbbbbbc'>

In [22]:
r.search("abbbbbbbbbc") # 아무런 결과도 출력되지 않는다.

- [] 기호 : [ ]안에 문자들을 넣으면 그 문자들 중 한 개의 문자와 매치라는 의미를 가집니다. 예를 들어서 정규 표현식이 [abc]라면, a 또는 b또는 c가 들어가있는 문자열과 매치됩니다. 범위를 지정하는 것도 가능합니다. [a-zA-Z]는 알파벳 전부를 의미하며, [0-9]는 숫자 전부를 의미합니다.

In [23]:
r=re.compile("[abc]") # [abc]는 [a-c]와 같다.
r.search("zzz") # 아무런 결과도 출력되지 않는다.

In [26]:
# 문자 또는 숫자
re.search('[0-9A-Za-z]','$%^$')
re.search('\w','$%^$') # 위와 같다

- [^문자] 기호 : ^기호 뒤에 붙은 문자들은 제외한 모든 문자를 매치

In [24]:
r=re.compile("[^abc]")
r.search("a") # 아무런 결과도 출력되지 않는다.
r.search("ab") # 아무런 결과도 출력되지 않는다.
r.search("b") # 아무런 결과도 출력되지 않는다.

In [27]:
# 한글과 공백을 제외한 모든 문자를 제거
re.sub('[^ㄱ-ㅎㅏ-ㅣ가-힣 ]','','한글과 space, 7 @#$$ 제외한 모든 문자를 제거.')

'한글과    제외한 모든 문자를 제거'

## 2. re 모듈 함수

- match와 search 차이

In [28]:
re.match('ab.','kkkabc')

In [29]:
re.search('ab.','kkkabc')

<re.Match object; span=(3, 6), match='abc'>

- re.split()

In [30]:
text = """사과     딸기
수박
메론            바나나"""
text.split()

['사과', '딸기', '수박', '메론', '바나나']

In [32]:
re.split('\s+', text)

['사과', '딸기', '수박', '메론', '바나나']

- re.findall() 

In [33]:
text="""이름 : 김철수
전화번호 : 010 - 1234 - 1234
나이 : 30
성별 : 남"""  
re.findall("\d+",text)

['010', '1234', '1234', '30']

- re.sub()

In [34]:
text="Regular expression : A regular expression, regex or regexp[1] (sometimes called a rational expression)[2][3] is, in theoretical computer science and formal language theory, a sequence of characters that define a search pattern."
re.sub('[^a-zA-Z]',' ',text)

'Regular expression   A regular expression  regex or regexp     sometimes called a rational expression        is  in theoretical computer science and formal language theory  a sequence of characters that define a search pattern '

## 3.정규표현식 텍스트 전처리 예제

In [35]:
text = """100 John    PROF
101 James   STUD
102 Mac   STUD"""  

re.split('\s+', text) 

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

In [36]:
re.findall('\d+',text) 

['100', '101', '102']

In [43]:
re.findall('[A-Z]',text)

['J', 'P', 'R', 'O', 'F', 'J', 'S', 'T', 'U', 'D', 'M', 'S', 'T', 'U', 'D']

In [42]:
re.findall('[A-Z]{4}',text)

['PROF', 'STUD', 'STUD']

In [44]:
re.findall('[A-Z][a-z]+',text)

['John', 'James', 'Mac']