# 정규 표현식(regular expression)

In [8]:
import re

## 1. regular expression practice

- . 기호 : 한 개의 임의의 문자를 나타냅니다. (줄바꿈 문자인 \n는 제외)

In [9]:
re.search('a.c', 'kkk')

In [10]:
re.search('a.c', 'abc')

<re.Match object; span=(0, 3), match='abc'>

- \* 기호 : 바로 앞의 문자가 0개 이상일 경우

In [30]:
import re
r=re.compile("ab*c")
r.search("a") # 아무런 결과도 출력되지 않는다.

In [31]:
r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

In [32]:
r.search("abc") 

<re.Match object; span=(0, 3), match='abc'>

In [33]:
r.search("abbbbc") 

<re.Match object; span=(0, 6), match='abbbbc'>

- ? 기호 : 앞의 문자가 존재할 수도 있고, 존재하지 않을 수도 있습니다. (문자가 0개 또는 1개)

In [11]:
r = re.compile('ab?c')
r.search('abbc') 

In [12]:
r.search('abc') 

<re.Match object; span=(0, 3), match='abc'>

- \+ 기호: 앞의 문자가 최소 한 개 이상 존재합니다. (문자가 1개 이상)

In [13]:
r = re.compile('ab+c')
r.search('ac') 

In [14]:
r.search('abbbbbc')

<re.Match object; span=(0, 7), match='abbbbbc'>

- ^기호: 뒤의 문자로 문자열이 시작됩니다

In [28]:
import re
r=re.compile("^a")
r.search("bbc") # 아무런 결과도 출력되지 않는다.

In [29]:
r.search("ab")

<re.Match object; span=(0, 1), match='a'>

- {숫자} 기호 : 숫자만큼 반복합니다.

In [17]:
r = re.compile('ab{2}c')
r.search('ac')
r.search('abc')

In [18]:
r.search('abbc')

<re.Match object; span=(0, 4), match='abbc'>

- {숫자1, 숫자2} 기호 : 숫자1 이상 숫자2 이하만큼 반복합니다. ?, *, +를 이것으로 대체할 수 있습니다.

In [19]:
r = re.compile('ab{2, 8}c')
r.search('ac')
r.search('abc')

In [20]:
r.search('abbbbbc')

- \[ \]기호 : 대괄호 안의 문자들 중 한 개의 문자와 매치

In [21]:
r = re.compile('[abc]')
r.search('zzz')

In [22]:
r.search('baac')

<re.Match object; span=(0, 1), match='b'>

In [23]:
# 소문자
re.search('[a-z]', 'ABC')

In [24]:
re.search('[a-z]', 'AbC')

<re.Match object; span=(1, 2), match='b'>

In [34]:
# 문자 또는 숫자
re.search('[0-9A-Za-z]', '$%^%')
re.search('\w', '$%^%')

- \[^문자\] 기호 : 해당 문자를 제외한 문자를 매치

In [25]:
import re
r=re.compile("[^abc]")
r.search("a") # 아무런 결과도 출력되지 않는다.
r.search("ab") # 아무런 결과도 출력되지 않는다.
r.search("b") # 아무런 결과도 출력되지 않는다.

In [26]:
r.search("d")

<re.Match object; span=(0, 1), match='d'>

In [27]:
r.search("1")

<re.Match object; span=(0, 1), match='1'>

In [36]:
# 한글과 공백을 제외한 모든 문자 제거
re.sub('[^ㄱ-ㅎㅏ-ㅣ가-힣 ]', '', '^ 기호 뒤에 붙은 문자.')

' 기호 뒤에 붙은 문자'

## 2. re moule func

In [39]:
re.match("ab.", 'kkkabc')

In [40]:
re.search("ab.", 'kkkabc')

<re.Match object; span=(3, 6), match='abc'>

- re.split()

In [41]:
text="사과 딸기 수박 메론 바나나"
re.split(" ",text)  

['사과', '딸기', '수박', '메론', '바나나']

In [42]:
text.split()

['사과', '딸기', '수박', '메론', '바나나']

In [43]:
text="""사과
딸기
수박
메론
바나나"""
text.split() # default '\s+'

['사과', '딸기', '수박', '메론', '바나나']

In [44]:
re.split('\s+', text)

['사과', '딸기', '수박', '메론', '바나나']

- re.findall()

In [45]:
text="""이름 : 김철수
전화번호 : 010 - 1234 - 1234
나이 : 30
성별 : 남"""  
re.findall("\d+",text)

['010', '1234', '1234', '30']

In [46]:
re.findall("\d+",'김철수')

[]

- re.sub()

In [47]:
text="Regular expression : A regular expression, regex or regexp[1] (sometimes called a rational expression)[2][3] is, in theoretical computer science and formal language theory, a sequence of characters that define a search pattern."
re.sub('[^a-zA-Z]',' ',text)

'Regular expression   A regular expression  regex or regexp     sometimes called a rational expression        is  in theoretical computer science and formal language theory  a sequence of characters that define a search pattern '

### 3. regular expression text preprocessing ex

In [48]:
text = """100 John    PROF
101 James   STUD
102 Mac   STUD"""  

re.split('\s+', text)  

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

In [49]:
re.findall('\d+', text)

['100', '101', '102']

In [51]:
re.findall('[A-Z]+', text)

['J', 'PROF', 'J', 'STUD', 'M', 'STUD']

In [52]:
re.findall('[A-Z]{4}', text)

['PROF', 'STUD', 'STUD']

In [55]:
re.findall('[A-Z][a-z]+', text)

['John', 'James', 'Mac']

## 4. POSIX regular expression

In [57]:
re.findall('[:alpha:]', '1 b C')

[]