<a href="https://colab.research.google.com/github/injoon-pij/dlnlp-learning/blob/main/dlnlp_regular_expression.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1) Regular Expression

__[정규표현식 문법]__

---

|특수문자      |설명                                                        |
|:------------:|:----------------------------------------------------------:|
|.             |한 개의 임의의 문자를 나타냄 (줄바꿈 문자 \n는 제외)        |
|?             |앞에 오는 문자가 0개 또는 1개                               |
|*             |앞에 오는 문자가 0개 이상                                   |
|+             |앞에 오는 문자가 1개 이상                                   |
|^             |뒤에 오는 문자로 문자열이 시작됨                            |
|$             |앞에 오는 문자로 문자열이 끝남                              |
|{숫자}        |숫자만큼 반복                                               |
|{숫자1, 숫자2}|숫자1 이상 숫자2 이하만큼 반복                              |
|{숫자,}       |숫자 이상만큼 반복                                          |
|[ ]           |괄호 안 문자들 중 최소 한개와 매치. 범위 지정 가능 : [a - z]|
|[^문자]       |해당 문자를 제외한 문자와 매치                              |
|\|            |AlB와 같이 쓰이며 A 또는 B라는 의미                         |

__[정규표현식 모듈함수]__

---

|모듈함수     |설명                                                            |
|:-----------:|:--------------------------------------------------------------:|
|re.compile() |정규표현식을 컴파일하여 파이썬에게 전해줌                       |
|re.search()  |문자열 전체에 대해 정규표현식과 매치되는지 검색                 |
|re.match()   |문자열의 처음에 대해 정규표현식과 매치되는지 검색               |
|re.split()   |정규표현식을 기준으로 문자열을 분리하여 리스트로 반환           |
|re.findall() |정규표현식과 매치되는 모든 경우의 문자열을 찾아서 리스트로 반환 |
|re.finditer()|정규표현식과 매치되는 모든 경우의 문자열에 대한 iter 객체를 반환|
|re.sub()     |문자열에서 정규 표현식과 일치하는 부분에 대해 다른 문자열로 대체|

## .

. 은 한 개의 임의의 문자를 나타냄

In [None]:
import re
r = re.compile("a.c")

# 입력 문자열에 정규표현식 패턴이 존재하는지 확인
r.search("kkk") # no match
r.search("ac") # no match : 공백문자는 임의의 문자로 인식되지 않음

In [None]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [None]:
r.search("a?cd")

<re.Match object; span=(0, 3), match='a?c'>

## ?

? 은 앞에 오는 문자가 0번 또는 1번 등장함을 의미

In [None]:
import re
r = re.compile("ab?c")

r.search("abbc") # no match : b가 2번 등장

In [None]:
r.search("abc") # 1번 등장

<re.Match object; span=(0, 3), match='abc'>

In [None]:
r.search("ac") # 0번 등장

<re.Match object; span=(0, 2), match='ac'>

## *

\* 은 앞에 오는 문자가 0번 이상 등장함을 의미

In [1]:
import re
r = re.compile("ab*c")

r.search("a") # no match : c가 없음

In [2]:
r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

In [3]:
r.search("abc") 

<re.Match object; span=(0, 3), match='abc'>

In [4]:
r.search("abbbbc") 

<re.Match object; span=(0, 6), match='abbbbc'>

## +

\+ 은 앞에 오는 문자가 1번 이상 등장함을 의미

In [5]:
import re
r = re.compile("ab+c")

r.search("ac") # no match : b번 이상 등장해야함

In [6]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [7]:
r.search("abbbbc")

<re.Match object; span=(0, 6), match='abbbbc'>

## ^

^ 는 시작되는 글자를 지정함

In [8]:
import re
r = re.compile("^a")

r.search("bbc") # no match : 문자열이 a로 시작해야함

In [9]:
r.search("ab")

<re.Match object; span=(0, 1), match='a'>

## {숫자}

문자 뒤에 {숫자}를 붙이면, 해당 문자를 숫자만큼 반복함

In [10]:
import re
r = re.compile("ab{2}c")

r.search("ac") # no match
r.search("abc") # no match

In [11]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

In [12]:
r.search("abbbbbc") # no match

## {숫자1, 숫자2}

문자 뒤에 {숫자1, 숫자2}를 붙이면, 해당 문자를 숫자1 이상 숫자 2 이하만큼 반복함

In [13]:
import re
r = re.compile("ab{2,8}c")

r.search("ac") # no match
r.search("abc") # no match

In [14]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

In [15]:
r.search("abbbbbbbbc")

<re.Match object; span=(0, 10), match='abbbbbbbbc'>

In [16]:
r.search("abbbbbbbbbc") # no match

## {숫자,}

문자 뒤에 {숫자,}를 붙이면, 해당 문자를 숫자 이상만큼 반복함

In [17]:
import re
r = re.compile("a{2,}bc")

r.search("bc") # no match
r.search("aa") # no match

In [18]:
r.search("aabc")

<re.Match object; span=(0, 4), match='aabc'>

In [19]:
r.search("aaaaaaaabc")

<re.Match object; span=(0, 10), match='aaaaaaaabc'>

## [ ]

괄호 안 문자들 중 최소 한개와 매치됨을 의미. [a-z], [0-9], [a-zA-Z]와 같이 범위를 지정하는 것도 가능함.

In [20]:
import re
r = re.compile("[abc]") # [a-c]

r.search("zzz") # no match

In [21]:
r.search("a")

<re.Match object; span=(0, 1), match='a'>

In [22]:
r.search("aaaaaaa")

<re.Match object; span=(0, 1), match='a'>

In [23]:
r.search("baac") # match = 'b'

<re.Match object; span=(0, 1), match='b'>

In [24]:
r = re.compile("[a-z]")

r.search("AAA") # no match

In [25]:
r.search("aBC")

<re.Match object; span=(0, 1), match='a'>

In [27]:
r.search("Abc") # match = 'b'

<re.Match object; span=(1, 2), match='b'>

## [^문자]

^ 뒤에 붙은 문자들을 제외한 모든 문자와 매치함을 의미

In [28]:
import re
r = re.compile("[^abc]")

r.search("a") # no match
r.search("ab") # no match
r.search("b") # no match

In [31]:
r.search("dd")

<re.Match object; span=(0, 1), match='d'>

In [30]:
r.search("1")

<re.Match object; span=(0, 1), match='1'>

## re.search & re.match()

* search() : 문자열의 첫부분이 정규표현식의 패턴과 일치하지 않더라도 매치되는 문자를 찾을 때까지 문자열을 확인함
* match() : 문자열의 첫부분이 정규 표현식과 매치하는지를 확인하고 아닌 경우 더이상 찾지 않음

In [32]:
import re
r = re.compile("ab.")

In [33]:
r.search("kkkabc") 

<re.Match object; span=(3, 6), match='abc'>

In [34]:
r.match("kkkabc") # no match

In [35]:
r.match("abckkk")

<re.Match object; span=(0, 3), match='abc'>

In [38]:
r.match("kabckkk") # no match

## re.split()

정규표현식을 기준으로 입력 문자열을 분리하여 리스트로 반환함

In [39]:
import re
text = "사과 딸기 수박 메론 바나나"

re.split(" ", text)

['사과', '딸기', '수박', '메론', '바나나']

In [40]:
text = """사과
딸기
수박
메론
바나나"""

re.split("\n", text)

['사과', '딸기', '수박', '메론', '바나나']

In [41]:
text = "사과+딸기+수박+메론+바나나"

re.split("\+", text)

['사과', '딸기', '수박', '메론', '바나나']

## re.findall()

정규표현식과 매치되는 모든 문자열을 리스트로 반환함
* 단, 매치되는 문자열이 없다면 빈 리스트를 반환함

In [42]:
import re
text = """이름 : 김철수
전화번호 : 010 - 1234 - 1234
나이 : 30
성별 : 남"""  

re.findall("\d+",text) # \d : digit number

['010', '1234', '1234', '30']

In [43]:
re.findall("\d+", "문자열입니다.") # no match

[]

## re.sub()

정규표현식 패턴과 일치하는 문자열을 찾아 다른 문자열로 대체함

In [45]:
import re
text = "Regular expression : A regular expression, regex or regexp[1] (sometimes called a rational expression)[2][3] is, in theoretical computer science and formal language theory, a sequence of characters that define a search pattern."

re.sub('[^a-zA-Z]',' ',text)

'Regular expression   A regular expression  regex or regexp     sometimes called a rational expression        is  in theoretical computer science and formal language theory  a sequence of characters that define a search pattern '

# 2) Text preprocessing by regular expressionn

In [49]:
import re  

text = """100 John    PROF
101 James   STUD
102 Mac   STUD"""  

# 공백문자 기준으로 문자 구분
re.split('\s+', text) # \s : 공백 문자

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

In [50]:
# digit number 추출
re.findall('\d+',text)  

['100', '101', '102']

In [51]:
# 알파벳 대문자 추출
re.findall('[A-Z]',text)

['J', 'P', 'R', 'O', 'F', 'J', 'S', 'T', 'U', 'D', 'M', 'S', 'T', 'U', 'D']

In [53]:
# 대문자로만 구성된 단어 추출
re.findall('[A-Z]{2,}',text) 

['PROF', 'STUD', 'STUD']

In [55]:
# 대문자로 시작하고, 그 뒤에 소문자들이 등장하는 단어 추출
re.findall('[A-Z][a-z]+',text)

['John', 'James', 'Mac']

# 3) Tokenization by regular expressiong

In [56]:
import nltk
from nltk.tokenize import RegexpTokenizer # 원하는 정규표현식 패턴을 입력하여 토큰화 수행하는 함수

tokenizer = RegexpTokenizer("[\w]+") # \w : 문자 또는 숫자

In [58]:
# 문자 또는 숫자만을 토큰화
tokenizer.tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop")

['Don',
 't',
 'be',
 'fooled',
 'by',
 'the',
 'dark',
 'sounding',
 'name',
 'Mr',
 'Jone',
 's',
 'Orphanage',
 'is',
 'as',
 'cheery',
 'as',
 'cheery',
 'goes',
 'for',
 'a',
 'pastry',
 'shop']

In [59]:
tokenizer = RegexpTokenizer("[\s]+", gaps = True)

# 공백문자를 기준으로 토큰화
tokenizer.tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop")

["Don't",
 'be',
 'fooled',
 'by',
 'the',
 'dark',
 'sounding',
 'name,',
 'Mr.',
 "Jone's",
 'Orphanage',
 'is',
 'as',
 'cheery',
 'as',
 'cheery',
 'goes',
 'for',
 'a',
 'pastry',
 'shop']

* ```gaps = true``` : RegexpTokenizer에 입력된 정규표현식을 토큰으로 나누기 위한 기준으로 사용함