# 정규 표현식(Regular Expression)

- \\\	역 슬래쉬 문자 자체를 의미합니다
- \d	모든 숫자를 의미합니다. [0-9]와 의미가 동일합니다.
- \D	숫자를 제외한 모든 문자를 의미합니다. [^0-9]와 의미가 동일합니다.
- \s	공백을 의미합니다. [ \t\n\r\f\v]와 의미가 동일합니다.
- \S	공백을 제외한 문자를 의미합니다. [^ \t\n\r\f\v]와 의미가 동일합니다.
- \w	문자 또는 숫자를 의미합니다. [a-zA-Z0-9]와 의미가 동일합니다.
- \W	문자 또는 숫자가 아닌 문자를 의미합니다. [^a-zA-Z0-9]와 의미가 동일합니다.

- . : 한 개의 임의의 문자

ex) 정규 표현식이 a.c (a와 c사이의 어떤 1개의 문자 올 수 있음)

In [1]:
import re
r = re.compile("a.c") 
r.search("kkk") # 아무런 검색 x

In [2]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

- ? : ? 앞의 문자가 존재할 수 있고, 존재하지 않을 수도 있다.

ex) ab?c (b는 있다고 취급 할수도, 없다고 취급할 수도 있음(abc / ac)

In [3]:
import re
r = re.compile("ab?c")
r.search("abbc") # 아무런 검색x

In [4]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [5]:
r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

- * : * 바로 앞의문자가 0개 이상일 경우

ex) ab*c (ac, abc, abbc, abbc 등 가능)

In [6]:
import re
r = re.compile("ab*c")
r.search("a")

In [7]:
r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

In [9]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

- +: + 바로앞의 문자가 1개 이상일 경우

ex) ab+c (abc, abbc, abbbc 등 가능)

In [10]:
import re
r = re.compile("ab+c")
r.search("ac")

In [11]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [12]:
r.search("abbbbc")

<re.Match object; span=(0, 6), match='abbbbc'>

- ^ : 뒤에 문자로 시작되는 글자 지정

ex) ^a (a로 시작되는 문자열만)

In [13]:
import re
r = re.compile("^a")
r.search("bbc")

In [14]:
r.search("ab")

<re.Match object; span=(0, 1), match='a'>

- {숫자} : 앞의 해당 문자를 숫자만큼 반복 지정

ex) ab{2}c (a와c사이에 b가 존재하면서 b가 2개인 문자열)

In [15]:
import re
r = re.compile("ab{2}c")
r.search("ac")
r.search("abc")

In [16]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

- {숫자1,숫자2} : 앞의 해당 문자를 숫자1이상 숫자2 이하만큼 반복(띄어쓰기 주의)

ex) ab{2, 8}c (a와 c사이에 b가 존재하면서 b는 2개 이상 8개 이하)

In [23]:
import re
r = re.compile("ab{2,8}c") 
r.search("ac")
r.search("ac")
r.search("abc")

In [24]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

- {숫자,} : 앞의 문자에 해당 기호를 붙이면 해당 문자를 숫자 이상 반복

ex) a{2,}bc (뒤에 bc가 붙으면서 a의 갯수가 2개 이상) \
{0,} == * \
{1,} == +

In [25]:
import re
r = re.compile("a{2,}bc")
r.search("bc")
r.search("aa")

In [27]:
r.search("aabc")

<re.Match object; span=(0, 4), match='aabc'>

- [] : 문자들 중 한개의 문자와 매치

ex) [abc] (a 또는 b 또는 c가 들어가 있는 문자열과 매치) \
[a-zA-Z] 는 알파벳 전부를 의미 \
[0-9] 는 숫자 전부를 의미

In [28]:
import re
r = re.compile("[abc]")
r.search("zzz")

In [29]:
r.search("a")

<re.Match object; span=(0, 1), match='a'>

In [30]:
r = re.compile("[a-z]")
r.search("AAA")

In [31]:
r.search("aBC")

<re.Match object; span=(0, 1), match='a'>

- [^문자] : ^ 뒤에 붙은 문자들은 제외한 모든 문자 매치

ex) [^abc] (a 또는 b 또는 c 가 들어간 문자열은 제외)

In [33]:
import re
r = re.compile("[^abc]")
r.search("a")
r.search("ab")
r.search("b")

In [34]:
r.search("d")

<re.Match object; span=(0, 1), match='d'>

- re.match() : 문자열의 첫 부분부터 정규 표현식과 매치하는지 확인
- re.search() : 정규 표현식 전체에 대해 문자열이 매치하는지 확인

In [35]:
import re
r = re.compile("ab.")

In [36]:
r.search("kkkabc")

<re.Match object; span=(3, 6), match='abc'>

In [37]:
r.match("kkkabc")

In [38]:
r.match("abckkk")

<re.Match object; span=(0, 3), match='abc'>

- re.split() : 문자열 분리

In [39]:
import re
text = "사과 딸기 수박 메론 바나나"
re.split(" ", text)

['사과', '딸기', '수박', '메론', '바나나']

In [40]:
import re
text = """사과
딸기
수박
메론
바나나"""
re.split("\n", text)

['사과', '딸기', '수박', '메론', '바나나']

- re.findall() : 정규 표현식과 매치되는 모든 문자열들을 리스트로 리턴

In [44]:
import re
text="""이름 : 김철수
전화번호 : 010 - 1234 - 1234
나이 : 30
성별 : 남"""
re.findall("\d+", text) # 숫자 검색

['010', '1234', '1234', '30']

In [45]:
re.findall("\d+", "문자열입니다.") # 업스면 빈리스트 리턴

[]

- re.sub() : 정규 표현식 패턴과 일치하는 문자열을 찾아 다른 문자열로 대체

In [47]:
import re
text = "Regular expression : A regular expression, regex or regexp[1] (sometimes called a rational expression)[2][3] is, in theoretical computer science and formal language theory, a sequence of characters that define a search pattern."
re.sub('[^a-zA-Z]', ' ', text) # 알파벳을 제외한 모든 문자는 띄어쓰기로 대체

'Regular expression   A regular expression  regex or regexp     sometimes called a rational expression        is  in theoretical computer science and formal language theory  a sequence of characters that define a search pattern '

In [48]:
import re

text = """100 John PROF
101 James STUD
102 Mac STUD"""

re.split('\s+', text)

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

In [51]:
# RegexpTokenizer : 정규 표현식을 넣어 토큰화
import nltk
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer("[\w]+")
print(tokenizer.tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"))


['Don', 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'Mr', 'Jone', 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


gaps = true를 하지 않으면 토큰화 결과는 공백들만 나옴

In [53]:
import nltk
from nltk.tokenize import RegexpTokenizer
tokenizer=RegexpTokenizer("[\s]+", gaps=True)
print(tokenizer.tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"))

["Don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name,', 'Mr.', "Jone's", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']
