## 정규 표현 (Regular Expression)

In [1]:
import re

### 정규 표현식

In [3]:
# . 기호 : 한 개의 임의의 문자 (a.c == akc, azc, a5c, a!c 등)

r = re.compile("a.c")
r.search("kkk") # 아무런 결과도 출력되지 않는다.

r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [5]:
# ? 기호 : ?앞에 문자 존재할수도, 안할수도 (ab?c == abc, ac)

r = re.compile("ab?c")
r.search("abbc") # 아무런 결과도 출력되지 않는다.

r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [6]:
r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

In [7]:
# * 기호 : 바로 앞의 문자가 0개 이상 (ab*c == ac, abc, abbc, abbbc 등)

r = re.compile("ab*c")
r.search("a") # 아무런 결과도 출력되지 않는다.

r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

In [8]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [10]:
r.search("abbbbc")

<re.Match object; span=(0, 6), match='abbbbc'>

In [11]:
# + 기호 : 바로 앞의 문자가 1개 이상 (ab+c == abc, abbc, abbbc 등)
r = re.compile("ab+c")
r.search("ac") # 아무런 결과도 출력되지 않는다.

r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [12]:
r.search("abbbbc")

<re.Match object; span=(0, 6), match='abbbbc'>

In [13]:
# ^ 기호 : 시작되는 문자열 지정 (^ab == 문자열 ab로 시작되는 경우 매치)
r = re.compile("^ab")

# 아무런 결과도 출력되지 않는다.
r.search("bbc")
r.search("zab")

In [14]:
r.search("abz")

<re.Match object; span=(0, 2), match='ab'>

In [15]:
# {숫자} 기호 : 문자에 해당 기호 붙이면, 해당 문자를 숫자만큼 반복 (ab{2}c == abbc)

r = re.compile("ab{2}c")

# 아무런 결과도 출력되지 않는다.
r.search("ac")
r.search("abc")
r.search("abbbbbc")

In [16]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

In [17]:
# {숫자1, 숫자2} 기호 : 해당 문자를 숫자1 이상 숫자2 이하만큼 반복

r = re.compile("ab{2,8}c")

# 아무런 결과도 출력되지 않는다.
r.search("ac")
r.search("abc")
r.search("abbbbbbbbbc") # b 9개

In [18]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

In [19]:
r.search("abbbbbbbbc")

<re.Match object; span=(0, 10), match='abbbbbbbbc'>

In [20]:
# {숫자,} 기호 : 해당 문자를 숫자 이상 만큼 반복

r = re.compile("a{2,}bc")

# 아무런 결과도 출력되지 않는다.
r.search("bc")
r.search("aa")

In [21]:
r.search("aabc")

<re.Match object; span=(0, 4), match='aabc'>

In [22]:
r.search("aaaaaaaabc")

<re.Match object; span=(0, 10), match='aaaaaaaabc'>

In [23]:
# [] 기호 : []안에 문자들 넣으면 그 문자들 중 한 개의 문자와 매치 ([abc] == a|b|c가 들어가있는 문자열과 매치)
# [a-zA-Z]: 알파벳 전부, [0-9]: 숫자 전부

r = re.compile("[abc]") # [abc]는 [a-c]와 같다.
r.search("zzz") # 아무런 결과도 출력되지 않는다.

In [24]:
r.search("a")

<re.Match object; span=(0, 1), match='a'>

In [25]:
r.search("aaaaaaa")

<re.Match object; span=(0, 1), match='a'>

In [26]:
r.search("baac")

<re.Match object; span=(0, 1), match='b'>

In [27]:
r = re.compile("[a-z]")

# 아무런 결과도 출력되지 않는다.
r.search("AAA")
r.search("111")

In [28]:
r.search("aBC")

<re.Match object; span=(0, 1), match='a'>

In [29]:
# [^문자] 기호 : ^기호 뒤에 붙은 문자들 제외한 모든 문자를 매치 ([^abc] == a|b|c가 들어간 문자열 제외한 모든 문자열 매치)

r = re.compile("[^abc]")

# 아무런 결과도 출력되지 않는다.
r.search("a")
r.search("ab")
r.search("b")

In [30]:
r.search("d")

<re.Match object; span=(0, 1), match='d'>

In [31]:
r.search("1")

<re.Match object; span=(0, 1), match='1'>

### 정규 표현식 모듈 함수

####re.search(): 정규표현식 전체에 대해 문자열 매치하는지 확인

####re.match(): 문자열의 첫 부분부터 정규표현식과 매치하는지 확인

In [32]:
r = re.compile("ab.")
r.match("kkkabc") # 아무런 결과도 출력되지 않는다.

In [33]:
r.search("kkkabc")

<re.Match object; span=(3, 6), match='abc'>

In [34]:
r.match("abckkk")

<re.Match object; span=(0, 3), match='abc'>

#### re.split()

In [35]:
# 공백 기준 분리
text = "사과 딸기 수박 메론 바나나"
re.split(" ", text)

['사과', '딸기', '수박', '메론', '바나나']

In [36]:
# 줄바꿈 기준 분리
text = """사과
딸기
수박
메론
바나나"""

re.split("\n", text)

['사과', '딸기', '수박', '메론', '바나나']

In [37]:
# '+'를 기준으로 분리
text = "사과+딸기+수박+메론+바나나"

re.split("\+", text)

['사과', '딸기', '수박', '메론', '바나나']

#### re.findall()

In [38]:
text = """이름 : 김철수
전화번호 : 010 - 1234 - 1234
나이 : 30
성별 : 남"""

# 숫자만 찾아내서 리스트로 리턴
re.findall("\d+", text)

['010', '1234', '1234', '30']

In [40]:
# 입력 텍스트에 숫자 없다면 빈 리스트 리턴
re.findall("\d+", "문자열입니다.")

[]

#### re.sub()

In [42]:
text = "Regular expression : A regular expression, regex or regexp[1] (sometimes called a rational expression)[2][3] is, in theoretical computer science and formal language theory, a sequence of characters that define a search pattern."

# 알파벳 외의 문자는 공백으로 처리
preprocessed_text = re.sub('[^a-zA-Z]', ' ', text)
print(preprocessed_text)

Regular expression   A regular expression  regex or regexp     sometimes called a rational expression        is  in theoretical computer science and formal language theory  a sequence of characters that define a search pattern 
