## _정규표현식 - regex_

- 특정 패턴으로 문자열을 처리할 때 사용되는 문법
- 정규표현식 함수
    - match : 문자열을 가장 앞에서 부터 일치하는 패턴을 찾는 함수
    - search : 문자열에서 가장 첫번째로 일치하는 패턴을 찾는 함수
    - findall : 패턴과 일치하는 문자열을 모두 찾는 함수. match, search보다 주로 사용된다
    - split : 문자열을 특정 패턴으로 나누는 함수
    - sub : 문자열을 특정 패턴에 맞게 대체하는 함수. replace와 유사.
   
- 패턴(pattern)

In [1]:
import re

In [2]:
# 정규표현식 test

s = "fast campus datascience school. datascience school. fast campus school"

### 1.match

In [7]:
# 문자열의 가장 앞에서 부터 패턴이 일치되는 문자열 찾기

re.match("fast", s) # re.mathc({pattern}, {문자열})

# <_sre.SRE_Match object; span=(0, 4), match='fast'>
# index0~4까지 "fast"라는 문자열이 매칭된다

<_sre.SRE_Match object; span=(0, 4), match='fast'>

In [8]:
# match는 앞 줄부터 찾기 때문에, 뒤에 있는 패턴은 찾지 못한다

result = re.match("campus", s)
print(result)

None


### 2.search

In [10]:
# 문자열에서 패턴에 가장 첫번째로 일치되는 문자열을 찾는다 

re.search("fast", s)

<_sre.SRE_Match object; span=(0, 4), match='fast'>

In [11]:
re.search("campus", s)

<_sre.SRE_Match object; span=(5, 11), match='campus'>

### 3.findall

In [13]:
# 일치하는 모든 패턴을 찾아서 리스트로 리턴한다 

re.findall("fast", s)
re.findall("campus", s)

['campus', 'campus']

### 4.split

In [17]:
# 문자열을 특정 패턴으로 나누는 함수

re.split("campus", s)

['fast ', ' datascience school. datascience school. fast ', ' school']

### 5.sub

In [20]:
# 일치하는 패턴을 찾아서 바꾸고자 하는 패턴으로 문자열을 변경해준다

re.sub("fast", "slow", s) # re.sub({기존 문자열}, {바꾸려는 문자열}, {범위})

'slow campus datascience school. datascience school. slow campus school'

### 6.pattern

- 문자 : 숫자, 문자 등을 구분해주는 패턴
- 지정자 : 숫자 몇 개, 특정 숫자나 문자의 범위 등을 제한해주는 패턴 

#### 문자 패턴

- \d(숫자), \D(비숫자)
- \w(숫자, 문자, _), \W(숫자, 문자, _를 제외한 패턴)
- \s(공백문자), \s(비공백문자)

In [25]:
import string

pt = string.printable
len(pt), pt # 쓸 수 있는 문자들을 출력

(100,
 '0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~ \t\n\r\x0b\x0c')

In [26]:
# \d : 숫자만 걸러서 출력한다

re.findall("\d", pt)

['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

In [31]:
result = re.findall("\D", pt)
"".join(result)

'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~ \t\n\r\x0b\x0c'

In [33]:
# \w : 숫자, 문자, _ 만 걸러서 출력

result = re.findall("\w", pt)
"".join(result)

'0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ_'

In [34]:
# \W : 숫자, 문자, _를 제외한 문자만 걸러서 출력

result = re.findall("\W", pt)
"".join(result)

'!"#$%&\'()*+,-./:;<=>?@[\\]^`{|}~ \t\n\r\x0b\x0c'

In [38]:
# \s : 공백만 걸러서 출력

result = re.findall("\s", pt)
"".join(result)

' \t\n\r\x0b\x0c'

In [40]:
# \S : 공백을 제외한 문자를 걸러서 출력

result = re.findall("\S", pt)
"".join(result)

'0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

#### 지정자 패턴

- `[]` : 문자 나타내고 묶어주는 역할을 한다₩
- `-` : 범위를 나타내는 역할
- `.` : 하나의 문자
- `?` : 0 또는 1회 반복
- `*` : 0회 이상 반복
- `+` : 1회 이상 반복
- `{m}` : m회 반복
- `{m,n}` : m~n회 반복
- `()` : 그룹핑해주는 역할 

In [44]:
# 범위 

result = re.findall("[0~9azAZ]", pt)
"".join(result)

'09azAZ~'

In [42]:
pt

'0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~ \t\n\r\x0b\x0c'

In [49]:
result = re.findall("\w", pt)
"".join(result)

'0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ_'

In [51]:
# . : 문자 하나

ls = ["aab", "aob", "abc"]

for s in ls:
    result = re.findall("a.b", s) # a + 아무 문자 하나 + b 라는 형태의 패턴을 걸러 출력한다
    print(s, result)

aab ['aab']
aob ['aob']
abc []


In [54]:
# ? : 0 또는 1회 반복

ls = ["aab", "a3b", "abc", "accb"]

for s in ls:
    result = re.findall("a.?b", s) # a + 아무 문자가 0개 혹은 1개 + b 라는 형태의 패턴을 걸러 출력한다
    print(s, result)

aab ['aab']
a3b ['a3b']
abc ['ab']
accb []


In [57]:
# * : 0회 이상 반복

ls = ["aab", "a3b", "abc", "accb"]

for s in ls:
    result = re.findall("a.*b", s) # a + 아무 문자가 0개 이상 + b 인 패턴을 걸러 출력한다
    print(s, result)

aab ['aab']
a3b ['a3b']
abc ['ab']
accb ['accb']


In [58]:
# + : 1회 이상 반복

ls = ["aab", "a3b", "abc", "accb"]

for s in ls:
    result = re.findall("a.+b", s) # a + 아무 문자가 1개 이상 + b 인 패턴을 걸러 출력한다
    print(s, result)

aab ['aab']
a3b ['a3b']
abc []
accb ['accb']


In [65]:
# {m} : m회

ls = ["ab", "acb", "acccb", "acccccb"]

for s in ls:
    result = re.findall("ac{0}b", s) # a + 앞문자가 {m}개 + b인 패턴을 걸러 출력
    print(s, result)

ab ['ab']
acb []
acccb []
acccccb []


In [66]:
# {m,n} : m~n회 반복

ls = ["ab", "acb", "acccb", "acccccb"]

for s in ls:
    result = re.findall("ac{0,5}b", s) # a + 앞문자가 {m~n}개 + b인 패턴을 걸러 출력
    print(s, result)

ab ['ab']
acb ['acb']
acccb ['acccb']
acccccb ['acccccb']
