### 정규표현식 - regex
- 특정 패턴으로 문자열을 처리할때 사용되는 문법

##### 1. 정규표현식 함수
    - match : 문자열을 가장 앞에서부터 일치하는 패턴을 찾는 함수
    - search : 문자열에서 가장 첫번째로 일치하는 패턴을 찾는 함수
    - findall : 패턴과 일치하는 문자열을 모두 찾는 함수 ** 가장 많이 사용됨
    - split : 문자열을 나눌 때 특정 패턴으로 나누는 함수
    - sub : 문자열을 특정 패턴에 맞게 대체하는 함수

##### 2. 패턴 - pattern

In [4]:
import re

In [18]:
# 문자열 테스팅해보자
s = "fast campus datascience fighting. datascience fighting. 1234 fast campus fighting."

##### match

In [4]:
# 문자열을 가장 앞에서부터 패턴이 일치되는 문자열 찾기
re.match("fast", s) # ("pattern", 문자열)

<_sre.SRE_Match object; span=(0, 4), match='fast'>

In [6]:
result = re.match("campus", s)
print(result)

None


##### search

In [7]:
# 문자열에서 패턴에 가장 첫번째로 일치되는 문자열을 찾는 것입니다.
re.search("fast",s)

<_sre.SRE_Match object; span=(0, 4), match='fast'>

In [8]:
re.search("campus",s)

<_sre.SRE_Match object; span=(5, 11), match='campus'>

##### findall

In [19]:
# 일치하는 모든 패턴을 찾아서 리스트로 리턴
re.findall("fast",s)

['fast', 'fast']

In [21]:
re.findall("\d",s)

['1', '2', '3', '4']

In [23]:
re.findall("\d{2}",s)

['12', '34']

##### split

In [15]:
# 문자열을 특정 패턴으로 나누는 함수
re.split("campus",s)

['fast ', ' datascience fighting. datascience fighting. fast ', ' fighting.']

##### sub

In [16]:
# 일치하는 패턴을 찾아서 바꾸고자 하는 패턴으로 문자열을 변경
re.sub("fast","slow",s)

'slow campus datascience fighting. datascience fighting. slow campus fighting.'

##### pattern
- 문자 : 숫자, 문자 등을 구분해주는 패턴
- 지정자 : 숫자 몇개, 특정 숫자나 문자의 범위 등을 제한해주는 패턴

In [None]:
# 문자 패턴
# \d(숫자), \D(비숫자)
# \w(숫자, 문자, _), \W(숫자, 문자, _를 제외한 패턴)
# \s(공백문자), \S(비공백문자)

In [24]:
import string
pt = string.printable
pt

'0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~ \t\n\r\x0b\x0c'

In [25]:
re.findall("\d",pt)

['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

In [29]:
result = re.findall("\D",pt)
"".join(result)

'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~ \t\n\r\x0b\x0c'

In [31]:
result = re.findall("\w",pt)
"".join(result)

'0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ_'

In [32]:
result = re.findall("\W",pt)
"".join(result)

'!"#$%&\'()*+,-./:;<=>?@[\\]^`{|}~ \t\n\r\x0b\x0c'

In [33]:
result = re.findall("\s",pt)
"".join(result)

' \t\n\r\x0b\x0c'

In [34]:
result = re.findall("\S",pt)
"".join(result)

'0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

#### 지정자 패턴
- `[]` : 문자 나타내고 묶어주는 역할을 함
- `-` : 범위를 나타내는 역할
- `.` : 하나의 문자
- `?` : 0 또는 1회 반복
- `*` : 0회 이상 반복
- `+` : 1회 이상 반복
- `{m}` : m회 반복
- `{m,n}` : m회~n회 반복
- `()` : 그룹핑 해주는 역할

In [35]:
# 범위
re.findall("[0-9]",pt)

['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

In [38]:
re.findall("[a-z]",pt)

['a',
 'b',
 'c',
 'd',
 'e',
 'f',
 'g',
 'h',
 'i',
 'j',
 'k',
 'l',
 'm',
 'n',
 'o',
 'p',
 'q',
 'r',
 's',
 't',
 'u',
 'v',
 'w',
 'x',
 'y',
 'z']

In [39]:
re.findall("[a-Z]",pt) # 에러남(소문자는 소문자범위로만...) : [a-zA-Z]

error: bad character range a-Z at position 1

In [40]:
re.findall("[0-9a-zA-Z]",pt)

['0',
 '1',
 '2',
 '3',
 '4',
 '5',
 '6',
 '7',
 '8',
 '9',
 'a',
 'b',
 'c',
 'd',
 'e',
 'f',
 'g',
 'h',
 'i',
 'j',
 'k',
 'l',
 'm',
 'n',
 'o',
 'p',
 'q',
 'r',
 's',
 't',
 'u',
 'v',
 'w',
 'x',
 'y',
 'z',
 'A',
 'B',
 'C',
 'D',
 'E',
 'F',
 'G',
 'H',
 'I',
 'J',
 'K',
 'L',
 'M',
 'N',
 'O',
 'P',
 'Q',
 'R',
 'S',
 'T',
 'U',
 'V',
 'W',
 'X',
 'Y',
 'Z']

In [41]:
re.findall("\w",pt)

['0',
 '1',
 '2',
 '3',
 '4',
 '5',
 '6',
 '7',
 '8',
 '9',
 'a',
 'b',
 'c',
 'd',
 'e',
 'f',
 'g',
 'h',
 'i',
 'j',
 'k',
 'l',
 'm',
 'n',
 'o',
 'p',
 'q',
 'r',
 's',
 't',
 'u',
 'v',
 'w',
 'x',
 'y',
 'z',
 'A',
 'B',
 'C',
 'D',
 'E',
 'F',
 'G',
 'H',
 'I',
 'J',
 'K',
 'L',
 'M',
 'N',
 'O',
 'P',
 'Q',
 'R',
 'S',
 'T',
 'U',
 'V',
 'W',
 'X',
 'Y',
 'Z',
 '_']

In [42]:
# . : 문자 하나
ls = ["aab","a0b","abc"]
for s in ls:
    result = re.findall("a.b",s) # 'a + 아무 문자 하나 + b' 된 패턴 
    print(s, result)

aab ['aab']
a0b ['a0b']
abc []


In [43]:
# ? : 0회 또는 1회 반복
ls = ["aab","a3b","abc","accb"]
for s in ls:
    result = re.findall("a.?b",s) # 'a + 아무 문자가 0개 또는 1개 + b' 된 패턴 
    print(s, result)

aab ['aab']
a3b ['a3b']
abc ['ab']
accb []


In [44]:
ls = ["aab","a3b","abc","accb"]
for s in ls:
    result = re.findall("aa?b",s) # 'a + 0개 또는 1개의 a + b' 된 패턴 
    print(s, result)

aab ['aab']
a3b []
abc ['ab']
accb []


In [45]:
# * : 0회 이상 반복
ls = ["aab","a3b","abc","accb"]
for s in ls:
    result = re.findall("a.*b",s) # 'a + 아무 문자가 0개이상 + b' 된 패턴 
    print(s, result)

aab ['aab']
a3b ['a3b']
abc ['ab']
accb ['accb']


In [47]:
# + : 1회 이상 반복
ls = ["aab","a3b","abc","accb"]
for s in ls:
    result = re.findall("a.+b",s) # 'a + 아무 문자가 1개이상 + b' 된 패턴 
    print(s, result)

aab ['aab']
a3b ['a3b']
abc []
accb ['accb']


In [None]:
# {m} : m회
# {m,n} : m~n회 반복

In [49]:
ls = ["ab","acb","acccb","accccccb"]
for s in ls:
    result = re.findall("ac{5}",s) # 'a + 아무 문자가 0개 또는 1개 + b' 된 패턴 
    print(s, result)

ab []
acb []
acccb []
accccccb ['accccc']


In [51]:
ls = ["ab","acb","acccb","accccccb"]
for s in ls:
    result = re.findall("ac{1,3}",s) # 'a + c가 1~3개' 된 패턴 
    print(s, result)

ab []
acb ['ac']
acccb ['accc']
accccccb ['accc']


##### Example

In [54]:
# 이메일 주소 찾기
s = "저의 이메일주소는 rlawnsgh2245@gmail.com 이고 다른 이메일 주소는 wnsgh2245@naver.com 입니다."

# pattern 만들기 ** .을 문자 자체로 사용하려면 .앞에 \붙이기
p = "[0-9a-zA-Z]\w+@[0-9a-z]+\.[0-9a-z]+"
re.findall(p,s)

['rlawnsgh2245@gmail.com', 'wnsgh2245@naver.com']

In [55]:
p = "\w+@\w+\.\w+"
re.findall(p,s)

['rlawnsgh2245@gmail.com', 'wnsgh2245@naver.com']

In [56]:
# 주민등록번호를 group으로 나눠서 (900101-1234567 --> 900101-1******)
s = "저의 주민등록번호는 900101-1234567가 아닙니다. "
p = "[0-9]{6}-[1234][0-9]{6}"
re.findall(p,s)

['900101-1234567']

In [8]:
# grouping
s = "저의 주민등록번호는 900101-1234567가 아닙니다. "
p = "([0-9]{6})-([1234][0-9]{6})"
re.findall(p,s)

[('900101', '1234567')]

In [9]:
re.sub(p, "\g<1>-*******", s) # re.sub(pattern, repl, string, count=0, flags=0)

'저의 주민등록번호는 900101-*******가 아닙니다. '

In [10]:
# 전화번호 추출
s = "안녕하세요 저는 ps4를 소지하고 있는 사람입니다. \
원하시면 영일공-48삼사구구일사로 연락주시거나 01012삼사-구구팔3번으로 연락주세요"
type(s)

str

In [11]:
# 패턴 만들기
p = "[0-9영공일이둘삼사오육칠팔구빵]{3}[-]?[0-9영공일이둘삼사오육칠팔구빵]{3,4}[-]?[0-9영공일이둘삼사오육칠팔구빵]{4}"
re.findall(p,s)

['영일공-48삼사구구일사', '01012삼사-구구팔3']

In [12]:
numbers = re.findall(p,s)

# 한글 - 숫자 상호 맵핑
dic = {
    "공": 0, "영": 0, "일": 1, "둘": 2, "이": 2, "삼": 3, "사": 4,
    "오": 5, "육": 6, "칠": 7, "팔": 8, "구": 9, "-": "",
}
result = []
for number in numbers:
    for idx, value in dic.items():
        number = number.replace(idx, str(value))
    result.append(number)
result

['01048349914', '01012349983']

In [None]:
ls = ["aaa5.djfi"]