### 정규표현식 - regex regular expression

- 특정 패턴으로 문자열을 처리할 때 사용되는 문법

- 정규표현식 함수
    - match : 문자열을 가장 앞에서부터 일치하는 패턴을 찾는 함수
    - search : 문자열에서 가장 첫번째로 일치하는 패턴을 찾는 함수
    - findall : 패턴과 일치하는 문자열을 모두 찾는 함수 (match search 보다 findall이 제일 많이 사용됨)
    - split : 문자열을 특정 패턴으로 나누는 함수
    - sub : 문자열을 특정 패턴에 맞게 대체하는 함수 (replace와 비슷한 함수 sub는 패턴을 넣어적용할 수 있다.)
    
- 패턴(pattern) : 어렵게 느낄 수 있지만 중요하다.

In [1]:
import re

In [2]:
s = "fast campus datascience fighting. datascience fighting. 1234 fast campus fighting"

#### 1. match

In [3]:
# 문자열의 가장 앞에서부터 일치되는 문자열 찾기
re.match("fast", s) # match("패턴", 문자열)

<_sre.SRE_Match object; span=(0, 4), match='fast'>

In [4]:
result = re.match("campus",s)
print(result) # 결과가 나오지 않고 앞을 기준으로 찾기

None


#### 2. search

In [5]:
# 문자열에서 패턴에 가장 첫번째로 일치되는 문자열을 찾는 것입니다.
re.search("fast",s)

<_sre.SRE_Match object; span=(0, 4), match='fast'>

In [6]:
re.search("campus",s)

<_sre.SRE_Match object; span=(5, 11), match='campus'>

#### 3. findall

In [7]:
# 일치하는 모든 패턴을 찾아서 리스트로 리턴해줍니다.
re.findall("fast",s) # s안에 fast 두개 있어서 두개 나왔다. findall(패턴, 문자열) 나중에 패턴을 넣어줄 수 있다.

['fast', 'fast']

In [8]:
re.findall("\d",s)

['1', '2', '3', '4']

In [9]:
re.findall("\d{2}",s) # \ : 패턴, {} :지정자 패턴

['12', '34']

#### 4. split

In [10]:
# 문자열을 특정 패턴으로 나누는 함수입니다.
re.split("campus", s) # campus를 기준으로 나눈다.

['fast ',
 ' datascience fighting. datascience fighting. 1234 fast ',
 ' fighting']

#### 5. sub 
많이 사용한다

In [11]:
# 일치하는 패턴을 찾아서 바꾸고자 하는 패턴으로 문자열을 변경해줍니다.
re.sub("fast","low", s) # sub(before, after, 문자열)

'low campus datascience fighting. datascience fighting. 1234 low campus fighting'

#### 6. pattern
- 문자 : 숫자, 문자 등을 구분해주는 패턴
- 지정자 : 숫자 몇개, 특정 숫자나 문자의 범위 등을 제한해주는 패턴

### 문자패턴
- `\d` (숫자), `\D` (비숫자)

- `\w` (숫자, 문자, _ ), `\W` (숫자, 문자, _ 를 제외한 패턴)

- `\s` (공백문자), `\S` (비공백문자)

In [12]:
import string
pt = string.printable
len(pt), pt # 쓸수 있는 문자들을 출력해봤다.

(100,
 '0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~ \t\n\r\x0b\x0c')

In [13]:
re.findall("\d", pt) # 숫자만 걸러주는 패턴

['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

In [14]:
result = re.findall("\D", pt) # 숫자 제외한 모든것
"".join(result)

'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~ \t\n\r\x0b\x0c'

In [15]:
result = re.findall("\w", pt) # 숫자, 문자
"".join(result)

'0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ_'

In [16]:
result = re.findall("\s", pt) # 공백 문자
"".join(result)

' \t\n\r\x0b\x0c'

In [17]:
result = re.findall("\S", pt) # 공백문자 제외한 모든것
"".join(result)

'0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

#### 지정자 패턴 (regular expression의 제일 중요한 부분!!)

- `[]` : 문자 나타내고 묶어주는 역할을 함

- `-` : 범위를 나타내는 역할

- `.` : 하나의 문자

- `?` : 0 또는 1회 반복

- `*` : 0회 이상 반복

- `+` : 1회 이상 반복

- `{m}` : m회 반복

- `{m,n}` : m회 n회 반복

- `()` : 그룹핑 해주는 역할 / 그룹별로 다르게 적용할 때 유용


In [18]:
# 범위
result = re.findall("[0-9]", pt) # 0에서 9까지 묶어주고
"".join(result)

'0123456789'

In [19]:
result = re.findall("[a-z]", pt)
"".join(result)

'abcdefghijklmnopqrstuvwxyz'

In [20]:
#result = re.findall("[a-Z]", pt)
# "".join(result) # 불가능

In [21]:
result = re.findall("[a-zA-z]", pt)
"".join(result)

'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ[\\]^_`'

In [22]:
result = re.findall("[0-9a-zA-z]", pt)
"".join(result)

'0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ[\\]^_`'

In [23]:
result = re.findall("\w", pt)
"".join(result) # 위의 불편함을 줄이기 위해서 \w사용한다.

'0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ_'

In [24]:
# . : 문자하나

ls = ["aab","a0b","abc","19839aabdkjkxd"]
for s in ls:
    result = re.findall("a.b", s) # a + 아무 문자하나 + b : 이런 패턴 찾아내는 것
    print(s, result) # 긴 문자열 있어도 패턴에 맞는 것만 출력한다.

aab ['aab']
a0b ['a0b']
abc []
19839aabdkjkxd ['aab']


In [25]:
# ? : 0회 또는 1회 반복
ls = ["aab","a3b","abc","accb"]
for s in ls:
    result = re.findall("a.?b", s) # a + 아무 문자하나 0개 또는 1개 + b
    print(s, result) # ab도 포함된다.ㅁ

aab ['aab']
a3b ['a3b']
abc ['ab']
accb []


In [26]:
# * : 0회 이상 반복
ls = ["aab","a3b","abc","accb"]
for s in ls:
    result = re.findall("a.*b", s)  # a + 아무 문자가 0개 이상 + b
    print(s, result) 

aab ['aab']
a3b ['a3b']
abc ['ab']
accb ['accb']


In [27]:
# + : 1회 이상 반복

ls = ["aab","a3b","abc","accb"]
for s in ls:
    result = re.findall("a.+b", s) # a + 아무 문자가 1개 이상 + b
    print(s, result) 

aab ['aab']
a3b ['a3b']
abc []
accb ['accb']


In [28]:
# {m} : m회
# {m,n} :m~n회 반복

ls = ["ab","acb","accccb","acccccccb"]
for s in ls:
    result = re.findall("ac{0}b", s) # a + c문자가 m개 + b
    print(s, result) 

ab ['ab']
acb []
accccb []
acccccccb []


In [29]:
ls = ["ab","acb","acccb","acccccccb"]
for s in ls:
    result = re.findall("ac{1:3}b", s) # a + c문자가 m개 ~ n개 + b
    print(s, result) 

ab []
acb []
acccb []
acccccccb []


#### example

In [30]:
# 이메일주소 찾기
s = "저의 이메일 주소는 jeong@gmail.com 이고 다른 이메일 주소는 123datascience@daum.net 입니다."

In [31]:
p = "\w+@[0-9a-z]+\.[0-9a-z]+" # 앞 문자가 1개 이상 있고 @ 앞에 역슬래시 붙여서, 문자열@문자열.문자열
re.findall(p, s)

['jeong@gmail.com', '123datascience@daum.net']

In [32]:
p = "[a-z0-9]+@[0-9a-z]+\.[0-9a-z]+"
re.findall(p, s) # 한글 안찾고 싶을때 a-z사용하면 되고 한글도 함께 찾아지려면 \w사용한다.

['jeong@gmail.com', '123datascience@daum.net']

In [33]:
# 주민등록 번호를 group 나눠서 (761113-1087231 -> 761113-*******)으로 바꾸는 연습
s = "저의 주민등록 번호는 761113-1087231가 아닙니다."
p = "[0-9]{6}-[1234][0-9]{6}" # 패턴을 만든다.
re.findall(p, s) # (패턴, 문자열)

['761113-1087231']

In [34]:
# 주민등록 번호를 group 나눠서 (761113-1087231 -> 761113-*******)으로 바꾸는 연습
s = "저의 주민등록 번호는 761113-1087231가 아닙니다."
p = "([0-9]{6})-([1234][0-9]{6})" # 패턴을 만든다.
re.findall(p, s) # (패턴, 문자열)

[('761113', '1087231')]

In [35]:
re.sub(p,"\g<1>-*******",s) # group의 첫번째 데이터를 의미한다. \g<1>

'저의 주민등록 번호는 761113-*******가 아닙니다.'

In [36]:
re.sub(p,"*******-\g<2>",s) # group의 첫번째 데이터를 의미한다. \g<1>


'저의 주민등록 번호는 *******-1087231가 아닙니다.'

In [37]:
# 중고나라의 전화번호 숫자로 추출하기
s = "안녕하세요 저는 ps4를 소지하고 있는 사람입니다. 원하시면 영일공-48삼사구구일사로 연락주시거나\
01012삼사-구구팔3번으로 연락주세요"

In [38]:
s

'안녕하세요 저는 ps4를 소지하고 있는 사람입니다. 원하시면 영일공-48삼사구구일사로 연락주시거나01012삼사-구구팔3번으로 연락주세요'

In [39]:
p = "[0-9영공일이둘삼사오육칠팔구빵]{3}[-]?[0-9영공일이둘삼사오육칠팔구빵]{3,4}[-]?[0-9영공일이둘삼사오육칠팔구빵]{4}" #들어갈 수 있는 문자열 한글로 적어준다. 걸러낼 수 있는 패턴이 된다. -가 0번 아니면 1번 온다.

In [40]:
numbers = re.findall(p, s)
numbers

['영일공-48삼사구구일사', '01012삼사-구구팔3']

In [41]:
# 숫자로 바꿔보기!
# 숫자와 문자를 매핑하는 딕셔너리 하나 만든다.

dic = {
    "영":0, "공":0, "빵":0, "일":1 , "이":2, "삼":3, "셋":3, "사":4, "넷":4, "다섯":5, "오":5, "육":6,\
    "칠":7, "팔":8, "구":9
}

for number in numbers:
    print(number)
    for idx, value in dic.items():
        number = number.replace(idx, str(value))
    result.append(number)
    
result

영일공-48삼사구구일사
01012삼사-구구팔3


['010-48349914', '0101234-9983']