# **정규표현식**
- 특정 패턴을 이용해 문자열을 처리하는 방법
- 호불호가 있지만 강사님은 필요시에만 사용하는 것이 좋다고 생각함
    - 작성하면서 실수하기도 쉽고, 이해하는데도 가독성이 떨어짐
    - 문자열 함수를 쓰는 것이 가독성이 더 좋음

## 다룰 내용

1. 정규표현식 함수
    - match: 문자열의 가장 앞에서 일치하는 패턴을 찾기
    - search: 문자열에서 가장 첫번째로 일치하는 패턴 찾기
    - findall: 일치하는 패턴을 모두 찾기
    - split: 문자열을 특정 패턴으로 나누기
    - sub: 특정 패턴에 맞는 문자열을 대체하기
2. Pattern
3. Examples
    - e.g. 중고나라 전화번호 01o일이삼3구칠82 → (정규표현식 패턴 + sub) → 01012339782

In [1]:
import re

## **1. 함수**

### 1.1 match
- 문자열의 **가장 앞**(시작)에서부터 일치하는 패턴 찾기
- `re.match(패턴, 문자열)`

In [2]:
s = "fast campus datascience fighitng. datascience fighting. fast campus fighting."

In [3]:
result1 = re.match("fast", s)       
result2 = re.match("campus", s)     
print("result1:", result1)
print("result2:", result2)

result1: <_sre.SRE_Match object; span=(0, 4), match='fast'>
result2: None


### 1.2 search
- 문자열에서 **가장 첫번째로** 일치하는 패턴 찾기 (일치하는 것 중 첫번째만)
- `re.search(패턴, 문자열)`

In [4]:
result3 = re.search("fast", s)  
result4 = re.search("campus", s) 
print("result3:", result3)
print("result4:", result4)

result3: <_sre.SRE_Match object; span=(0, 4), match='fast'>
result4: <_sre.SRE_Match object; span=(5, 11), match='campus'>


### 1.3 findall
- 일치하는 패턴을 모두 찾아서 리스트로 돌려줌
- 가장 많이 사용하게됨
- `re.findall(패턴, 문자열)`

In [5]:
result5 = re.findall("fast", s)    
result6 = re.findall("campus", s)     
print("result5:", result5, len(result5))
print("result6:", result6, len(result6))

result5: ['fast', 'fast'] 2
result6: ['campus', 'campus'] 2


### 1.4 split
- 패턴을 기준으로 문자열을 나눠서 리스트로 만들어 줌
- `re.split(패턴, 문자열)`
- 여러가지 문자로 나누고 싶을 때
    - `string.split()`은 chaining을 이용해 여러 번 함수를 호출해야함
    - regex는 패턴을 이용해서 함수를 한번만 호출해도 됨

In [6]:
s1 = "fast campus datascience fighting!"
result = re.split("i", s1)
result

['fast campus datasc', 'ence f', 'ght', 'ng!']

### 1.5 sub
- 일치하는 패턴을 대체
- `re.sub(패턴, 바꿀 문자, (전체)문자열)`

In [7]:
print(s)
re.sub("fast","slow", s)

fast campus datascience fighitng. datascience fighting. fast campus fighting.


'slow campus datascience fighitng. datascience fighting. slow campus fighting.'

## **2. Pattern**
- 문자: 숫자인지 문자인지 특수문자인지 등을 구분
- 지정자: '범위가 몇회 반복' 같은 패턴을 구분

### 2.1 문자
- `\d` & `\D`: 숫자와 비숫자를 찾는 패턴
- `\w` & `\W` : 숫자, 문자, _  & 숫자, 문자, _ 제외
- `\s` & `\S`: 공백문자 & 비공백문자 

In [8]:
import string

In [13]:
# string.printable: 사용가능한 모든 문자
pt = string.printable
print(len(pt))
pt

100


'0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~ \t\n\r\x0b\x0c'

#### (1) `\d` & `\D`: 숫자와 비숫자를 찾는 패턴

In [14]:
result = re.findall("\d", pt)   # '\d'라는 패턴을 findall 함수에 넣어줌
result

['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

In [15]:
result = re.findall("\D", pt)
''.join(result)

'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~ \t\n\r\x0b\x0c'

#### (2) `\w` & `\W` : 숫자, 문자, _  & 숫자, 문자, _ 제외
- 숫자, 문자, _ : 식별자로 사용할 수 있는 문자

In [16]:
result = re.findall("\w", pt)
''.join(result)

'0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ_'

In [17]:
result = re.findall("\W", pt)
''.join(result)

'!"#$%&\'()*+,-./:;<=>?@[\\]^`{|}~ \t\n\r\x0b\x0c'

#### (3) `\s` & `\S`: 공백문자 & 비공백문자 
- 공백문자: 문자의 공백을 다 지우고 싶으면 이 패턴을 활용해서 sub 함수를 쓰면 됨

In [19]:
result = re.findall("\s", pt)
''.join(result)

' \t\n\r\x0b\x0c'

In [18]:
result = re.findall("\S", pt)
''.join(result)

'0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

### 2.2 지정자
지정자의 활용이 정규표현식의 핵심이라 할 수 있음!
- `[]`: 문자
- `-`: 범위
- `.`: 하나의 문자
- `?`: 0회 또는 1회 반복
- `*`: 0회 이상 반복
- `+`: 1회 이상 반복
- `{m,n}`: m~n회 반복
- `()`: 그룹핑 

#### (1) `[]`: 문자 - 괄호 안의 각각의 문자

In [20]:
re.findall("[abc1]", pt)

['1', 'a', 'b', 'c']

#### (2) `-`: 범위

In [22]:
print(re.findall("[0-9]", pt))      # [0123456789] 라고 쓸 필요가 없음
print(re.findall("[a-f]", pt))    
print(re.findall("[a-fA-F]", pt))   # 여러가지 범위를 써도 됨 

['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']
['a', 'b', 'c', 'd', 'e', 'f']
['a', 'b', 'c', 'd', 'e', 'f', 'A', 'B', 'C', 'D', 'E', 'F']


#### (3) `.`: 하나의 문자

In [23]:
ls = ["123aab123", "a0b", "abc"]
for s in ls:
    result = re.findall("a.b", s)   # a + 어떤 문자 1개 + b
    print(s, result)

123aab123 ['aab']
a0b ['a0b']
abc []


#### (4) `?`: '?' 앞의 문자를 0회 또는 1회 반복

In [24]:
ls = ["aab", "a3b", "accb", "ab"]
for s in ls:
    result = re.findall("a.?b", s)  # a + 어떤문자 0개 또는 1개 + b → a.b 또는 ab
    print(s, result)

aab ['aab']
a3b ['a3b']
accb []
ab ['ab']


#### (5) `*`: '*' 앞의 문자를 0회 이상 반복

In [25]:
ls = ["ac", "abc", "abbbbc", "a3bec"]
for s in ls:
    result = re.findall("ab*c", s)  # a + b가 0회 이상 반복 + c
    print(s, result)

ac ['ac']
abc ['abc']
abbbbc ['abbbbc']
a3bec []


#### (6) `+`: '+' 앞의 문자를 1회 이상 반복

In [26]:
ls = ["ac", "abc", "abbbbc", "a3bec"]
for s in ls:
    result = re.findall("ab+c", s)  # a + b가 1회 이상 반복 + c
    print(s, result)

ac []
abc ['abc']
abbbbc ['abbbbc']
a3bec []


#### (7) `{m,n}`: 앞의 문자를 m~n회 반복

In [45]:
ls = ["ac", "abc", "abbbbbc", "abbbbbbbbbbc"] # 5회, 10회
for s in ls:
    result = re.findall("ab{1,8}c", s)  # a + b가 1~8회 반복 + c
    print(s, result)

ac []
abc ['abc']
abbbbbc ['abbbbbc']
abbbbbbbbbbc []


#### (8) `()`: 그룹핑 

In [28]:
ls = ["aaa5.djfi","abdddc5","1abbbbc","a3.bec"]
for s in ls:
    result = re.findall("([0-9]+)[.]([a-z]{2})", s)  
    print(s, result)

aaa5.djfi [('5', 'dj')]
abdddc5 []
1abbbbc []
a3.bec [('3', 'be')]


### **3. Examples**

### 3.1 email 주소 찾기

In [46]:
s = "저의 이메일 주소는 hyeshinoh@gmail.com입니다. 또한 panda706@naver.com도 가지고 있습니다."
p = "[0-9a-zA-Z]+@[0-9a-z]+\.[0-9a-z]+"          # \. : 패턴이 아니고 "."을 문자 자체로 사용
# result = True if re.search(p, s) else False
# print(result, re.findall(p, s))
re.findall(p, s)

['hyeshinoh@gmail.com', 'panda706@naver.com']

### 3.2 주민등록번호 뒷자리 변경
- 주민등록번호를 group으로 나눠서 뒷자리를 *******로 변경

In [58]:
s = "저의 전화번호는 010-1111-2222이고 주민등록번호는 870101-1234567 입니다"
p = "[0-9]{6}\-[0-9]{7}"          # \(escaping)을 안해줘도 문제는 없음
print(re.findall(p, s))
p = "([0-9]{6})\-([0-9]{7})"      # 그룹핑
print(re.findall(p, s))
re.sub(p, "\g<1>-********", s)    # \g<1> : 그룹핑 첫번째(0부터 세지 않음. 앞의 그룹) 데이터 사용

['870101-1234567']
[('870101', '1234567')]


'저의 전화번호는 010-1111-2222이고 주민등록번호는 870101-******** 입니다'

### 3.3 전화번호 추출해서 바꾸기

In [59]:
# 전화번호 추출하기

s = "안녕하세요. 저의 전화번호는 영일공-48구삼삼7이사 입니다. 또한 010사팔구삼삼구삼일입니다. 둘중에 하나로 연락하세요"

p = '[0-9영공일이둘삼사오육칠팔구빵oO]{3}[-]?[0-9영공일이둘삼사오육칠팔구빵oO]{3,4}[-]?[0-9영공일이둘삼사오육칠팔구빵oO]{4}'

numbers = re.findall(p, s)     # 찾아 놓은 패턴 number에 저장
numbers

['영일공-48구삼삼7이사', '010사팔구삼삼구삼일']

In [60]:
# 전화번호를 추출해서 바꾸기
def change_phone_str(s):
    # 문자열 패턴
    p = '[0-9영공일이둘삼사오육칠팔구빵oO]{3}[-]?[0-9영공일이둘삼사오육칠팔구빵o]{3,4}[-]?[0-9영공일이둘삼사오육칠팔구빵oO]{4}'

    # 찾아 놓은 패턴 number에 저장
    numbers = re.findall(p, s)
    print(numbers)                                # 결과: '영일공-48구삼삼7이사', '010사팔구삼삼구삼일'

    # 패턴에 맞는 데이터 문자로된 숫자 숫자로 바꾸기
    result = []
    preprocess_dict = {
    "공": 0, "영": 0, "일": 1, "둘": 2, "이": 2, "삼": 3, "사": 4,
    "오": 5, "육": 6, "칠": 7, "팔": 8, "구": 9, "빵":0, "o":0, "O":0, "-": "",
    }
    for number in numbers:            
        mod_numbers = number
        for key, value in preprocess_dict.items():
            mod_numbers = mod_numbers.replace(key, str(value))
        result.append(mod_numbers)
      
    # 결과값을 replace 하기
    result_str = s
    for idx, number in enumerate(numbers):
        result_str = result_str.replace(number, result[idx])
    return result_str


s, change_phone_str(s)

['영일공-48구삼삼7이사', '010사팔구삼삼구삼일']


('안녕하세요. 저의 전화번호는 영일공-48구삼삼7이사 입니다. 또한 010사팔구삼삼구삼일입니다. 둘중에 하나로 연락하세요',
 '안녕하세요. 저의 전화번호는 01048933724 입니다. 또한 01048933931입니다. 둘중에 하나로 연락하세요')

#### 참고자료
- 패스트캠퍼스, ⟪데이터사이언스스쿨 8기⟫ 수업자료