# 1. Learning Regular Expressions with Masking examples
- re.sub("찾을패턴", "새로바꿀패턴", "데이터")
- \d는 숫자를 가리키며, (\d{3})이면 숫자 3자리를 가리킨다


In [12]:
import re
import pandas as pd
re.sub("\d", "*" ,"010-1234-5678") #숫자를 잡아서 *로 바꾼다. 

'***-****-****'

- (\d{1,2})는 숫자 1~2 자리 패턴을 뜻한다 

In [5]:
#010 -> *
#123 -> * , 4 -> *
#567 -> * , 8 -> * 
re.sub("(\d{1,3})", "*" ,"010-1234-5678")

'*-**-**'

- (첫번째그룹)(두번째그룹)(세번째그룹)
- 각각을 \1 , \2 , \3으로 쉽게 표현할 수 있다
- 다만, 앞에 r을 적어야 인식한다 
- r"\1"  처럼 말이다. 
- (Group1:숫자세개) - (Group2:숫자두개)(Group3:숫자두개)-(Group4:숫자두개)(Group:5숫자두개)

In [6]:
#(Group1:숫자세개) - (Group2:숫자두개)(Group3:숫자두개)-(Group4:숫자두개)(Group:5숫자두개)

#전화번호의 가운데 4자리 중 뒤에 2자리를 마스킹, 뒤에 4자리 중 앞의 2자리를 마스킹
#방법 : 가운데 4자리, 뒤의 4자리를 2자리+2자리 / 2자리+2자리의 그룹으로 나눠서 생각해 보는 것이다.
#Group를 Gr로 줄여서 표현하자
# r"\1-\2**-**\5" 이건 무슨뜻인가. Gr1-Gr2**-**Gr5
re.sub("(\d{3})-(\d{2})(\d{2})-(\d{2})(\d{2})", r"\1-\2**-**\5", "010-1234-5678")

'010-12**-**78'

*중간 전화번호가 3자리라면?*

In [8]:
#중간 부분 패턴을 나누는것을 2자리+2자리 말고, (하나에서 두자리)(두자리)로 나눠버리면 된다. 

re.sub("(\d{3})-(\d{1,2})(\d{2})-(\d{2})(\d{2})", r"\1-\2**-**\5", "010-123-5678")

'010-1**-**78'

# Q. 국가 번호가 들어갈 때에도 처리 할 수 있는 함수를 만들어보자 
## -를 기준으로 가운데 있는 그룹의 숫자 중 뒤의 2개를 마스킹하고
## -를 기준으로 마지막에 있는 그룹의 숫자 중 앞의 2개를 마스킹 해보자


| 클래스 | 표현식 | 설명 |
|----|-----|----|
|\d | [0-9]|십진수와 일치|
|\D| [^0-9] | 숫자가 아닌 문자와 일치|
|\s |[\t\n\r\f\v] | 공백 문자와 일치 |
|\S |[^\t\n\r\f\v]| 공백이 아닌 문자와 일치|
| \w| [a-zA-Z0-9_] | 모든 숫자 영문자와 일치|
| \W| [^a-zA-Z0-9_]| 영문자, 숫자가 아닌 것과 일치|

In [11]:
# 함수를 통해 가운데 들어오는 번호를 마스킹 하도록 처리
# 국제번호 등 다양한 형식의 번호가 들어왔을 때 

phone = "+82-10-1234-5678"

def mask_phone_number(phone):
    
    num = phone.split("-") # Divide into 4 pieces
    
    num[2] = re.sub("(\d{1,2})(\d{2})", r"\1**", num[2]) 
    num[-1] = re.sub("(\d{2})(\d{2})", r"**\2", num[-1])
    
    return "-".join(num)

mask_phone_number(phone)

'+82-10-12**-**78'

# 위의 함수도 잘 만들었지만 공백이 들어왔을 때 처리할 수 없으니 예외 상황을 처리하는 코드를 하나 넣어주자.

In [13]:
#나눠서 공략하자 
#일단 '-'를 기준으로 뜯어보자 


def mask_phone_number(phone):
    
    
    if pd.isnull(phone):
        return phone
    
    num = phone.split("-") 
    
    num[2] = re.sub("(\d{1,2})(\d{2})", r"\1**", num[2]) 
    num[-1] = re.sub("(\d{2})(\d{2})", r"**\2", num[-1])
    
    return "-".join(num)

mask_phone_number(phone)

'+82-10-12**-**78'