### 정규표현식 regex
- 문자열을 특정한 패턴으로 처리할 때 사용하는 문법
- 정규표현식 함수 : findall()- 문자열 찾아낼 때, sub()- 패턴으로 치환할 때
- 정규표현식 패턴 : 지정자
- 예제: 이메일찾기, 주민등록번호치환, 중고나라의 전화번호 찾아서 숫자로 치환(영10-구삼76 삼삼5o -> 01093763350)

In [3]:
import re

In [4]:
# 1. 정규표현식 함수

In [5]:
data = "data science jupyter notebook macbook"

In [7]:
re.findall("book", data)

['book', 'book']

In [9]:
re.findall("[a-z]+book", data) #[a-z]+ : 지정자

['notebook', 'macbook']

In [12]:
re.sub("[a-z]+book", "testbook", data)

'data science jupyter testbook testbook'

In [14]:
# 2. 지정자

In [16]:
import string
data= string.printable
len(data), data

(100,
 '0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~ \t\n\r\x0b\x0c')

In [20]:
# [] : 문자하나, cf.대괄호 안쓰면 문자'열'을 찾음

In [17]:
re.findall("[abc123]", data)

['1', '2', '3', 'a', 'b', 'c']

In [19]:
re.findall("abc123", data), re.findall("abc", data)

([], ['abc'])

In [21]:
# - : 범위

In [22]:
re.findall("[abcdef12345]",data)

['1', '2', '3', '4', '5', 'a', 'b', 'c', 'd', 'e', 'f']

In [24]:
re.findall("[a-f1-5]",data) # 숫자, 소문자, 대문자로 끊어서 범위 생성 가능. a-Z는 불가 ! 

['1', '2', '3', '4', '5', 'a', 'b', 'c', 'd', 'e', 'f']

In [25]:
# . : 아무문자 하나

In [30]:
data1, data2, data3, data4 = "abc", "ac", "a12c", "a.c"
re.findall("a.c", data1), re.findall("a.c", data2), re.findall("a.c", data3),\
re.findall("a[.]c", data4), re.findall("a\.c", data4)

(['abc'], [], [], ['a.c'], ['a.c'])

In [31]:
# ? : 앞에 있는 패턴이 0, 1회 반복

In [33]:
data1, data2, data3, data4

('abc', 'ac', 'a12c', 'a.c')

In [34]:
re.findall("a.?c", data1), re.findall("a.?c", data2), re.findall("a.?c", data3)

(['abc'], ['ac'], [])

In [32]:
# * : 앞에 있는 패턴이 0회 이상 반복

In [35]:
re.findall("a.*c", data1), re.findall("a.*c", data2), re.findall("a.*c", data3)

(['abc'], ['ac'], ['a12c'])

In [None]:
# + : 앞에 있는 패턴이 1회 이상 반복

In [36]:
re.findall("a.+c", data1), re.findall("a.+c", data2), re.findall("a.+c", data3)

(['abc'], [], ['a12c'])

In [None]:
# {n} : n회반복
# {n,m} : n~m회 반복

In [39]:
data1, data2 = "ddfabbbcadf", "abbbbbc"

In [41]:
re.findall("a[a-z]{3}c", data1), re.findall("a[a-z]{3}c", data2)

(['abbbc'], [])

In [43]:
re.findall("a[a-z]{4,7}c", data1), re.findall("a[a-z]{4,7}c", data2)

([], ['abbbbbc'])

In [44]:
# ( ) : 그루핑 - 특정 패턴을 찾아서 뽑아냄

In [45]:
data = " jupyter notebook macbook testbook science"

In [50]:
re.findall("[a-z]{3,4}book",data)

['notebook', 'macbook', 'testbook']

In [51]:
# 예시: 이메일 주소 찾기
data = "저의 이메일 주소는 pdj1224@gmail.com 과 data.science@daum.net이 있습니다."

In [54]:
# 내답
pt = "[a-z]+[0-9]*\@[a-z]+\.[a-z]+"
re.findall(pt,data)

['pdj1224@gmail.com', 'science@daum.net']

In [56]:
# 쌤답
pt = "[a-z0-9.]+@[a-z]+\.[a-z.]+"
re.findall(pt,data)

['pdj1224@gmail.com', 'data.science@daum.net']

In [58]:
pt = "[a-z0-9.]+@([a-z]+\.[a-z.]+)"
re.findall(pt,data)

['gmail.com', 'daum.net']

In [None]:
# 예제 2: 주민등록번호 치환

In [8]:
data = "저의 주민등록번호는 871212-1087123 입니다. 마음껏 사용하세요 !!"

In [9]:
# 내답
pt = "[0-9]{6}\-[0-9]{7}"
re.findall(pt,data)

['871212-1087123']

In [19]:
# 쌤답

pt = "([0-9]{6})[-_.]?([1-4][0-9]{6})" 
re.findall(pt,data)

[('871212', '1087123')]

In [21]:
pt = "([0-9]{6})[-_.]?([1-4][0-9]{6})" 
# 소괄호로 묶어준 순서대로 그룹 1, 그룹 2
re.sub(pt,"\g<1> - *******", data)

'저의 주민등록번호는 871212 - ******* 입니다. 마음껏 사용하세요 !!'

In [None]:
# 예제 3: 중고나라 번호 찾기

In [67]:
data = "안녕하세요 저의 전화번호는 영일공-56칠삼.Oo12 하고 01035칠삼구구빵삼 입니다."

In [64]:
pt= "[0-9영공빵일이삼사오육칠팔구Oo]{3}[- ]?[0-9영공빵일이삼사오육칠팔구Oo]{3,4}[- .]?\
[0-9영공빵일이삼사오육칠팔구Oo]{4}[-]?"
numbers = re.findall(pt, data)
numbers

['영일공-56칠삼.Oo12', '01035칠삼구구빵삼']

In [65]:
def change(datas): 
    
    result = []
    dic = { "빵": 0,"영":0, "공":0,"o":0, "O":0, 
           "일":1,"이":2,"삼":3,"사":4,"오":5,
           "육":6,"칠":7,"팔":8,"구":9, "-":"-"}
    for data in datas:
        for key, value in dic.items():
            data = data.replace(key, str(value))
            pt = "([0-9]{3})[-. ~]?([0-9]{3,4})[-. ~]?([0-9]{4})"
            data = re.sub(pt, "\g<1>-\g<2>-\g<3>", data)
            
              
        
        result.append(data)
            
    print(result)

    

In [66]:
change(numbers)

['010-5673-0012', '010-3573-9903']


##### Quiz 1
- `1234-5678-2345-6789` `1234 5678 2345-6789` 와 같은 카드 번호가 입력되면 가장 마지막 4자리를 `*`로 변경하는 코드를 작성하세요.
```
comment = "저의 카드 번호는 1234-2331-1123-9485와 7384 1234 5432 1222와 73841234-5432 1222 입니다."
```

In [68]:
import re
comment = "저의 카드 번호는 1234-2331-1123-9485와 7384 1234 5432 1222와 73841234-5432 1222 입니다."
pt = "([0-9]{4})[- ]?([0-9]{4})[- ]?([0-9]{4})[- ]?([0-9]{4})"
re.findall(pt,comment)

[('1234', '2331', '1123', '9485'),
 ('7384', '1234', '5432', '1222'),
 ('7384', '1234', '5432', '1222')]

In [69]:
re.sub(pt, "\g<1>-\g<2>-\g<3>-****", comment)

'저의 카드 번호는 1234-2331-1123-****와 7384-1234-5432-****와 7384-1234-5432-**** 입니다.'