###  정규표현식 : regex
- 문자열 테이터를 처리할때, 특정한 패턴으로 문자열 데이터를 처리하는 방법.
- 정규표현식 함수 : findall, sub
    - findall : 패턴에 맞는 문자열을 찾는 함수
    - sub : 패턴에 맞는 문자열을 찾아서 특정 문자열로 치환
- pattern
    - 문자 
    - 지정자 
    
- 예시
    - 이메일 주소 찾아내기
    - 주민등록번호 찾아서 치환하기
    - 중고나라 전화번호 

In [2]:
import re

In [2]:
#1.정규표현식 함수

In [21]:
# data = "fast campus jupyter notebook notecamp python"
data = [1,1,3,3,0,1,1]

In [25]:
# findall
re.findall("0-9",data)

TypeError: expected string or bytes-like object

In [26]:
data = "fast campus jupyter notebook notecamp python"

In [13]:
# sub 
re.sub('note([a-z]{4})',"\g<1>macbook",data)

'fast campus jupyter bookmacbook campmacbook python'

In [8]:
# 문자 패턴

In [9]:
import string

In [10]:
data = string.printable
len(data), data

(100,
 '0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~ \t\n\r\x0b\x0c')

# \d : 숫자
# \D : 비 숫자

In [11]:
result = re.findall("\d",data)
"".join(result)

In [13]:
"".join(result)

'0123456789'

In [14]:
result = re.findall("\D",data)
"".join(result)

'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~ \t\n\r\x0b\x0c'

# \w : 숫자, 문자, _ 를 찾는다 
# \W : 숫자, 문자, _를 제외한 나머지를 찾는다

In [15]:
result = re.findall("\w",data)
"".join(result)

'0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ_'

In [16]:
result = re.findall("\W",data)
"".join(result)

'!"#$%&\'()*+,-./:;<=>?@[\\]^`{|}~ \t\n\r\x0b\x0c'

# \s : 공백문자
# \S : 비공백문자

In [18]:
result = re.findall("\s",data)
"".join(result)

' \t\n\r\x0b\x0c'

In [19]:
result = re.findall("\S",data)
"".join(result)

'0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

# 3. 지정자

# [ ] : 문자 하나를 의미함

In [22]:
data = "fastcampus"

In [25]:
re.findall("fast",data)

['fast']

In [26]:
re.findall("[fast]",data) #[]안에 있는 문자 하나하나를 모두 각각 찾음 마지막 a s campus의 a 와 s 임

['f', 'a', 's', 't', 'a', 's']

In [27]:
data = string.printable

# - : 범위지정자
- 말그대로 범위를 지정할 수 있음

In [33]:
data

'0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~ \t\n\r\x0b\x0c'

In [28]:
re.findall("[012345]", data)

['0', '1', '2', '3', '4', '5']

In [30]:
re.findall("[0-5]", data)

['0', '1', '2', '3', '4', '5']

In [32]:
re.findall("[0-2 a-f x-z A-C]", data)

['0', '1', '2', 'a', 'b', 'c', 'd', 'e', 'f', 'x', 'y', 'z', 'A', 'B', 'C']

# . : 아무문자 하나


In [36]:
data1, data2, data3 = "abc", "ac", "a c"

In [38]:
re.findall("a.c",data1),re.findall("a.c",data2),re.findall("a.c",data3)

(['abc'], [], ['a c'])

In [41]:
data4 = "a\.c"  #아무문자 하나라는 뜻이아니라 'a.c'라는 그 자체를 찾고싶을땐 앞에 \를 붙이면 됨
re.findall("a[.]c", data) #혹은 .을 []안에 가두면 문자 그자체로 인식하게됨

[]

# ? : ? 앞에 있는 패턴을 0 또는 1회 반복해줌

In [42]:
data1, data2, data3 = "abc", "ac", "abbc"
re.findall("a.?c",data1),re.findall("a.?c",data2),re.findall("a.?c",data3)

(['abc'], ['ac'], [])

# * : 0회 이상 반복

In [43]:
data1, data2, data3 = "abc", "ac", "abbc"
re.findall("a.*c",data1),re.findall("a.*c",data2),re.findall("a.*c",data3)

(['abc'], ['ac'], ['abbc'])

# + : 1회 이상 반복

In [44]:
data1, data2, data3 = "abc", "ac", "abbc"
re.findall("a.+c",data1),re.findall("a.+c",data2),re.findall("a.+c",data3)

(['abc'], [], ['abbc'])

# {n} : n회 반복
# {n,m} : n~m회 반복

In [47]:
data1 = "abbc abbbbc abbbbbbc"
re.findall("a.{2}c",data1),re.findall("a.{1,4}c",data1),re.findall("a.{3,7}c",data1)

(['abbc'], ['abbc', 'abbbbc'], ['abbbbc', 'abbbbbbc'])

# () : 그룹핑 
## 패턴으로 문자열을 찾는데 ()안에 있는 문자열만 출력

In [58]:
data = "저의 전화번호는 010-1111-2222 나 011-222-4444입니다."

In [59]:
re.findall("[0-9]{3}[-]?[0-9]{3,4}[-]?[0-9]{4}",data)

['010-1111-2222', '011-222-4444']

In [60]:
re.findall("([0-9]{3})[-]?[0-9]{3,4}[-]?[0-9]{4}",data) 
# ()로 가둬서 출력하고싶은 부분만 추려낼 수 있음

['010', '011']

In [61]:
# example

In [62]:
# email 주소찾기

In [84]:
data = "저의 이메일 주소는 fast.campus@fc.com 이고 data@naver.co.kr 입니다"

In [78]:
re.findall(pt,data)

['fc.com', 'naver.co.kr']

In [87]:
pt = "[0-9a-zA-Z.]+@[a-z]+[a-z.]+"

In [88]:
re.findall(pt,data)

['fast.campus@fc.com', 'data@naver.co.kr']

In [79]:
# 주민등록번호 찾아서 치환하기

In [97]:
data = '저의 주민등록번호는 761232-1089913 입니다 언제나 사용하세요'

In [92]:
re.findall('[0-9]+-[0-9]+',data)

['761232-1089913']

In [93]:
re.findall('[0-9]{2}[01][0-9][0-3][0-9]-?[1-4][0-9]{6}',data)

['761232-1089913']

In [1]:
data = '저의 주민등록번호는 761232-1089913 입니다 언제나 사용하세요'
pt = '[0-9]{2}[01][0-9][0-3][0-9]-?[1-4][0-9]{6}'
re.findall(pt,data)
re.sub(pt, "\g<1>-*******", data)
re.sub(pt, "******-\g<2>", data)

NameError: name 're' is not defined

In [106]:
# 전화번호 문자열 변경하기

In [108]:
data = "안녕하세요 플스4 20000원에 급처 합니다. 선착순 연락주세요 전화번호는 01O-사구빵빵-구79삼과 영일영삼312공구00 중에 연락 주세요"

In [116]:
pt = "\w{3}-?\w{4}-?\w{4}"
numbers = re.findall(pt,data)

In [113]:
change_number ={
    "영": 0,
    "공" : 0,
    "빵" : 0,
    "일" : 1,
    "이" : 2, "삼" : 3, "사":4, "오":5 ,"육" : 6, "칠":7 ,"팔":8, "구":9, "O" :0, 'o' : 0
}

In [118]:
result = []
for number in numbers:
    print(number)
    for key, value in change_number.items():
        number = number.replace(key,str(value))
    result.append(number.replace("-",""))
print(result)

01O-사구빵빵-구79삼
영일영삼312공구00
['01049009793', '01033120900']
