# 정규표현식
- 수집한 문자열 데이터에서 특정 패턴으로 문자열 데이터를 찾거나 수정할 때 사용
- 텍스트 데이터들을 수집했는데 사용된 이메일 정보만 수집할 떄
- 정규표현식 함수
    - findall() : 패턴으로 문자열을 찾을 때 사용
    - sub() : 패턴으로 문자열을 대체(replace)할 때 사용
- 정규표현식 패턴
    - 문자
    - 지정자
- 예제
    - 이메일 문자열 패턴으로 찾기
    - 주민등록번호 패턴으로 찾아서 * 표시로 변경하기
    - 중고나라 : 제 전화번호는 영일0-구삼7구삼삼50 -> 010-9379-3350

In [1]:
import re

## 1. 정규표현식 함수

In [10]:
data ="python jupyter notebook notedata test python macbook "

In [3]:
# findall

In [6]:
result = re.findall("[a-z]+book",data)
result

['notebook', 'macbook']

In [7]:
# sub

In [9]:
result = re.sub("[a-z]+book", "took", data)
result

'python jupyter took notedata test python took '

## 2. 정규표현식 패턴

In [12]:
import string

In [13]:
data = string.printable
len(data), data

(100,
 '0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~ \t\n\r\x0b\x0c')

### 문자

In [15]:
# 숫자, 비숫자
result1 = re.findall("\d", data) #\d : 숫자
result2 = re.findall("\D", data) #\d : 숫자가 아닌 문자
"".join(result1), "".join(result2)

('0123456789',
 'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~ \t\n\r\x0b\x0c')

In [16]:
# 숫자, 문자, _
result1 = re.findall("\w", data) #\w : 숫자 문자 언더스코어
result2 = re.findall("\W", data) #\
"".join(result1), "".join(result2)

('0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ_',
 '!"#$%&\'()*+,-./:;<=>?@[\\]^`{|}~ \t\n\r\x0b\x0c')

In [17]:
result = re.findall("[a-zA-Z0-9_]", data)
"".join(result1)
### 이거 대신에 쓰겠다

'0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ_'

In [None]:
# 공백문자
result1 = re.findall("\s", data) #\s : 공백문자
result2 = re.findall("\S", data) #\S : 비공백문자
"".join(result1), "".join(result2)

### 지정자

In [18]:
# [] : 각각의 문자 => 각요소를 찾기 위해서 사용
re.findall("[abcd]", data)

['a', 'b', 'c', 'd']

In [19]:
re.findall("abcd", data)

['abcd']

In [22]:
# - : 범위
result = re.findall("[a-z]", data)
"".join(result)

'abcdefghijklmnopqrstuvwxyz'

In [25]:
result = re.findall("[0-9e-h]", data)
"".join(result)

'0123456789efgh'

In [26]:
# . : 아무 문자 하나

In [28]:
datas = ["abc", "ac", "a!c", "a.cd"]
for data in datas:
    result = re.findall("a.c", data)
    print(data, result)

abc ['abc']
ac []
a!c ['a!c']
a.cd ['a.c']


In [29]:
### ' . ' 을 지정자 말고 문자로 인식하고 싶을 때
datas = ["abc", "ac", "a!c", "a.cd"]
for data in datas:
    # result = re.findall("a\.c", data)
    result = re.findall("a[.]c", data)
    print(data, result)
# 역슬래시 (이스케이핑), 중괄호

abc []
ac []
a!c []
a.cd ['a.c']


In [30]:
# ? : 앞에 있는 패턴의 문자가 0회, 1회 반복

In [35]:
datas = ["abcd", "acd" , "abbcd"]
for data in datas:
    result = re.findall("a.?c", data)
    print(data, result)

abcd ['abc']
acd ['ac']
abbcd []


In [None]:
010-11233333, 01022224444 숫자-?숫자

In [31]:
# * : 앞에 있는 패턴의 문자가 0회 이상 반복

In [36]:
datas = ["abcd", "acd" , "abbcd"]
for data in datas:
    result = re.findall("a.*c", data)
    print(data, result)

abcd ['abc']
acd ['ac']
abbcd ['abbc']


In [32]:
# + : 앞에 있는 패턴의 문자가 1회 이상 반복

In [37]:
datas = ["abcd", "acd" , "abbcd"]
for data in datas:
    result = re.findall("a.+c", data)
    print(data, result)

abcd ['abc']
acd []
abbcd ['abbc']


In [33]:
# {m} : 앞에 있는 패턴의 문자가 m회 반복

In [38]:
datas = ["abcd", "acd" , "abbcd", "abbttcd"]
for data in datas:
    result = re.findall("a.{4}c", data)
    print(data, result)

abcd []
acd []
abbcd []
abbttcd ['abbttc']


In [None]:
# {m, n} : 앞에 있는 패턴의 문자가 m회 ~ n회 반복

In [39]:
datas = ["abcd", "acd" , "abbcd", "abbttcd"]
for data in datas:
    result = re.findall("a[bt]{2,4}c", data)
    print(data, result)

abcd []
acd []
abbcd ['abbc']
abbttcd ['abbttc']


In [40]:
# () : 그룹핑 : 특정 패턴으로 찾아서 그룹핑한 문자열만 출력

In [45]:
data = "jupyternotebook notebook testnotebook macnote python jupyter"

In [46]:
re.findall("([a-z]+)note", data)

['jupyter', 'test', 'mac']

### 3.예제

In [47]:
# 이메일 주소 찾기

In [68]:
data = "저의 이메일 주소는 snfltptkd@gmail.com 과 df.dsnkd@naver.co.kr 이 있습니다."

In [69]:
# 1. 문자열에서 이메일 주소값을 패턴으로 찾아서 출력
re.findall("([\w]+)@",data)

['snfltptkd', 'dsnkd']

In [71]:
pt = "[a-zA-Z0-9.]+@[a-z.]+"
re.findall(pt,data)

['snfltptkd@gmail.com', 'df.dsnkd@naver.co.kr']

In [76]:
pt = "[a-zA-Z0-9.]+@[a-z.]+\.[a-z.]+"
re.findall(pt,data)

['snfltptkd@gmail.com', 'df.dsnkd@naver.co.kr']

In [None]:
# 2. 문자열에서 이메일의 도메인을 찾아서 출력

In [78]:
pt = "[a-zA-Z0-9.]+@([a-z.]+)\.[a-z.]+"
re.findall(pt,data)

['gmail', 'naver.co']

In [74]:
pt = "@([\w]+)"
re.findall(pt,data)

['gmail', 'naver']

In [79]:
# 주민등록번호 찾기

In [94]:
data = "저의 주민등록번호는 881122-1088740 과 0212223011980 또한 021214-5029304 입니다. 마음껏 도용하세요!"

In [81]:
# 1. 문자열에서 제대로 된 주민등록 번호를 출력

In [95]:
pt = "[\d]+-[1234]{1}[\d]+"
re.findall(pt,data)

['881122-1088740']

In [96]:
pt = "[0-9]{6}[-.]?[1-4]{1}[0-9]{6}"
re.findall(pt,data)

['881122-1088740', '0212223011980']

In [None]:
# 2. 주민등록번호를 치환

In [97]:
pt = "[0-9]{6}[-.]?[1-4]{1}[0-9]{6}"
re.sub(pt, "******-********", data)

'저의 주민등록번호는 ******-******** 과 ******-******** 또한 021214-5029304 입니다. 마음껏 도용하세요!'

In [99]:
pt = "([0-9]{6})[-.]?([1-4]{1}[0-9]{6})"
re.sub(pt, "\g<1>-*******", data)

'저의 주민등록번호는 881122-******* 과 021222-******* 또한 021214-5029304 입니다. 마음껏 도용하세요!'

In [101]:
data = "안녕하세요 저의 전화 번호는 영일공-사사37구삼99 또는 O1o-11칠사-팔오30 입니다 연락주세요."

In [None]:
# TODO


In [102]:
# 결과 ; ["01044379399", "01011748530"]

In [None]:
re.findall("[]{3}", data)