# 정규표현식, RegEx ( Regular Expression )
- http://regexr.com/
- https://regexper.com/

In [1]:
import re
text = 'My id number is [G203_5A]' ; text

'My id number is [G203_5A]'

In [4]:
# 소문자 a 찾기
result = re.findall('a', text) # findall(찾을 거, 찾을 대상) # 대문자는 'A'
result

[]

In [9]:
# 소문자 전체 찾기
result = re.findall('[a-z]', text)
result

['y', 'i', 'd', 'n', 'u', 'm', 'b', 'e', 'r', 'i', 's']

In [13]:
# 소문자 찾은 것들을 원래 단어 단위로 연결
result = re.findall('[a-z]+', text)
result

['y', 'id', 'number', 'is']

In [17]:
# 영문자 및 숫자 찾기
result = re.findall('[a-zA-Z0-9]+', text)
result

['My', 'id', 'number', 'is', 'G203', '5A']

In [18]:
# 영문자 및 숫자 찾기
result = re.findall('[a-z, A-Z, 0-9]+', text)
result

['My id number is ', 'G203', '5A']

# 문자열에서 특정이름 찾아내기

In [20]:
# \w == [a-zA-Z0-9_]
# a.b == a + 모든 문자 + b
# a[.]b == a+ . + b
# \W == [^a-zA-Z0-9_]
# \D == [0-9]
# \d  == [^0-9]
# \s ( 1 띄어쓰기 )

#ca{2}t == c + a(반드시 2번 반복)

# + ( 1, ..., N ) ca*t을 조건으로 하면 cat,... caaaaaaaaaat 다 찾아짐
# ab?c == a + b(b는 있어도 되고 없어도 됨) + c
# * ( 0, 1, .. N ) ca*t을 조건으로 하면 ct,... caaaaaaaaaat 다 찾아짐

# \d{N} ( 숫자가 N개 나온다. )
# \d{N,M} N~M회 반복

In [21]:
text = """
옛날 옛적에 김진수라는 사람이 살았습니다.
그에게는 5형제가 있었는데, 김진수, 김진구, 김진용, 김진태, 김진욱 이렇게 5명 있었습니다.
그리고 그는 결혼을 해서 김찬영, 김준영, 김채영 3남매를 낳고 행복하게 잘 살았습니다.
"""
# 형제 : 김진O
# 자녀 : 김O영

In [22]:
pattern = re.compile("김진\w")
brother = pattern.findall(text)
brother

['김진수', '김진수', '김진구', '김진용', '김진태', '김진욱']

In [23]:
pattern = re.compile("김.영")
pattern = re.compile("김\w영")

In [24]:
children = pattern.findall(text)
children

['김찬영', '김준영', '김채영']

In [25]:
brother = set(brother)
brother

{'김진구', '김진수', '김진용', '김진욱', '김진태'}

# 핸드폰 번호에 대한 파싱

In [26]:
text = "A sky, a dragonfly and a butterfly fly!!!!!"
pattern = re.compile("\w+fly") # 문자열 + fly를 찾아 오세요.(fly는 안 되는 듯)
pattern.findall(text)

['dragonfly', 'butterfly']

In [27]:
text = """
    010-5670-3847   # space, -, . => []
    010 5670 3847
    010.5670 3847
"""

In [28]:
pattern = re.compile("\d{3}[ -.]?\d{4}[ -.]?\d{4}")

In [29]:
pattern.findall(text)

['010-5670-3847', '010 5670 3847', '010.5670 3847']

In [32]:
text = """
    010-5670-3847   # space, -, . => []
    옛날에는 011-1052-3847 이랬는데..
    010 5670 3847
    010.-5670 3847
    사는동네가 자이아파트 516동512호
    그리구, 사무실번호는 02-360-4047이고
    우편번호는 100-791, 청파로 463번지
    
"""

In [33]:
pattern = re.compile("\d{3}[ -\.]{1,2}\d{3,4}[ -\.]?\d{4}")

In [34]:
pattern.findall(text)

['010-5670-3847', '011-1052-3847', '010 5670 3847', '010.-5670 3847']

In [35]:
pattern = re.compile("\d{2,3}[ -\.]?\d{3,4}[ -\.]?\d{4}")

In [36]:
pattern.findall(text)

['010-5670-3847', '011-1052-3847', '010 5670 3847', '02-360-4047']

# 주민등록번호에 대한 파싱
- 주민등록번호 : 숫자 6자리 - 숫자 7자리
- 데이터에서 주민등록번호만 찾아서, 뒷자리를 암호화(***)

In [37]:
text = """
    김찬영 020822-3069110
    김준영 040825-3069115
    김채영 110715-4063111
"""

In [38]:
pattern = re.compile("\d{6}-?\d{7}")
pattern.findall(text)

['020822-3069110', '040825-3069115', '110715-4063111']

In [39]:
# 정규표현식 GROUP
# 1. 생년월일 그룹 <birth>
# 2. 주민등록번호 뒷자리 그룹 <secret>

In [40]:
pattern = re.compile("(?P<birth>\d{6})-(?P<secret>\d{7})")

# 김채영 110715-******* => 김채영(110715-*******)

In [41]:
pattern.findall(text)

[('020822', '3069110'), ('040825', '3069115'), ('110715', '4063111')]

In [42]:
result = pattern.sub("\g<birth>-*******", text)
print(result)


    김찬영 020822-*******
    김준영 040825-*******
    김채영 110715-*******



In [43]:
result = pattern.sub("\g<birth>-*******", text)
print(result)


    김찬영 020822-*******
    김준영 040825-*******
    김채영 110715-*******



In [44]:
pattern = re.compile("(?P<name>\w{3}) (?P<birth>\d{6})-(?P<secret>\d{7})")

In [45]:
pattern.findall(text)

[('김찬영', '020822', '3069110'),
 ('김준영', '040825', '3069115'),
 ('김채영', '110715', '4063111')]

In [46]:
print(text)


    김찬영 020822-3069110
    김준영 040825-3069115
    김채영 110715-4063111



In [47]:
pattern = re.compile("(?P<name>\w{3}) (?P<birth>\d{6})-(?P<secret>\d{7})")

In [48]:
pattern.findall(text)

[('김찬영', '020822', '3069110'),
 ('김준영', '040825', '3069115'),
 ('김채영', '110715', '4063111')]

In [60]:
result = pattern.sub("\g<name>(\g<birth>-*******)", text)
print(result)


    김찬영(020822-*******)
    김준영(040825-*******)
    김채영(110715-*******)



In [52]:
text

'\n    김찬영 020822-3069110\n    김준영 040825-3069115\n    김채영 110715-4063111\n'

In [61]:
result = result.split('\n')
result,  len(result)

(['',
  '    김찬영(020822-*******)',
  '    김준영(040825-*******)',
  '    김채영(110715-*******)',
  ''],
 5)

In [62]:
result.pop(0)
result

['    김찬영(020822-*******)',
 '    김준영(040825-*******)',
 '    김채영(110715-*******)',
 '']

In [63]:
result.pop(-1)
result

['    김찬영(020822-*******)',
 '    김준영(040825-*******)',
 '    김채영(110715-*******)']

In [64]:
for idx, val in enumerate(result):
    val = val.replace(" ", "")
    # val[2] = "O"
    # val.pop(2)
    # val.insert(2, "O")
    print(idx, val)

0 김찬영(020822-*******)
1 김준영(040825-*******)
2 김채영(110715-*******)


In [None]:
중복된 메일값은 없이 정리해서.
패턴 만들어서 함수로 만들기
내일까지 숙제
return은 성공, 실패 유무 확인하고 하면 파일 하나 만들어주기

Id	DocNumber	MetadataSubject	MetadataTo	MetadataFrom	SenderPersonId	MetadataDateSent	MetadataDateReleased	MetadataPdfLink	MetadataCaseNumber	MetadataDocumentClass	ExtractedSubject	ExtractedTo	ExtractedFrom	ExtractedCc	ExtractedDateSent	ExtractedCaseNumber	ExtractedDocNumber	ExtractedDateReleased	ExtractedReleaseInPartOrFull	ExtractedBodyText	RawText						
1	C05739545	WOW	H	"Sullivan, Jacob J"	87	2012-09-12T04:00:00+00:00	2015-05-22T04:00:00+00:00	DOCUMENTS/HRC_Email_1_296/HRCH2/DOC_0C05739545/C05739545.pdf	F-2015-04841	HRC_Email_296	FW: Wow		"Sullivan, Jacob J <Sullivan11@state.gov>"		"Wednesday, September 12, 2012 10:16 AM"	F-2015-04841	C05739545	05/13/2015	RELEASE IN FULL		"UNCLASSIFIED
U.S. Department of State
Case No. F-2015-04841
Doc No. C05739545
Date: 05/13/2015
STATE DEPT. - PRODUCED TO HOUSE SELECT BENGHAZI COMM.
SUBJECT TO AGREEMENT ON SENSITIVE INFORMATION & REDACTIONS. NO FOIA WAIVER.
RELEASE IN FULL
From: Sullivan, Jacob J <Sullivan11@state.gov>
Sent: Wednesday, September 

In [112]:
import numpy as np # unique 쓸 거라 넘파이 임포트 해줍니다.
def e_mail(file_fath): # 입력에 파일 경로 받아줍니다.    
    try:
        with open(file_fath, 'r', encoding='UTF8') as email: # 파일 경로 열어주고
            data = email.read() # 이메일 주소 입력받고 자동 닫기
        # 패턴(문자열(갯수 상관 없음) + @ + 문자열(갯수 상관없음)+"."없어도 됨+문자열(갯수상관없음))
        pattern = re.compile("\w+[@]\w+[.]?\w+") 
        result = pattern.findall(data) # 패턴을 data에 대입해 찾아줍니다.
        result = np.unique(result) # 찾은 데이터의 중복값을 없애주고, 정렬해 줍니다.
        result = str(result)
        # 파일 생성하는 거 찾아보기

        with open('./email_list.txt', 'w') as el: # 찾은 데이터를 파일로 생성해 줍니다.
            el.write(result)

            return "성공했습니다. 새로운 파일은 현재경로에 email_list.txt로 생성되었습니다."
    except:
        return "파일 생성에 실패하였습니다."

In [113]:
e_mail("email.txt")

'성공했습니다. 새로운 파일은 현재경로에 email_list.txt로 생성되었습니다.'

In [92]:
import numpy as np # unique 쓸 거라 넘파이 임포트 해줍니다.
def e_mail(file_fath): # 입력에 파일 경로 받아줍니다.    
    with open(file_fath, 'r', encoding='UTF8') as email: # 파일 경로 열어주고
        data = email.read() # 이메일 주소 입력받고 자동 닫기
    # 패턴(문자열(갯수 상관 없음) + @ + 문자열(갯수 상관없음)+"."없어도 됨+문자열(갯수상관없음))
    pattern = re.compile("\w+[@]\w+[.]?\w+") 
    result = pattern.findall(data) # 패턴을 data에 대입해 찾아줍니다.
    result = np.unique(result) # 찾은 데이터의 중복값을 없애주고, 정렬해 줍니다.
    result = str(result)
    # 파일 생성하는 거 찾아보기

    with open('./email_list.txt', 'w') as el: # 찾은 데이터를 파일로 생성해 줍니다.
        el.write(result)

    return "성공했습니다. 새로운 파일은 현재경로에 email_list.txt로 생성되었습니다."

e_mail('email.txt')

'성공했습니다. 새로운 파일은 현재경로에 email_list.txt로 생성되었습니다.'

In [131]:
%%writefile email_lister.py

import numpy as np # unique 쓸 거라 넘파이 임포트 해줍니다.
def e_mail(): # 입력에 파일 경로 받아줍니다.    
    try:
        file_fath = input("파일 경로를 입력하세요. (따옴표 빼고 입력해 주세요)")
        with open(file_fath, 'r', encoding='UTF8') as email: # 파일 경로 열어주고
            data = email.read() # 이메일 주소 입력받고 자동 닫기
        # 패턴(문자열(갯수 상관 없음) + @ + 문자열(갯수 상관없음)+"."없어도 됨+문자열(갯수상관없음))
        pattern = re.compile("\w+[@]\w+[.]?\w+") 
        result = pattern.findall(data) # 패턴을 data에 대입해 찾아줍니다.
        result = np.unique(result) # 찾은 데이터의 중복값을 없애주고, 정렬해 줍니다.
        result = str(result)
        # 파일 생성하는 거 찾아보기

        with open('./email_list.txt', 'w') as el: # 찾은 데이터를 파일로 생성해 줍니다.
            el.write(result)

        return "성공했습니다. 새로운 파일은 현재경로에 email_list.txt로 생성되었습니다."
    except:
        return "파일 생성에 실패하였습니다."

Overwriting email_lister.py


In [135]:
import email_lister
email_lister.e_mail()

'파일 생성에 실패하였습니다.'

In [9]:
import numpy as np # unique 쓸 거라 넘파이 임포트 해줍니다.
import re
def e_mail(): 
    try:
        file_fath = input("파일 경로를 입력하세요. (따옴표 빼고 입력해 주세요)\n")
        with open(file_fath, 'r', encoding='UTF8') as email: # 파일 경로 열어주고
            data = email.read() # 이메일 주소 입력받고 자동 닫기
        # 패턴(문자열(갯수 상관 없음) + @ + 문자열(갯수 상관없음)+"."없어도 됨+문자열(갯수상관없음))
        pattern = re.compile("\w+[@]\w+[.]?\w+") 
        result = pattern.findall(data) # 패턴을 data에 대입해 찾아줍니다.
        result = np.unique(result) # 찾은 데이터의 중복값을 없애주고, 정렬해 줍니다.
        for i in result:
            temp = 
        result = str(result)#
        # 파일 생성하는 거 찾아보기

        with open('./email_list.txt', 'w') as el: # 찾은 데이터를 파일로 생성해 줍니다.
            el.write(result)

        return "성공했습니다. 새로운 파일은 현재경로에 email_list.txt로 생성되었습니다.\
                생성된 파일의 글자수는 {0}개입니다".format(len(result))
    except:
        return "파일 생성에 실패하였습니다."

In [10]:
e_mail()

파일 경로를 입력하세요. (따옴표 빼고 입력해 주세요)
email.txt


'성공했습니다. 새로운 파일은 현재경로에 email_list.txt로 생성되었습니다.                생성된 파일의 갯수는 1914개입니다'

In [61]:
import numpy as np # unique 쓸 거라 넘파이 임포트 해줍니다.
import re
def e_mail(): 
    file_fath = input("파일 경로를 입력하세요. (따옴표 빼고 입력해 주세요)\n")
    with open(file_fath, 'r', encoding='UTF8') as email: # 파일 경로 열어주고
        data = email.read() # 이메일 주소 입력받고 자동 닫기
    # 패턴(문자열(갯수 상관 없음) + @ + 문자열(갯수 상관없음)+"."없어도 됨+문자열(갯수상관없음))
    pattern = re.compile("\w+[@]\w+[.]?\w+") 
    result = pattern.findall(data) # 패턴을 data에 대입해 찾아줍니다.
    
    # 저장
    ew = []
    for i in result:
        ew += i + '\n'
        print(type(i))
    ew = str(ew)
    #result = np.unique(result) # 찾은 데이터의 중복값을 없애주고, 정렬해 줍니다.
    len_r = len(result)
    
    # 파일 생성하는 거 찾아보기

    with open('./email_list.txt', 'w') as el: # 찾은 데이터를 파일로 생성해 줍니다.
        el.write(ew)

    return "성공했습니다. 새로운 파일은 현재경로에 email_list.txt로 생성되었습니다.\
            찾은 이메일 수는 {0}개입니다".format(len(result))

In [62]:
e_mail()

파일 경로를 입력하세요. (따옴표 빼고 입력해 주세요)
email.txt
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 

'성공했습니다. 새로운 파일은 현재경로에 email_list.txt로 생성되었습니다.            찾은 이메일 수는 222개입니다'