# 정규표현식, RegEx(Regular Expression)

## Recular Expression 관련 사이트
> Text 정보를 re로 테스트
- https://regexr.com
- 실제로 정규식이 정확한지 확인 가능


> 작성된 re를 다이어그램으로 표현
- https://regexper.com
- 

> 오류 파일(로그 파일)에서 오류의 패턴 찾는데 많이 사용


In [1]:
import re

## 정규표현식, 문자열에서 패턴 찾기

In [2]:
# 테스트용 문자열 저장
text = 'My id number is [G203_5A]'
text

'My id number is [G203_5A]'

In [3]:
# 소문자 찾기
result = re.findall('a', text)
result

[]

In [4]:
# 대문자 찾기
result = re.findall('A', text)
result

['A']

In [5]:
# 소문자 i찾기
result = re.findall('i', text)
result

['i', 'i']

In [6]:
# 연속된 소문자 찾기
result = re.findall('[abced]', text)
result

['d', 'b', 'e']

In [7]:
# 소문자 연속해서 찾기
result = re.findall('[a-z]', text)
result
                    

['y', 'i', 'd', 'n', 'u', 'm', 'b', 'e', 'r', 'i', 's']

In [8]:
# 대문자 찾기
result = re.findall('[A-Z]',text)
result

['M', 'G', 'A']

In [9]:
# 숫자 찾기
result = re.findall('[0-9]', text)
result

['2', '0', '3', '5']

In [10]:
# 소문자로 시작하는 글자 찾기
result = re.findall('[a-z]+', text)
result

['y', 'id', 'number', 'is']

In [11]:
# 숫자로 시작하는 단어 찾기
result = re.findall('[0-9]+', text)
result

['203', '5']

In [12]:
# 영문자 및 숫자 찾기
result = re.findall('[a-zA-Z0-9]', text)
result


['M',
 'y',
 'i',
 'd',
 'n',
 'u',
 'm',
 'b',
 'e',
 'r',
 'i',
 's',
 'G',
 '2',
 '0',
 '3',
 '5',
 'A']

In [13]:
# 연속된 영문자 및 숫자 찾기
result = re.findall('[a-zA-Z0-9]+', text)
result

['My', 'id', 'number', 'is', 'G203', '5A']

In [14]:
# 영문자/숫자 아닌 문자 찾기-> 특수 문자 : ^이용
result = re.findall('[^a-zA-Z0-9]', text)
result

[' ', ' ', ' ', ' ', '[', '_', ']']

In [15]:
# 영문자 및 '_' 특수기호 찾기
result = re.findall('[\w]', text)
result

['M',
 'y',
 'i',
 'd',
 'n',
 'u',
 'm',
 'b',
 'e',
 'r',
 'i',
 's',
 'G',
 '2',
 '0',
 '3',
 '_',
 '5',
 'A']

In [16]:
# 영문자 및 '_' 특수기호로 시작하는 글자 찾기
result = re.findall('[\w]+', text)
result

['My', 'id', 'number', 'is', 'G203_5A']

In [17]:
# 영문자 및 '_' 특수기호 아닌 문자 찾기
result = re.findall('[\W]', text)   # \w: a-zA-Z0-9
result

[' ', ' ', ' ', ' ', '[', ']']

In [18]:
# 영문자 및 '_' 특수기호 아닌 문자 찾기
result = re.findall('[^\w]', text)   # \w: a-zA-Z0-9
result

[' ', ' ', ' ', ' ', '[', ']']

## 문자열에서 특정 이름 찾아내기

> 자주사용하는 정규표현식

- \w ( 1 char ): 한 글자
- \w + : 여러 글자

- \d ( 1 decimal ) : 숫자 하나
- \s ( 1 space ) : 공백 하나

- \+ ( 1, ..., N ): (1...N): 자리수
- ? ( 0, 1 ) : 있어도 되고, 없어도 되고
- \* ( 0, 1, .. N ): 업거나 전부 가져오거나

- \d{N} ( 숫자가 N개 나온다. ) : N - 숫자가 3자리
- \d{N,M} ( 숫자가 N~M개 나온다 )

In [19]:
text = """
옛날 옛적에 김진수라는 사람이 살았습니다.
그에게는 5형제가 있었는데, 김진수, 김진구, 김진용, 김진태, 김진욱 이렇게 5명 있었습니다.
그리고 그는 결혼을 해서 김찬영, 김준영, 김채영 3남매를 낳고 행복하게 잘 살았습니다.
"""
# 형제 : 김진O
# 자녀 : 김O영

In [20]:
pattern = re.compile('김진\w')
brother = pattern.findall(text)
brother

['김진수', '김진수', '김진구', '김진용', '김진태', '김진욱']

In [21]:
pattern = re.compile("김.영")
pattern = re.compile('김\w영')  # 둘다 가능
children = pattern.findall(text)
children

['김찬영', '김준영', '김채영']

In [22]:
brother = set(brother)

brother

{'김진구', '김진수', '김진용', '김진욱', '김진태'}

## 핸드폰 번호에 대한 파싱

- 010-5670-3847
- 010-오륙칠공-3847
- 공일빵 5670 3팔4칠
- cf. 0.5% 정도는 저런사람 있쥐요~



In [23]:
# ...fly -> dragonfly, butterfly

In [24]:
text = "A sky, a dragonfly and a butterfly!!!!!!!"

In [25]:
pattern = re.compile('\w+fly')
pattern.findall(text)

['dragonfly', 'butterfly']

In [26]:
text = """
    010-5670-3847   # space, -, . => []
    010 5670 3847
    010.5670 3847
"""

In [27]:
pattern = re.compile("\d{3}[ -.]?\d{4}[ -.]?\d{4}")

# ? : 바로 앞의 내용이 없거나 있거나 상관 없음.

In [28]:
pattern.findall(text)

['010-5670-3847', '010 5670 3847', '010.5670 3847']

In [29]:
text = """
    010-5670-3847   # space, -, . => []
    옛날에는 011-1052-3847 이랬는데..
    010 5670 3847
    010.-5670 3847
    사는동네가 자이아파트 516동512호
    그리구, 사무실번호는 02-360-4047이고
    우편번호는 100-791, 청파로 463번지
    
"""

In [30]:
pattern = re.compile("\d{2,3}[ -\.]?\d{3,4}[ -\.]?\d{4}")

In [31]:
pattern.findall(text)

['010-5670-3847', '011-1052-3847', '010 5670 3847', '02-360-4047']

>주민등록번호에 대한 파싱

- 주민등록번호 : 숫자 6자리 - 숫자 7자리
- 데이터에서 주민등록번호만 찾아서, 뒷자리를 암호화(***)

In [32]:
text = """
    김찬영 020822-3069110
    김준영 040825-3069115
    김채영 110715-4063111
"""

In [33]:
pattern = re.compile('\d{6}-?\d{7}')

In [34]:
pattern.findall(text)

['020822-3069110', '040825-3069115', '110715-4063111']

In [35]:
# 정규식 표현 froup
# 1. 생년월일 그룹: <bitrh>
# 2. 주민등록번호 뒷자리 그룹<secret>



# 그룹 만들 때: ?P, 사용할 때: ?g
pattern = re.compile("(?P<birth>\d{6})-(?P<secret>\d{7})")
# <> 뒤에 있는 숫자 6개를 <birth>로 그룹화
pattern.findall(text)

[('020822', '3069110'), ('040825', '3069115'), ('110715', '4063111')]

In [36]:
result = pattern.sub('\g<birth>-*******', text)
print(result)


    김찬영 020822-*******
    김준영 040825-*******
    김채영 110715-*******



In [37]:
pattern = re.compile("(?P<name>\w{3}) (?P<birth>\d{6})-(?P<secret>\d{7})")
pattern.findall(text)

[('김찬영', '020822', '3069110'),
 ('김준영', '040825', '3069115'),
 ('김채영', '110715', '4063111')]

In [38]:
print(text)


    김찬영 020822-3069110
    김준영 040825-3069115
    김채영 110715-4063111



In [39]:
result = pattern.sub("\g<name>(\g<birth>-*******)", text)
print(result)


    김찬영(020822-*******)
    김준영(040825-*******)
    김채영(110715-*******)



In [40]:
result = pattern.sub("\g<name>(\g<birth>-*******)", text)
print(result)


    김찬영(020822-*******)
    김준영(040825-*******)
    김채영(110715-*******)



In [41]:
result = result.split('\n')
result

['',
 '    김찬영(020822-*******)',
 '    김준영(040825-*******)',
 '    김채영(110715-*******)',
 '']

In [42]:
result.pop(0)
result

['    김찬영(020822-*******)',
 '    김준영(040825-*******)',
 '    김채영(110715-*******)',
 '']

In [43]:
result.pop(-1)
result

['    김찬영(020822-*******)',
 '    김준영(040825-*******)',
 '    김채영(110715-*******)']

In [44]:
for idx, val in enumerate(result):
    val = val.replace(" ", "")
    print(idx, val)

0 김찬영(020822-*******)
1 김준영(040825-*******)
2 김채영(110715-*******)


## Quiz

> 이메일에 대한 파싱
- e-mail Pattern : ID + @ + URL
- 이메일을 추출하여 이메일 리스트 파일로 저장    

In [45]:
with open('sample_emails.txt', encoding = 'utf-8') as fp:
    text = fp.read()

In [46]:
pattern = re.compile("(?P<id>\w+@) (?P<url>[\@]+\w+ )")

pattern.findall(text)

[]

In [92]:
def email_check(email):
    regex = '([a_zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+)'
    #regex = '\w+@\w+\.\w+'
    #regex = '[\w\.]+@|w+W.[\w|.]+'
    print('email:', email)
    pattern = re.compile(email)
    result = pattern.findall(email)
    print(result)
    
    if len(result):
        is_valid = True
        res_msg = '이메일 형식입니다'
    else:
        is_valid = True
        res_msg = '이메일 형식이 아닙니다 ㅠ'
    return is_valid, res_msg

In [93]:
email = 'Abedin@State.gov'

if_valid, res_msg = email_check(email)
res_msg

email: Abedin@State.gov
['Abedin@State.gov']


'이메일 형식입니다'

In [65]:
# 파일 불러오기
with open('./data/sample_emails.txt', encoding = 'utf-8') as fp:
    text = fp.read()

In [66]:
len(text), text[:1000]

(628571,
 'Id\tDocNumber\tMetadataSubject\tMetadataTo\tMetadataFrom\tSenderPersonId\tMetadataDateSent\tMetadataDateReleased\tMetadataPdfLink\tMetadataCaseNumber\tMetadataDocumentClass\tExtractedSubject\tExtractedTo\tExtractedFrom\tExtractedCc\tExtractedDateSent\tExtractedCaseNumber\tExtractedDocNumber\tExtractedDateReleased\tExtractedReleaseInPartOrFull\tExtractedBodyText\tRawText\t\t\t\t\t\t\n1\tC05739545\tWOW\tH\t"Sullivan, Jacob J"\t87\t2012-09-12T04:00:00+00:00\t2015-05-22T04:00:00+00:00\tDOCUMENTS/HRC_Email_1_296/HRCH2/DOC_0C05739545/C05739545.pdf\tF-2015-04841\tHRC_Email_296\tFW: Wow\t\t"Sullivan, Jacob J <Sullivan11@state.gov>"\t\t"Wednesday, September 12, 2012 10:16 AM"\tF-2015-04841\tC05739545\t05/13/2015\tRELEASE IN FULL\t\t"UNCLASSIFIED\nU.S. Department of State\nCase No. F-2015-04841\nDoc No. C05739545\nDate: 05/13/2015\nSTATE DEPT. - PRODUCED TO HOUSE SELECT BENGHAZI COMM.\nSUBJECT TO AGREEMENT ON SENSITIVE INFORMATION & REDACTIONS. NO FOIA WAIVER.\nRELEASE IN FULL\nFrom: 

In [67]:
regex = '\w+@\w+\.\w+'
regex = '[\w\.]+@\w+\.[\w\.]+'
pattern = re.compile(regex)

In [69]:
result = pattern.findall(text)
len(result)

189

In [71]:
result = sorted(set(result))
len(result)

61

In [90]:
def getEmailList(filename):
    fp = open(filename, encoding='utf-8')
    text = fp.read()
    fp.close()
    
    regex = '[\w\.]+@\w+\.[\w\.]+'
    pattern = re.compile(regex)
    result = pattern.findall(text)
    result = sorted(set(result))
    email_cnt = len(result)
    print(email_cnt)

    valid_email_end = ['end','goc','co.kr','net']
    
    if email_cnt > 0:
        ret_msg = ' {}건의 이메일이 수집되었습니다'.format(email_cnt)
        
        #저장
        email_list = ''
        for each in result:
            email_list += each + '\n'
            
        fp = open('./data/mail_list.txt','w',encoding = 'utf-8')
        fp.write(email_list)
        fp.close()
    else:
        ret_msg = '이메일을 수집하지 못하였습니다.'
        
    return ret_msg
              

In [91]:
filename = './data/sample_emails.txt'
getEmailList(filename)

61


' 61건의 이메일이 수집되었습니다'