# Regular Expression

- 패턴을 가져다 원하는 문자열 혹은 이미지와 같은 것들이 어디에 존재하는지 찾는 것
- re.compile => pattern 생성
- match, search, findall: 패턴이 존재하는지 확인하는 함수

In [1]:
import re

In [3]:
# ^와 같음: 주어진 문자열의 맨 앞에 해당 패턴이 존재하는지 확인
# 이럼 결과 안나오고
re.match('Hello', 'crowServo')

In [5]:
# 이러면 결과 나옴
re.match('Hello', 'HelloServo')

<re.Match object; span=(0, 5), match='Hello'>

In [6]:
# search는 pattern이 중간에 있어도 찾을 수 있음
re.search('Hello', 'ServoHello')

<re.Match object; span=(5, 10), match='Hello'>

In [8]:
# findall은 pattern이 여러개 존재하면 모두 반환시켜줌
re.findall('Hello', 'ServoHelloServoHello')

['Hello', 'Hello']

In [9]:
# ^: 문자열이 Hello로 시작해야함
re.search('^Hello', 'HelloServo')

<re.Match object; span=(0, 5), match='Hello'>

In [15]:
# $: 문자열이 Hello로 끝나야함
re.search('Hello$', 'asdfHello')

<re.Match object; span=(4, 9), match='Hello'>

In [16]:
rst = re.search('Hello$', 'asdfHello')

In [18]:
# rst.group(): rst에서 문자열 찾았을 때 그 문자열 반환
# rst.span(): 문자열에서 pattern이 존재하는 위치 반환
rst.group(), rst.span()

('Hello', (4, 9))

In [19]:
rst.start(), rst.end()

(4, 9)

In [20]:
True if re.search('pattern$', 'pattern으로 끝날줄 알았지?patter') else False

False

In [21]:
# (abc)+ : abc가 한 번 이상 반복되는지 확인
re.search('(abc)+', 'abcabcabccba')

<re.Match object; span=(0, 9), match='abcabcabc'>

In [26]:
# rst.group(1)은 grouping한 것 중 첫 번째 group => 현재는 group이 abc 한개임

rst = re.search('(abc)+', 'abcabcabccba')
rst.group(), rst.group(0), rst.group(1)

('abcabcabc', 'abcabcabc', 'abc')

In [58]:
re.search('(abc)+ (ok)', 'aokbcabc ok')

<re.Match object; span=(5, 11), match='abc ok'>

In [59]:
re.search('(abc)+ (ok)', 'aokbcabc ok').group()

'abc ok'

In [62]:
# group 중 2번째 패턴 출력
re.search('(abc)+ (ok)', 'aokbcabc ok').group(2)

'ok'

In [71]:
# group()으로 검색 시 패턴에 포함된 문자열 반환
re.search('(?:abc)+', 'aokbcabc ok').group()

'abc'

In [72]:
# group(1)을 할 경우 abc를 그룹화하지 않기 때문에 에러 발생
re.search('(?:abc)+', 'aokbcabc ok').group(1)

IndexError: no such group

In [79]:
# \n같이 개행으로 인식되는 경우를 방지하기 위해 \를 한 개 더 붙여주거나 정규식에서는 escape처리를 함
'\n', r'\n', re.escape('\n'), re.escape(r'\n')

('\n', '\\n', '\\\n', '\\\\n')

In [97]:
# \bclass\b로 검색할 경우 \b가 문자열로 인식이 되지 않아 검색 불가능
re.search('\bclass\b', 'hello class hello'), \
re.search(r'\bclass\b', 'hello class hello'), \
re.search(r'\bclass\b', 'helloclasshello')

(None, <re.Match object; span=(6, 11), match='class'>, None)

<br/>

# Greedy & Lazy
- Greedy는 제일 나중에 만나는 위치
- Lazy는 제일 처음 만나는 위치

In [98]:
# Greedy 방법: s로 시작, 문자열이 0개 이상, o로 끝나는 경우
re.search('s.*o', 'stackoverflow')

<re.Match object; span=(0, 12), match='stackoverflo'>

In [99]:
# Lazy 방법: s로 시작, 문자열이 1개 이하, o로 끝나는 경우
re.search('s.*?o', 'stackoverflow')

<re.Match object; span=(0, 6), match='stacko'>

<br/> 

# Example1. 주민번호 마스킹

In [12]:
# 주민번호를 masking하라 (ver.정규식 비사용)
data = '아무개 990000-1231231\n개똥이 010101-4010101'

for line in data.splitlines():
    n = line.split('-')
    if len(n[1]) == 7 and n[1].isdigit() and n[1][0] in ['1','2','3','4']:
        n[1] = '*'*7
        print(n[0] +'-'+ n[1])
    
    else:
        print(line, ['X'])

아무개 990000-*******
개똥이 010101-*******


In [34]:
# 주민번호를 masking하라 (ver.정규식+for문 사용)
data = '아무개 990000-1231231\n개똥이 010101-4010101'

for line in data.splitlines():
    if re.search(r'[1-4]\d{6}', line):
        print(re.sub(r'[1-4]\d{6}', '*'*7, line))
        
    else:
        print(line, '[X]')

아무개 990000-*******
개똥이 010101-*******


In [22]:
# 주민번호를 masking하라 (ver.정규식 사용)
data = '아무개 990000-1231231\n개똥이 010101-4010101'

print(re.sub(r'[0-9]{7}', '*'*7, data))

아무개 990000-*******
개똥이 010101-*******


<br/> 

# Example2. 문자열에서 핸드폰 번호 찾기

In [36]:
# 데이터 중 전화번호를 찾아서 출력하라1
data = '''
010-1234-1234
'''

print(re.findall(r'\d{3}[-]\d{4}[-]\d{4}', data))

['010-1234-1234']


In [49]:
# 데이터 중 전화번호를 찾아서 출력하라2
data = '''
이 전화번호 010-1234-1234로 연락주세요
011-1234-1234
02-1234-1234
02.123.1234
02    1234\t1334
'''

re.findall(r'(\d{2,3})[-. \t]+(\d{3,4})[-. \t]+(\d{4})', data)

[('010', '1234', '1234'),
 ('011', '1234', '1234'),
 ('02', '1234', '1234'),
 ('02', '123', '1234'),
 ('02', '1234', '1334')]

In [62]:
# 데이터 중 전화번호를 찾아서 출력하라3
data = '''
이 전화번호 010-1234-1234로 연락주세요
011-1234-1234
02-1234-1234
02.123.1234
02    1234\t1334
82 010 1234 1234
82 10 1234 1234
+82 010 1235 1234
'''

re.findall(r'(\d{2}[-. \t]+)?(\d{2,3})[-. \t]+(\d{3,4})[-. \t]+(\d{4})', data)

[('', '010', '1234', '1234'),
 ('', '011', '1234', '1234'),
 ('', '02', '1234', '1234'),
 ('', '02', '123', '1234'),
 ('', '02', '1234', '1334'),
 ('82 ', '010', '1234', '1234'),
 ('82 ', '10', '1234', '1234'),
 ('82 ', '010', '1235', '1234')]

<br/> 

# Example3. 문자열에서 이메일 찾기

In [67]:
data = '''
test@test.com
'''

re.findall(r'([a-z]+)[@]([a-z]+[.][a-z]+)', data)

[('test', 'test.com')]

In [75]:
data = '''
test@test.com
test@test.co.kr
test@email.test.co.kr
test@m.email.test.co.kr
'''

re.findall(r'([a-z]+)[@]([a-z]+(?:[.][a-z]+)+)', data)

[('test', 'test.com'),
 ('test', 'test.co.kr'),
 ('test', 'email.test.co.kr'),
 ('test', 'm.email.test.co.kr')]

<br/> 

# Example4. 문자열에서 웹페이지 찾기

In [130]:
data = '''
https://www.naver.com
'''

re.findall(r'([a-z]+)[:/]+([a-z]+(?:[.][a-z]+)+)', data)

[('https', 'www.naver.com')]

In [128]:
data = '''
https://www.naver.com
http://www.naver.com
www.naver.com
www2.naver.com
'''

re.findall(r'(?:([a-z]+)[:/]+)?([a-z0-9]+(?:[.][a-z]+)+)', data)

[('https', 'www.naver.com'),
 ('http', 'www.naver.com'),
 ('', 'www.naver.com'),
 ('', 'www2.naver.com')]

In [133]:
data = '''
https://www.naver.com
http://www.naver.com
www.naver.com
www2.naver.com
naver.com/index.nhn
m.naver.com
mail.naver.com
mail.naver.com/
www.naver.com/search/asdfa.index?key=value
'''

# /index.nhn: path(root)부분 추가
re.findall(r'(?:([a-z]+)[:/]+)?([a-z0-9]+(?:[.][a-z]+)+)([/a-z.?=]+)?', data)

[('https', 'www.naver.com', ''),
 ('http', 'www.naver.com', ''),
 ('', 'www.naver.com', ''),
 ('', 'www2.naver.com', ''),
 ('', 'naver.com', '/index.nhn'),
 ('', 'm.naver.com', ''),
 ('', 'mail.naver.com', ''),
 ('', 'mail.naver.com', '/'),
 ('', 'www.naver.com', '/search/asdfa.index?key=value')]

<br/>

# 정규식 코테 문제

In [207]:
# data = '''...
# !@BaT#*..y.abcdefghijklm
# z-+.^.
# =.=
# 123_.def
# abcdefghijklmn.p
# '''

data = 'abcdefghijklmn.p'

if not data.islower():
    data = data.lower()
    print(f'Data lower:{data}')

data = re.sub(r'[^a-z0-9-_.]+', '', data)
print(f'특수문자 삭제: {data}')

data = re.sub(r'[.]{2,}', '.', data)
print(f'.. => .: {data}')

data = re.sub(r'^[.]', '', data)
print(f'첫 . 삭제: {data}')

data = re.sub(r'[.]$', '', data)
print(f'끝 . 삭제: {data}')

if not data:
    data = 'a'
    print('Data None')

if len(data)>15:
    data = data[:15]
    print(f'15자 초과: {data}')

data = re.sub(r'[.]$', '', data)
print(f'마지막 . 삭제:{data}')

if len(data) < 3:
    temp = data[-1]
    print(f'temp:{temp}')
    while len(data) != 3:
        data += temp
        
print(data)

        


특수문자 삭제: abcdefghijklmn.p
.. => .: abcdefghijklmn.p
첫 . 삭제: abcdefghijklmn.p
끝 . 삭제: abcdefghijklmn.p
15자 초과: abcdefghijklmn.
마지막 . 삭제:abcdefghijklmn
abcdefghijklmn
