# 정규표현식, RegEx ( Regular Expression )¶

### Regular Expression 관련 사이트
- Text 정보를 re로 테스트 : https://regexr.com/
- 작성된 re를 다이어그램으로 표현 : https://regexper.com/

In [5]:
import re

### 정규표현식, 문자열에서 패턴찾기

In [2]:
# 테스트용 문자열 저장
text = 'My id Number is [G203_5A]'
text

'My id Number is [G203_5A]'

In [3]:
# 소문자 a 찾기
result = re.findall('a', text)
result

[]

In [5]:
# 대문자 A 찾기
result = re.findall('A', text)
result

['A']

In [6]:
# 소문자 i  찾기
result = re.findall('i', text)
result

['i', 'i']

In [7]:
# 소문자 찾기
result = re.findall('[a-z]', text)
result

['y', 'i', 'd', 'u', 'm', 'b', 'e', 'r', 'i', 's']

In [9]:
#대문자 찾기
result = re.findall('[A-Z]', text)
result

['M', 'N', 'G', 'A']

In [10]:
# 숫자 찾기
result = re.findall('[0-9]', text)
result

['2', '0', '3', '5']

In [11]:
# 숫자 연속해서 찾기
result = re.findall('[0-9]+', text)
result

['203', '5']

In [12]:
# 영문자 및 숫자 찾기
result = re.findall('[a-zA-Z0-9]', text)
result

['M',
 'y',
 'i',
 'd',
 'N',
 'u',
 'm',
 'b',
 'e',
 'r',
 'i',
 's',
 'G',
 '2',
 '0',
 '3',
 '5',
 'A']

In [13]:
# 영문자 및 숫자 연속해서 찾기
result = re.findall('[a-zA-Z0-9]+', text)
result

['My', 'id', 'Number', 'is', 'G203', '5A']

In [14]:
# 영문자/숫자 아닌 문자 찾기
result = re.findall('[^a-zA-Z0-9]', text)
result

[' ', ' ', ' ', ' ', '[', '_', ']']

In [15]:
# 영문자 및 '_'특수기호 찾기
result = re.findall('[\w]', text)
result

['M',
 'y',
 'i',
 'd',
 'N',
 'u',
 'm',
 'b',
 'e',
 'r',
 'i',
 's',
 'G',
 '2',
 '0',
 '3',
 '_',
 '5',
 'A']

In [16]:
# 영문자 및 '_'특수기호 아닌 문자 찾기
result = re.findall('[\W]', text)
result

[' ', ' ', ' ', ' ', '[', ']']

### 문자열에서 특정이름 찾아내기

In [17]:
# \w ( 1 char )
# \d ( 1 decimal )
# \s ( 1 space )

# + ( 1, ..., N )   => 찾아낸 값들이 1개 이상인 경우
# ? ( 0, 1 )   => 1개이거나 없거나
# * ( 0, 1, .. N )   => 없을 수도 있고, 있을 수도 있음. 위의 것 다 포함하는 경우

# \d{N} ( 숫자가 N개 나온다. )  => 만약 N=3이면 3자리수 모두 찾는 것.
# \d{N,M} ( 숫자가 N~M개 나온다 )

In [18]:
text = """
옛날 옛적에 김진수라는 사람이 살았습니다.
그에게는 5형제가 있었는데, 김진수, 김진구, 김진용, 김진태, 김진욱 이렇게 5명 있었습니다.
그리고 그는 결혼을 해서 김찬영, 김준영, 김채영 3남매를 낳고 행복하게 잘 살았습니다.
"""
# 형제 : 김진O
# 자녀 : 김O영

In [22]:
pattern = re.compile("김진\w")

In [23]:
brother = pattern.findall(text)
brother

['김진수', '김진수', '김진구', '김진용', '김진태', '김진욱']

In [24]:
pattern = re.compile("김.영")
pattern = re.compile("김\w영")

In [25]:
children = pattern.findall(text)
children

['김찬영', '김준영', '김채영']

In [27]:
brother = set(brother)
brother

{'김진구', '김진수', '김진용', '김진욱', '김진태'}

### 핸드폰 번호에 대한 파싱 
> - 010-5670-3847
- 010-오륙칠공-3847
- 공일빵 5670 3팔4칠
- cf. 0.5% 정도는 저런사람 있쥐요~

In [34]:
# ...fly => dragonfly, butterfly

In [42]:
text = "A sky, a dragonfly and butterfly!!!!!"

In [43]:
pattern = re.compile("\w+fly")
pattern.findall(text)

['dragonfly', 'butterfly']

In [44]:
text = """
    010-5670-3847   # space, -, . => []
    010 5670 3847
    010.5670 3847
"""

In [45]:
pattern = re.compile("\d{3}[ -.]?\d{4}[ -.]?\d{4}")

- 이러한 패턴을 만들어 놓고 그것을 모아놓으면 나중에 그 패턴을 복붙만 하면 되므로, 전화번호, 이메일 등 자주 쓰일만한 패턴은 따로 모아놓자!!!!!!!!!!!

In [46]:
pattern.findall(text)

['010-5670-3847', '010 5670 3847', '010.5670 3847']

In [57]:
text = """
    010-5670-3847   # space, -, . => []
    옛날에는 011-1052-3847 이랬는데..
    010 5670 3847
    010.-5670 3847
    사는동네가 자이아파트 516동512호
    그리구, 사무실번호는 02-360-4047이고
    우편번호는 100-791, 청파로 463번지
    
"""

In [58]:
pattern = re.compile("\d{3}[ -\.]{1,2}\d{3,4}[ -\.]?\d{4}")

In [59]:
pattern.findall(text)

['010-5670-3847', '011-1052-3847', '010 5670 3847', '010.-5670 3847']

In [60]:
pattern = re.compile("\d{2,3}[ -\.]?\d{3,4}[ -\.]?\d{4}")

In [61]:
pattern.findall(text)

['010-5670-3847', '011-1052-3847', '010 5670 3847', '02-360-4047']

In [62]:
# \w ( 1 char )
# \d ( 1 decimal )
# \s ( 1 space )

# + ( 1, ..., N )
# ? ( 0, 1 )
# * ( 0, 1, .. N )

# \d{N} ( 숫자가 N개 나온다. )
# \d{N,M} ( 숫자가 N~M개 나온다 )

# 미션

## 이메일 정규표현식 만들기

In [63]:
[a-zA-Z0-9]+{1, 20}[@][a-zA-Z0-9]+{1, 10}[\.][a-zA-Z0-9]+{1, 5}

SyntaxError: invalid syntax (<ipython-input-63-cfd2cf185dae>, line 1)

In [64]:
pattern = re.compile("[a-zA-Z0-9]+{1, 20}[@][a-zA-Z0-9]+{1, 10}[\.][a-zA-Z0-9]+{1, 5}")

In [67]:
pattern = re.compile("\w+[@]\w+\.\w+[.]?\w+")

In [68]:
text = """
ysw900524@gmail.com
diaregod1004@hanmail.net
alsdicnl2@lwicnw3.ticc
asifn$%2@naie#@!,ciw
"""

In [69]:
pattern.findall(text)

['ysw900524@gmail.com', 'diaregod1004@hanmail.net', 'alsdicnl2@lwicnw3.ticc']

## 주민등록번호에 대한 파싱 
> - 주민등록번호 : 숫자 6자리 - 숫자 7자리
- 데이터에서 주민등록번호만 찾아서, 뒷자리를 암호화(***)

In [1]:
text = """
    김찬영 020822-3069110
    김준영 040825-3069115
    김채영 110715-4063111
"""

In [6]:
pattern = re.compile("\d{6}-?\d{7}")

In [7]:
pattern.findall(text)

['020822-3069110', '040825-3069115', '110715-4063111']

In [8]:
pattern = re.compile("\d{6}-\d{7}")
# 정규표현식 GROUP
# 1. 생년월일 그룹 <birth>
# 2. 주민등록번호 뒷자리 그룹 <secret>

In [9]:
pattern = re.compile("(?P<birth>\d{6})-(?P<secret>\d{7})")

# 김채영 110715-******* => 김채영(110715-*******)

In [10]:
pattern.findall(text)

[('020822', '3069110'), ('040825', '3069115'), ('110715', '4063111')]

In [11]:
result = pattern.sub("\g<birth>-*******", text)
print(result)


    김찬영 020822-*******
    김준영 040825-*******
    김채영 110715-*******



In [12]:
result = pattern.sub("\g<birth>-*******", text)
print(result)


    김찬영 020822-*******
    김준영 040825-*******
    김채영 110715-*******



In [13]:
pattern = re.compile("(?P<name>\w{3}) (?P<birth>\d{6})-(?P<secret>\d{7})")

In [14]:
pattern.findall(text)

[('김찬영', '020822', '3069110'),
 ('김준영', '040825', '3069115'),
 ('김채영', '110715', '4063111')]

In [15]:
print(text)


    김찬영 020822-3069110
    김준영 040825-3069115
    김채영 110715-4063111



In [16]:
pattern = re.compile("(?P<name>\w{3}) (?P<birth>\d{6})-(?P<secret>\d{7})")

In [17]:
pattern.findall(text)

[('김찬영', '020822', '3069110'),
 ('김준영', '040825', '3069115'),
 ('김채영', '110715', '4063111')]

In [18]:
result = pattern.sub("\g<name>(\g<birth>-*******)", text)
print(result)


    김찬영(020822-*******)
    김준영(040825-*******)
    김채영(110715-*******)



In [19]:
result = pattern.sub("\g<name>(\g<birth>-*******)", text)
print(result)


    김찬영(020822-*******)
    김준영(040825-*******)
    김채영(110715-*******)



In [20]:
result = result.split('\n')
result

['',
 '    김찬영(020822-*******)',
 '    김준영(040825-*******)',
 '    김채영(110715-*******)',
 '']

In [21]:
result.pop(0)
result

['    김찬영(020822-*******)',
 '    김준영(040825-*******)',
 '    김채영(110715-*******)',
 '']

In [22]:
result.pop(-1)
result

['    김찬영(020822-*******)',
 '    김준영(040825-*******)',
 '    김채영(110715-*******)']

In [23]:
for idx, val in enumerate(result):
    val = val.replace(" ", "")
    # val[2] = "O"
    # val.pop(2)
    # val.insert(2, "O")
    print(idx, val)

0 김찬영(020822-*******)
1 김준영(040825-*******)
2 김채영(110715-*******)
