### 정규표현식(Regular Expressions)
- 정규식이라고도 부른다. ( 복잡한 문제를 조금 더 간단하게 구현 가능하게 함. )
- 복잡한 문자열을 처리할 때 사용하는 기법
- 파이썬에 해당 함수를 포함하는 패키지 re

In [1]:
# 주민등록번호를 포함하고 있는 텍스트에서 주민등록번호 뒷자리를 '*'로 변경
data = '''
park 800905-1049118
kim 700908-1059119
lee 900114-2134257
choi choi@naver.com
'''

#### step1. 분리(split)
#### step2. 주민등록번호 형식의 문자열이 맞는지 조사
#### step3. 뒷자리를 '*'로 변환한다.
#### step4. step1에서 분리한 단어를 다시 조합한다.

In [2]:
result = []
   
# step1. 분리(split)
for line in data.split('\n'): # enter 누른 위치 까지 
    word_result = []

# step2. 주민등록번호 형식의 문자열이 맞는지 조사
# ex) choi choi@naver.com -> 주민등록이 아님
    for word in line.split(' '):            # isdigit : 숫자형태로 되어 있습니까? 
        if len(word) == 14 and word[:6].isdigit() and word[7:].isdigit():
            # step3. 뒷자리를 '*'로 변환한다.
            word = word[:6] + '-' + '*******'
        word_result.append(word)
        
# step4. step1에서 분리한 단어를 다시 조합한다.
    result.append(' '.join(word_result))
    
print('\n'.join(result))


park 800905-*******
kim 700908-*******
lee 900114-*******



In [4]:
import re

data = '''
park 800905-1049118
kim 700908-1059119
lee 900114-2134257
choi choi@naver.com
'''
#                        meta 문자
pattern = re.compile('(\d{6})[-]\d{7}')     # d : digit
print(pattern.sub('\g<1>-*******', data))


park 800905-*******
kim 700908-*******
lee 900114-*******
choi choi@naver.com



### 메타문자(Meta Characters)
- 원래 문자가 가지고 있는 뜻이 아닌 특별한 용도로 사용하는 문자들
- 종류 : . ^ $ * + ? { } [ ] \ | ( )

In [6]:
# 문자 클래스 [ ]
# [a-zA-Z] : 알파벳(입력받은 문자열(data)이 영문자 소문자, 대문자 일 때 처리)
# [0-9] : 숫자 (많이 사용하는 객체), \d (digit)와 동일한 의미
# [^0-9] : 숫자가 아닌 것, \D
# [a-zA-Z0-9_] : 문자 + 숫자 결합되어 있는 의미, \w (소문자)
# [^a-zA-Z0-9_] : 문자 + 숫자가 아닌 문자, \M (대문자)
# dot(.) : 줄바꿈 문자(\n)를 제외한 모든 문자
# 반복(* : 무한반복, + : 최소한 한번이상반복 )

In [5]:
# 정규식 메서드
# findall() : 정규식과 매치되는 모든 문자열을 리스트로 변환
# finditer() : 정규식과 매치되는 모든 문자열을 반복 가능한 객체로 변환
# match() : 문자열의 처음부터 정규식과 매치되는지 조사
# search() : 문자열 전체를 검색하여 정규식과 매치되는지 조사

In [7]:
s = "My id number is lee0909"
#findall('패턴', 비교할 문자열) : 문자열에서 패턴에 해당하는 내용을 리턴
a = re.findall('a', s)
a # 없으면 빈 리스트 반환

[]

In [8]:
b = re.findall('lee', s)
b

['lee']

In [9]:
c = re.findall('e', s)
c

['e', 'e', 'e']

In [12]:
d = re.findall('[a-z]', s)
d

['y', 'i', 'd', 'n', 'u', 'm', 'b', 'e', 'r', 'i', 's', 'l', 'e', 'e']

In [13]:
e = re.findall('[a-z]+', s) # 단어 단위로 반환 하는 작업
e

['y', 'id', 'number', 'is', 'lee']

In [31]:
s = "My id number is LEE_0909$%"
a = re.findall('[A-Z]', s)
print(a)
# 대문자를 글자단위
b = re.findall('[A-Z]+', s)
print(b)

['M', 'L', 'E', 'E']
['M', 'LEE']


In [32]:
# 영문자와 숫자를 단어단위
a = re.findall('[a-zA-z0-9]+', s)
a

['My', 'id', 'number', 'is', 'LEE', '_', '0909']

In [33]:
# 영문자와 숫자가 아닌 것
# ^(not)
b = re.findall('[^a-zA-z0-9]', s)
b

[' ', ' ', ' ', ' ', ' ', ' ', '$', '%']

In [34]:
# \w (소문자) : 영문자, 숫자, _
b = re.findall('[\w]+', s)
b

['My', 'id', 'number', 'is', 'LEE', '_', '0909']

In [30]:
b = re.findall('[\W]+', s)
b

[' ', ' ', ' ', ' ', '$%']

In [38]:
p = re.compile('[a-z]+')
a = p.match('python')
print(a)

<re.Match object; span=(0, 6), match='python'>


In [39]:
b = p.match("3 python")
print(b)

None
