### 정규표현식(Regular Expressions)
- 정규식이라고도 부른다.
- 복잡한 문자열을 처리할 때 사용하는 기법
- 파이썬에 해당 함수를 포함하는 패키지 re

In [2]:
# 주민등록번호를 포함하고 있는 텍스트에서 주민등록번호 뒷자리를 '*'로 변경
data = """
park 800905-1049118
kim 700908-1059119
lee 900114-2134257
"""

In [4]:
result = []

# step1. 분리(split)
for line in data.split("\n"):
    word_result = []
# step2. 주민등록번호 형식의 문자열이 맞는지 조사
    for word in line.split(" "):
        if len(word) == 14 and word[:6].isdigit() and word[7:].isdigit():
            # step3. 뒷자리를 '*'로 변환한다.
            word = word[:6] + "-" + "*******"
        word_result.append(word)
# step4. step1에서 분리한 단어를 다시 조합한다.
    result.append(" ".join(word_result))

print("\n".join(result))


park 800905-*******
kim 700908-*******
lee 900114-*******



In [6]:
import re

data = """
park 800905-1049118
kim 700908-1059119
lee 900114-2134257
"""

pattern = re.compile("(\d{6})[-]\d{7}")
print(pattern.sub("\g<1>-*******", data))


park 800905-*******
kim 700908-*******
lee 900114-*******



### 메타문자(Meta Characters)
- 원래 문자가 가지고 있는 뜻이 아닌 특별한 용도로 사용하는 문자들
- 종류 : . ^ $ * + ? { } [ ] \ | ( )

In [7]:
# 문자 클래스 [ ]
# [a-zA-Z] : 알파벳
# [0-9] : 숫자, \d(digit)
# [^0-9] : 숫자가 아닌 것, \D
# [a-zA-Z0-9_] : 문자+숫자, \w(소문자)
# [^a-zA-Z0-9_] : 문자+숫자가 아닌 문자, \W(대문자)
# dot(.) : 줄바꿈문자(\n)를 제외한 모든 문자
# 반복(*:무한반복, +:최소1번이상반복)

In [8]:
# 정규식 메서드
# findall() : 정규식과 매치되는 모든 문자열을 리스트로 반환
# finditer() : 정규식과 매치되는 모든 문자열을 반복 가능한 객체로 반환
# match() : 문자열의 처음부터 정규식과 매치되는지 조사
# search() : 문자열 전체를 검색하여 정규식과 매치되는지 조사

In [9]:
s = "My id number is lee0909"
# findall("패턴", 문자열) : 문자열에서 패턴에 해당하는 내용을 리턴
a = re.findall("a", s)
a

[]

In [11]:
b = re.findall("lee", s)
b

['lee']

In [12]:
c = re.findall('e', s)
c

['e', 'e', 'e']

In [13]:
d = re.findall("[a-z]", s)
d

['y', 'i', 'd', 'n', 'u', 'm', 'b', 'e', 'r', 'i', 's', 'l', 'e', 'e']

In [14]:
e = re.findall("[a-z]+", s) # 단어단위
e

['y', 'id', 'number', 'is', 'lee']

In [19]:
s = "My id number is LEE_0909$%"
a = re.findall("[A-Z]", s)
# 대문자를 글자단위
b = re.findall("[A-Z]+", s)
print(a)
print(b)

['M', 'L', 'E', 'E']
['M', 'LEE']


In [20]:
# 영문자와 숫자를 단어단위
a = re.findall("[a-zA-Z0-9]+", s)
a

['My', 'id', 'number', 'is', 'LEE', '0909']

In [22]:
# 영문자와 숫자가 아닌것만 
# ^(not)
a = re.findall("[^a-zA-Z0-9]", s)
a

[' ', ' ', ' ', ' ', '_', '$', '%']

In [24]:
# \w(소문자) : 영문자, 숫자, _
a = re.findall("[\w]+", s)
a

['My', 'id', 'number', 'is', 'LEE_0909']

In [25]:
a = re.findall("[\W]+", s)
a

[' ', ' ', ' ', ' ', '$%']

In [29]:
p = re.compile('[a-z]+')
a = p.match("python")
print(a)

<re.Match object; span=(0, 6), match='python'>


In [28]:
b = p.match("3 python")
print(b)

None
