# 1. 정규표현식 살펴보기 

In [None]:
### 정규표현식이란 ###

# 정규표현식; 복잡한 문자열을 처리할 때 사용하는 기법

# 정규표현식 사용 예; 주민등록번호 뒷 자리 * 처리

# 일반 코드

data = """
park 800905-1049118
kim  700905-1059119
"""

result = []
for line in data.split("\n"):
    word_result = []
    for word in line.split(" "):
        if len(word) == 14 and word[:6].isdigit() and word[7:].isdigit():
            word = word[:6] + "-" + "*******"
        word_result.append(word)
    result.append(" ".join(word_result))
print("\n".join(result))

# 정규식; 훨씬 간단

import re 

data = """
park 800905-1049118
kim  700905-1059119
"""

pat = re.compile("(\d{6})[-]\d{7}")
print(pat.sub("\g<1>-*******", data))

# 2. 정규표현식 시작하기

In [1]:
### 정규표현식의 기초, 메타 문자 ###

# 메타문자; 원래 그 문자가 가진 뜻이 아닌 특별한 용도로 사용하는 문자

# 1. 문자 클래스 []; [] 사이의 문자들과 매치
# 즉, [abc]라면 "a,b,c, 중 한 개의 문자와 매치"라는 뜻
# 하이픈(-)을 사용하면 두 문자 사이의 범위를 의미(From-To)
# '^' 기호는 주의. 반대(not)의 의미를 가짐
# < 자주 사용하는 문자 클래스 >
# \d; 숫자와 매치, [0-9]와 동일
# \D; 숫자가 아닌 것과 매치, [^0-9]와 동일
# \s; whitespace 문자와 매치, [ \t\n\r\f\v]와 동일
# \S; whithspace 문자가 아닌 것과 매치, [^ \t\n\r\f\v]와 동일
# \w; 문자+숫자와 매치, [a-zA-Z0-9_]와 동일
# \W; 문자+숫자가 아닌 것과 매치, [^a-zA-Z0-9_]와 동일

# 2. Dot(.); 줄바꿈 문자 '\n'을 제외한 모든 문자와 매치
# 즉, a.b라면 "a+모든문자+b"로 a와 b 사이에 어떤 문자가 들어가도 매치된다는 뜻
# 또한, a[.]b라면 "a + Dot(.)문자 + b"로 "a.b"문자열과 매치, "a0b"와는 매치 X

# 3. 반복(*); * 바로 앞 문자가 0부터 무한대로 반복되면 매치
# ca*t/ct -> 매치; "a"가 0번 반복
# ca*t/cat -> 매치; "a"가 1번 반복
# ca*t/caaat -> 매치; "a"가 3번 반복

# 4. 반복(+); + 바로 앞 문자가 1부터 무한대로 반복되면 매치
# ca*t/ct -> 매치X; "a"가 0번 반복
# ca*t/cat -> 매치; "a"가 1번 반복
# ca*t/caaat -> 매치; "a"가 3번 반복

# 5. 반복({m,n},?); 반복 횟수 고정 
# ca{2}t; a를 2번 반복해야지만 매치
# ca{2,5}t; a를 2~5번 반복하면 매치
# ab?c; ?는 {0,1}을 의미. 즉, 있어도 되고 없어도 됨

In [3]:
### 정규표현식을 지원하는 모듈; re ###

import re
p = re.compile('ab*')

In [13]:
### 정규식을 이용한 문자열 검색 ###

# match(); 문자열의 처음부터 정규식과 매치하는 지 조사
# search(); 문자열 전체를 검색하여 정규식과 매치하는 지 조사
# findall(); 정규식과 매치되는 모든 문자열을 리스트로 반환
# finditer(); 정규식과 매치되는 모든 문자열을 반복 가능한 객체로 반환

import re
p = re.compile("[a-z]+")

# 1. match

m = p.match('python')
print(m) # 매치 

m = p.match('3 python')
print(m) # 매치 안 하므로 None

# < 파이썬 정규식 프로그램 짜는 법 >
# p = re.compile(정규표현식)
# m = p.match( 'string goes here' )
# if m:
#     print('Match found: ', m.group())
# else:
#     print('No match')

# 2. search

m = p.search("python")
print(m) # 매치

m = p.search("3 python")
print(m) # 매치; search는 처음부터가 아니라 전체에서 검색

# 3. findall

result = p.findall('life is too short')
print(result) # 각 단어를 정규식과 매치해서 리스트로 반환

# 4. finditer

result = p.finditer("life is too short")
print(result) # findall과 동일, 리스트 대신 반복 가능한 객체로 반환

<re.Match object; span=(0, 6), match='python'>
None
<re.Match object; span=(0, 6), match='python'>
<re.Match object; span=(2, 8), match='python'>
['life', 'is', 'too', 'short']
<callable_iterator object at 0x000001C68EE645F8>


In [17]:
### match, search 객체의 메서드 ###

# group(); 매치된 문자열 반환
# start(); 매치된 문자열 시작 위치 반환
# end(); 매치된 문자열 끝 위치 반환
# span(); 매치된 문자열 (시작, 끝) 튜플 반환

m = p.match("python")
m.group()
m.start()
m.end()
m.span()

(0, 6)

In [18]:
### 모듈 단위로 수행 ### 

p = re.compile('[a-z]+')
m = p.match("python")

# 위 코드를 모듈 단위로 축약

m = re.match('[a-z]+','python')

In [19]:
### 컴파일 옵션 ###

# DOTALL(S) - '.' 이 줄바꿈 문자를 포함해 모든 문자와 매치 가능
# IGNORECASE(I) - 대소문자에 관계없이 매치 가능
# MULTILINE(M) - 여러 줄과 매치 가능 (^, $ 메타문자의 사용과 관련)
# VERBOSE(X) - verbose 모드를 사용 가능 (주석 등을 사용 가능, 정규식 보기 편함)

In [None]:
### 백슬래시 문제 ###

# 백슬래시; 문자 그대로의 '\'를 사용하고 싶으면 겹쳐서 사용

# 3. 강력한 정규표현식의 세계로

In [20]:
### 메타문자 ###

# |; or과 동일
# ^; 문자열의 맨 처음과 일치
# $; 문자열의 맨 끝과 일치. 즉, '^'문자와 반대. 
# \A; 문자열의 처음과 매치
# \Z; 문자열의 끝과 매치
# \b; 단어 구분자(보통 공백)
# \B; 공백 이외 단어 구분자. 즉, '\b'와 반대

In [21]:
### 그루핑 ###

# 그루핑; 인덱스를 이용해 그룹을 만들고 그루핑 된 문자열만 뽑아내서 매치

# group(0); 매치된 전체 문자열
# group(1); 첫 번째 그룹에 해당되는 문자열
# group(2); 두 번째 그룹에 해당되는 문자열
# group(n); n 번째 그룹에 해당되는 문자열

In [22]:
### 전방 탐색 ###

# 긍정형 전방 탐색(?=...); ...의 정규식과 매치, 조건이 통과해도 문자열 소비 X
# 부정형 전방 탐색(?!...); ...의 정규식과 매치X, 조건이 통과해도 문자열 소비 X

In [23]:
### 문자열 바꾸기 ###

# sub 메서드; 첫 번째 매개변수는 바꿀 문자열, 두 번째 매개변수는 대상 문자열
# subn 메서드; sub 메서드와 동일. 대신 튜플로 반환

In [None]:
### Greedy vs Non-Greedy ###