# r'string'

파이썬 정규표현식은 문자열 앞부분에 r을 넣어주는것이 안전하게 사용하는 방법이다.

대체로 이스케이프 표현(\\)을 이용해야 한다고 인지되는 거의 모든 경우 써주는 것이 좋다.

# 그룹핑 예시

그룹은 \1, \2... 로 지칭 할 수 있다.
지정 순서는 왼쪽 괄호< ( >가 왼쪽에서 오른쪽으로 먼저 나타나는 순이다.

In [11]:
import re

m = re.compile(r'((.{1})\2{2,3}).+(ㄹㅁ).+\3').search("ㅁㅁㅁㄴㅇㄹㅁㄴㅇㄹㅁㄴㅇㄹ")
print(m.group(0))
print(m.group(1))
print(m.group(2))
print(m.group(3))

ㅁㅁㅁㄴㅇㄹㅁㄴㅇㄹㅁ
ㅁㅁㅁ
ㅁ
ㄹㅁ


#  Findall 함수와 그룹핑

findall은 문자열 전체에서 매칭되는 각 요소를 리스트로 반환한다.

알고리즘은 문자열에서 매칭되는 부분을 찾으면

매칭된 부분 이후부터 잘린 문자열을 기준에 표현식 적용을 반복하는 방식이다.

그룹을 이용할 경우 리스트 요소 한개는 search함수를 수행한 결과의 모든 그룹을 튜플로 묶은 것과 같다.

사실 알고보면 search의 group(0)은 그냥 매칭표현식 전체를 그룹핑으로 감싼 것이다.

In [27]:
print(re.compile("(mm)(m)").findall("mm"))
print(re.compile("(mm)(m)").findall("mmmmm"))
print(re.compile("(mm)(m)").findall("mmmmmm"))

[]
[('mm', 'm')]
[('mm', 'm'), ('mm', 'm')]


# 비욕심

+?는 비욕심의 성질을 가진다.

이는 알고리즘의 특성상 분할정복의 관점에서,

또는 계산의 효율을 위해서,

작은 부분부터 큰 부분으로 연산이 수행되는데

따라서 큰 욕심 안부리고 먼저 얻어진 값을 정답으로 삼겠다고 이해하면 편하다.

In [51]:
print(re.compile(r'(.+)\1').findall("ㅁㅁㅁㅁㅁㄴㅇㄹㅁㄴㅇㄹㅁㄴㅇㄹ"))
print(re.compile(r'(.?)\1').findall("ㅁㅁㅁㅁㅁㄴㅇㄹㅁㄴㅇㄹㅁㄴㅇㄹ"))

['ㅁㅁ', 'ㅁㄴㅇㄹ']
['ㅁ', 'ㅁ', '', '', '', '', '', '', '', '', '', '', '', '', '']


비욕심의 예시

In [90]:
print(re.compile(r'(.+?)\1').findall("ㅁㅁㅁㅁㅁㄴㅇㄹㅁㄴㅇㄹㅁㄴㅇㄹ"))
print(re.compile(r'(ㅁㅁ)+?').findall("ㅁㅁㅁㅁㅁㄴㅇㄹㅁㄴㅇㄹㅁㄴㅇㄹ"))

['ㅁ', 'ㅁ', 'ㅁㄴㅇㄹ']
['ㅁㅁ', 'ㅁㅁ']
