# 파이썬 정규표현(2)
---
All rights reserved, 2021-2023 by *Youn-Sik Hong*. 수업 목적으로만 활용 가능

- 정규표현을 날렵하게 사용하기 위해 익혀야 할 메타기호들. 
    - " .  ^  $  *  +  ?  {  }  [ ]  \  |  (  )". 
---    
- 메타(meta)기호란 기호가 갖고 있던 원래 의미 대신 새로운 의미를 부여한 기호를 말합니다. 
    - 예를 들면, \*(asterisk)는 일반적으로 곱셈 기호로 사용되지만, 
        - 정규표현에서 \*는 해당하는 단어가 없거나(zero occurrence) 
        - 여러 번 발생(more occurrences)하는 패턴을 정의하는 메타기호입니다. 
    - 정규표현에서 \*의 공식 이름은 Kleene closure(또는 Kleene star)입니다. 
        - Kleene는 이 기호를 제안한 미국의 수학자 이름에서 따왔습니다. 
---         
- 친구가 \*를 asterisk 나 star 대신 Kleene star로 읽으면, 
    - '이 친구 정규표현 좀 사용해봤네' 라고 감을 잡을 수 있겠죠.

참고 사이트 
- 파이썬 re 모듈에 관한 튜토리얼: https://docs.python.org/3/howto/regex.html#regex-howto
- 파이썬 re 라이브러리(메타심볼, 상수, 메소드 등) 상세 설명: https://docs.python.org/3/library/re.html#module-re

In [1]:
import re 

자..슬슬 몸을 풀어 보자구요. 정규표현 메타기호 중 꼭 알아야 할 4가지 기호부터 시작합시다.
- [ - ]: 문자 범위(range)를 나타냄. [0-9]는 0,1,2,...,9 중 하나의 숫자를 나타냄. 
- +: 최소 1번 이상 발생. 정규표현 ab+ 는 ab, abb, abbb, ... 
- \*: 0번 이상 발생. 즉 생략된 경우도 가능. 정규표현 ab* 는 a, ab, abb, ...
- ?: 0번 또는 1번 발생. 정규표현 ab? 는 a, ab

In [2]:
p = re.compile("[0-9]+") #패턴 정의
m = p.match("12345") 
m.group(0)

'12345'

In [3]:
m2 = re.match("[0-9]+", "12345")
#m2 = re.match(r"[0-9]+", "12345") #패턴과 문자열을 구분하기 위해 r을 붙임(생략 가능)
m2.group(0)

'12345'

- \\(backslah) 다음에 오는 영문자(소문자 또는 대문자)는 특수한 문자열을 의미. 
    - \d는 [0-9]와 같은 의미. d는 0부터 9까지 10개 숫자 중 하나. d는 decimal(십진수 숫자).
    - \D는 \d와 반대 의미. 즉 숫자를 제외한 모든 문자가 해당됨. 
        - [^0-9]와 같은 의미. ^(caret)이 \[ \]에서 맨 앞에 사용되면 제외(exception)를 의미.

In [4]:
m3 = re.match("\d+", "12345")
m3.group(0)

'12345'

In [5]:
m4 = re.match("\D+", "Hello, python! 12345") #12345는 \D+의 패턴이 아님
print(m4.group(0)) 
print(len(m4.group(0)), m4.span(0)) #'...python! '와 같이 공백 문자 1개도 포함해 모두 15개.
print(len("Hello, python! "))

Hello, python! 
15 (0, 15)
15


**check_none()** 패턴과 일치하는 결과를 찾았는지 확인하는 함수를 만드는게 좋겠죠!

In [6]:
def check_none(m):
    if m:
        print(m.group(0))
    else:
        print('not found')

In [7]:
m4 = re.match("\d+", "Hello, python! 12345") 

아래 결과가 왜 "Not found"가 나오는지 까먹은건 아니겠죠... 

In [8]:
check_none(m4)

not found


- 기본기를 익혔으니, 이제 실수를 인식하는 정규표현을 정의하겠습니다. 
    - 실수는 소수점 '.'(dot)를 포함하는 데, 
        - 정규표현에서 '.'는 newline 문자를 제외한 임의의 문자를 가리키는 메타기호입니다. 
    - 우리가 찾으려는 '.'는 메타 기호가 아닌 실수에 포함된 소수점이기 때문에 
        - escape 문자인 \\(backslash)를 사용하여 \\.로 표현해야 합니다.

In [9]:
m5 = re.match(r"\d+\.\d+", "3.141592")
print(m5.group(0), m5.span(0))
#print(m5[0], m5.span())

3.141592 (0, 8)


- 그런데, 실수는 3.0과 같이 소수점 이하 숫자가 없을 때 3. 으로 나타내기도 하죠. 
- 위 정규표현이 "3."을 제대로 인식할까요?

In [10]:
m5 = re.match(r"\d+\.\d+", "3.")
check_none(m5)

not found


- Ooooops!!! 애써 만든 정규 표현으론 제대로 찾지 못하네요 -_-
- 아주, 간단한 해결방법이 있습니다.

In [11]:
m52 = re.match(r"\d+\.\d*", "3.")
check_none(m52)
m53 = re.match(r"\d+\.\d*", "3.14")
check_none(m53)

3.
3.14


- 아니 이렇게 간단한 방법이... 뭐가 달라진 거죠? 그렇죠! meta 기호를 +에서 \*로 바꿨습니다. 
    - 메타 기호 +는 소수점 이하 숫자를 절대 생략해선 안돼!라고 했지만,
    - 메타 기호 \*는 소수점 이하 숫자를 생략할 수 있어. 물론, 있어도 좋고 라는 의미입니다.

잠시만요. 한 가지 더 확인하고 갈께요... 이제껏 만든 정규표현을 ()로 묶으면 어떻게 될까요?

In [12]:
m6 = re.match(r"(\d+)\.(\d+)", "3.141592")
print(m6.group())
#print(m6.group(0))

3.141592


달라진게 없는데요... 정말 그럴까요? group() 대신 groups()로 바꿔볼까요... 
- 이제껏 group(0)만 출력했는데, group(0), group(1), group(2), ... 까지 출력할 수 있습니다. 
    - 어떻게 이게 가능해졌죠? 괄호로 묶으면서, 패턴매칭의 부분 결과를 갖게 되었기 때문이죠. 
- group(0)는 패턴 매칭된 전체 문자열이고, 
    - group(1), group(2)는 매칭된 부분 문자열을 순서대로 출력하는 거죠.

In [13]:
print(m6.groups())
print(m6.group(0), m6.group(1), m6.group(2))

('3', '141592')
3.141592 3 141592


- 그렇다면 아래처럼 소수점 기호도 괄호로 묶으면 3개의 부분 문자열 그룹으로 늘어나겠군요... 
    - That's correct! You are really really smart.

In [14]:
m62 = re.match(r"(\d+)(\.)(\d+)", "3.141592")
print(m62.groups())
print(m62.group(0), m62.group(1), m62.group(2), m62.group(3))

('3', '.', '141592')
3.141592 3 . 141592


기본기는 마스터 했으니, 보다 다양한 정규표현 예제를 알아보도록 하죠.

- \\w는 word(토큰)에 속한 문자 중 하나를 의미. [a-zA-Z0-9_]와 같은 의미.
- \\W는 word(토큰)에 속하지 않는 문자를 의미. [^a-zA-Z0-9_]와 같은 의미.

In [15]:
text1 = "My rank is the 128th. ?!!"
pattern = "\w+"
#pattern = "\W+"

- 잠깐, **findall()** 과 **finditer()** 복습하고 가실께요... 
    - **findall()** 메소드는 리스트(원소가 문자열인)를 리턴합니다. 
    - 반면, **finditer()** 메소드는 **iteraror 객체** 를 리턴하며, 
        - *iterator* 객체의 원소는 *match* 객체입니다. 꼭!! 기억하세요.
- \\w+는 형식언어와 자연어처리에서 자주 사용하는 정규표현 중 하나입니다. 
    - 바로 단어(token)를 찾아주기 때문이죠.

모두 5개의 토큰을 찾습니다. 왜 그럴까요?

In [16]:
ml = re.findall(pattern, text1)
print(type(ml), len(ml))
for m in ml:
    print(m, end=', ')

<class 'list'> 5
My, rank, is, the, 128th, 

finditer()를 사용해 찾은 토큰을 하나씩 확인해 보겠습니다.

In [17]:
mr = re.finditer(pattern, text1)
print(type(mr))
for m in mr:
    s = m.start()
    e = m.end()
    print("Found '%s' at %d:%d" % (text1[s:e], s, e))

<class 'callable_iterator'>
Found 'My' at 0:2
Found 'rank' at 3:7
Found 'is' at 8:10
Found 'the' at 11:14
Found '128th' at 15:20


정규표현을 \\W+로 바꾸면 어떤 결과가 나올까요? 여러분이 예상한 결과인가요?

In [18]:
text1 = "My rank is the 128th. ?!!"
pattern = "\W+"

m7 = re.findall(pattern, text1)
print(type(m7), len(m7))
for m in m7:
    print(m, end=', ')

<class 'list'> 5
 ,  ,  ,  , . ?!!, 

### re.sub() 메소드 
- re.sub() 메소드는 모두 5개 파라미터가 있습니다. 
    - pattern.sub(pattern, repl, string, count=0)는 파라미터가 4개.
- re.sub(pattern, repl, string, count=0, flags=0) 에서 
    - *pattern*=정규표현, *repl*=교체할 문자열, *string*=적용하려는 텍스트. 
    - 마지막으로 *count*는 교체 횟수를 지정할 수 있습니다
        - 지정하지 않으면(0), 패턴에 해당하는 모든 문자열을 바꿉니다.

In [19]:
street = '1, Uisadang-daero, Yeongdeungpo-gu, Seoul' #국회(National Assembly) 주소
t = re.sub('gu', 'Gu', street)
print(type(t), t)

<class 'str'> 1, Uisadang-daero, Yeongdeungpo-Gu, Seoul


간단한 응용 예제로 주민등록번호 마지막 7자리 숫자 중 성별을 나타내는 1,2,3,4를 제외한 나머지 6자리 숫자를 \*(asterisk)기호로 바꿔보겠습니다. 

- 중괄호(curly brackes) \{ , \}를 사용하여 
    - 패턴의 발생 횟수 또는 범위를 지정할 수 있습니다. 
- 패턴 a{3} 에 해당하는 문자열은 길이가 3인 문자열 1개, 즉 "aaa"입니다. 
- 패턴 a{1,3} 에 해당하는 문자열은 길이가 1,2 또는 3인 문자열 3개, 즉 "a, aa, aaa"입니다.

In [20]:
re.sub('-[0-9]{7}', '-1******', '123456-1234567')

'123456-1******'

- 주민등록번호 마지막 7자리 숫자가 '-'로 시작하는 특징을 찾아 바꿨지만, 점수는 아쉽게도 100점 만점에 25점입니다. 
    - 여성인 경우에도 결과는 1\*\*\*\*\*\*로 출력되기 때문입니다. 
    - 메타 기호 '\\$'를 사용하면 쉽게 해결할 수 있습니다. 
---    
- 메타기호 \\$(dollar)는 텍스트의 맨 끝을 가리킵니다. 
    - 반대로 메타기호 \^(caret)은 텍스트의 맨 앞을 가리킵니다.
- 메타기호 \$를 사용해 
    - 주민등록번호 맨 끝에서 6자리 숫자만 \*(asterisk)로 변경하면 됩니다.

In [21]:
#re.sub('[0-9]{6}$', '******', '123456-1234567') #for man
re.sub('[0-9]{6}$', '******', '123456-2234567') #for woman
#re.sub('[0-9]{6}$', '******', '123456-3234567') #for young man
#re.sub('[0-9]{6}$', '******', '123456-4234567') #for young woman

'123456-2******'

#### 위 예제를  응용해 휴대폰 번호 마지막 4자리만 \*로 바꿔보세요.

In [22]:
#직접 작성해 보세요

- 텍스트의 맨 앞을 가리키는 \^ 메타 기호 사용법도 예제를 통해 알아볼까요...
    - ^기호가 있고 없고에 따라 결과가 전혀 다릅니다.

In [23]:
text2 = "North Korea has insisted that it has no confirmed Covid-19 cases in its territory."
print(re.findall('^[A-Za-z]+', text2))
print(re.findall('[A-Za-z]+', text2))

['North']
['North', 'Korea', 'has', 'insisted', 'that', 'it', 'has', 'no', 'confirmed', 'Covid', 'cases', 'in', 'its', 'territory']


- unicode 체계에서 한글 음절은 11,172자이며, 훈민정음 창제 원리에 따라 초성, 중성, 종성 순으로 음절을 배치(문자열처리연산.ipynb의 1.2절 참조)합니다.
    - 첫 음절은 '가'(종성 없음)이며, 마지막 음절은 '힣'입니다.
    - 아래 예제는 한글 음절과 공백(space)을 포함하는 토큰을 찾는 예입니다. 

In [24]:
text3 = '류 현진, He is a great baseball pitcher.'
print(re.match('[가-힣 ]+', text3))

<re.Match object; span=(0, 4), match='류 현진'>
