# 정규표현식(regular expression)

In [2]:
import re

# 목차
## 1. 개념
## 2. re 모듈 사용
    * 주요 사용 메소드 : re.compile, re.match, re.search, re.findall, re.sub
        * re.compile : 정규식 컴파일 객체를 만듦,  정규식을 객체명으로 간략히 표현하게 함
        * re.match : 문자열의 처음부터 정규식과 매치되는지 조사하여, Match 객체 반환
        * re.search : 문자열의 전체를 정규식과 매치되는지 조사하여, Match 객체 반환
            * Match 객체의 메소드
                * group() : 매치된 문자열 반환
                * start() : 매치된 문자열의 시작위치 반환
                * end() : 매치된 문자열의 끝 위치 반환
                * span() : 매치된 문자열의 (시작, 끝)에 해당하는 튜플 반환
        * re.findall() : 매치되는 모든 문자열을 리스트로 반환
        * re.finditer() : 매치되는 모든 문자열을 반복가능한객체(iterable)로 반환
        * re.sub(a, b, txt) : 매치되는 문자열을 다른 문자열로 변경
            * txt에서 a부분을 찾아 b로 바꾼 문자열을 반환
## 3. 각종 메타문자들
    * | : or 와 동일한 의미
    * ^ : 문자열의 맨처음과 매치함을 의미 / 문자클래스[] 안에서는 반대 의미임에 주의!
    * $ : 문자열의 맨끝과 매치함을 의미
    * \A : 문자열의 처음과 매치됨을 의미
    * \Z : 문자의열 끝과 매치됨을 의미
    
## 4. 역슬래시(\)와 r prefix

## 5. 그루핑
    * 그루핑으로 전화번호 찾기
    * 그루핑의 재참조
    * 그루핑의 이름 붙이기

## 6. 전방탐색

## 7. 문자열 바꾸기

## 8. greedy VS non-greedy

## 9. 정규표현식 응용
    * 연도 검색
    * 전화번호부 검색
    * 이메일 검색


# 1. 개념

# 정규 표현식(Regular Expressions)
- 일정한 규칙(패턴)을 가진 문자열을 표현하는 방법
- 정규 표현식은 줄여서 간단히 "정규식"이라고도 함
- 아래 서술할 메타문자(문자클래스[], \d, Dot(.)), 문자열, r prefix 등으로 표현
- 주 사용 상황
    - 복잡한 문자열 속에서 특정한 규칙으로 된 문자열을 검색한 뒤, 해당 값을
        * 추출하거나 
        * 변경하거나
        * 문자열이 정해진 규칙에 맞는지 판단할 때도 사용
- 파이썬에서는 re 모듈을 가져와서 사용 (re는 regular expression의 약자).
      
      
## 메타 문자(meta characters)
- 메타문자란 원래 그 문자가 가진 뜻이 아닌 특별한 용도로 사용하는 문자
    - 문자 클래스, Dot 등 아래 서술할 표현들
- . ? $ ^ + * { } [ ] \ | ( ) 등
- 정규 표현식에 위 메타 문자를 사용하면 특별한 의미를 갖게 됨  
    
## 문자 클래스(Character class) = '[ ]'
- \d, \w 등 과 비슷한 용도지만, 저 문자들로 표현이 안되는 범위를 설정하기 위해서 쓰인다고 생각하면 될 듯
- 문자열 기호 '  '안에 대괄호[  ]를 써서 표현 
- " [ ] 사이의 문자들과 매치"라는 의미 "
- 메타 문자인 [ ] 사이에는 어떤 문자도 들어갈 수 있음
### 보통 여러 문자중 어느 하나와 매칭되는 범위를 설정할 때 사용하고, 
### 찾아야할 단어가 구체적으로 정해진 경우 문자클래스가 아니라 문자열을 집어 넣으면 됨
  
  
## 정규 표현식이 [abc]라면 이 표현식의 의미는 "a, b, c <span style="color:red">중 한 개의 문자</span>와 매치"(제일 중요!)**
## a, b, c 다 있어야 하는게 아님!!!
    
    - "a"는 정규식과 일치하는 문자인 "a"가 있으므로 a가 매치됨
    - "before"는 정규식과 일치하는 문자인 "b"가 있으므로 b가 매치됨
    - "dude"는 정규식과 일치하는 문자인 a, b, c 중 어느 하나도 포함하고 있지 않으므로 매치되지 않음  
  
  

In [6]:
### 잘 이해가 안가므로 예제를 만들어보자!
txt = "abefore dudec"
a = re.findall('[abc]', txt)
a

['a', 'b', 'c']

=> 단어가 아니라, 정규식에 포함된 각 문자 한개에 매칭되는 것을 확인할 것!!

In [3]:
### 잘 이해가 안가므로 예제를 만들어보자!
txt = "abcde"
a1 = re.findall('[abc]', txt)
a2 = re.match('[abc]', txt)
a3 = re.search('[abc]', txt)
print(a1)
print(a2)
print(a3)

['a', 'b', 'c']
<re.Match object; span=(0, 1), match='a'>
<re.Match object; span=(0, 1), match='a'>


In [30]:
### 잘 이해가 안가므로 예제를 만들어보자!
txt = "dude"
a1 = re.findall('[abc]', txt)
a2 = re.match('[abc]', txt)
print(a1)
print(a2)

[]
None


### 그렇다면 단어?? 를 기준으로 매칭하려면??

1. 특정 단어를 찾으려면 문자클래스가 아니라 대괄호[]없이 문자열''로 매칭
2. 경계 표현(\b\B) 사용

- 안의 두 문자 사이에 **하이픈(-)을 사용하면 두 문자 사이의 범위(From - To)를 의미**
    - **[a-zA-Z] : 알파벳 모두**
    - **[0-9] : 숫자**  
  
  
- 문자 클래스 안에 **^ 메타 문자**를 사용할 경우에는 **반대(not)**라는 의미
    - [^0-9]라는 정규 표현식은 숫자가 아닌 문자만 매치
  
  
## 다른 형태 같은 뜻의 정규 표현식
    - `\d` - 숫자와 매치, [0-9]와 동일한 표현식이다.
    - `\D` - 숫자가 아닌 것과 매치, `[^0-9]`와 동일한 표현식이다.
    - `\s` - whitespace 문자와 매치, `[ \t\n\r\f\v]`와 동일한 표현식이다. 맨 앞의 빈 칸은 공백문자(space)를 의미한다.
    - `\S` - whitespace 문자가 아닌 것과 매치, `[^ \t\n\r\f\v]`와 동일한 표현식이다.
    - `\w` - 문자+숫자(alphanumeric)+_(언더바)와 매치, `[a-zA-Z0-9_]`와 동일한 표현식이다.
    - `\W` - 문자+숫자(alphanumeric)+_(언더바)가 아닌 문자와 매치, `[^a-zA-Z0-9_]`와 동일한 표현식이다.
    
        - 위에 표현을 사용할 때는 r prefix를 쓰든, 안쓰든 결과는 동일한거 같은데(내 경험 상)
        - 혹시나 \쪽이 꼬이는 문제가 발생할까봐 대부분 코드들이 써주는 거 같음
    
    - `\b` - 단어 경계와 매치
    - `\B` - 비단어 경계와 매치
        -  `\b`나 `\B`를 사용하기 위해서는 정규표현식 앞에 r prefix를 붙여줘야 함
            - 기존의 이스케이프 문자(escape sequence) \b (backspace)와 겹쳐서 그런거 같음

## \b, \B (비)단어 경계 관련 예제
### \b 단어 경계란?
    - 단어 문자와 비 단어 문자 사이와 매칭된다고 보면 된다.
    - 하나의 문자를 지칭하는 것이 아니라, 단어문자와 비단어문자가 붙어있는지 여부를 의미!!
    - 여기서 단어란 숫자를 포함함 즉, \w와 \W가 붙어있는 경우가 \b다.
    
### \B 비단어 경계란
    - 단어와 단어가 붙어있는 경우, 또는 비단어와 비단어가 붙어있는 경우 매칭됨

In [23]:
# 예시
a = re.findall(r'\w\b\W\B', 'ab  c d  == = e= =f')
print(a)

['b ', 'd ', 'e=']


* 여기서 처음에 a는 \w에는 속하지만 
* 다음 문자가 b로 같은 단어문자이므로, 단어경계인 \b에 매칭되지 않음
* b는 공백과 연결되므로 단어경계인 \b와 매칭이 됨
* b와 다음에 나오는 공백은 \W와 매칭되고, 
* 공백 다음에 다시 공백이 나오므로, 비단어경계인 \B에도 매칭된다고 볼 수 있다.

### 응용
문제 1: ‘line’과는 일치하지만, ‘outline’나 ‘linear’ 등과는 일치하지 않는 정규표현식을 작성하라. 즉, 정확히 ‘line’ 단어와만 일치해야 한다.

정답 : \bline\b

In [25]:
txt = "line outline line linear line "
a = re.findall(r'\bline\b', txt)
a

['line', 'line', 'line']

문제 2: ‘stacatto’에는 일치하지만, ‘cat’이나 ‘catch’, ‘copycat’ 등과는 일치하지 않는 정규표현식을 작성하라.

정답 : \Bcat\B

In [26]:
txt = "stacatto cat catch copycat stacatto cat"
a = re.findall(r'\Bcat\B', txt)
a

['cat', 'cat']

### **Dot(.)**
    - Dot(.) 메타 문자는 줄바꿈 문자인 **\n을 제외한 모든 문자와 매치**됨을 의미
        - re.DOTALL 옵션을 주면 \n 문자와도 매치됨
        - ex) **a.b는 "a + 모든문자 + b"를 의미**
### 정말 문자 . 을 정규식으로 쓰고 싶다면?
    - [.] 또는 \.을 사용
    
    - 문자 클래스([]) 내에 Dot(.)이 사용된다면 이것은 "모든 문자"가 아닌 문자. 그대로를 의미
    - ex) a[.]b는 "a.b" 문자열과 매치되고, "a0b" 문자열과는 매치되지 않음

* dot에 대해서 : "[.]", "\\." 은 문자 . 으로 인식

In [240]:
dot1 = re.compile(".")
dot2 = re.compile("\.")
dot3 = re.compile("[.]")

a = dot1.search("abcd")    # 아무 문자나 매칭
print("dot1 : ", a)
a = dot2.search("abcd")    # 문자.만 매칭
print("dot2 : ", a)
a = dot3.search("abcd")    # 문자.만 매칭
print("dot3 : ", a)

b = dot1.search("ab.cd")    # 아무 문자나 매칭
print("dot1 : ", b)
b = dot2.search("ab.cd")    # 문자.만 매칭
print("dot2 : ", b)
b = dot3.search("ab.cd")    # 문자.만 매칭
print("dot3 : ", b)

dot1 :  <re.Match object; span=(0, 1), match='a'>
dot2 :  None
dot3 :  None
dot1 :  <re.Match object; span=(0, 1), match='a'>
dot2 :  <re.Match object; span=(2, 3), match='.'>
dot3 :  <re.Match object; span=(2, 3), match='.'>


### 반복 (*)
    - * 바로 앞에 있는 문자가 0부터 무한대로 반복될 수 있다는 의미
    - ex) ca*t 는 ct, cat, caat, caaat, caaaaaaaaaat, 등과 매치 가능
  
  
### 반복 (+)
    - +는 최소 1번 이상 반복될 때 사용
    - ex) ca+t 는 cat, caat, caaat, caaaaaaaaaat, 등과 매치 가능, ct는 매치 안됨
    
  
### 반복 ({m,n}, ?)
    - {m} : 반드시 m번 반복
        - ca{2}t  ⇒ caat만 매치
    - {m,n} : m~n회 반복
        - ca{2,5}t ⇒ caat, caaat, caaaat, caaaaat
    - (m, }
        - m회 이상
    - { ,n}
        - n회 이하
    - {1,}은 +와 동일하고, {0,}은 *와 동일하다.
    
  
### ?
    - 0회 이상 1회 이하
    - ?는 {0, 1}을 의미 ⇒ '있어도 되고, 없어도 된다.'

In [104]:
# ?

import re

p = re.compile("ab?c")
p.search("a")

In [105]:
# ?

import re

p = re.compile("ab?c")
p.search("ac")

<re.Match object; span=(0, 2), match='ac'>

In [106]:
# ?

import re

p = re.compile("ab?c")
p.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [107]:
# ?

import re

p = re.compile("ab?c")
p.search("abbc")

# 2. re 모듈 사용

    * 주요 사용 메소드 : re.compile, re.match, re.search, re.findall, re.sub
        * re.compile : 정규식 컴파일 객체를 만듦,  정규식을 객체명으로 간략히 표현하게 함
        * re.match : 문자열의 처음부터 정규식과 매치되는지 조사하여, Match 객체 반환
        * re.search : 문자열의 전체를 정규식과 매치되는지 조사하여, Match 객체 반환
            * Match 객체의 메소드
                * group() : 매치된 문자열 반환
                * start() : 매치된 문자열의 시작위치 반환
                * end() : 매치된 문자열의 끝 위치 반환
                * span() : 매치된 문자열의 (시작, 끝)에 해당하는 튜플 반환
        * re.findall() : 매치되는 모든 문자열을 리스트로 반환
        * re.finditer() : 매치되는 모든 문자열을 반복가능한객체(iterable)로 반환
        * re.sub() : 매치되는 문자열을 다른 문자열로 변경
        
    * dir(re)로 나중에 쓸만한 메소드 추가 확인해보기

### re.compile(정규식, [옵션]) : 컴파일 객체 생성
    * re 모듈의 메소드(re.match, re.search, re.findall, re.sub 등) 사용 시, 
      기본적으로 메소드 마다 정규식을 반복해서 적어주어야 하나,
        ex)   
        re.match(정규식, 문자열)  
        re.match(정규식, 문자열2)
        re.match(정규식, 문자열3)
        re.search(정규식, 문자열4)
        re.sub(정규식, 바꿀문자, 문자열2)
        
    * 같은 정규식으로 여러 메소드 사용시, 컴파일 객체를 불러와서 사용하면 됨
        ex)  
        p(=컴파일객체명) = re.compile(정규식)
        p.match(문자열)  
        p.match(문자열2)
        p.match(문자열3)
        p.search(문자열4)
        P.sub(바꿀문자, 문자열2)
        
    * re.compile()함수의 옵션들 (생략 가능)  
        
        * DOTALL(S) 
            - . 이 줄바꿈 문자를 포함하여 모든 문자와 매치할 수 있도록 한다.  
      
      
        * IGNORECASE(I) 
            - 대소문자에 관계없이 매치할 수 있도록 한다.  
      
      
        * MULTILINE(M) 
            - 여러줄과 매치할 수 있도록 한다. 
            - (^, $ 메타문자의 사용과 관계가 있는 옵션이다)  
      
      
        * VERBOSE(X) 
            - verbose 모드를 사용할 수 있도록 한다. 
            - (정규식을 보기 편하게 만들수 있고 주석등을 사용할 수 있게된다.)
        

## re.compile(정규식)
    * 컴파일 객체 생성
    * 반복적으로 같은 정규식을 사용하며, 다른 함수들을 여러번 사용할 때,  
      정규식을 매번 써주어야 하는 겻을 간단히 객체명으로 쓸수 있게 해줌

 * 예시(compile 안 쓸때,)

In [46]:
import re

re.sub('Hello', 'Hi', 'Hello, world!') 
# re.sub(A(정규식), B(문자열), C(문자열)) : C에서 A랑 매칭되는 부분을 B로 변경

'Hi, world!'

 * 예시(compile 쓸때,)

In [47]:
import re

p = re.compile('Hello') # 정규식 A 컴파일

p.sub('Hi', 'Hello, world!')  # 정규식 A 생략

'Hi, world!'

## re.compile 옵션들

### DOTALL (S) (= re.DOTALL, re.S)
    * 이 줄바꿈 문자를 포함하여 모든 문자와 매치할 수 있도록 한다.  
    * Dot(.) 메타 문자는 원래 줄바꿈 문자인 \n을 제외한 모든 문자와 매치됨을 의미

In [42]:
import re
p = re.compile('a.b')
m = p.match('a\nb')
print(m)

None


In [43]:
import re
p = re.compile('a.b', re.DOTALL)
m = p.match('a\nb')
print(m)

<re.Match object; span=(0, 3), match='a\nb'>


In [44]:
import re
p = re.compile('a.b', re.S)
m = p.match('a\nb')
print(m)

<re.Match object; span=(0, 3), match='a\nb'>


### IGNORECASE (I)  (= re.IGNORECASE, re.I)
    - 대소문자에 관계없이 매치할 수 있도록 한다. 

In [45]:
p = re.compile('[a-z]', re.I)
p.match('python')

<re.Match object; span=(0, 1), match='p'>

In [46]:
p = re.compile('[a-z]', re.I)
p.match('Python')

<re.Match object; span=(0, 1), match='P'>

In [48]:
p = re.compile('[a-z]', re.I)
p.match('PYTHON')

<re.Match object; span=(0, 1), match='P'>

In [50]:
# 옵션 빼면 매칭 안됨
p = re.compile('[a-z]')
p.match('PYTHON')

 ### MULTILINE (M) (= re.MULTILINE, M)
    - 여러줄과 매치할 수 있도록 한다. 
    - (^, $ 메타문자의 사용과 관계가 있는 옵션이다) 

In [201]:
import re
p = re.compile("^python\s\w+")    
# python으로 시작하고(^python), whitespace(\s)가 나오고, 단어(\w)가 나와야됨
# ^는 클래스[] 에서는 반대의 의미지만,~~

data = """python one
life is too short
python two
you need python
python three"""

print(p.findall(data))

['python one']


In [49]:
import re
p = re.compile("^python\s\w+", re.MULTILINE) 
# 옵션을 주어 각 라인에서의 처음을 정규식과 매칭시킴

data = """python one
life is too short
python two
you need python
python three"""

print(p.findall(data))

['python one', 'python two', 'python three']


In [51]:
import re
p = re.compile("^python\s\w+", re.M) 
# 옵션을 주어 각 라인에서의 처음을 정규식과 매칭시킴

data = """python one
life is too short
python two
you need python
python three"""

print(p.findall(data))

['python one', 'python two', 'python three']


### VERBOSE, X (re.VERBOSE, re.X)

    * 복잡한 정규식을 쉽게 보기 위해, 
    * 정규식 ''안에 whitespace와 주석 #을 쓸 수있게 해주는 기능

 * 같은 식을 VERBOSE를 쓰고, 안쓰고 로 구분

In [51]:
# 방식 1(안쓰고)
charref = re.compile(r'&[#](0[0-7]+|[0-9]+|x[0-9a-fA-F]+);')

In [50]:
# 방식 2(쓰고)  => 위와 같은 의미임
charref = re.compile(r"""
 &[#]                # Start of a numeric entity reference
 (
     0[0-7]+         # Octal form
   | [0-9]+          # Decimal form
   | x[0-9a-fA-F]+   # Hexadecimal form
 )
 ;                   # Trailing semicolon
""", re.VERBOSE)
# re.VERBOSE 옵션으로 #뒤와 whitespace는 무의미 처리됨

## re.match("A(문자열 또는 정규식)", 문자열 B)
## = 컴파일객체.match(문자열B)
    * 문자열 B 내에서 A(문자열 또는 정규식)에 해당하는 부분을 찾아 re.Match 객체로 생성
    * re.Match 객체는 group(), start(), end(), span()등 메소드 사용 가능  
    
        * group()
            * 매치된 문자열을 돌려준다.  
        
        * start()
            * 매치된 문자열의 시작 위치(인덱스)를 돌려준다.  
            * .match()로 얻은 Match객체의 start() 값은 항상 0이다.
                *re.match()는 비교하는 문자열의 시작에서 매칭이 안되면, None을 반환함
        
        * end()
            * 매치된 문자열의 끝 위치를 돌려준다.
        
        * span()
            * 매치된 문자열의 (시작, 끝)에 해당하는 튜플을 돌려준다.
            

In [14]:
import re

re.match('Hello', 'Hello, world!')
# 문자열이 있으므로 정규표현식 매치 객체가 반환됨

<re.Match object; span=(0, 5), match='Hello'>

In [5]:
re_obj1 = re.match('Hello', 'Hello, world!')

## 매치된 문자 반환
re_obj1.group()

'Hello'

In [6]:
# 문자열에서 매치된 문자의 시작 인덱스 반환
re_obj1.start()

0

In [7]:
# 문자열에서 매치된 문자의 끝 인덱스 반환
re_obj1.end()

5

In [9]:
# 문자열에서 매치된 문자의 (시작idx, 끝idx) 튜플 반환
re_obj1.span()

(0, 5)

In [46]:
re.match('Python', 'Hello, world!')    
# 문자열이 없으므로 아무것도 반환되지 않음

 * 응용

In [15]:
m = re.match('([0-9]+) ([0-9]+)', '10 295') ## 정규식 의미 0~9까지 숫자중 하나가 최소 한개 이상 있다.
m

<re.Match object; span=(0, 6), match='10 295'>

## re.search(정규식, 문자열)
## = p.search(문자열)
## p : 컴파일 객체

### match()와 search()의 차이

    * 공동점 : 둘다 re.Match 객체로 반환

     * match()
         * 문자열의 처음부터 정규식과 매치되는지 조사한다.
         * 시작에 매치되는 정규식이 없으면 None 반환!!(Match 객체가 생성되지 않음)
         
     * search()
         * 문자열 전체를 검색하여 정규식과 매치되는지 조사한다.
         * 매칭이 여러번 되는 문자열의 경우 맨 앞쪽(왼쪽) 한번만 매칭됨

In [13]:
import re

p = re.compile('[a-z]+')    # a부터 z까지 하나이상인가?

In [14]:
m = p.match("3 python")  # match는 처음부터 비교, 문자 3이 매칭되지 않아서 None 반환
m

In [15]:
m.group()

AttributeError: 'NoneType' object has no attribute 'group'

In [23]:
m = p.match("python 3")  # python까지는 매칭하고 다음 space는 매칭하지 않음
m

<re.Match object; span=(0, 6), match='python'>

In [24]:
m = p.match("python 3 python")  # python까지는 매칭하고 다음 space는 매칭하지 않음
m

<re.Match object; span=(0, 6), match='python'>

In [20]:
m = p.search("3 python") # 전체 중 "python"부분은 매칭됨
m

<re.Match object; span=(2, 8), match='python'>

In [41]:
m = p.search("3 python 3 python") # 전체 중 "python"부분은 매칭됨
m    # 결과를 보니 문자열을 한번 만 찾나봄

<re.Match object; span=(2, 8), match='python'>

In [37]:
m.start()

2

In [39]:
m.end()

8

In [40]:
m.span()

(2, 8)

## re.findall(정규식, 문자열)
## = p.findall(문자열)
## p : 컴파일 객체
     * 정규식과 매치되는 모든 문자열(substring)을 리스트로 돌려준다.

In [59]:
import re

p = re.compile('[a-z]+')    # a부터 z까지 하나 이상인가?

In [60]:
result = p.findall("life is too short")
print(result)

['life', 'is', 'too', 'short']


 * +역할 확인(문자 한개가 아닌 뭉텡이(단어)로 매칭시킴)

In [61]:
import re

p = re.compile('[a-z]')    # a부터 z까지 중 문자 한개랑 매칭

In [62]:
result = p.findall("life is too short")
print(result)

['l', 'i', 'f', 'e', 'i', 's', 't', 'o', 'o', 's', 'h', 'o', 'r', 't']


### re.findall과 re.split의 차이
     * re.split은 정규식으로 매치되지 않는 부분도 각각 리스트의 요소로 생성

In [113]:
import re

p = re.compile('(ABC)+')

m = p.findall('ABCwerABCABC OK?')

print(m)

['ABC', 'ABC']


In [114]:
import re

p = re.compile('(ABC)+')

m = p.split('ABCwerABCABC OK?')

print(m)

['', 'ABC', 'wer', 'ABC', ' OK?']


## re.finditer(정규식, 문자열)
## = p.finditer(문자열)
## p : 컴파일 객체

    * 문자열에서 정규식과 매칭되는 모든 부분을 각각 Match 객체로 만들어  
      이것들을 요소로하는 이터레이터(iterator) 생성  
    * re.match(), re.search()는 처음에 매칭되는 한 부분만 객체로 만들기 때문에,  
      re.finditer()가 사용 용도가 훨씬 다양함

In [20]:
import re

p = re.compile('[a-z]+')    # a부터 z까지 하나 이상인가?

In [33]:
result = p.finditer("life is too short")
result

<callable_iterator at 0x25761e290a0>

In [34]:
result1 = result.__next__()
result1

<re.Match object; span=(0, 4), match='life'>

In [35]:
result2 = result.__next__()
result2

<re.Match object; span=(5, 7), match='is'>

In [36]:
result3 = result.__next__()
result3

<re.Match object; span=(8, 11), match='too'>

In [37]:
result4 = result.__next__()
result4

<re.Match object; span=(12, 17), match='short'>

In [38]:
# 다른 이터레이터와 마찬가지로 StopIter 에러 발생
result5 = result.__next__()
result5

StopIteration: 

### re.sub(pattern, repl, string, count, flags)
    - 패턴에 일치하는 문자열을 다른 문자열로 바꿔주는 것
    - pattern : 바꿔야하는 대상(패턴) ⇒ 문자열 or 정규식으로 표현
    - repl : 매칭된 부분을 바꾼 결과가 될 다른 문자열
    - string : 함수를 적용할 대상 문자열
    - count : 문자열 변경 작업을 최대 몇 번 까지 수행할 것인지
    - flags

In [78]:
import re

re.sub('Hello', 'Hi', 'Hello, world!') 
# re.sub(A(정규식), B(문자열), C(문자열)) : C에서 A랑 매칭되는 부분을 B로 변경

'Hi, world!'

## 3. 각종 메타문자들

* | : or 와 동일한 의미

In [172]:
p = re.compile('Crow|Servo')
m = p.search('CrServoHello')
print(m)

<re.Match object; span=(2, 7), match='Servo'>


* ^ : 문자열의 맨처음과 매치함을 의미 / 문자클래스[] 안에서는 반대 의미임에 주의!

In [173]:
re.search('^Life', 'Life is too short')

<re.Match object; span=(0, 4), match='Life'>

In [176]:
re.search('^Life', 'my Life')

* $ : 문자열의 맨끝과 매치함을 의미

In [178]:
re.search('short$', 'short pants')

In [177]:
re.search('short$', 'Life is too short')

<re.Match object; span=(12, 17), match='short'>

* \A : 문자열의 처음과 매치됨을 의미
    * ^ 메타 문자와 동일한 의미이지만, re.MULTILINE 옵션을 사용할 경우에는 다르게 해석됨
    * re.MULTILINE 옵션을 사용할 경우 ^은 각 줄의 문자열의 처음과 매치되지만 \A는 줄과 상관없이 전체 문자열의 처음하고만 매치된다.

* \Z : 문자의열 끝과 매치됨을 의미
    * $ 메타 문자와 동일한 의미이지만, re.MULTILINE 옵션을 사용할 경우에는 다르게 해석됨  
    
    * re.MULTILINE 옵션을 사용할 경우 $은 각 줄의 문자열의 끝과 매치되지만 \A는 줄과 상관없이 전체 문자열의 끝하고만 매치된다.

## 4. 백슬래쉬와 r prefix(raw String)

    * 정규표현식에서 백스페이스\를 매칭하고 싶으면, 연속 2번써서 이스케이프 처리하면됨
    * r prefix (Raw string) 관련
        * https://wikidocs.net/4308 => '백슬래시 문제' 검색

 *  "\section" 문자열을 찾기 위한 정규식
     * 예를 들어 정규식에 "\section"으로 적으면, '\s'와 'ection'을 따로 인식하여,
     * [ \t\n\r\f\v]ection로 인식하게됨
     * 따라서 정규식을 '\\section'으로 적어야 함

* 파이썬에서 '\section' 문자열을 정의하기 위해서는, 코드상 '\\\section'으로 정의

In [191]:
txt = "\\section"
print(txt)

\section


### 파이썬의 백슬래시 문제 : 
### 파이썬에서 정규식으로 '\section'을 검색하기 위해서는 '\\\\\\\\section'을 적어야함

* '\' 4개를 적어야 2개가 정규식엔진으로 들어가고
* '\' 2개가 파이썬 문자열 규칙에 따라 실제 '\'가 한 개 포함된 문자열을 탐색한다 

In [190]:
p = re.compile('\\\\section') # 백슬래시 4개를 적으면 2개가 들어간다

m = p.search(txt)
m

<re.Match object; span=(0, 8), match='\\section'>

In [194]:
m.group()    # 그냥 치면 문자열 표현식에 따라 \가 2개 보이지만

'\\section'

In [196]:
print(m.group())    # 실제로 print로 출력해보면, \가 한 개 인 것을 알 수 있음

\section


### 문제 해결을 위해서 r prefix를 사용

In [198]:
p2 = re.compile(r'\\section') # 백슬래시 2개를 적으면 2개가 들어간다 2개가 들어가야 실제 문자열 1개를 찾는다.

m = p2.search(txt)

m

<re.Match object; span=(0, 8), match='\\section'>

* r prefix 사용시, 문자열 사용했을 때, \를 두번 연속쓴 것과 같은 효과

In [11]:
r"456\n123"

'456\\n123'

* 큰 따옴표와 작은 따옴표를 섞어쓰면, 백슬래시가 없어도 출력되기 때문에,   
  r" \\' "에서 '은 \와 상관없이 출력이 되는 부분이고,   
  앞에 \가 출력되기 위해 문자열 표현에서는 \\\\로 보이는 것 

In [4]:
r"\'"

"\\'"

In [200]:
"'"

"'"

In [9]:
"\'"

"'"

In [10]:
r"\'"

"\\'"

In [11]:
"\"

SyntaxError: EOL while scanning string literal (<ipython-input-11-a16852ba415a>, line 1)

In [12]:
r"\"

SyntaxError: EOL while scanning string literal (<ipython-input-12-be4b0bde9d98>, line 1)

=> 알수 있는 것
    * 문자열 안에 들어간 백슬래시 \은 일반적으로 단독으로 마지막에 쓰이면 => 에러 발생
    * 기호들 앞에 쓰이면, 기호만 출력되는데, 
        * r prefix를 사용하면, \까지 문자로 인식되도록 함

In [21]:
"\\'"

"\\'"

## 5. 그루핑

 * ()로 ABC를 감싸면 group으로 출력시 반복되서 나옴

In [110]:
import re

p = re.compile('(ABC)+')

m = p.search('ABCABCABC OK?')

print(m)
print(m.group())

<re.Match object; span=(0, 9), match='ABCABCABC'>
ABCABCABC


 * 중간에 단어들이 끼면 맨 앞쪽 한번만 찾음(search 특성)

In [111]:
import re

p = re.compile('(ABC)+')

m = p.search('ABCwerABCABC OK?')
print(m)

print(m.group())

<re.Match object; span=(0, 3), match='ABC'>
ABC


 * findall 수행
     * 왜 ABCABC를 요소로 못잡지?

### findall()은 그룹핑 된 정규식을 한개로만 매칭시키는 문제가 있는 듯??
    * finditer()를 사용하자

In [135]:
import re

p = re.compile('(ABC)+')

m = p.findall('ABCABC OK?')

print(m)

['ABC']


In [121]:
import re

p = re.compile('(ABC)+')

m = p.findall('ABCwerABCABC OK?')

print(m)

['ABC', 'ABC']


In [128]:
import re

p = re.compile('(ABC)+')

m = p.finditer('ABCwerABCABC OK?')

print(m)

<callable_iterator object at 0x0000025761E29B50>


In [129]:
a1 = m.__next__()
a1

<re.Match object; span=(0, 3), match='ABC'>

In [132]:
a1.group()

'ABC'

In [130]:
a2 = m.__next__()
a2

<re.Match object; span=(6, 12), match='ABCABC'>

In [133]:
a2.group()

'ABCABC'

In [131]:
a3 = m.__next__()

StopIteration: 

 * () 없이 ABC 쓰면 group으로 출력시 하나만 나옴(+가 C에만 적용됨)

In [3]:
import re

p = re.compile('ABC+')

m = p.search('ABCABCABC OK?')
print(m)

print(m.group())

<re.Match object; span=(0, 3), match='ABC'>
ABC


In [102]:
import re

p = re.compile('ABC+')

m = p.search('ABCCCCABCCABC OK?')
print(m)

print(m.group())

<re.Match object; span=(0, 6), match='ABCCCC'>
ABCCCC


### 그루핑으로 전화번호 찾기

In [207]:
p = re.compile(r"(\w+)\s+((\d+)[-]\d+[-]\d+)") # r prefix 안써도 결과는 동일
m = p.search("park 010-1234-1234")

* group(0) : 전체

In [208]:
print(m.group(0))

park 010-1234-1234


* group(1) : 첫 번째 괄호 - 이름

In [209]:
print(m.group(1))

park


* group(2) : 두 번째 괄호 - 전화번호

In [210]:
print(m.group(2))

010-1234-1234


* group(3) : 세 번째 괄호 - 앞번호

In [211]:
print(m.group(3))

010


### 재참조

### 정규식을 재참조하는 것이 아니라 매칭된 문자열을 다시 참조하는 것임!

- \1
    - 첫 번째 그룹(group(1))과 동일한 문자열을 재참조

In [222]:
p = re.compile(r'(\b\w+)\s+\1')    # \b를 사용하기 때문에 r prefix 써주어여함
m = p.search('Paris in the the spring')
m.group()

'the the'

* 재참조가 없다면,

In [169]:
p = re.compile(r'(\b\w+)\s+')
p.search('Paris in the the spring').group()

'Paris '

=> 위와 같이 'Paris '가 매칭되지만,  
r'(\b\w+)\s+\1' 와 같이 정규식을 적으면,  
(\b\w+)로 매칭 되었던 단어(Paris)가 반복해서 나와야 매칭되므로,  
동일한 단어가 2번 나오는 the the가 매칭되는 것

- \2
    - 두 번째 그룹(group(2))과 동일한 문자열을 재참조

In [166]:
p = re.compile(r"(\w+)\s+((\d+)[-]\d+[-]\d+)\s+\2")
m = p.search("park 010-1234-1234 010-1234-1234 park ji sung")
m.group()

'park 010-1234-1234 010-1234-1234'

### 그루핑에 이름 붙이기

    * (\w+) --> (?P<그룹명>\w+)
    * 출력: Match객체.group("그룹명")

In [226]:
p = re.compile(r"(?P<name>\w+)\s+((\d+)[-]\d+[-]\d+)")    # 여기는 r prefix 안써도 동일
m = p.search("park 010-1234-1234")
print(m.group("name"))

park


In [224]:
print(m.group(0))

park 010-1234-1234


In [225]:
print(m.group(1))

park


## 6. 전방 탐색(Lookahead Assertions)

    * 매칭되는 조건에는 포함되지만, 출력이나, Match 객체에는 포함되지 않아야 할 문자가 있을 때,  

### 긍정형 전방 탐색((?=...)) 
*  ... 에 해당되는 정규식과 매치되어야 하며 조건이 통과되어도 문자열이 소비되지 않는다.
        
### 부정형 전방 탐색((?!...)) 
* ...에 해당되는 정규식과 <span style="color:red">매치되지 않아야 하며,</span> 조건이 통과되어도 문자열이 소비되지 않는다.

* : 앞에있는 문자들 매칭

In [170]:
p = re.compile(".+(?=:)")
m = p.search("http://google.com")
print(m.group())

http


 * 확장자 매칭
    
        * .*[.].*$

### 부정형 전방 탐색

 * .bat이 아닌 확장자 매칭

In [41]:
import re

re.compile(".*[.](?!bat$).*$")


# $   뒤에서 부터 
# .*  아무문자 0개 이상 가져오는데
# [.](?!bat$) .뒤 맨 뒤가 bat이면 안됨

re.compile(r'.*[.](?!bat$).*$', re.UNICODE)

 * .bat 또는 exe가  아닌 확장자 매칭

In [42]:
re.compile(".*[.](?!bat$|exe$).*$")

re.compile(r'.*[.](?!bat$|exe$).*$', re.UNICODE)

## 7. 문자열 바꾸기(sub())

    * sub('바꿀 문자열', '')
    * subn : sub과 동일하지만, 결과를 튜플(변경된 문자열, 변경 횟수)로 반환
    * 그룹 참조 시 : \g<그룹이름> 사용

In [43]:
import re

p = re.compile('(blue|white|red)')    # |는 or을 의미

p.sub('colour', 'blue socks and red shoes')

'colour socks and colour shoes'

* 그룹 참조 시 : \g<그룹이름> 사용

In [44]:
p = re.compile(r"(?P<name>\w+)\s+(?P<phone>(\d+)[-]\d+[-]\d+)")

print(p.sub("\g<phone> \g<name>", "park 010-1234-1234"))

010-1234-1234 park


 * 그룹 번호 사용

In [45]:
p = re.compile(r"(?P<name>\w+)\s+(?P<phone>(\d+)[-]\d+[-]\d+)")

print(p.sub("\g<2> \g<1>", "park 010-1234-1234"))

010-1234-1234 park


In [47]:
p.sub("\g<2> \g<1>", "park 010-1234-1234")

'010-1234-1234 park'

### sub 매개변수로 함수 사용하기

### 컴파일객체.sub(함수, 문자열)
    * 컴파일에 사용된 정규식을 이용해 문자열을 탐색하고, 
    * 문자열에서 정규식에 매칭되는 모든 부분을 Match 객체로 만들어 함수에 입력 값으로 제공
    * 따라서 함수는 Match 객체를 입력받아 무언가 출력물을 return하는 식으로 적용

    * sub 메서드의 첫 번째 매개변수로 함수를 넣을 수도 있다.
    * 아래에서 hexrepl 함수는 match 객체(위에서 숫자에 매치되는)를 입력으로 받아
      16진수로 변환하여 돌려주는 함수
    *  sub의 첫 번째 매개변수로 함수를 사용할 경우 
      해당 함수의 첫 번째 매개변수에는 정규식과 매치된 match 객체가 입력된다.
    * 그리고 매치되는 문자열은 함수의 반환 값으로 바뀌게 된다.

In [227]:
def hexrepl(match):              # Match 객체를 입력받아서
    value = int(match.group())   # 출력결과를 int형으로 바꾸고
    return hex(value)            # 그 값을 16진수로 변경

p = re.compile(r'\d+')
p.sub(hexrepl, 'Call 65490 for printing, 49152 for user code.') 
## 컴파일된 정규식을 적용해서 Match객체를 만들고, 그 값을 함수에 입력값으로 사용

'Call 0xffd2 for printing, 0xc000 for user code.'

## 8. Greedy vs Non-Greedy

    * 정규식 사용의 특징은 정규식은 탐욕스럽게(Greedy) 적용된다는 것
    * 아래 예시 처럼 '<.*>'라는 정규식에,
    * <html>로도 매칭이 되고, <html><head><title>Title</title>로도 매칭이 되는 문자열에서는
    * <html><head><title>Title</title>으로 매칭이 된다.

In [49]:
s = '<html><head><title>Title</title>'
len(s)

32

In [50]:
print(re.match('<.*>', s).span())

(0, 32)


In [51]:
print(re.match('<.*>', s).group())

<html><head><title>Title</title>


 => 결과를 보면 <html>이 아니라 .*이 가질수 있는 최대한으로 매칭이됨

 * 위 현상을 Non-Greedy 문자 ?를 사용하면 *?의 탐욕을 막을 수 있음

In [52]:
print(re.match('<.*?>', s).group())

<html>


## 9. 정규표현식 응용

* 연도 검색

In [228]:
#- 연도(숫자)
text = """
The first season of America Premiere League  was played in 1993. 
The second season was played in 1995 in South Africa. 
Last season was played in 2019 and won by Chennai Super Kings (CSK).
CSK won the title in 2000 and 2002 as well.
Mumbai Indians (MI) has also won the title 3 times in 2013, 2015 and 2017.
"""

pattern = re.compile("[1-2]\d\d\d")    # 1-2와 숫자 3개
pattern.findall(text)

['1993', '1995', '2019', '2000', '2002', '2013', '2015', '2017']

* 전화번호부 검색

In [230]:
#- 전화번호(숫자, 기호)
p = re.compile('\d\d\d-\d\d\d-\d\d\d\d')

phone = p.search('This is my phone number 010-111-1111')

if phone:
  print(phone.group())

print('------')

phone = p.match ('This is my phone number 010-111-1111')    # match는 못찾으니까 search 써라!

if phone:
  print(phone.group())

010-111-1111
------


* 이메일 검색

In [231]:
#- 이메일(알파벳, 숫자, 기호)
text = "My e-mail adress is doingharu@aiffel.com, and tomorrow@aiffel.com"

p = re.compile("[0-9a-zA-Z]+@[0-9a-z]+\.[0-9a-z]+")

p.findall(text)

['doingharu@aiffel.com', 'tomorrow@aiffel.com']