# 07장 정규표현식  
---

## 07-1  정규 표현식 살펴보기
---

정규 표현식(Regular Expressions)은 복잡한 문자열을 처리할 때 사용하는 기법으로, 파이썬만의 고유 문법이 아니라 문자열을 처리하는 모든 곳에서 사용한다. 정규 표현식을 배우는 것은 파이썬을 배우는 것과는 또 다른 영역의 과제이다.

### 1.정규 표현식은 왜 필요한가?  
---

다음과 같은 문제가 주어졌다고 가정해 보자.  

`주민등록번호를 포함하고 있는 텍스트가 있다. 이 텍스트에 포함된 모든 주민등록번호의 뒷자리를 * 문자로 변경해 보자.`  

우선 정규식을 전혀 모르면 다음과 같은 순서로 프로그램을 작성해야 할 것이다.

1. 전체 텍스트를 공백 문자로 나눈다(split).  

2. 나뉜 단어가 주민등록번호 형식인지 조사한다.  

3. 단어가 주민등록번호 형식이라면 뒷자리를 *로 변환한다.  

4. 나뉜 단어를 다시 조립한다.  

이를 구현한 코드는 아마도 다음과 같을 것이다.

In [1]:
data = """
park 800905-1049118
kim  700905-1059119
"""

result = []
for line in data.split("\n"):
    word_result = []
    for word in line.split(" "):
        if len(word) == 14 and word[:6].isdigit() and word[7:].isdigit():
            word = word[:6] + "-" + "*******"
        word_result.append(word)
    result.append(" ".join(word_result))
print("\n".join(result))


park 800905-*******
kim  700905-*******



In [2]:
import re 

data = """
park 800905-1049118
kim  700905-1059119
"""

pat = re.compile("(\d{6})[-]\d{7}")
print(pat.sub("\g<1>-*******", data))


park 800905-*******
kim  700905-*******



## 07-2 정규 표현식 시작하기  
---

### 1. 메타문자  
---

- 메타문자    
`>^$*+?{}[]\|()`

- 문자 클래스  
[ ] 사이의 문자들과 매치  

[abc]  
`a`는 정규식과 일치하는 문자인 `a`가 있으므로 매치  
`before`는 정규식과 일치하는 문자인 `b`가 있으므로 매치  
`dude`는 정규식과 일치하는 문자가  `a,b,c` 중 어느 하나도 포함하고 있지 않으므로 매치되지 않음

-:form to  
[a-c]=[abc],[a-zA-Z]  
^:반대(not)  
[^0-9]

- Dot(.)  
`\n`을 제외한 모든 문자와 매치  
`a.b` $\rightarrow$ `a + 모든 문자 + b` 
`a[.]b`$\rightarrow$ `a + . + b`  <span style="color:blue">[]안에 있는 .은 그 자체를 의미</span>    

- * : 반복  
`ca*t` a가 $0$ ~ $\infty$ 반복 가능!    
사실...2억 번 정도로 제한  
내가 2억 번까지 할까 싶긴 한데 알아둬야지!

- + : 반복  
`ca+t` a가 1번 이상 반복 가능!

- {m,n},? : 반복    
만약 반복을 1회,3회 이렇게 제한을 두고 싶르면 {}를 사용하여 횟수 고정 가능  
{ㅡm,n} m부터 n까지 매치  
?:{0,1}을 의미

### 2. 정규표현식을 지원하는  re모듈  
---

In [2]:
import re
p=re.compile('ab*')

re.compile(r'ab*', re.UNICODE)

In [3]:
import re
p=re.compile('[a-z]+')

In [8]:
m=p.match("python")
print(m)

<re.Match object; span=(0, 6), match='python'>


In [6]:
m=p.match("3 python")
print(m)

None


In [9]:
m=p.search("python")
print(m)

<re.Match object; span=(0, 6), match='python'>


In [10]:
m=p.search("3 python")
print(m)

<re.Match object; span=(2, 8), match='python'>


search는 문자열부터 그래서 3 이후의 p부터

In [11]:
result=p.findall("Life is too short")
print(result)

['ife', 'is', 'too', 'short']


In [12]:
result=p.finditer("Life is too short")
print(result)

<callable_iterator object at 0x0000019680A1FBB0>


In [13]:
for r in result:print(r)

<re.Match object; span=(1, 4), match='ife'>
<re.Match object; span=(5, 7), match='is'>
<re.Match object; span=(8, 11), match='too'>
<re.Match object; span=(12, 17), match='short'>
