# 정규식 사용 vs 비사용
- 주민등록번호를 포함하고 있는 문자열에서 주민등록번호 뒷자리를 '*' 문자로 변경

In [1]:
data = """
park 800904-1234567
kim 841130-1023451
"""
result= []
for line in data.split('\n'):
  word_result=[]
  for word in line.split():
    if len(word) == 14 and word[:6].isdigit() and word[7].isdigit():
      word = word[:6] + '-' + '*******'
    word_result.append(word)
  result.append(' '.join(word_result))
print('\n'.join(result))


park 800904-*******
kim 841130-*******



In [2]:
import re
data = """
park 800904-1234567
kim 841130-1023451
"""
pat = re.compile('(\d{6})[-]\d{7}')
# pat = re.compile('([0-9]{6})[-]\d{7}')

print(pat.sub(r'\1-*******',data))


park 800904-*******
kim 841130-*******



### 정규 표현식
- 메타 문자
  - 정규 표현식에 사용되어 지는 특별한 의미를 갖는 문자
```. ^ $ " + ? {} [] ₩ | ()```
- 문자 클래스[]
  - [] 안에 포함된 문자들 중 하나와 매치 여부를 확인한다.
  - 문자 사이에 하이픈(-)을 사용하면 두 문자 사이의 범위(form-to)를 의미한다.
  - 문자 클래스 안에 ^메타 문자가 사용되면 `not`의 의미를 갖는다.
  - ^[0-9]는 숫자가 아닌 문자만 매치된다.
  - ^ 메타 문자가 [] 밖에 사용되면 특정 문자로 시작하는지 판단

- 자주 사용하는 문자클래스
  - ₩: 정규 표현식에서 사용하는 문자 그대로 표현하려면 앞에 ₩를 붙임 예) `₩+`, `₩"`
  - ₩d: 숫자와 매치 [0-9]와 동일한 표현식
  - ₩D: 숫자가 아닌것과 매치, [^0-9]와 동일한 표현식
  - ₩s: 공백문자(space, tab)와 매치, [₩t ₩n ₩r ₩f ₩v]와 동일한 표현식
  - ₩S: 공백문자가 아닌것과 매치 [^ ₩t ₩n ₩r ₩f ₩v]와 동일한 표현식
  - \w: 문자+숫자와 매치, [a-zA-Z0-9]
  - \W: 문자+숫자가 아닌 문자와 매치, [a-zA-Z0-9]
  - 한글 여부 : [ㄱ-힣]

- Dot(.)
    - Dot(.) 메타 문자는 줄바꿈 문자인 **\n을 제외한 모든 문자와 매치**됨을 의미한다.
    - [] 사이에.을 사용할 경우 문자 원래의 의미인 마침표가 된다.
- 반복(*)
    - *은 *바로 앞에 있는 문자가 **0부터 무한대로 반복**될 수 있다는 의미이다.

- 반복(+)
    - +는 최소 1번 이상 반복될때 사용한다
- 반복 횟수 지정({m,n})
    - {} 메타 문자는 **반복 횟수를 지정**할 수 있다. {m,n} 정규식을 사용하면 반복횟수가 m부터 n까지 매치할 수 있다.
    m 또는 n을 생략하거나 정수 한개 만 쓸 수도 있다. {m,}이면 반복횟수가 m이상인 경우이고, {n,}이면 반복 횟수가 n이하를 의미한다.

- ? 앞에 문자가 `하나 있거나 없을 떄` 매치된다.
- $ 앞에 있는 문자로 끝나면 매치된다. 여러줄의 문자열일 경우 마지막 줄만 적용된다.
- ^ 다음에 있는 문자로 시작하면 매치된다.
- [^]: 안에서 사용되면 not

### re 모듈 사용
- re모듈의 compile 함수를 이용하여 정규 표현식을 컴파일 한다.
```python
import re
p = re.compile("ab")
```
- 정규식을 사용한 문자열 검색
  - 컴파일 된 객체를 이용하여 다음의 함수를 이용하여 문자열 검색을 할 수 있다.
    - match(): 문자열의 처음시작부터 검색하여 일치하지 않는 부분이 나올 떄까지 찾는다.
    - search(): 문자열 전체를 검색하여 처음으로 매치되는 문자열을 찾는다.
    - findall(): 정규식과 매치되는 모든 문자열을 찾아 리스트로 반환한다.
    - finditer(): 정규식과 매치되는 모든 문자열을 반복 가능한 객체로 반환한다.
- 컴파일과 매치의 동시 수행
match(패턴,찾고싶은 문자열)
```python
m = re.match('[a-z]+','python')
```

# 2. 문자열 검색

In [3]:
import re
# 알파벳 소문자가 1개 이상이면 매칭
p = re.compile('[a-z]+')

### match()
- 문자열의 처음부터 정규식과 매치되는지 조사

In [8]:
m1 = p.match('python')
print(m1)

m2 = p.match('pYthon')
print(m2)

m3 = p.match('3 python')
print(m3)

m = p.match('python')
if m:
  print('Match Found:',m.group())
else:
  print('Not Match')

<re.Match object; span=(0, 6), match='python'>
<re.Match object; span=(0, 1), match='p'>
None
Match Found: python


### search()
- 문자열 전체를 검색하여 처음으로 매치되는 문자열을 찾는다.

In [9]:
m = p.search('3 python')
print(m)

<re.Match object; span=(2, 8), match='python'>


## [문제] 전화번호 추출하기
- 다음의 전화번호 데이터에서 전화번호만 추출하는 정규표현식을 작성하시오.
- phone = ['홍길동:010-1111-1111','우리집:02-555-5555']

In [None]:
import re
# 알파벳 소문자가 1개 이상이면 매칭
p = re.compile('\d{2,3}-\d{3,4}-\d{4}')