# 정규 표현식(regular expression)

## 1. 정규 표현식
- 텍스트의 특정한 형태나 규칙의 문자열을 찾기 위해 **규칙 정의**한 것
- **정규식, Regexp**이라고도 한다.

### 1-2 기본개념
- 메타문자
   - **패턴**을 기술하기 위해 사용되는 의미를 갖는 문자
   - ex) `a*` : a가 0회 이상 반복을 뜻함 a, aa, aaa..
       - `a*` => 정규 표현식
           - `a` : 리터럴 - 찾으려는 대상
           - `*` : 메타문자 - 앞의 글자의 0회 이상 반복
   - 리터럴
       - 표현식의 값 자체를 의미

## 2. 정규 표현식 메타 문자

### 2-1 문자 클래스 : []
- `[ ]` 사이의 문자들 매치
    - `[abc]` : a, b, c 중 **하나의 문자**와 매치
- `-`를 이용한 범위 설정
    - `[a-z]`
    - `[a-zA-Z0-9]`
    - `[가-힣]`
- `[^패턴]` : `^`으로 시작하면 **반대**의 의미(패턴을 **제외**하고)
    - `[^abc]`
    - `[^a-z]`
    - `^` 대괄호 안 or 밖에 있는 것 차이 확인!

### 2-2 정의된 문자 클래스
- 대문자는 소문자의 **반대**
- `\d`, `\D` : 숫자와 매치
- `\w`, `\W` : 문자, 숫자, _와 매치
- `\s`, `\S` : 공백문자(tab, \n, 공백)와 매치
- `\b`, `\B` : 단어 경계 표시, 보통 단어 경계로 공백을 의미
    - `\b` => 우리 가족 만세(o), 우리가족만세(x)
    - `\B` => 우리 가족 만세(x), 우리가족만세(o)

### 2-3 글자수와 관련된 메타문자
- `.` : 한개의 모든 문자(\n 줄바꿈 제외)
- `*` : 앞 문자(패턴)과 일치하는 문자 0개 이상인 경우
- `+` : 앞 문자(패턴)과 일치하는 문자 1개 이상인 경우
- `?` : 앞 문자(패턴)과 일치하는 문자 한개가 있거나 없는 경우
- `{m}` : 앞의 문자(패턴) m개
- `{m,}` : 앞의 문자(패턴) m개 이상
- `{m, n}` : 앞의 문자(패턴) m개 이상, n개 이하

### 2-4 문장의 시작과 끝 표현
- `^` : 문자열의 시작(`^abc`) abc로 시작
    - 문자 클래스([])의 `^`와는 다른 의미
- `$`: 문자열의 끝(`abc$`) abc로 끝난다.

### 2-5 기타
- `|` : 둘중 하나(**OR**) (010|011|016)
    - `()`로 묶어서 사용한다.
- `( )` : 패턴내 하위 그룹을 만들때 사용

## 3 RE 함수

### 3-1 검색함수
- `match()`, `search()` : 패턴과 일치하는 문장이 있는지 여부 확인 용
    - 앞에서 부터 하나만 가져옴
- `findall()` : 패턴과 일치하는 문장을 찾을 때 사용
    - 찾고자 하는 문장을 전부 가져옴

### 3-1-1 Match 객체
- **검색 결과**를 담아 반환
- 패턴과 일치한 문자열과 대상문자열 내에서의 위치를 가지고 있는 객체
- 주요 메소드
    - `group()` : 매치된 문자열들을 튜플로 반환
    - `group(subgroup 번호)` : 패턴에 하위 그룹이 지정된 경우 특정 그룹의 문자열 반환
    - `start()`, `end()` : 대상 문자열내에서 시작, 끝 idx반환
    - `span()` : 대상 문자열 내에서 시작, 끝 idx를 튜플로 반환

### 3-1-2 match(대상문자열 [, pos=0])
- 대상 문자열의 시작 부터 정규식과 일치하는 것이 있는지 조회
- pos : 시작 idx지정
- 반환값
    - Match 객체 : 일치하는 문자열이 있는 경우
    - None : 일치하는 문자열이 없는 경우

In [None]:
import re

txt = "안녕하세요. 제 나이는 20세 입니다." # 대상문자열
m = re.match(r"안녕하세요", txt) # "안녕하세요"로 사작하냐? txt가 => 결과를 Match 객체로 반환
m1 = re.match(r"나이는", txt) 
print(m)
print(m1) # 일치하는 결과가 겂으면 None 반환
if m1:
    print(m1)
else:
    print("일치하는 결과가 없다.")

### 3-1-3 search(대상문자열 [, pos=0])
- 대상 문자열의 시작 부터 정규식이 일치하는 것이 있는지 조회
- pos : 찾기 시작하는 idx 지정
- 반환값
    - Match 객체 : 일치하는 문자열이 있는 경우
    - None : 일치하는 문자열이 없는 경우     

In [None]:
import re
txt = "가격은 4000원, 2000원, 50000원 입니다."

# m = re.search(r"\d", txt) # re.search(패턴, 대상문자열) \d:정수문자 1개
m = re.search(r"\d+", txt) # \d+ : 정수문자 1개 이상
m = re.search(r"\d{3}", txt) # \d{3} : 정수문자 3개
m = re.search(r"\d{5}", txt) # \d{5} : 정수문자 5개
if m: # 찾은 패턴이 대상에 있는지
    print(m.group())# 패턴과 일치하는 문자열을 조회
    print(m.span())
else:
    pass

### 3-1-4 findall(대상문자열)
- 대상문자열에서 정규식과 매칭되는 문자열들을 **리스트**로 반환
- 반환값
    - 리스트(list) : 일치하는 문자열들을 가진 리스트 반환
    - 일치하는 문자열이 없는 경우 빈 리스트 반환

In [None]:
import re
info ='''김정수 kjs@gmail.com 801023-1010221
박영수 pys@gmail.com 700121-1120212
이민영 lmy@naver.com 820301-2020122
김순희 ksh@daum.net 781223-2012212
오주연 ojy@daum.net 900522-1023218
'''

# 이메일 주소만 조회
email_lst = re.findall(r"\w+@\w+\.\w{2,4}", info)
print(email_lst)

# 주민번호만 출력
jumin_lst = re.findall(r"\d{6}\-\d{7}", info)
jumin_lst = re.findall(r"\d{6}\-[12349]\d{6}", info)

print(jumin_lst)

## 3-2 문자열 변경(원래의 문자열은 바뀌지 않는다.)
- `sub()` : 변경된 문자열 반환
- `subn()` : 변경된 문자열, 변경개수 반환

### 3-2-1 sub(바꿀문자열, 대상 문자열 [, count=양수])
    - 대상문자열에서 패턴과 일치하는 것을 바꿀 문자열로 변경
    - count : 변경할 개수를 지정. (기본: 매칭되는 문자열은 다 변경)
    - 반환값 : 변경된 문자열

In [None]:
# 띄여 쓰기 여러개를 한개로 변경.
import re
txt= "오늘            밥을           먹었다." # "오늘 밥을 먹었다."
txt = """오늘은      월요일     입니다.
내일은      화요일           입니다."""
# \s => 공백 문자열 1개
new_txt = re.sub(r"\s+", " ", txt) # sub(패턴, 바꿀문자열, 대상문자열)
print(new_txt)
print(txt)

In [None]:
# 전화번호에서 사용된 구분자를 제거. 각 전화번호를 구분하는 공백은 남긴다.
tel = '010-1111-2222, 01033213201 (010)3213-3031'
new_tel = re.sub(r"[-()]", " ", tel)
new_tel = re.sub(r"\D+", " ", tel)
new_tel = re.sub(r"[^0-9]", " ", tel)
print(new_tel)

### 3-2-2 subn(바꿀문자열, 대상문자열 [, count=양수])
- sub()와 동일한 역할
- 반환값 : (변경된 문자열, 변경된 문자열개수)를 튜플로 반환

## 3-3 나누기 (토큰화)

### 3-3-1 split(대상문자열)
- pattern을 구분자로 문장을 나눈다.
- 반환 : 나눈 문자열을 원소로 하는 리스트

## 4. 그룹핑(Grouping)
- 패턴 내에서 하위패턴을 만드는 것
    - 전체 패턴에서 일부 패턴을 묶어준다.

### 4-1 전체 패턴 내에서 일부 패턴 조회
- 전체 패턴과 일치하는 문자열을 찾은 뒤 안에서 하위패턴과 일치하는 문자열 조회

In [2]:
# 중첩 그룹
import re
tel = '010-1111-2345'
pattern = r"(\d{2,3})-((\d{3,4})-(\d{4}))"
m = re.search(pattern, tel)
print(m.group())
print(m.group(1))
print(m.group(2))
print(m.group(3))
print(m.group(4))
print(m.group(3)+"-"+m.group(4))
# 0 : 전체
# 1 : (\d{2,3})
# 2 : ((\d{3,4})-(\d{4}))
# 3 : (\d{3,4})
# 4 : (\d{4})

010-1111-2345
010
1111-2345
1111
2345
1111-2345


### 4-2 패턴 내에서 하위그룹 참조
- `\번호`
- 지정한 '번호'번째 패턴으로 매칭된 문자열과 같은 문자열 의미

In [None]:
import re
tel = """010-1111-1111
010-2222-3333
010-3333-3333
010-5555-6666"""
# 가운데와 끝 번호가 같은 전화번호를 찾기
pattern = r"(\d{2,3})-(\d{3,4})-(\2)" # \2 => 2번 소그룹의 패턴으로 찾은 문자열과 동일한 문자열

# pattern = r"\d{2,3}-(\d{3,4})-\1"

l = re.findall(pattern, tel) # ( ) 묶인 소그룹으로 찾은 값들만 반환

print(l)

####  패턴내의 특정 부분만 변경
- 첫번째 소그룹으로 찾은 부분을 `"\g<1>"`로 표시
- 뒤에 원하는거 추가 ㄱㄱ
-  ex)
```python
pattern = r"(\d{6}-[0-4])\d{6}"
new_info = re.sub(pattern, "\g<1>######", info)
print(new_info)
```

#### group으로 묶인 것 참조
- Match객체에서 특정 그룹으로 찾은 문자열 조회
    - match객체.group(괄호idx)
- 패턴안에서 group을 참조
    - `\괄호index` ex)\\2
- sub() 함수에서 대체 문자로 그룹을 참조
    - `"\g<괄호index>` ex) \\g\<n\>

## 5. Greedy 와 Non-Greedy
- Greedy(탐욕스러운-최대일치) 의 의미
    - 주어진 패턴에 만족하는 문자열을 최대한 넓게(길게) 잡아 찾는다.
    - 매칭시 기본 방식
- Non-Greedy(최소일치)
    - 주어진 패턴에 만족하는 문자열을 최초의 일치하는 위치까지 찾는다
    - 개수를 나타내는 메타문자에 **`?`**를 붙인다.
    - `*?`, `+?`, `{m,n}?`

In [4]:
import re
txt = '<h1>파이썬 정규식<h2>정규식이란</h2></h1>'
pattern = r"<.+?>" #<한글자이상> . => 모든 한글자, + => 한글자 이상
result = re.findall(pattern, txt)
print(result, len(result))

['<h1>', '<h2>', '</h2>', '</h1>'] 4
