# <font size=50>정규 표현식 (Regular Expression)</font>

# 정규 표현식(Regular Expression, Regex) 개요

## 정규 표현식이란
- 정규표현식은 특정한 패턴을 가진 문자열을 검색, 추출, 또는 수정하기 위해 사용되는 기법이다.
- 파이썬 뿐만 아니라 문자열을 다루는 모든 곳에서 사용된다.

## 주요 용도

- **문자열 검색**: 특정 패턴에 맞는 문자열을 찾는다.
- **문자열 변경**: 패턴에 맞는 부분 문자열을 다른 문자열로 변경하거나 삭제한다.
- **문자열 유효성 검사**: 이메일 주소, 전화번호와 같이 특정 형식을 확인하여 유효성을 검사합니다.

## 정규표현식 구성 요소
- **패턴** 
    - 찾으려는 문자열의 규칙을 정의한 표현식을 패턴이라고 한다.
    - 정규표현식 패턴은 메타문자와 리터럴로 구성된다.
- **메타문자**
    - 패턴에서 특정 규칙이나 조건을 기술하기 위해 사용되는 특별한 의미를 가지는 문자.
    - 예) `a*` : a가 0회 이상 반복을 뜻한다. a, aa, aaaa
- **리터럴**
    - 문자나 문자열을 패턴 내에서 그 자체로 사용하는 것을 말한다. 
    - 예) `a`는 `a` 자체를 의미한다.    

# 정규 표현식 메타 문자

## 문자 클래스 :  [  ]
- `[ ]` 사이의 문자들과 매칭
    - `[abc]` : a, b, c 중 **하나의 문자**와 매치
- `-`를 이용해 범위로 설정할 수 있다.
    - `[a-z]` : 알파벳소문자중 하나의 문자와 매치
    - `[a-zA-Z0-9]` : 알파벳대소문자와 숫자 중 하나의 문자와 매치
    - `[가-힣ㄱ-ㅎㅏ-ㅣ]`: 한글중 하나와 매치
- `[^ 패턴]` : ^ 으로 시작하는 경우 반대의 의미. 와서 안되는 패턴을 의미
    - `[^abc]` : a, b, c를 제외한 나머지 문자들 중 하나와 매치.
    - `[^a-z]` : 알파벳 소문자를 제외한 나머지 문자들 중 하나와 매치

## 미리 정의된 문자 클래스
- 자주 사용되는 문자클래스를 미리 정의된 별도 표기법으로 제공한다.
- `\d` : 숫자와 매치. [0-9]와 동일
- `\D` : `\d`의 반대. 숫자가 아닌 문자와 매치.  [^0-9]와 동일
- `\w` : 문자와 숫자, _(underscore)와 매치. `[a-zA-Z가-힣0-9_]`와 동일  (문자는 특수문자 제외한 일반문자-언어상관없는-들을 말한다.
- `\W` : `\w`의 반대. 문자와 숫자와 _ 가 아닌 문자와 매치.  `[^a-zA-Z가-힣0-9_]`와 동일
- `\s` : 공백문자와 매치. tab,줄바꿈,공백문자와 일치
- `\S` : `\s`와 반대. 공백을 제외한 문자열과 매치.
- `\b` : 단어 경계(word boundary) 표시. \b가 매칭하는 경계문자로 공백, `,`, `.`, `\n` 이 있다.
    - \b는 문자 자체와 매칭하지 않고 경계만 확인한다. 단어의 시작과 단어의 끝을 찾는 데 유용하다.
    - `\bcat\b`는 "cat"이라는 단어가 정확히 존재하는 경우만 매칭한다. 그래서 "**cat**egory"나 "con**cat**enate" 같은 단어에는 매칭되지 않고 "The cat is" 에서 cat 에만 매칭된다.
- `\B` : `\b`의 반대. 단어 경계로 구분된 단어가 아닌 경우
    - `\B가족\B` => 우리 가족 만세(X), 우리가족만세 (O)

## 글자수와 관련된 메타문자
- `*` : 앞의 문자(패턴)과 일치하는 문자가 0개 이상인 경우. (`a*b`)
- `+` : 앞의 문자(패턴)과 일치하는 문자가 1개이상인 경우.  (`a+b`)
- `?` :  앞의 문자(패턴)과 일치하는 문자가 한개 있거나 없는 경우. (`a?b`)
- `{m}` : 앞의 문자(패턴)가 m개. (`a{3}b`)
- `{m,}` : 앞의 문자(패턴)이 m개 이상. (`a{3,}b`)
    - , 뒤에 공백이 들어오지 않도록 한다.
- `{m,n}` : 앞의 문자(패턴)이 m개이상 n개 이하. (`a{2,5}b`)    
- `.`, `*`, `+`, `?` 등 메타문자들을 리터럴로 표현할 경우 `\`를 붙인다.

## 문장의 시작과 끝 표현
- `^` 문자열의 시작 (`^abc`)
    - 문자 클래스([ ])의 ^와는 의미가 다르다.
- `$` : 문자열의 끝 (`abc$`)

## 기타
- `.` : 한개의 모든 문자(\n-줄바꿈 제외) (`a.b`)
- `|` : 둘중 하나(OR) (?:010|011|016|019)
    - 010|016-111 : 010 또는 016-111 이 된다. 
- `(  )` : 패턴내 하위그룹을 만들때 사용

# 파이썬에서 정규표현식 사용하기
- 표준 모듈 `re` 를 사용한다.
    - re는 정규표현식을 전용 모듈이고 다양한 패키지들이 내부적으로 정규표현식을 사용한다.
- 파이썬에서 정규 표현식을 지원하기 위한 모듈
- 파이썬 기본 라이브러리

## 코딩 방식

1. 객체지향형
    - 패턴 객체를 생성후 메소드를 호출해 원하는 처리를 한다.
     ```python
        p = re.compile(r'\d+')
        p.search('abc123def')
    ```
2. 함수형
    - `re` 모듈의 원하는 작업을 하는 함수를 호출한다. Argument로 패턴과 처리할 값을 전달한다.
    ```python
        re.search(r'\d+', 'abc123def')
    ```
    
> ### raw string
> - 파이썬은 문자열에 `\` 가 있으면 우선적으로 escape 문자로 처리한다. 그런데 메타문자 중 "미리 정의된 문자클래스" 들은 다 `\`로 시작한다.  그래서 이들을 사용할 경우 `escape` 문자와의 구분을 위해 `\\` 두개씩 작성해야한다.  이를 피하기 위해 패턴을 작성할 때는 raw string을 사용하는 것이 편리하다.
>    - `re.compile('\b가족\b')` : `\b`를 escape 문자 b(백스페이스)로 인식
>    - `re.compile(r'\b가족\b')` : `\b`가 일반문자가 되어 컴파일시 정규식 메타문자로 처리된다.


## 검색함수
- match(), search() : 패턴과 일치하는 문장이 **있는지 여부**를 확인할 때 사용
- findall(), finditer(s) : 패턴과 일치하는 문장을 **찾을 때** 사용

### Match class
- **검색 결과를** 담는 class
    - match(), search() 의 반환타입으로 검색결과를 담는다.
- 패턴과 일치한 문자열과 그 문자열의 위치를 가진다.
- 주요 메소드
    - **group()** : 매치된 문자열들을 튜플로 반환
    - **group(subgroup 번호)** : 패턴에 하위그룹이 지정된 경우 특정 그룹의 문자열 반환
    - **start(), end()** : 대상 문자열내에서 시작, 끝 index 반환
    - **span()** : 대상 문자열 내에서 시작, 끝 index를 tuple로 반환

### match(대상문자열 [, pos=0])
- 대상 문자열의 시작이 정규식과 일치하는지를 조회.
- pos : 시작 index 지정
- 반환값
    - Match 객체: 일치하는 문자열이 있는 경우
    - None: 일치하는 문자열이 없는 경우

### search(대상문자열 [, pos=0])
- 대상문자열 전체 안에서 정규식과 일치하는 것이 있는지 조회
- pos: 찾기 시작하는 index 지정
- 반환값
    - Match 객체: 일치하는 문자열이 있는 경우
    - None: 일치하는 문자열이 없는 경우|

### findall(대상문자열)
- 대상문자열에서 정규식과 매칭되는 문자열들을 리스트로 반환
- 반환값
    - 리스트(List) : 일치하는 문자열들을 가진 리스트를 반환
    - 일치하는 패턴이 없을 경우 빈 리스트를 반환한다.
    
### finditer(대상문자열)
- 대상문자열에서 정규식과 매칭되는 결과들을 조회할 수있는 Iterator를 반환한다.
- 반환값
    - callable_iterator
    - 일치하는 패턴이 없어도 iterator객체는 반환되는데 next()시 StopIteration Exception발생한다.

### TODO
- info 변수는 한줄에 한사람의 data가 있고 구성은 **`이름 이메일주소 주민번호`** 순서로 되어있다.

In [91]:
info ='''김정수 kjs@gmail.com 801023-1010221
박영수 pys.abc@gmail.com 700121-1120212
이민영 lmy-abc@naver.com 820301-2020122
김순희 ksh@daum.net 781223-2012212
오주연 ojy@daum.net 900522-1023218
'''

In [None]:
# 주민번호들만 조회해서 출력


In [None]:
# Email 주소만 추출 해서 출력


## 문자열 변경
- sub(): 변경된 문자열 반환
- subn(): 변경된 문자열, 변경개수 반환

### sub(바꿀문자열, 대상문자열 [, count=양수])
- 대상문자열에서 패턴과 일치하는 것을 바꿀문자열로 변경한다.
- count: 변경할 개수를 지정. 기본: 매칭되는 문자열은 다 변경
- 반환값: 변경된 문자열

### subn(바꿀문자열, 대상문자열 [, count=양수])
- sub()와 동일한 역할.
- 반환값 : (변경된 문자열, 변경된문자열개수) 를 tuple로 반환

# Grouping - 패턴내 하위 패턴 만들기
- 패턴의 일부를 하나의 그룹으로 묶는 기능으로, 매칭된 패턴의 일부를 재사용하거나, 특정 패턴이 일치하는지 확인할 때 유용.
    - 보통 패턴이 여러개의 하위 패턴(속성)들로 구성되 있고 전체 내용에서 일부 속성들을 매칭 시켜야 할 때 사용한다.
    - 예를 들어, 전화번호는 "지역번호/010-국번-번호" 형식으로 구성된다. 이때 패턴을 만들면서 국번 부분을 그룹화하면, 전화번호를 찾은 후 국번만 쉽게 추출하여 조회할 수 있다.

- 구문: 하위 패턴을 **소괄호**로 묶어준다.
    - `(\d{4})/([01]\d)/([0123]\d)`  
    - (년도)/(월)/(일)

## 그룹핑 예

### 전체 패턴과 매칭된 결과에서 하위 패턴을 조회

### 패턴 안에서 하위 패턴 참조 지정
- `\번호`
- 지정한 '번호' 번째 패턴으로 매칭된 문자열과 같은 문자열을 의미

### 패턴과 매칭된 결과의 일부분만 변경

### group으로 묶인 것 참조(조회)
- **패턴 안에서 참조**
    - `\번호` , `r'(\d{3}) \1'` => 중복되는 것을 패턴으로 표현할 때.
- **match 조회**
    - match객체.group(번호)
- **sub() 함수에서 대체 문자로 참조**
    - `\g<번호>`

# Greedy 와 Non-Greedy(Lazy) Matching
- **Greedy** matching
    - 주어진 패턴에 만족하는 문자열을 최대한 넓게(길게) 잡아 찾는다.
    - 매칭시 기본 방식
- **Non-Greedy(Lazy)** matching
    - 주어진 패턴에 만족하는 문자열을 최초의 일치하는 위치까지 찾는다
    - 개수를 나타내는 메타문자(수량자)에 `?`를 붙인다.
        - `*?`
        - `+?`
        - `{m,n}?`

# 전방/후방 탐색
- 찾을 때는 포함시키지만 조회할 때는 제외시키는 패턴을 정의하는 방법이다. 조회하는 부분이 앞에 정의되면 전방 탐색, 뒤에 정의되면 후방탐색이라고 한다.
    - 이 기능을 통해 문자열 내에서 특정 조건이 충족되는지 확인하면서, 실제 매칭에서는 그 조건을 포함하지 않도록 할 수 있다.
- **전방탐색**
    - 매칭(반환)될 문자열들이 앞에 있는 경우.
    - 긍정 전방탐색
        - %%%(?=패턴) : 괄호안의 패턴이 뒤에 오는 경우를 찾는다. 매칭(반환)는 %%%부분만 한다.
            - `\d(?=abc)`: 숫자 뒤에 abc가 오는 패턴을 찾고 숫자만 매칭한다.
    - 부정 전방탐색
        - %%%(?!패턴)  : 괄호 안의 패턴이 오지 않는 경우를 찾는다. 매칭(반환)은 %%%부분만 한다.
            - - `\d(?!abc)`: 숫자 뒤에 abc가 오지 않는 패턴을 찾고 숫자만 매칭한다.
- **후방탐색**
    - 매칭(반환)될 문자열이 뒤에 있는 경우.
    - 긍정 후방탐색
        - (?<=패턴)%%%
    - 부정 후방탐색
        - (?<!패턴)%%%

In [None]:
info1 = """TV 30000원 30개
컴퓨터 32000원 50개
모니터 15000원 70개"""

In [None]:
info2 = """TV $30000 30개
컴퓨터 $32000 50개
모니터 $15000 70개"""