# <font size=50>정규 표현식 (Regular Expression)</font>

# 1. 정규 표현식(Regular Expression) 개요

## 1.1. 정규 표현식이란
- 텍스트에서 특정한 형태나 규칙을 가지는 문자열을 찾기 위해 그 형태나 규칙을 정의하는 것.
- 파이썬 뿐만 아니라 문자열을 다루는 모든 곳에서 사용된다.
- **정규식, Regexp**이라고도 한다.

## 1.2. 기본개념
- 패턴 
    - 정규 표현식이라고 한다.
    - 문장내에서 찾기위한 문구의 형태에 대한 표현식.
- 메타문자
    - 패턴을 기술하기 위해 사용되는 특별한 의미를 가지는 문자
    - 예) `a*` : a가 0회 이상 반복을 뜻한다. a, aa, aaaa
- 리터럴
    - 표현식이 값 자체를 의미하는 것
    - 예) `a`는 `a` 자체를 의미한다.    

# 2. 정규 표현식 메타 문자
- 패턴을 기술하기 위한 문자

## 2.1 문자 클래스 :  [  ]
- `[ ]` 사이의 문자들과 매칭
    - `[abc]` : a, b, c 중 **하나의 문자**와 매치
- `-`를 이용해 범위로 설정할 수 있다.
    - `[a-z]` : 알파벳소문자중 하나의 문자와 매치
    - `[a-zA-Z0-9]` : 알파벳대소문자와 숫자 중 하나의 문자와 매치
- `[^ 패턴]` : ^ 으로 시작하는 경우 반대의 의미
    - `[^abc]` : a, b, c를 제외한 나머지 문자들 중 하나와 매치.
    - `[^a-z]` : 알파벳 소문자를 제외한 나머지 문자들 중 하나와 매치

## 2.2 미리 정의된 문자 클래스
- 자주 사용되는 문자클래스를 미리 정의된 별도 표기법으로 제공한다.
- `\d` : 숫자와 매치. [0-9]와 동일
- `\D` : `\d`의 반대. 숫자가 아닌 문자와 매치.  [^0-9]와 동일
- `\w` : 문자와 숫자, _(underscore)와 매치. `[a-zA-Z0-9_]`와 동일
- `\W` : `\w`의 반대. 문자와 숫자와 _ 가 아닌 문자와 매치.  `[^a-zA-Z0-9_]`와 동일
- `\s` : 공백문자와 매치. tab,줄바꿈,공백문자와 일치
- `\S` : `\s`와 반대. 공백을 제외한 문자열과 매치.
- `\b` : 단어 경계(word boundary) 표시. 보통 단어 경계로 공백을 의미
    - `\b가족\b` => 우리 가족 만세(O), 우리가족만세 (X)
- `\B` : `\b`의 반대. 단어 경계로 구분된 단어가 아닌 경우
    - `\B가족\B` => 우리 가족 만세(X), 우리가족만세 (O)

## 2.3. 글자수와 관련된 메타문자
- `.` : 한개의 모든 문자(\n-줄바꿈 제외) (`a.b`)
- `*` : 앞의 문자(패턴)과 일치하는 문자가 0개 이상인 경우. (`a*b`)
- `+` : 앞의 문자(패턴)과 일치하는 문자가 1개이상인 경우.  (`a+b`)
- `?` :  앞의 문자(패턴)과 일치하는 문자가 한개 있거나 없는 경우. (`a?b`)
- `{m}` : 앞의 문자(패턴)가 m개. (`a{3}b`)
- `{m,}` : 앞의 문자(패턴)이 m개 이상. (`a{3,}b`)
    - , 뒤에 공백이 들어오지 않도록 한다.
- `{m,n}` : 앞의 문자(패턴)이 m개이상 n개 이하. (`a{2,5}b`)    
- `.`, `*`, `+`, `?` 를 리터럴로 표현할 경우 `\`를 붙인다.

## 2.4. 문장의 시작과 끝 표현
- `^` 문자열의 시작 (`^abc`)
    - 문자 클래스([ ])의 ^와는 의미가 다르다.
- `$` : 문자열의 끝 (`abc$`)

## 2.5. 기타
- `|` : 둘중 하나 (OR) (010|011|016|019)
    - ( )로 묶어서 사용한다. 
    - 010|016-111 : 010 또는 016-111 이 된다. 
- `(  )` : 패턴내 하위그룹을 만들때 사용

# 3. re 모듈
- 파이썬에서 정규 표현식을 지원하기 위한 모듈
- 파이썬 기본 라이브러리

## 3.1 코딩패턴
1. 모듈 import
    - import re
2. 패턴 객체 생성
    - 패턴 컴파일
    - 패턴을 가지고 있는 객체 생성
3. 텍스트에서 패턴 문자열 검색또는 변경 작업

> ### raw string
> - 패턴을 지정하는 문자열 앞에 r 표시구분자를 붙인 것을 말한다.
> - `\`를 일반문자로 처리
>    - `re.compile('\b가족\b')` : `\b`를 escape 문자 b(백스페이스)로 인식
>    - `re.compile(r'\b가족\b')` : `\b`가 일반문자가 되어 컴파일시 정규식 메타문자로 처리된다.


> ### 정규식 관련 함수 구문의 두 형태
1. pattern객체.함수(매개변수)
    ```python
        p = re.compile(r'\d+')
        p.search('abc123def')
    ```
2. re.정규식사용함수(패턴, 매개변수)
    ```python
        re.search(r'\d+', 'abc123def')
    ```

## 3.2. 검색함수
- match(), search() : 패턴과 일치하는 문장이 **있는지 여부**를 확인할 때 사용
- findall() : 패턴과 일치하는 문장을 **찾을 때** 사용

### 3.2.1. Match 객체
- **검색 결과를** 담아 반환되는 객체
    - match(), search() 의 반환타
- 패턴과 일치한 문자열과 대상문자열 내에서의 위치를 가지고 있는 객체
- 주요 메소드
    - **group()** : 매치된 문자열들을 튜플로 반환
    - **group(subgroup 번호)** : 패턴에 하위그룹이 지정된 경우 특정 그룹의 문자열 반환
    - **start(), end()** : 대상 문자열내에서 시작, 끝 index 반환
    - **span()** : 대상 문자열 내에서 시작, 끝 index를 tuple로 반환

### 3.2.2 match(대상문자열 [, pos=0])
- 대상 문자열의 시작 부터 정규식과 일치하는 것이 있는지 조회
- pos : 시작 index 지정
- 반환값
    - Match 객체: 일치하는 문자열이 있는 경우
    - None: 일치하는 문자열이 없는 경우

In [None]:
txt = "안녕하세요. 제 나이는 20세 입니다."




### 3.2.3 search(대상문자열 [, pos=0])
- 대상문자열 전체 안에서 정규식과 일치하는 것이 있는지 조회
- pos: 찾기 시작하는 index 지정
- 반환값
    - Match 객체: 일치하는 문자열이 있는 경우
    - None: 일치하는 문자열이 없는 경우|

In [None]:
txt = "안녕하세요. 제 나이는 20세 입니다."




### 3.2.4. findall(대상문자열)
- 대상문자열에서 정규식과 매칭되는 문자열들을 리스트로 반환
- 반환값
    - 리스트(List) : 일치하는 문자열들을 가진 리스트를 반환
    - 일치하는 문자열이 없는 경우 빈 리스트 반환

In [None]:
txt = 'Life is short. You need python.'



### 예제
- info 변수는 한줄에 한사람의 data가 있고 구성은 **`이름 이메일주소 주민번호`** 순서로 되어있다.

In [None]:
info ='''김정수 kjs@gmail.com 801023-1010221
박영수 pys@gmail.com 700121-1120212
이민영 lmy@naver.com 820301-2020122
김순희 ksh@daum.net 781223-2012212
오주연 ojy@daum.net 900522-1023218
'''

In [None]:
# 이메일 주소만 조회


In [None]:
# 주민번호만 출력


## 3.3. 문자열 변경
- sub(): 변경된 문자열 반환
- subn(): 변경된 문자열, 변경개수 반환

### 3.3.1 sub(바꿀문자열, 대상문자열 [, count=양수])
- 대상문자열에서 패턴과 일치하는 것을 바꿀문자열로 변경한다.
- count: 변경할 개수를 지정. 기본: 매칭되는 문자열은 다 변경
- 반환값: 변경된 문자열

### 3.3.2 subn(바꿀문자열, 대상문자열 [, count=양수])
- sub()와 동일한 역할.
- 반환값 : (변경된 문자열, 변경된문자열개수) 를 tuple로 반환

### 예제 

In [None]:
# 띄여 쓰기 여러개를 한개로 변경.
txt= "오늘            밥을           먹었다." # "오늘 밥을 먹었다."



In [None]:
# 전화번호에서 사용된 구분자를 제거. 각 전화번호를 구분하는 공백은 남긴다.
tel = '010-1111-2222, 01033213201 (010)3213-3031'



## 3.4 나누기(토큰화)
### 3.4.1 split(대상문자열)
- pattern을 구분자로 문장을 나눈다.
- 반환: 나눈 문자열을 원소로 하는 리스트

In [None]:
txt = 'A.B|C.D,E:F'

# 4. 그룹핑(Grouping)
- 패턴 내에서 하위패턴을 만드는 것.
    - 전체 패턴에서 일부 패턴을 묶어준다.
- 구문: (패턴)

## 4.1. 그룹핑 예

### 4.1.1 전체 패턴 내에서 일부 패턴을 조회

In [None]:
# 전화번호에서 국번만 조회하려는 경우
tel = '010-1111-2345'



In [None]:
# 중첩 그룹
num = '010-1111-2345-9999'


### 4.1.2 패턴 내에서 하위그룹 참조
- `\번호`
- 지정한 '번호' 번째 패턴으로 매칭된 문자열과 같은 문자열을 의미

# 5. Greedy 와 Non-Greedy
- Greedy(탐욕스러운-최대일치) 의 의미
    - 주어진 패턴에 만족하는 문자열을 최대한 넓게(길게) 잡아 찾는다.
    - 매칭시 기본 방식
- Non-Greedy(최소일치)
    - 주어진 패턴에 만족하는 문자열을 최초의 일치하는 위치까지 찾는다
    - 개수를 나타내는 메타문자에 **`?`**를 붙인다.
    - `*?`, `+?`, `{m,n}?`

In [None]:
txt = '<h1>파이썬 정규식<h2>정규식이란</h2></h1>'

