# 정규표현식

> ##### 정규표현식의 의미
정규표현식(Regular Expression) 
- 문자열을 처리하는 방법 중의 하나.
- 특정한 조건의 문자를 '검색'하거나 '치환'하는 과정을 매우 간편하게 처리할 수 있도록 하는 수단.

>##### 정규표현식의 특징
- 대소문자를 구분함
- 띄어쓰기 수를 구분함

>##### 정규표현식의 패턴
기본 패턴
- ^(캐럿)
    - 시작하는 문자열 찾기.
    - ```^W: 'W'로 시작하는 문자열 찾기```
- $(달러)
    - 끝나는 문자열 찾기.
    - ```\$: 'W'로 끝나는 문자열 찾기```
- .(애니)
    - 문자 or 숫자 or 공백 하나.
    - ```...: 문자열 길이가 3글자 이상인 것을 찾기```
- '[]'(브라켓)
    - [] 안에 있는 문자열 찾기.
    - ```[dH]: 'd+문자(.)' or 'H+문자(.)' 문자열 찾기```
- -(레인지)
    - 해당하는 범위의 문자열 찾기.
    - ```A-C: 'A'부터 'C'까지```
- [^<문자>] (부정)
    - 괄호 안의 문자를 포함하지 않는 문자열 찾기.
    -  ```[^ABC]: 'A' or 'B' or 'C'를 제외한 문자열 찾기```

서브 패턴
- |(or)
    - 또는
    - ```on|yes|day: 'on' or 'yes' or 'day' 문자열 찾기```

수량자(Quantifiers): 어떠한 패턴이 얼마큼 등장하는가
- '*'
    - 0개 이상 나타나는 문자.
    - ```a*b: 'a'가 앞에 있을 수도 있고 여러 개 있을 수도 있고 'b'도 뒤에 있을 수도 있고 여러 개 있을 수도 있음. 'aab', 'ab', 'b' 모두 가능```
- '+'
    - 1개 이상 나타나는 문자.
    - ```a+b: 'a'가 한 개 이상, 'b'도 한 개 이상 있어야 함.``
- ?
    - 없거나 1개인 경우.
    - ```a?b: 'a'가 없거나 한 개, 'b'가 없거나 한개```
- {m, n}
    - m회 이상, n회 이하 나타나는 문자
    - ```[els]{1,3}: 'e' or 'l' or 's'가 1개 이상 3개 이하```

패턴의 활용
- 수량자의 최소 단위
    - '*' 수량자의 최소 단위: '0'
    - '?' 수량자의 최소 단위: '0'
    - '+' 수량자의 최소 단위: '1'
- 수량자 뒤에 ?가 오면 각 수량자의 최소 단위를 뜻함.
    - ```r.*?: 오직 r만 나타냄```
    - ```r.??: 오직 'r'만 나타냄```
    - ```r.+?: 'r'과 'r' 다음에 나오는 문자 하나```
    
수량자 종류
- 대상: ```<div>test</div><div>test2</div>```
- 탐욕적인 수량자(Greedy Quantifiers)
    - 수량자 선택 ```<div>.+<div>```    
        - 'test'와 'test2'를 따로 선택하고 싶어도 위와 같이 수량자를 선택하면 ```<div>test</div><div>test2</div>``` 전체가 한 개로 선택됨.
        - 처음 만족하는 부분부터 마지막 만족하는 부분까지 모두 선택. 
- 게으른 수량자(Lazy Quantifiers)
    - 수량자 선택 ```<div>.+?</div>```
        - 만족하는 부분만 선택하게 됨.
        - 만족하는 부분이 여러 개라면 여러 개 선택됨.      

경계
- '[]'로 범위를 지정하는 것보다 간편한 방법.
- 종류
    - '\w': 'w' = 문자, 숫자, 공백을 의미.
    - '\w*': 0 이상의 문자, 숫자, 공백을 의미.
    - '\W': 문자, 숫자, 공백을 제외한 것 의미(w의 반대).
    - '\d': 숫자를 의미.
    - '\D': 숫자를 제외한 모든 것을 의믜(d의 반대).

Assertions
- '\w*(?=X): '?='은 뒤에 오는 문자로 검색해서 문자를 찾지만 선택에서는 제외하라는 뜻.

> ##### 이스케이프(Escape)
정규표현식 패턴이 아닌 문자로 사용하고 싶을 때는 앞에 '\'(역슬래시)를 앞에 붙이면 된다.

# 정규표현식(Regular Expressions)

## 정규표현식이란?
특정한 규칙을 가진 문자열의 집합을 표현하는 데 사용하는 형식 언어.
- 복잡한 문자열의 검색과 치환을 위해 사용됨.
- Python 뿐만 아니라 문자열을 처리하는 모든 곳에서 사용됨.

## 메타 문자(Meta characers)
문자가 가진 원래의 의미가 아닌 특별한 용도로 사용되는 문자.
- 종류
    - ```. ^ $ * + ? \ | ( ) { } [ ]```

### [] 문자 클래스
정규표현식에서 대괄호 [] 는 대괄호 안에 포함된 문자들 중 하나와 매치를 뜻함.
> ##### abc 중 하나와 매치.
- ```[abc]```
    - ```a```: a와 매치.
    - ```boy```: b와 매치.
    - ```dye```: a, b, c 중 어느 문자와도 매치되지 않음.
> ##### [] 안의 두 문자에 - 를 사용하면 두 문자 사이의 범위를 뜻함.
- ```[a-c]```: [abc]와 같음.
- ```[0-5]```: [012345]와 같음.
- ```[a-zA-Z]```: 모든 알파벳.
- ```[0-9]```: 숫자.
> ##### [] 안에서 ^는 반대를 뜻함.
- ```[^0-9]```: 숫자를 제외한 문자만 매치.
- ```[^abc]```: a, b, c를 제외한 모든 문자와 매치.
> ##### [] 안에서 .을 사용할 경우 문자 원래의 의미인 마침표를 뜻함.
- ```a[.]b```
    - ```a.b```: a와 b 사이에 마침표가 있으므로 매치됨.
    - ```a0b```: a와 b 사이에 마침표가 없으므로 매치되지 않음.

### 자주 사용하는 문자 클래스
- ```\d```: 숫자 [0-9]와 같음.
- ```\D```: 숫자가 아닌 것 [^0-9]와 같음.
- ```\w```: 숫자 + 문자 [a-zA-Z0-9]와 같음.
- ```\W```: 숫자 + 문자가 아닌 것 [^a-zA-Z0-9]와 같음.
- ```\s```: 공백 [ \t\n\r\f\v]와 같음.
- ```\S```: 공백이 아닌 것 [^ \t\n\r\f\v]와 같음.
- ```\b```: 단어 경계 \w와 \W의 경계와 같음.
- ```\B```: 단어가 아닌 것의 경계와 같음.

### . 문자 클래스
줄바꿈 문자인 \n을 제외한 모든 문자와 매치됨.
- ```a.b```: a + 모든 문자 b를 뜻함.
    - ```aab```: a와 b 사이의 a는 모든 몬자에 포함되므로 매치됨.
    - ```a0b```: a와 b 사이의 0은 모든 문자에 포함되므로 매치됨.
    -  ```abc```: a와 b 사이에 문자가 없기 때문에 매치되지 않음.

### * 문자 클래스
'*' 앞에 오는 문자가 0개를 포함하여 몇 개가 오든 모두 매치됨.
- ```lo*l```
    - ```ll```: 매치됨.
    - ```lol```: 매치됨.
    - ```looool```: 매치됨.
    - ```looooooooooooooooooooooool```: 매치됨.
    - ```lbl```: 매치되지 않음.
    - ```loooooooooooobooooooooooool```: 매치되지 않음.

### + 문자 클래스
'+' 앞에 있는 문자가 최소 한 번 이상 반복되어야 매치됨.
- ```lo+l```
    - ```ll```: 매치되지 않음.
    - ```lol```: 매치됨.
    - ```looooool```: 매치됨.

### ? 문자 클래스
? 앞에 있는 문자가 없거나 하나 있을 때 매치됨.
- ```lo?l```
    - ```ll```: 매치됨.
    - ```lol```: 매치됨.
    - ```lool```: 매치되지 않음.

### {} 문자 클래스
> ##### {m, n}의 형태
앞에 있는 문자가 m번에서 n번까지 반복될 때 매치됨.
- ```lo{3, 5}l```
    - ```ll```: 매치되지 않음.
    - ```lol```: 매치되지 않음.
    - ```loool```: 매치됨.
    - ```loooool``: 매치됨.
    - ```looooool```: 매치되지 않음.
> ##### {m}의 형태
반드시 m번 반복인 경우만 매치됨.
> ##### {0, }의 형태
*와 동일함.
> ##### {1, }의 형태
+와 동일함.
>##### {0, 1}의 형태
?와 동일함.

### | 문자 클래스
여러 개의 정규표현식들을 |로 구분하면 or의 의미가 적용되어, 정규표현식들 중 어느 하나와 매치됨.
- ```a|b|c```
    - ```a```: 매치됨.
    - ```b```: 매치됨.
    - ```c```: 매치됨.
    - ```a b```: 매치됨.
    - ```a b c```: 매치됨.
    - ```d```: 매치되지 않음.

### ^ 문자 클래스
문자열이 ^ 뒤에 있는 문자로 시작되면 매치됨.
- 여러 줄의 문자일 경우 첫 줄만 적용됨.
- 단 re.MULTILINE 옵션이 적용되면 각 줄의 첫 문자를 검사하여 매치됨.
- ```^a```
    - ```a```: 매치됨.
    - ```aaa```: 매치됨.
    - ```baaa```: 매치되지 않음.
    - ```1aaa```: 매치되지 않음.

### $ 문자 클래스
문자열이 $ 앞에 있는 문자로 끝나면 매치됨.
- 여러 줄의 문자열일 경우 마지막 줄만 적용됨.
- 단, re.MULTILINE 옵션이 적용되면 각 줄의 마지막 문자를 검사하여 매치됨.
- ```a$```
    - ```a```: 매치됨.
    - ```aa```: 매치됨.
    - ```baa```: 매치됨.
    - ```aabb```: 매치되지 않음.

### \A, \Z 문자 클래스
> ##### \A
^와 동일하지만 re.MULTILINE 옵션을 무시하고 항상 문자열 첫 줄의 시작 문자를 검사함.

> ##### \Z
$와 동일하지만 re.MULTILINE 옵션을 무시하고 항상 문자열 마지막 줄의 끝 문자를 검사함.

### 조건이 있는 표현식
> ##### 표현식1(?=표현식2)
표현식1 뒤의 문자열이 표현식2와 매치되면 표현식1과 매치됨.
- ```hello(?=world)```: hello 뒤에 world가 있으면 hello가 매치됨.
    - ```helloworld```: hello 뒤에 world가 있기 때문에 hello가 매치됨.
    - ```byeworld```: hello가 없기 때문에 매치되지 않음.
    - ```helloJames```: hello 뒤에 world가 없기 때문에 매치되지 않음.

> ##### 표현식1(?!표현식2)
표현식1 뒤의 문자열이 표현식2와 매치되지 않으면 표현식1과 매치됨.
- ```hello(?!world)```
    - ```helloword```: hello 뒤에 world가 있기 때문에 매치되지 않음.
    - ```byeworld```: hello가 없기 때문에 매치되지 않음.
    - ```helloJames```: hello 뒤에 world가 없기 때문에 hello가 매치되지 않음.

> ##### (?<=표현식1)표현식2
표현식2 앞의 문자열이 표현식1과 매치되면 표현식2가 매치됨.
- ```(?<=hello)world```
    - `helloworld`: world 앞에 hello가 있기 때문에 world가 매치됨.
    - ```byeworld```: world 앞에 hello가 없기 때문에 매치되지 않음.
    - ```helloJames```: world가 없기 때문에 매치되지 않음.

> ##### (<!표현식1)표현식2
표현시2 앞의 문자열이 표현식1과 매치되지 않으면 표현식2가 매치됨.
- ```(?<!hello)world```
    - ```helloworld```: world 앞에 hello가 있기 때문에 매치되지 않음.
    - ```byeworld```: world 앞에 hello가 없기 때문에 world가 매치됨.
    - ```helloJames```: world가 없기 때문에 매치되지 않음.