# 정규표현식

> ##### 정규표현식의 의미
정규표현식(Regular Expression) 
- 문자열을 처리하는 방법 중의 하나.
- 특정한 조건의 문자를 '검색'하거나 '치환'하는 과정을 매우 간편하게 처리할 수 있도록 하는 수단.

>##### 정규표현식의 특징
- 대소문자를 구분함
- 띄어쓰기 수를 구분함

>##### 정규표현식의 패턴
기본 패턴
- ^(캐럿)
    - 시작하는 문자열 찾기.
    - ```^W: 'W'로 시작하는 문자열 찾기```
- $(달러)
    - 끝나는 문자열 찾기.
    - ```\$: 'W'로 끝나는 문자열 찾기```
- .(애니)
    - 문자 or 숫자 or 공백 하나.
    - ```...: 문자열 길이가 3글자 이상인 것을 찾기```
- '[]'(브라켓)
    - [] 안에 있는 문자열 찾기.
    - ```[dH]: 'd+문자(.)' or 'H+문자(.)' 문자열 찾기```
- -(레인지)
    - 해당하는 범위의 문자열 찾기.
    - ```A-C: 'A'부터 'C'까지```
- [^<문자>] (부정)
    - 괄호 안의 문자를 포함하지 않는 문자열 찾기.
    -  ```[^ABC]: 'A' or 'B' or 'C'를 제외한 문자열 찾기```

서브 패턴
- |(or)
    - 또는
    - ```on|yes|day: 'on' or 'yes' or 'day' 문자열 찾기```

수량자(Quantifiers): 어떠한 패턴이 얼마큼 등장하는가
- '*'
    - 0개 이상 나타나는 문자.
    - ```a*b: 'a'가 앞에 있을 수도 있고 여러 개 있을 수도 있고 'b'도 뒤에 있을 수도 있고 여러 개 있을 수도 있음. 'aab', 'ab', 'b' 모두 가능```
- '+'
    - 1개 이상 나타나는 문자.
    - ```a+b: 'a'가 한 개 이상, 'b'도 한 개 이상 있어야 함.``
- ?
    - 없거나 1개인 경우.
    - ```a?b: 'a'가 없거나 한 개, 'b'가 없거나 한개```
- {m, n}
    - m회 이상, n회 이하 나타나는 문자
    - ```[els]{1,3}: 'e' or 'l' or 's'가 1개 이상 3개 이하```

패턴의 활용
- 수량자의 최소 단위
    - '*' 수량자의 최소 단위: '0'
    - '?' 수량자의 최소 단위: '0'
    - '+' 수량자의 최소 단위: '1'
- 수량자 뒤에 ?가 오면 각 수량자의 최소 단위를 뜻함.
    - ```r.*?: 오직 r만 나타냄```
    - ```r.??: 오직 'r'만 나타냄```
    - ```r.+?: 'r'과 'r' 다음에 나오는 문자 하나```
    
수량자 종류
- 대상: ```<div>test</div><div>test2</div>```
- 탐욕적인 수량자(Greedy Quantifiers)
    - 수량자 선택 ```<div>.+<div>```    
        - 'test'와 'test2'를 따로 선택하고 싶어도 위와 같이 수량자를 선택하면 ```<div>test</div><div>test2</div>``` 전체가 한 개로 선택됨.
        - 처음 만족하는 부분부터 마지막 만족하는 부분까지 모두 선택. 
- 게으른 수량자(Lazy Quantifiers)
    - 수량자 선택 ```<div>.+?</div>```
        - 만족하는 부분만 선택하게 됨.
        - 만족하는 부분이 여러 개라면 여러 개 선택됨.      

경계
- '[]'로 범위를 지정하는 것보다 간편한 방법.
- 종류
    - '\w': 'w' = 문자, 숫자, 공백을 의미.
    - '\w*': 0 이상의 문자, 숫자, 공백을 의미.
    - '\W': 문자, 숫자, 공백을 제외한 것 의미(w의 반대).
    - '\d': 숫자를 의미.
    - '\D': 숫자를 제외한 모든 것을 의믜(d의 반대).

Assertions
- '\w*(?=X): '?='은 뒤에 오는 문자로 검색해서 문자를 찾지만 선택에서는 제외하라는 뜻.

> ##### 이스케이프(Escape)
정규표현식 패턴이 아닌 문자로 사용하고 싶을 때는 앞에 '\'(역슬래시)를 앞에 붙이면 된다.

# 정규표현식(Regular Expressions)

## 정규표현식이란?
특정한 규칙을 가진 문자열의 집합을 표현하는 데 사용하는 형식 언어.
- 복잡한 문자열의 검색과 치환을 위해 사용됨.
- Python 뿐만 아니라 문자열을 처리하는 모든 곳에서 사용됨.

## 메타 문자(Meta characers)
문자가 가진 원래의 의미가 아닌 특별한 용도로 사용되는 문자.
- 종류
    - ```. ^ $ * + ? \ | ( ) { } [ ]```

### [] 문자 클래스
정규표현식에서 대괄호 [] 는 대괄호 안에 포함된 문자들 중 하나와 매치를 뜻함.
> ##### abc 중 하나와 매치.
- ```[abc]```
    - ```a```: a와 매치.
    - ```boy```: b와 매치.
    - ```dye```: a, b, c 중 어느 문자와도 매치되지 않음.
> ##### [] 안의 두 문자에 - 를 사용하면 두 문자 사이의 범위를 뜻함.
- ```[a-c]```: [abc]와 같음.
- ```[0-5]```: [012345]와 같음.
- ```[a-zA-Z]```: 모든 알파벳.
- ```[0-9]```: 숫자.
> ##### [] 안에서 ^는 반대를 뜻함.
- ```[^0-9]```: 숫자를 제외한 문자만 매치.
- ```[^abc]```: a, b, c를 제외한 모든 문자와 매치.
> ##### [] 안에서 .을 사용할 경우 문자 원래의 의미인 마침표를 뜻함.
- ```a[.]b```
    - ```a.b```: a와 b 사이에 마침표가 있으므로 매치됨.
    - ```a0b```: a와 b 사이에 마침표가 없으므로 매치되지 않음.

### 자주 사용하는 문자 클래스
- ```\d```: 숫자 [0-9]와 같음.
- ```\D```: 숫자가 아닌 것 [^0-9]와 같음.
- ```\w```: 숫자 + 문자 [a-zA-Z0-9]와 같음.
- ```\W```: 숫자 + 문자가 아닌 것 [^a-zA-Z0-9]와 같음.
- ```\s```: 공백 [ \t\n\r\f\v]와 같음.
- ```\S```: 공백이 아닌 것 [^ \t\n\r\f\v]와 같음.
- ```\b```: 단어 경계 \w와 \W의 경계와 같음.
- ```\B```: 단어가 아닌 것의 경계와 같음.

### . 문자 클래스
줄바꿈 문자인 \n을 제외한 모든 문자와 매치됨.
- ```a.b```: a + 모든 문자 b를 뜻함.
    - ```aab```: a와 b 사이의 a는 모든 몬자에 포함되므로 매치됨.
    - ```a0b```: a와 b 사이의 0은 모든 문자에 포함되므로 매치됨.
    -  ```abc```: a와 b 사이에 문자가 없기 때문에 매치되지 않음.

### * 문자 클래스
'*' 앞에 오는 문자가 0개를 포함하여 몇 개가 오든 모두 매치됨.
- ```lo*l```
    - ```ll```: 매치됨.
    - ```lol```: 매치됨.
    - ```looool```: 매치됨.
    - ```looooooooooooooooooooooool```: 매치됨.
    - ```lbl```: 매치되지 않음.
    - ```loooooooooooobooooooooooool```: 매치되지 않음.

### + 문자 클래스
'+' 앞에 있는 문자가 최소 한 번 이상 반복되어야 매치됨.
- ```lo+l```
    - ```ll```: 매치되지 않음.
    - ```lol```: 매치됨.
    - ```looooool```: 매치됨.

### ? 문자 클래스
? 앞에 있는 문자가 없거나 하나 있을 때 매치됨.
- ```lo?l```
    - ```ll```: 매치됨.
    - ```lol```: 매치됨.
    - ```lool```: 매치되지 않음.

### {} 문자 클래스
> ##### {m, n}의 형태
앞에 있는 문자가 m번에서 n번까지 반복될 때 매치됨.
- ```lo{3, 5}l```
    - ```ll```: 매치되지 않음.
    - ```lol```: 매치되지 않음.
    - ```loool```: 매치됨.
    - ```loooool``: 매치됨.
    - ```looooool```: 매치되지 않음.
> ##### {m}의 형태
반드시 m번 반복인 경우만 매치됨.
> ##### {0, }의 형태
*와 동일함.
> ##### {1, }의 형태
+와 동일함.
>##### {0, 1}의 형태
?와 동일함.

### | 문자 클래스
여러 개의 정규표현식들을 |로 구분하면 or의 의미가 적용되어, 정규표현식들 중 어느 하나와 매치됨.
- ```a|b|c```
    - ```a```: 매치됨.
    - ```b```: 매치됨.
    - ```c```: 매치됨.
    - ```a b```: 매치됨.
    - ```a b c```: 매치됨.
    - ```d```: 매치되지 않음.

### ^ 문자 클래스
문자열이 ^ 뒤에 있는 문자로 시작되면 매치됨.
- 여러 줄의 문자일 경우 첫 줄만 적용됨.
- 단 re.MULTILINE 옵션이 적용되면 각 줄의 첫 문자를 검사하여 매치됨.
- ```^a```
    - ```a```: 매치됨.
    - ```aaa```: 매치됨.
    - ```baaa```: 매치되지 않음.
    - ```1aaa```: 매치되지 않음.

### $ 문자 클래스
문자열이 $ 앞에 있는 문자로 끝나면 매치됨.
- 여러 줄의 문자열일 경우 마지막 줄만 적용됨.
- 단, re.MULTILINE 옵션이 적용되면 각 줄의 마지막 문자를 검사하여 매치됨.
- ```a$```
    - ```a```: 매치됨.
    - ```aa```: 매치됨.
    - ```baa```: 매치됨.
    - ```aabb```: 매치되지 않음.

### \A, \Z 문자 클래스
> ##### \A
^와 동일하지만 re.MULTILINE 옵션을 무시하고 항상 문자열 첫 줄의 시작 문자를 검사함.

> ##### \Z
$와 동일하지만 re.MULTILINE 옵션을 무시하고 항상 문자열 마지막 줄의 끝 문자를 검사함.

### 조건이 있는 표현식
> ##### 표현식1(?=표현식2)
표현식1 뒤의 문자열이 표현식2와 매치되면 표현식1과 매치됨.
- ```hello(?=world)```: hello 뒤에 world가 있으면 hello가 매치됨.
    - ```helloworld```: hello 뒤에 world가 있기 때문에 hello가 매치됨.
    - ```byeworld```: hello가 없기 때문에 매치되지 않음.
    - ```helloJames```: hello 뒤에 world가 없기 때문에 매치되지 않음.

> ##### 표현식1(?!표현식2)
표현식1 뒤의 문자열이 표현식2와 매치되지 않으면 표현식1과 매치됨.
- ```hello(?!world)```
    - ```helloword```: hello 뒤에 world가 있기 때문에 매치되지 않음.
    - ```byeworld```: hello가 없기 때문에 매치되지 않음.
    - ```helloJames```: hello 뒤에 world가 없기 때문에 hello가 매치되지 않음.

> ##### (?<=표현식1)표현식2
표현식2 앞의 문자열이 표현식1과 매치되면 표현식2가 매치됨.
- ```(?<=hello)world```
    - `helloworld`: world 앞에 hello가 있기 때문에 world가 매치됨.
    - ```byeworld```: world 앞에 hello가 없기 때문에 매치되지 않음.
    - ```helloJames```: world가 없기 때문에 매치되지 않음.

> ##### (<!표현식1)표현식2
표현시2 앞의 문자열이 표현식1과 매치되지 않으면 표현식2가 매치됨.
- ```(?<!hello)world```
    - ```helloworld```: world 앞에 hello가 있기 때문에 매치되지 않음.
    - ```byeworld```: world 앞에 hello가 없기 때문에 world가 매치됨.
    - ```helloJames```: world가 없기 때문에 매치되지 않음.

## Python 정규표현식 모듈 re
python에서는 re 모듈을 통해 정규표현식을 사용한다.
- ```import re```



### compile 정규표현식 컴파일
're.compile()' 명령을 통해 정규표현식을 컴파일하여 변수에 저장한 후 사용할 수 있다.
- ```<변수이름> = re.compile(<'정규표현식'>)```

정규표현식을 컴파일하여 변수에 할당한 후 타입을 확인해보면 '_sre.SRE_Pattern'이라는 이름의 클래스 객체인 것을 볼 수 있다.
- ```p = re.compile('[abc]'])```
- ```print(type(p))```
    - ```<class '_sre.SRE_Pattern'>```

## 패턴 객체의 메서드
패턴 객체는 매치를 검색할 수 있는 네 가지 메서드를 제공한다.
- ```p = re.compile('[a-z]+')```

### match
문자열의 처음 시작부터 검색하여 일치하지 않는 부분이 나올 때까지 찾는다.
- 검색의 결과로 '_sre.SRE_Match' 객체를 리턴한다.
    - ```p.match('aaaaa')```
        - ```<_sre.SRE_Match object; span=(0, 5), match='aaaaa'>```
    - ```p.match('bbbbbbbbb')```
        - ```<_sre.SRE_Match object; span=(0, 9), match='bbbbbbbbb'>```
    - ```p.match('1aaaa')```
        - ```None```
    - ```p.match('aaa1aaa')```
        - ```<_sre.SRE_Match object; span=(0, 3), match='aaa'>```

### search
문자열 전체에서 검색하여 처음으로 매치되는 문자열을 찾는다.
- 검색의 결과로 '_sre.SRE_Match' 객체를 리턴한다.
    - ```p.search('aaaaa')```
        - ```<_sre.SRE_Match object; span=(0, 5), match='aaaaa'>```
    - ```p.search('11aaaa')```
        - ```<_sre.SRE_Match object; span=(2, 6), match='aaaa'>```
    - ```p.search('aaa11aaa')```
        - ```<_sre.SRE_Match object; span=(0, 3), match='aaa'>```
    - ```p.search('1aaa11aaa1')```
        - ```<_sre.SRE_Match object; span=(1, 4), match='aaa'>```

### findall 
문자열 내에서 일치하는 모든 패턴을 찾는다. 
- 검색의 결과를 리스트로 반환한다.
    - ```p.findall('aaa')```
        - ```['aaa']```
    - ```p.findall('11aaa')```
        - ```['aaa']```
    - ```p.findall('1a1a1a1a1a')```
        - ```['a', 'a', 'a', 'a', 'a']```
    - ```p.findall('1aa1aaa1a1aa1aaa')```
        - ```['aa', 'aaa', 'a', 'aa', 'aaa']```

### finditer
문자열 내에서 일치하는 모든 패턴을 찾는다.
- 검색의 결과로 'callable_iterator'라는 객체가 반환된다. 
- for문을 사용하여 하나씩 출력해야 한다.
- 반복 가능한 객체는 각 매치의 결과인 매치 객체를 포함하고 있다.
    - ```p.finditer('a1bb1ccc')```
        - ```<callable_iterator object at 0x7f850c4285f8```
        - ```f_iter = p.finditer('a1bb1ccc')```
            - ```for i in f_iter:```
                ```print(i)```
                - ```<_sre.SRE_Match object; span=(0, 1), match='a'```
                - ```<_sre.SRE_Match object; span=(2, 4), match='bb'```
                - ```<_sre.SRE_Match object; span=(5, 8), match='ccc'```
                

## 매치 객체의 메서드
패턴 객체의 메서드를 통해 리턴된 매치 객체는 아래와 같은 정보를 담고 있다.
- ```<_sre.SRE_Match object; span=(매치 시작지점 인덱스, 매치 끝지점 인덱스), match='매치된 문자열'>```

### 메서드 종류
매치 객체는 내부 정보에 접근할 수 있는 네 가지 메서드를 제공한다.
- group(): 매치된 문자열 출력.
- start(): 매치 시작지점 인덱스 출력.
- end(): 매치 끝지점 인덱스 출력.
- span(): (start(), end())를 튜플로 출력.

> ##### 매치 오브젝트
- ```p = re.compile('[a-z]+')```
- ```result = p.search('1aaa11aaa1')```
- ```print(result)```
> ##### 메서드 실행 결과
- ```result.group()```
    - ```aaa```
- ```result.start()```
    - ```1```
- ```result.end()```
    - ```4```
- ```result.span()```
    - ```(1, 4)```

## () 그룹화
정규표현식 () 안에 넣으면 그 부분만 그룹화된다. groups 메서드를 통해 그룹들을 튜플 형태로 리턴 할 수 있다.
- ```p = re.search('(hello)(world)', 'helloworld') # 정규표현식 hello와 world의 매치 결과를 각각 그룹화하였다.``` 
    - ```grouping = p.groups()```
    - ```print(grouping)```
        - ```('hello', 'world') # 각 그룹의 매치 결과가 튜플로 묶여서 리턴됨.```

> ##### group 메서드를 통해 각 그룹을 호출화할 수 있다.
- 인자를 넣지 않으면 전체 매치 결과 리턴
    - ```p.group()```
        - ```helloworld```
- p.group()와 같다.
    - ```p.group(0)```
        - ```helloworld```
- 1번 그룹 매치 결과 리턴
    - ```p.group(1)```
        ```hello``
- 2번 그룹 매치 결과 리턴
    - ```p.group(2)```
        - ```world```

### 그룹 이름 지정
```(?P<그룹이름>표현식)```
- 그룹에 이름을 지정하려면 다음과 같이 한다.
- 표현식 a의 매치 결과는 그룹 first에 저장되고 표현식 b의 매치 결과는 그룹 second에 저장된다.
    - ```re.match('(?P<first>a)(?P<second>b)', 'ab')```
        - ```<_sre.SRE_Match object; span=(0, 2), match='ab'>```
- 위의 표현식은 그룹화가 된다는 점을 제외하면 아래의 표현식과 동일한 결과를 돌려준다.
    - ```re.match('ab', 'ab')```
        - ```<_sre.SRE_Match object; span=(0, 2), match='ab'>```

### 그룹 재참조
그룹을 지정하면 같은 '\그룹번호'와 같은 형식으로 표현식 내에서 다시 호출하여 사용할 수 있다.
- 이 때, 반드시 표현식 앞에 'r'을 붙여야 제대로 작동한다.
    - ```re.match(r'(a)(b)\1\2', 'abab') # 표현식 abab와 동일하다.``` 
        - ```<_sre.SRE_Match object; span=(0, 4), match='abab'> # abab가 모두 매치되었다.```
- 그룹의 이름을 지정하였을 경우 '(?P=그룹이름)'의 형식으로 호출할 수 있다.
    - ```re.match('?P<first>a)(?P<second>b)(?P=first)(?P=second)', 'abab')# 표현식 abab와 동일하다.```
        - ```<_sre.SRE_Match object; span=(0, 4), match='abab'> # abab가 모두 매치되었다.```