#정규표현식 (Regular Expression, RegEx)

- 찾고자 하는 문자열의 포맷을 정의하는 특수 문자 (메타 문자)

- (참고 사이트 - RegEx tester) https://regexr.com/

- (참고 사이트 - RegEx generator) https://regex-generator.olafneumann.org/?sampleText=&flags=i

- (참고 블로그) https://sooftware.io/regex/

## . (dot)

```
점 하나 ( . )는 1개의 문자를 표현 단, 줄바꿈을 표시하는 \n은 제외

ex) 무.약 => '무'와 '약' 사이에 문자가 1개만 등장하는 포맷

- '무농약' 혹은 '무1약'이라는 글자는 '무.약' 포맷에 해당
- 반면 '무한농약' 혹은 '무12약'은 '무'와 '약' 사이에 문자가 2개라 '무.약' 포맷에 해당안됨
```

## * (star)

```
*는 0번부터 무한대까지 패턴이 반복함을 표현

ex) 무*농약 => '무' + '농약'이 0번부터 무한대까지 반복되는 포맷을 찾아줌

- '농약'은 '무'+'농약' 0번 반복되므로 일치하는 포맷
- '무무농약'은 '무'+'농약' 1번 반복되므로 일치하는 포맷
```

## + (plus)

```
+는 1번부터 무한대까지 패턴이 반복함을 표현

ex) 무+농약 => '무' + '농약'이 1번부터 무한대까지 반복되는 포맷을 찾아줌

- '농약'은 '무'+'농약' 0번 반복되므로 일치하지 않는! 포맷
- '무무농약'은 '무'+'농약' 1번 반복되므로 일치하는 포맷

```

## ? (question mark)

```
?는 0 혹은 1번까지 패턴이 반복함을 표현

ex) 무?농약 => '무' + '농약'이 0 혹은 1번 반복되는 포맷을 찾아줌

- '농약'은 '무'+'농약' 0번 반복되므로 일치
- '무무농약'은 '무'+'농약' 1번 반복되므로 일치
```

## [ ] (square bracket)

```
찾고 싶은 문자열의 모음

ex) [가다하] => '가' 혹은 '다' 혹은 '하'가 포함된 포맷을 찾아줌

[가다하] = [가-하]와 동일
[^가다하] = '가' 혹은 '다' 혹은 '하'가 포함되지 않았음
[^0-9] = 숫자가 아닌 모든 문자열
```

## {j, k} (curly bracket)

```
{j, k}는 *나 +와 달리 반복되는 횟수를 규정 

j: 최소 반복 횟수
k: 최대 반복 횟수

ex) 무{3, 5} => '무'가 최소 3번, 최대 5번 반복되는 포맷을 찾아줌

- '무무농약'은 무가 2번 반복되므로 일치하지 않는 포맷
- '무무무농약'은 무가 3번 반복되므로 일치하는 포맷
- '무무무무무농약'도 무가 5번 반복하므로 일치하는 포맷

ex) [0-9]{3,5}는 최소 3자리부터 5자리 숫자가 있는 포맷을 찾아줌

```

## ^ (caret)

```
^ 는 줄의 시작 포맷이 일치하는지 확인 

ex) ^무 => 무로 시작하는 문자열을 찾아줌

- '무농약'은 '무'로 시작하므로 일치
- '농약무'는 '무'로 시작하지 않으므로 불일치

```

## $ (dollar)

```
$는 ^와 반대로 끝 포맷이 일치하는지 확인

ex) '무$' => '무'로 끝나는 문자열을 찾아줌

- '무농약'은 '약'으로 끝나므로 불일치
- '농약무'는 '무'로 끝나므로 일치 
```

## | (vertical line)

```
ex) '무|유 => '무' 혹은 '유'가 포함된 문자열을 찾아줌

- '유농약'은 '유'가 포함되어 있으므로 일치
- '비농약'은 '유' 혹은 '무'가 포함되어 있지 않으므로 불일치
```

## | (vertical line)

```
ex) '무|유 => '무' 혹은 '유'가 포함된 문자열을 찾아줌

- '유농약'은 '유'가 포함되어 있으므로 일치
- '비농약'은 '유' 혹은 '무'가 포함되어 있지 않으므로 불일치
```




```
\A 

'\A가나다' => '가나다'로 시작하는 문자열인지 체크
```

```
̄̄\b

'\b가나다' => '가나다'로 시작하거나 끝나는 문자열인지 체크
```

```
\B

'\B가나다' => '가나다'로 시작하거나 끝나지 않는 문자열인지 체크
```

```
\d

숫자가 포함되어 있는 문자열인지 체크 
[0-9]와 동일한 기능
\d{3} => 3자리 숫자가 포함되어 있는지?
```

```
\D

숫자가 포함되어 있지 않은 문자열인지 체크 
[^0-9]와 동일한 기능
```

```
\s

빈칸이 있는 문자열인지 체크
```

```
\S

빈칸이 있지 않은 문자열인지 체크
```

```
\w

숫자, 문자, 언더바 (_)가 있는 문자열인지 체크
[a-zA-Z0-9_]와 동일한 기능
```

```
\W

숫자, 문자, 언더바 (_)가 있지 않은 문자열인지 체크
[^a-zA-Z0-9_]와 동일한 기능
```

```
\Z

'가나다\Z' => '가나다'로 끝나는 문자열인지 체크
```

## re 라이브러리

- 공식 문서: https://docs.python.org/3/library/re.html


In [None]:
import re

In [None]:
# re.findall() - 매칭되는 부분을 리스트 타입으로 출력

sentence = '우리 마트는 토마토를 10개에 5000원에 판매합니다'

pattern = '\d+' #숫자가 1번부터 무한대까지 반복하는지?

re.findall(pattern, sentence)

['10', '5000']

In [None]:
# re.split() - 매칭되는 부분을 기준으로 분리되는 문자열을 리스트 타입으로 출력

sentence = '우리 마트는 토마토를 10개에 5000원에 판매합니다'

pattern = '\d+' 

re.split(pattern, sentence)

['우리 마트는 토마토를 ', '개에 ', '원에 판매합니다']

In [None]:
# re.split() - 매칭되는 부분을 기준으로 분리되는 문자열을 리스트 타입으로 출력

sentence = '우리 마트는 토마토를 10개에 5000원에 판매합니다'

pattern = '\d+' 

re.split(pattern, sentence, 1) #최대 1번만 분리해라

['우리 마트는 토마토를 ', '개에 5000원에 판매합니다']

In [None]:
# re.sub() - 매칭되는 부분을 다른 문자열로 교체

sentence = '우리 마트는 토마토를 10개에 5000원에 판매합니다'

pattern = '\d+' 

replace = '땡땡땡'

re.sub(pattern, replace, sentence)

'우리 마트는 토마토를 땡땡땡개에 땡땡땡원에 판매합니다'

In [None]:
#혹은

sentence = '우리 마트는 토마토를 10개에 5000원에 판매합니다'

pattern = '\s+' #빈칸이 있는지?

replace = '' #공백으로 교체하자

re.sub(pattern, replace, sentence)


'우리마트는토마토를10개에5000원에판매합니다'

In [None]:
# re.subn() - 매칭되는 부분을 다른 문자열로 교체하고 몇 개가 교체되었는지를 튜플로 출력

sentence = '우리 마트는 토마토를 10개에 5000원에 판매합니다'

pattern = '\d+' 

replace = '***'

re.subn(pattern, replace, sentence)

('우리 마트는 토마토를 ***개에 ***원에 판매합니다', 2)

In [None]:
# re.search() - 매칭되는 부분이 있는지 확인

sentence = '우리 마트는 토마토를 10개에 5000원에 판매합니다'

match = re.search('\A우리', sentence) #'우리'로 시작하는 문장인지 확인하고 그 결과를 match에 저장해라
print(match)


if match:                            #match가 참이면 다음 명령을 수행해라
  print("'우리'로 시작되었음")
else:                                #match가 거짓이면 다음 명령을 수행해라
  print("'우리'로 시작되지 않았음!")  



<re.Match object; span=(0, 2), match='우리'>
'우리'로 시작되었음


In [None]:
# match 함수들

# match.group() - 매칭된 부분을 출력

sentence = '우리 마트는 토마토를 10개에 5000원에 판매합니다'

pattern = '\d{4}'

match = re.search(pattern, sentence)    #4자리 숫자가 있는지 확인해라

if match:                               #match가 참이면 다음 명령을 수행해라
  print(match.group())                  #4자리 숫자를 출력해라
else:                                   #match가 거짓이면 다음 명령을 수행해라
  print("4자리 숫자 없음")  

5000


In [None]:
match.start() #매칭된 부분의 첫 인덱스 # 인덱스는 공백포함 글자수로 센다. 5가 18번째 문자임

17

In [None]:
match.end() #매칭된 부분의 마지막 인덱스

In [None]:
match.span() #매칭된 부분의 처음과 끝 인덱스

(17, 21)

In [None]:
match.string #어떤 문장이 쓰였는지?

'우리 마트는 토마토를 10개에 5000원에 판매합니다'