## 정규표현식

- https://regexr.com/ 에서 확인하면서 볼것

### 기본
- 월요일~일요일까지
- 핸드폰 번호
- 이메일주소
- URL 
등...

#### 기본

```regex
/hello/gm
/Hello/gm
/hello world/gm

/^hello/gm          # hello로 시작하는 문자열
/hello$/gm          # hello로 끝나는 문자열

/h[ea]llo/gm        # hello, hallo 모두 매칭
/h[ea]l../gm        # helxx, halxx 등 총 5개의 문자열

/h[a-f]llo/gm       # hallo, hbllo, hcllo, hdllo, hello, hfllo
/[a-zA-z0-9]/gm     # 모든 알파벳과 숫자를 찾음
/[^a-zA-z0-9]/gm    # 알파벳 외 나머지 문자열을 찾음
```

#### 기타

```regex
/(on|off)/gm            # 그룹으로 on과 off 중 매칭되는 패턴 찾음
/hello (?|world)/gm     # hello 뒤에 world가 오지 않는 것
/hello (?=world)/gm     # hello 뒤에 world가 오는 것

_*                      # 앞에 있는 문자가 0~N개
_+                      # 앞에 있는 무자가 1~N개
_?                      # 앞에 있는 문자가 0~1개

{3}                 # 3개
{3,}                # 3개 이상
{1,3}               # 1~3개

/\w/gm              # 워드
/\w{5} /gm          # 5개의 글자와 스페이스 하나
/\W/gm              # not 워드
/\d/gm              # 숫자
/\D/gm              # not 숫자
/\s/gm              # 스페이스
/\S/gm              # not 스페이스

/\[.*]/gm           # 대괄호([]) 안에 감싸진 문자열
/\(.*\)/gm          # 소괄호 안에 감싸진 문자열
...
```

### 라이브러리



In [16]:
import re

#### 기본 검색

In [17]:
rex = r'([a-zA-Z+]) : (\d+)'
sentence = 'name : hugoSung, age : 40, email : hugo76@gmailcom '
result = re.search(rex, sentence)

In [18]:
result

<re.Match object; span=(19, 25), match='e : 40'>

In [19]:
result.start()

19

In [8]:
result.end()

25

In [20]:
result.group(0)

'e : 40'

In [11]:
result.group(1)

'e'

In [12]:
result.group(2)

'40'

#### 찾아내기

In [21]:
result = re.findall(rex, sentence)

In [22]:
result

[('e', '40')]

#### 계좌번호 이름

866-12-338815 농협 을 정규식으로 필터링

In [5]:
import re

rex = r'(?P<one>\d+)-(?P<two>\d+)-(?P<three>\d+) (?P<four>\w+)'
bankAccount1 = '866-12-338815 농협'
bankAccount2 = '866-12-3388-4444 농협'
result1 = re.match(rex, bankAccount1)

In [6]:
result1

<re.Match object; span=(0, 16), match='866-12-338815 농협'>

In [8]:
result2 = re.match(rex, bankAccount2)

In [9]:
result2

In [10]:
result1.expand('\g<four> : \g<one> * \g<two> * \g<three>')

'농협 : 866 * 12 * 338815'

In [12]:
result1.groups()

('866', '12', '338815', '농협')

In [14]:
len(result1.groups())

4

In [15]:
result1.groupdict()

{'one': '866', 'two': '12', 'three': '338815', 'four': '농협'}

#### 연습문제

1. 전화번호 정규표현식
2. 이메일 정규표현식
3. URL 찾는 정규표현식