### 정규표현식(Regular Expression)이란?

- 특정 조건을 가진 문자열을 선언하기 위한 도구
- 파이썬이 아닌 다른 코딩 언어에서도 정규표현식을 사용함

### 정규표현식 기본 함수

In [None]:
import re

In [15]:
a = re.compile("배고파")
a

re.compile(r'배고파', re.UNICODE)

In [17]:
a.match("배고파")

<re.Match object; span=(0, 3), match='배고파'>

In [19]:
a.match("배아파") # 맨 앞에만 찾을 수 있음

### 정규표현식 기본 문법 1

1. \d : 모든 숫자
2. \D : 숫자가 아닌 것
3. \s : 공백
4. \S : 공백이 아닌것
5. \w : 알파벳 및 숫자
6. \W : 알파벳도, 숫자도 아닌 것

In [21]:
a.findall("아이 배고파 정말 배고파") # 맨 앞이 아니여도 찾을 수 있음

['배고파', '배고파']

In [22]:
a.search("아이 배고파 정말 배고파") # 하나만 찾고 싶은데 

<re.Match object; span=(3, 6), match='배고파'>

In [7]:
b = re.compile("\d")
b.match("123")

<re.Match object; span=(0, 1), match='1'>

In [8]:
b.findall("123")

['1', '2', '3']

### 정규표현식 기본 문법2

1. .: 모든 것
2. *:  0번 이상 반복
3. +: 1번 이상 반복
4. {m}: m번 반복
5. {m,n}: m번 이상, n번 이하 반복
6. ?: 있어도 되고, 없어도 됨

In [25]:
c = re.compile("배.파")
print(c.match("배고파"))
print(c.match("배아파"))

<re.Match object; span=(0, 3), match='배고파'>
<re.Match object; span=(0, 3), match='배아파'>


In [26]:
c = re.compile("배고*파")
print(c.match("배파"))
print(c.match("배고파"))
print(c.match("배고고파"))

<re.Match object; span=(0, 2), match='배파'>
<re.Match object; span=(0, 3), match='배고파'>
<re.Match object; span=(0, 4), match='배고고파'>


In [27]:
c = re.compile("배고+파")
print(c.match("배파"))
print(c.match("배고파"))
print(c.match("배고고파"))

None
<re.Match object; span=(0, 3), match='배고파'>
<re.Match object; span=(0, 4), match='배고고파'>


In [28]:
c = re.compile("배고{2}파")
print(c.match("배파"))
print(c.match("배고파"))
print(c.match("배고고파"))

None
None
<re.Match object; span=(0, 4), match='배고고파'>


In [31]:
c = re.compile("배고{1,2}파")
print(c.match("배파"))
print(c.match("배고파"))
print(c.match("배고고파"))

None
<re.Match object; span=(0, 3), match='배고파'>
<re.Match object; span=(0, 4), match='배고고파'>


In [32]:
c = re.compile("배고?파")
print(c.match("배파"))
print(c.match("배고파"))
print(c.match("배고고파"))

<re.Match object; span=(0, 2), match='배파'>
<re.Match object; span=(0, 3), match='배고파'>
None


### 그러면 진짜 ?를 지칭하고 싶을 땐?
- \?를 사용하자!

In [33]:
c = re.compile("배고\?파")
print(c.match("배파"))
print(c.match("배고파"))
print(c.match("배고고파"))
print(c.match("배고?파"))

None
None
None
<re.Match object; span=(0, 4), match='배고?파'>


### 그러면 2개 이상이 반복되는 것을 지칭하고 싶을 땐?
- 괄호를 사용하자!

In [39]:
# "고" 혹은 "파"가 등장할 경우 반응

c = re.compile("배[고파]+")
print(c.match("배파"))
print(c.match("배고파"))
print(c.match("배고파고파"))

<re.Match object; span=(0, 2), match='배파'>
<re.Match object; span=(0, 3), match='배고파'>
<re.Match object; span=(0, 5), match='배고파고파'>


In [40]:
# "고파"가 등장할 경우 반응

c = re.compile("배(고파)+")
print(c.match("배파"))
print(c.match("배고파"))
print(c.match("배고파고파"))

None
<re.Match object; span=(0, 3), match='배고파'>
<re.Match object; span=(0, 5), match='배고파고파'>


### 괄호의 활용법

1. ^:여집합
2. -:구간

In [42]:
c = re.compile("배[^고파]")
print(c.match("배파"))
print(c.match("배고파"))
print(c.match("배아파"))

None
None
<re.Match object; span=(0, 2), match='배아'>


In [43]:
c = re.compile("[0-9]")
print(c.match("1"))
print(c.match("2"))
print(c.match("배아파"))

<re.Match object; span=(0, 1), match='1'>
<re.Match object; span=(0, 1), match='2'>
None


In [44]:
c = re.compile("[^0-9]")
print(c.match("1"))
print(c.match("2"))
print(c.match("배아파"))

None
None
<re.Match object; span=(0, 1), match='배'>


In [47]:
c = re.compile("[a-z]")
print(c.match("a"))
print(c.match("A"))
print(c.match("배아파"))

<re.Match object; span=(0, 1), match='a'>
None
None


In [49]:
c = re.compile("[A-Z]")
print(c.match("a"))
print(c.match("A"))
print(c.match("배아파"))

None
<re.Match object; span=(0, 1), match='A'>
None


In [50]:
c = re.compile("[A-Za-z]")
print(c.match("a"))
print(c.match("A"))
print(c.match("배아파"))

<re.Match object; span=(0, 1), match='a'>
<re.Match object; span=(0, 1), match='A'>
None


In [51]:
c = re.compile("[A-Za-z0-9]")
print(c.match("a"))
print(c.match("A"))
print(c.match("1"))

<re.Match object; span=(0, 1), match='a'>
<re.Match object; span=(0, 1), match='A'>
<re.Match object; span=(0, 1), match='1'>


### Quiz: 정규표현식으로 이메일 주소를 구분해보자.

In [53]:
k = re.compile("[A-Za-z0-9]+@[A-Za-z0-9]+\.com")
k.match("newdlckdgus@gmail.com")

<re.Match object; span=(0, 21), match='newdlckdgus@gmail.com'>

### 고급 문법

In [59]:
c = re.compile("사과|배")
print(c.match("사과"))
print(c.match("배"))
print(c.match("사과와 배"))

<re.Match object; span=(0, 2), match='사과'>
<re.Match object; span=(0, 1), match='배'>
<re.Match object; span=(0, 2), match='사과'>


In [60]:
k = re.compile("[A-Za-z0-9]+@[A-Za-z0-9]+\.com|[A-Za-z0-9]+@[A-Za-z0-9]+\.co\.kr")
k.match("newdlckdgus@yahoo.co.kr")

<re.Match object; span=(0, 23), match='newdlckdgus@yahoo.co.kr'>