# 정규표현식
## \[\] 문자 클래스 : 문자 하나 하나
```python
[abc] : a, b, c
```

- 문자의 범위 - 
```python
[a-z] # a ~ z
[A-Z] # A ~ Z 알파벳 대문자
[a-zA-z] # 대소문자 구분 없는 알파벳 문자 
[ㄱ-ㅎ가-힣] # 한글 문자 1개
[0-9] # 숫자 문자 1개
[^0-9] # 0 ~ 9 숫자를 제외한 모든 문자 (^ ~를 제외한 문자)
```

In [1]:
import re

In [18]:
# p = re.compile("[abc]") # a 또는 b 또는 c라는 문자 한 개가 포함되어 있는지
# p = re.compile("[a-z]") # a ~ z
# p = re.compile("[a-zA-z]")
# p = re.compile("[0-9]") # 0 ~ 9
# p = re.compile("\\d") # 0 ~ 9
# p = re.compile("[^0-9]") # 숫자가 아닌 모든 문자
p = re.compile("\\D") # [^0-9] : 숫자가 아닌 모든 문자

In [19]:
p.match("!01")

<re.Match object; span=(0, 1), match='!'>

## 자주 사용하는 문자 클래스
- `\\d` : \[0-9\] : 숫자
- `\\D` : \[^0-9\] : 숫자가 아닌 패턴
- `\s` : 공백 문자 한 개(`' ', \t - 탭 한칸, \r, \n, \f`) - [\s\t\r\n\f]
- `\S` : 공백이 아닌 모든 문자 - [^\s\t\r\n\f]
- `\w` : \[a-zA-z0-9_\] : 단어 한 개 패턴, 
- 참고) 한글 단어 한 개 : `[a-zA-z0-9_ㄱ-ㅎ가-힣]`
- `\W` : \[^a-zA-z0-9_\] 

# . 문자 
- `\n`을 제외한 문자 1개(줄 개행 문자는 포함 X)

In [26]:
# a0b, a1b, a2b, a!b
words = ['a000b', 'a111b', 'a222b', 'a!b']
p = re.compile("a...b")

for word in words:
    print(word, p.match(word))

a000b <re.Match object; span=(0, 5), match='a000b'>
a111b <re.Match object; span=(0, 5), match='a111b'>
a222b <re.Match object; span=(0, 5), match='a222b'>
a!b None


# 패턴의 반복 횟수
- 패턴{숫자} : 패턴이 숫자 만큼 반복
- 패턴(시작번호, 종료번호) : 패턴이 시작번호 이상, 종료번호 이하 반복
    - 패턴{1,3} : 패턴이 1번 이상 3번 이하
    - 패턴{0,1} : 없어도 되지만 있을 떄는 1개가 있어야 한다. ?
- 패턴{시작번호,} : 패턴이 시작번호 이상 반복
    - 패턴{1,} : 패턴이 1번 이상 반복 / 패턴+
    - 패턴{0,} : 패턴이 0번 이상 반복, 패턴에 해당하는 문자가 있어도되고 없어도 된다. / 패턴*
    

In [37]:
# a0b, a1b, a2b, a!b
words = ['a000b', 'a111b', 'a222b', 'a33333b', 'a!b', 'ab']
# p = re.compile("a.{3}b")
# p = re.compile("a.{1,3}b")
# p = re.compile("a.{1,}b")
# p = re.compile("a.{0,}b")
# p = re.compile("a.+b") # ("a.{1,}b") / .이 1개 이상
p = re.compile("a.*b") # ("a.{0,}b") / .이 0개 이상
for word in words:
    print(word, p.match(word))

a000b <re.Match object; span=(0, 5), match='a000b'>
a111b <re.Match object; span=(0, 5), match='a111b'>
a222b <re.Match object; span=(0, 5), match='a222b'>
a33333b <re.Match object; span=(0, 7), match='a33333b'>
a!b <re.Match object; span=(0, 3), match='a!b'>
ab <re.Match object; span=(0, 2), match='ab'>


In [67]:
# p = re.compile("python")
p = re.compile(".*python.*") # python 포함된 패턴

In [68]:
str = "python"
p.match(str)

<re.Match object; span=(0, 6), match='python'>

In [69]:
str = "I love python"
p.match(str)

<re.Match object; span=(0, 13), match='I love python'>

In [70]:
str = "I love python and java"
p.match(str)

<re.Match object; span=(0, 22), match='I love python and java'>

In [71]:
p = re.compile("python")
p.search(str)

<re.Match object; span=(7, 13), match='python'>

# 휴대폰 번호 패턴
- 010-1000-1000
- 01010001000
- 010.1000.1000

In [73]:
p = re.compile("010.?\\d{4}.?\\d{4}")

In [74]:
p.search("010-1234-1345")

<re.Match object; span=(0, 13), match='010-1234-1345'>

In [75]:
p.search("1234010-1234-12341234")

<re.Match object; span=(4, 17), match='010-1234-1234'>

### ^, $
- ^패턴 : 패턴으로 시작하는 패턴
- 패턴$ : 패턴으로 끝나는 패턴

In [79]:
p = re.compile("^010.?\\d{4}.?\\d{4}$") # 010으로 시작하는 패턴, 4자리 숫자로 끝나는 패턴

In [88]:
p.search("1234010-1234-12341234")

In [87]:
p.search("010-1234-12341234")

In [86]:
p.search("010-1234-1234")

<re.Match object; span=(0, 13), match='010-1234-1234'>

## 역슬래시를 2개씩 써야 하는 경우
- 메타문자 \d -> \\d
- 안쓰고 문자 그대로 인식하게 하는 방법 r"패턴"

In [91]:
p = re.compile(r"^010\D?\d{4}\D\d{4}$")
m = p.search("010-1234-1234")

In [92]:
print("m.group(): ", m.group(), "m.start(): ", m.start(), "m.end(): ", m.end(), "m.span(): ", m.span())

m.group():  010-1234-1234 m.start():  0 m.end():  13 m.span():  (0, 13)
