 # 정규표현식 Regular Expressions
 정규표현식은 임포트 할 수 있는 표준 모듈 `re`로 제공한다.  
 원하는 문자열 **패턴**을 정의하여 소스 문자열과 일치하는지 비교한다.

In [1]:
import re
result = re.match('You','Young Frankenstein')

- `You`는 패턴이고 `Young Frankenstein`은 확인하고자 하는 소스이다.  
- `.match()` 소스와 패턴의 일치여부를 확인한다.  
- `function('pattern', 'source')`로 이해하면 된다.

- `.`은 문자 1개를 의미
- `*`는 패턴이 0회 이상 올 수 있다는 의미

## match : 시작부터 일치하는 패턴 찾기

In [3]:
import re
source = 'Young Frankenstein'
m = re.match('You', source) #match()는 시작부터 패턴이 일치하는지 확인한다.
if m:
    print(m.group()) #m이 참일 경우, 패턴이 매치될 경우 패턴 그룹을 출력한다.


You


`Frank`도 가능할까? 


In [3]:
m = re.match('Frank', source)
if m:
    print(m.group())

### match()는 패턴이 소스의 처음에 있는 경우에만 작동한다!!  
반면 source 는 패턴이 아무데나 있어도 작동한다.

## search: 첫 번째 일치하는 패턴 찾기  

In [5]:
m = re.search('Frank', source)
if m:
    print(m.group())

Frank


패턴이 뒤에 있더라도 `search`를 통해서 출력되는 모습을 볼 수 있다.  
이제 패턴을 바꿔보자 

In [7]:
m = re.search('.*Frank', source)
if m:
    print(m.group())

Young Frank


`.*Frank`패턴을 해석하면 다음과 같다.  
- `.`문자 1개가 
- `*`0회 또는 여러회 오고 
- `Frank`라는 단어 앞에 붙어있다


## findall: 일치하는 모든 패턴 찾기

In [10]:
m = re.findall('n', source)
m

['n', 'n', 'n', 'n']

`findall`은 리스트 형식으로 반환한다. 

In [14]:
m = re.findall('n.', source)
print(source)
m

Young Frankenstein


['ng', 'nk', 'ns']

`n` 다음에 무슨 글자가 보이나 확인하기 위해 `n.` 을 패턴으로 찾아보았다.  
이렇게 보면 마지막 `n`은 포함되지 않는데, `.`은 한 문자를 의미하는데 마지막 단어 뒤에는 아무 문자가 없기 때문이다.  
이때는 `?`를 뒤에 붙이는데 이는 0회 또는 1회를 의미한다.   

다시 패턴을 만들어보자

In [15]:
m = re.findall('n.?', source)
m

['ng', 'nk', 'ns', 'n']

위와 같이 뒤에 문자가 없는 n 또한 포함된 것을 확인할 수 있다.

# split: 패턴으로 나누기  
다음 예제는 패턴을 제공하면 문자열을 리스트로 나눈다.

In [17]:
m = re.split('n', source)
m

['You', 'g Fra', 'ke', 'stei', '']

일반 문자열에서 사용하는 `split()` 메서드와 동일하다. 

# sub: 일치하는 패턴 대체하기
문자열의 `replace()`와 메스와 비슷하지만 리터럴 데이터가 아닌 패턴으로 교체가 가능하다

In [20]:
m = re.sub('n', '?', source)
m

'You?g Fra?ke?stei?'

대체자를 패턴 다음에 매개변수로 주면 변경이된다.

# 패턴 문자에 대한 이해  
- 리터럴은 모든 비특수 문자와 일치한다
- `\n`을 제외한 하나의 문자 `.`
- 0회 이상 `*`
- 0회 또는 1회 `?`

## 특수문자
|패턴|일치
|:--- |:---------- |
|`\d`|숫자|
|`\D`|비숫자|
|`\w`|알파벳 문자|
|`\W`|비알파벳 문자|
|`\s`|공백문자|
|`\S`|비공백 문자|
|`\b`|단어경계(`\w` 와 `\W` 또는 `\W`와 `\w`의 경계 사이|
|`\B`|비단어 경계|

string 모듈은 문자열 상수가 미리 정의되어 있다.   
아래 예시를 통해 각 특수문자의 기능들을 확인해보자 

In [22]:
import string
printable = string.printable
len(printable) # 100가지 문자가 저장되어 있음을 확인 

100

1. printable 에서 숫자는? 

In [24]:
m = re.findall('\d',printable)
m

['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

2. 숫자와 문자, 언더스코어는? 

In [33]:
print(printable)
m = re.findall('\w',printable)
print(m)

0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~ 	

['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', '_']


3. 공백문자는? 

In [36]:
m = re.findall('\s', printable)
print(m) #정규표현식은 유니코드도 포함될 수 있다. 

[' ', '\t', '\n', '\r', '\x0b', '\x0c']


### 패턴 지정자
- `*expr*`: expression  
- `*prev*`: previuos token
- `*next*`: next token  
라고 써놓으면 아무도 알 수 없으니 예시를 통해 확인을 해본다.

In [4]:
source = '''I wish I may, I wish I might Have a dish of fish tonight'''

1. `source`에서 wish를 모두 찾는다

In [6]:
m = re.findall('wish', source)
m

['wish', 'wish']

2. `source`에서 'wish'와 'fish'를 모두 찾는다

In [7]:
m = re.findall('wish|fish', source)
m

['wish', 'wish', 'fish']

3. `source`가 'wish'로 시작하는지 찾는다

In [9]:
m = re.findall('^wish', source)
m

[]

4. `source`가 'I wish'로 시작하는지 찾는다

In [11]:
m = re.findall('^I wish', source)
m

['I wish']

5. `source`가 'I wish'로 시작하는지 찾는다

In [12]:
m = re.findall('fish$', source)
m

[]