# 14. 정규식(Regular Expression)

#### 정규식 혹은 정규표현식은 특정한 규칙을 가진 문자열의 집단을 표현하는 방식이다.

- 특정한 규칙을 가진 문자열의 집합을 표현하는 데 사용하는 형식 언어

## 정규식의 기본 pattern 

- 패턴(pattern) - 특정 목적을 위해 필요한 문자열 집합을 지정하기 위해 쓰이는 식

### meta 문자

- meta 문자는 특수한 의미를 가지므로 위와 같이 자기 자체로 match 시키지 않는다.   
       . ^ $ * + ? { } [ ] \ | ( )
       
- special character 는 ``\``를 앞에 두면 된다. $\text{ex) \., \\\, \@, etc}$

### single character match

- ``a-z, A-Z, 0-9`` $\leftarrow$ 영문 대/소문자, 숫자는 자기 자체로 match 시킨다.

        ex) re.search(r'12g', 'p12g')  --> match='12g'

- ``.`` (period) 는 아무 문자(any character) 와도 match. (단, \n (new line) 제외)  


- ``\w`` 는 word character (a-z, A-Z, 0-9) 와 match. (single character)  

- ``\W`` - NOT ``\w``


- ``\b`` 는 word (``\w``) 와 non-word (``\W``) 의 boundary (position)


- ``\s`` 는 white space (space, new line, return, tab) 와 match. (single white space)
- ``\S`` 는 non-white space 


- ``\d`` 는 decimal digit (0-9) 와 match.
- ``\D`` - NOT ``\d``

### quantifier (나타나는 횟수)

- ``\*`` : 바로 앞 문자가 0 회 이상 나타남  

- ``\+`` : 바로 앞 문자가 1 회 이상 나타남  

- ``\?`` : 바로 앞 문자가 0 회 혹은 1 회 나타남 (optional)


### position


- ``^`` : string 의 처음을 의미, 

- ``$`` : string 의 끝을 의미한다.

- \[ \] 내의 ``^`` 는 NOT 의미, ex) [^A-Z] : A-Z 을 제외한 문자


### grouping
- `( )`

# Python 의 Regular Expression 문법
- Python 은 정규식을 지원하는 re module 을 제공

## 사용 method

- re.search(pattern, string) :	string에서 pattern과 매치하는 텍스트를 탐색한다 (처음 한개 매치)


- re.findall( ) : string 에서 pattern 과 match 되는 것을 전부 list 로 반환


- re.sub(pattern, repl, string) : string에서 pattern과 매치하는 텍스트를 repl로 치환한다  

## re.search( )  

- 문자열 전체를 검색하여 정규식과 match 되는지 조사  (문자열의 아무곳이나 match)    

```
    match = re.search(pattern, str)  
```

- 검색하여 match 되는 문자열이 있으면 match object 를 반환하고, 없으면 None 이 반환된다.

- match 다음에 즉시 if 문으로 match 성공 여부를 check.

- match 에는 match 결과가 저장되고 match.group() method 를 통해 matching text 를 가져온다.

In [10]:
import re
 
text = "문의사항이 있으면 032-232-3245 으로 연락주시기 바랍니다."

# 위와 동일한 표현
matchobj = re.search('(\d{3})-(\d{3}-\d{4})', text)

areaCode = matchobj.group(1)
num = matchobj.group(2)

fullNum = matchobj.group()

print(areaCode)
print(num)
print(fullNum)

032
232-3245
032-232-3245


- 첫번째 match 되는 string 검색

In [11]:
re.search('12g', 'p12gabc12g')

<re.Match object; span=(1, 4), match='12g'>

In [12]:
match = re.search('\d\d\d', 'p123g')

match.group()

'123'

In [13]:
match = re.search('\w\w\w', '@@abcd!!')        
match.group()

'abc'

In [14]:
match = re.search('^bo', 'rebok')
match.group()

AttributeError: 'NoneType' object has no attribute 'group'

In [15]:
match = re.search('k$', 'book')

match.group()

'k'

### match 되는 pattern 의 반복 (Repetition)

- \+ $\rightarrow$ 1개 혹은 그 이상의 해당 pattern 이 왼쪽에 있음


- \* $\rightarrow$ 0 혹은 그 이상의 해당 pattern 이 왼쪽에 있음


- \? $\rightarrow$ 0 혹은 1 개의 해당 pattern 이 왼쪽에 있음

In [16]:
import re

match = re.search('pi*', 'pg')    

match.group()

'p'

In [17]:
match = re.search('i+', 'piigiiig')

match.group()

'ii'

### 대괄호 ([  ])

- character set 을 표시한다. 예를 들어 ``[abc]`` 는 a, b, c 와 match 된다. 단, ``[ ]`` 내의 ``.`` 는 메타 문자가 아니라 실제 ``.`` 표시이다.   


- ``[]`` 는 character set 중의 한 개 글자를 의미 

    ```[0-9]``` : ``0~9`` 중 single digit  
    ```[0-9]+``` : ``0~9`` 중 한개 이상의 digit

In [19]:
str = 'Please send me email to young-jea.oh@citi.com \
        with your return address'
match = re.search('[\w.-]+@[\w.-]+', str)       #영수자로 시작하는 any 문자열 (-포함)

match.group()

'young-jea.oh@citi.com'

### Group 구분

matching text 를 여러 부분으로 구분할 때 사용

In [20]:
match = re.search('([\w.-]+)@([\w.-]+)', str)

In [21]:
print(match.group())
print(match.group(1))
print(match.group(2))

young-jea.oh@citi.com
young-jea.oh
citi.com


## re.findall
- re.search() 는 첫번째 match 하나만 return

- re.findall() 은 string 에서 match 되는 것 전부 list 로 return

In [22]:
str = '메인 이멜 주소는 young-jea.oh@citi.com 이고' +\
        '보조 이멜 주소는 yjohhhhh@naver.com 입니다. ' +\
        '문의는 faq@gmail.net 으로 보내세요.'
str

'메인 이멜 주소는 young-jea.oh@citi.com 이고보조 이멜 주소는 yjohhhhh@naver.com 입니다. 문의는 faq@gmail.net 으로 보내세요.'

In [23]:
match = re.findall('[\w.-]+@[\w.-]+', str)

match

['young-jea.oh@citi.com', 'yjohhhhh@naver.com', 'faq@gmail.net']

In [24]:
match = re.findall('([\w.-]+)@([\w.-]+)', str)

match

[('young-jea.oh', 'citi.com'), ('yjohhhhh', 'naver.com'), ('faq', 'gmail.net')]

In [25]:
match = re.search('([\w.-]+)@([\w.-]+)', str)

print(match.group(1))
print(match.group(2))

young-jea.oh
citi.com


- ```emailbox-short.txt``` 파일에서 email 주소만 모두 추출

In [26]:
f = open('emailbox-short.txt', 'r')
text = f.read()

lst = re.findall('[\w.-]+@[\w.-]+', text)
lst[:10]

['stephen.marquard@uct.ac.za',
 'postmaster@collab.sakaiproject.org',
 '200801051412.m05ECIaH010327@nakamura.uits.iupui.edu',
 'source@collab.sakaiproject.org',
 'source@collab.sakaiproject.org',
 'source@collab.sakaiproject.org',
 'apache@localhost',
 'source@collab.sakaiproject.org',
 'stephen.marquard@uct.ac.za',
 'source@collab.sakaiproject.org']

## 한글 처리

In [27]:
match = re.findall('[ㄱ-ㅎㅏ-ㅣ가-힣]+',
                "한글 regex 의 범위는 가-힣까지 입니다. From ㅏ TO ㅣ AND ㄱ ~ ㅎ")
match

['한글', '의', '범위는', '가', '힣까지', '입니다', 'ㅏ', 'ㅣ', 'ㄱ', 'ㅎ']

### 연습문제

### HTML 에서 BABY 이름 찾기 (https://developers.google.com/edu/python/exercises/baby-names)

- baby1998.html 에서 <tr align="right"><td>1</td><td>Michael</td><td>Jessica</td> 에
match 되는 정규표현식을 이용하여 (rank, boy-name, girl-name) tuples 추출하여 print

```
import sys
import re

def extract_name(filename):
    names = []
    f = open(filename, 'r')
    text = f.read()
    groups = re.findall('<td> #YOUR CODE HERE# </td>', text)
    for tup in groups:
        print(tup[0], tup[1], tup[2])

if __name__ == '__main__':
    args = sys.argv[1:]
    if not args:
        print("file 명을 parameter 로 입력 바랍니다.")
        sys.exit(1)

    filename = './babynames/' + args[0]
    extract_name(filename)
```