# 18. 정규식(Regular Expression)

#### 정규식 혹은 정규표현식은 특정한 규칙을 가진 문자열의 집단을 표현하는 방식이다.

- 특정한 규칙을 가진 문자열의 집합을 표현하는 데 사용하는 형식 언어

## 정규식의 기본 pattern 

- 패턴(pattern) - 특정 목적을 위해 필요한 문자열 집합을 지정하기 위해 쓰이는 식

### meta 문자

- meta 문자는 특수한 의미를 가지므로 위와 같이 자기 자체로 match 시키지 않는다.   
       . ^ $ * + ? { } [ ] \ | ( )
       
- special character 는 ``\``를 앞에 두면 된다. $\text{ex) \., \\\, \@, etc}$

### single character match

- ``a-z, A-Z, 0-9`` $\leftarrow$ 영문 대/소문자, 숫자는 자기 자체로 match 시킨다.

        ex) re.search(r'12g', 'p12g')  --> match='12g'

- ``.`` (period) 는 아무 문자(any character) 와도 match. (단, \n (new line) 제외)  


- ``\w`` 는 word character (a-z, A-Z, 0-9) 와 match. (single character)  

- ``\W`` - NOT ``\w``


- ``\b`` 는 word (``\w``) 와 non-word (``\W``) 의 boundary (position)


- ``\s`` 는 white space (space, new line, return, tab) 와 match. (single white space)
- ``\S`` 는 non-white space 


- ``\d`` 는 decimal digit (0-9) 와 match.
- ``\D`` - NOT ``\d``

### quantifier (나타나는 횟수)

- ``*`` : 바로 앞 문자가 0 회 이상 나타남  

- ``+`` : 바로 앞 문자가 1 회 이상 나타남  

- ``?`` : 바로 앞 문자가 0 회 혹은 1 회 나타남 (optional)


### position


- ``^`` : string 의 처음을 의미, 

- ``$`` : string 의 끝을 의미한다.

- \[ \] 내의 ``^`` 는 NOT 의미, ex) [^A-Z] : A-Z 을 제외한 문자


### grouping
- `( )`

# Python 의 Regular Expression 문법
- Python 은 정규식을 지원하는 re module 을 제공

## 사용 method

- re.compile(pattern) :	패턴 문자열 pattern을 패턴 객체로 컴파일한다


- re.search(pattern, string) :	string에서 pattern과 매치하는 텍스트를 탐색한다 (처음 한개 매치)


- re.findall( ) : string 에서 pattern 과 match 되는 것을 전부 list 로 반환


- re.sub(pattern, repl, string) : string에서 pattern과 매치하는 텍스트를 repl로 치환한다  

## re.compile

1. re.compile 을 이용하여 정규식을 compile 하여 pattern 객체를 얻음. 


2. pattern 객체를 이용하여 문자열의 검색을 수행.   

- 문자열 내의 전화번호 추출

In [1]:
import re
 
text = "문의사항이 있으면 032-232-3245 으로 연락주시기 바랍니다."
 
pattern = re.compile('(\d{3})-(\d{3}-\d{4})')
matchobj = pattern.search(text)

# 위와 동일한 표현
matchobj = re.search(r'(\d{3})-(\d{3}-\d{4})', text)

areaCode = matchobj.group(1)
num = matchobj.group(2)

fullNum = matchobj.group()

print(areaCode)
print(num)
print(fullNum)

032
232-3245
032-232-3245


## re.search( )  

- 문자열 전체를 검색하여 정규식과 match 되는지 조사  (문자열의 아무곳이나 match)    

```
    match = re.search(pattern, str)  
```

- 검색하여 match 되는 문자열이 있으면 match object 를 반환하고, 없으면 None 이 반환된다.

- match 다음에 즉시 if 문으로 match 성공 여부를 check.

- match 에는 match 결과가 저장되고 match.group() method 를 통해 matching text 를 가져온다.

- `word:xxx` 의 pattern 탐색

In [2]:
import re

str = 'an example word:cat!!'       

match = re.search('word:\w\w\w', str)     
match

<re.Match object; span=(11, 19), match='word:cat'>

In [3]:
if match:
    print('found - ', match.group())
else:
    print('Not found')

found -  word:cat


### 첫번째 match 되는 string 검색

- 12g 검색

In [4]:
re.search('12g', 'p12gabc12g')

<re.Match object; span=(1, 4), match='12g'>

- iii 검색

In [5]:
match = re.search('iii', 'piiig')

match.group()

'iii'

- igs 검색

In [6]:
match = re.search('igs', 'piiig')

type(match)

NoneType

- 두개의 any character + `g` 검색

In [7]:
match = re.search('..g', 'piiig')

match.group()

'iig'

- 숫자 3개 연속 패턴 검색

In [8]:
match = re.search('\d\d\d', 'p123g')

match.group()

'123'

- word 3개 연속 패턴 검색

In [9]:
match = re.search('\w\w\w', '@@abcd!!')        

match.group()

'abc'

- bo로 시작하는 패턴 검색

In [10]:
match = re.search('^bo', 'rebok')

match.group()

AttributeError: 'NoneType' object has no attribute 'group'

- ok로 끝나는 패턴 검색

In [12]:
match = re.search('ok$', 'book')

match.group()

'ok'

### match 되는 pattern 의 반복 (Repetition)

- \+ $\rightarrow$ 1개 혹은 그 이상의 해당 pattern 이 왼쪽에 있음


- \* $\rightarrow$ 0 혹은 그 이상의 해당 pattern 이 왼쪽에 있음


- \? $\rightarrow$ 0 혹은 1 개의 해당 pattern 이 왼쪽에 있음

- p 다음에 i 가 0 혹은 그 이상 존재 하는 패턴

In [14]:
match = re.search('pi*', 'pg')    

match.group()

'p'

- i 가 1 개 혹은 그 이상 존재하는 패턴

In [15]:
match = re.search('i+', 'piigiiig')

match.group()

'ii'

- ``숫자 1 + white space 0 개 이상 + 숫자 1 + white space 0개 이상 + 숫자 1`` 의 pattern  
    - 123  
    - 1 2  3  
    - 12   3  

In [17]:
pattern = '\d\s*\d\s*\d'

In [18]:
match = re.search(pattern, 'xx1 2    3xx')   

match.group()

'1 2    3'

In [19]:
match = re.search(pattern, 'xx12   3xx')    
match.group()

'12   3'

In [20]:
match = re.search(pattern, 'xx123xx') 
match.group()

'123'

- ``b+\w``로 시작하는 패턴

In [21]:
match = re.search('^b\w+', 'foobar')
type(match)

NoneType

- ``b+\w`` 패턴

In [22]:
match = re.search('b\w', 'foobar')

match.group()

'ba'

### Leftmost and Largest (Greedy) Matching 규칙

- regular expression 은 가장 왼쪽 (leftmost) match 를 먼저 찾고 반복 메타 문자 (``.``, ``*``, ``+``)를 만족하는 한 match 를 계속 찾는다.  $\rightarrow$ greedy search  

예) ```From: using the : character``` 에서 ```From:``` 을 찾으려는 경우

`F` + `any character가 1개 이상` 있고 `:` 으로 끝나는 패턴

In [23]:
x = 'From: using the : character'

re.search('^F.+:', x)

<re.Match object; span=(0, 17), match='From: using the :'>

### Greedy matching 을 억제하는 방법

- `?` 을 이용하여 non-greedy 로 변경  

- `?` 는 if 문의 역할

In [24]:
x = 'From: using the : character'

re.search('^F.+?:', x)

<re.Match object; span=(0, 5), match='From:'>

### 대괄호 ([  ])

- character set 을 표시한다. 예를 들어 ``[abc]`` 는 a, b, c 와 match 된다. 단, ``[ ]`` 내의 ``.`` 는 메타 문자가 아니라 실제 ``.`` 표시이다.   


- ``[]`` 는 character set 중의 한 개 글자를 의미 

    ```[0-9]``` : ``0~9`` 중 single digit  
    ```[0-9]+``` : ``0~9`` 중 한개 이상의 digit

- 일반화된 email 패턴 검색

In [25]:
str = 'Please send me email to young-jea.oh@citi.com \
        with your return address'
match = re.search('[\w.-]+@[\w.-]+', str)       #영수자로 시작하는 any 문자열 (-포함)

match.group()

'young-jea.oh@citi.com'

### Group 구분

matching text 를 여러 부분으로 구분할 때 사용

- email의 개인 id, domain 구분 인식

In [26]:
match = re.search('([\w.-]+)@([\w.-]+)', str)

In [27]:
print(match.group())
print(match.group(1))
print(match.group(2))

young-jea.oh@citi.com
young-jea.oh
citi.com


## re.findall
- re.search() 는 첫번째 match 하나만 return

- re.findall() 은 string 에서 match 되는 것 전부 list 로 return

-  문자열에서 12g 를 모두 검색

In [25]:
re.findall('12g', 'p12gabc12g')

['12g', '12g']

- 문자열에서 두개의 숫자 + word 패턴 모두 검색

In [28]:
regex = re.compile('\d\d\w')

regex.findall('p12gabc12g')

['12g', '12g']

In [29]:
re.findall('\d\d\w', 'p12gabc12g')

['12g', '12g']

- 문장 내부의 이메일 모두 추출

In [32]:
txt = '메인 이멜 주소는 young-jea.oh@citi.com 이고' +\
        '보조 이멜 주소는 yjohhhhh@naver.com 입니다. ' +\
        '문의는 faq@gmail.net 으로 보내세요.'
txt

'메인 이멜 주소는 young-jea.oh@citi.com 이고보조 이멜 주소는 yjohhhhh@naver.com 입니다. 문의는 faq@gmail.net 으로 보내세요.'

- list로 추출

In [34]:
match = re.findall('[\w.-]+@[\w.-]+', txt)

match

['young-jea.oh@citi.com', 'yjohhhhh@naver.com', 'faq@gmail.net']

- id와 domain을 구분한 형태로 추출

In [38]:
match = re.findall('([\w.-]+)@([\w.-]+)', txt)

match

[('young-jea.oh', 'citi.com'), ('yjohhhhh', 'naver.com'), ('faq', 'gmail.net')]

- group 별로 처리하려면 re.search 사용

In [40]:
match = re.search('([\w.-]+)@([\w.-]+)', txt)

print(match.group(1))
print(match.group(2))

young-jea.oh
citi.com


- ```emailbox-short.txt``` 파일에서 email 주소만 모두 추출

In [41]:
f = open('emailbox-short.txt', 'r')
text = f.read()

lst = re.findall('[\w.-]+@[\w.-]+', text)
lst[:10]

['stephen.marquard@uct.ac.za',
 'postmaster@collab.sakaiproject.org',
 '200801051412.m05ECIaH010327@nakamura.uits.iupui.edu',
 'source@collab.sakaiproject.org',
 'source@collab.sakaiproject.org',
 'source@collab.sakaiproject.org',
 'apache@localhost',
 'source@collab.sakaiproject.org',
 'stephen.marquard@uct.ac.za',
 'source@collab.sakaiproject.org']

- ```From ``` 으로 시작하는 line 에서 ```:``` 앞에 나타나는 두자리 숫자를 5개 출력

In [42]:
f = open('emailbox-short.txt', 'r')
lines = f.readlines()
count = 0

for line in lines:
    if count > 5:
        break
    line = line.rstrip()
    x = re.findall('^From .* (\d\d):', line)
    if len(x) > 0:
        print(x)
        count += 1

['09']
['18']
['16']
['15']
['15']
['14']


## 한글 처리

In [1]:
import re
match = re.findall('[ㄱ-ㅎㅏ-ㅣ가-힣]+',
                "한글 regex 의 범위는 가-힣까지 입니다. From ㅏ TO ㅣ AND ㄱ ~ ㅎ")
match

['한글', '의', '범위는', '가', '힣까지', '입니다', 'ㅏ', 'ㅣ', 'ㄱ', 'ㅎ']

## re.sub
- ``re.sub(pattern, repl, string)`` : ``string``에서 ``pattern``과 매치하는 텍스트를 ``repl``로 치환

In [44]:
f = open('AliceWonderLand.txt', 'r')

text = f.read()
text

"Alice's Adventures in Wonderland (commonly shortened to Alice in Wonderland) is an 1865 novel written by English author Charles Lutwidge Dodgson under the pseudonym Lewis Carroll.[1] It tells of a young girl named Alice falling through a rabbit hole into a fantasy world populated by peculiar, anthropomorphic creatures. The tale plays with logic, giving the story lasting popularity with adults as well as with children.[2] It is considered to be one of the best examples of the literary nonsense genre.[2][3] Its narrative course, structure, characters, and imagery have been enormously influential[3] in both popular culture and literature, especially in the fantasy genre."

- text 내부의 ``[숫자]`` 패턴을 모두 삭제

In [45]:
text1 = re.sub('\[\d\]', '', text)
text1

"Alice's Adventures in Wonderland (commonly shortened to Alice in Wonderland) is an 1865 novel written by English author Charles Lutwidge Dodgson under the pseudonym Lewis Carroll. It tells of a young girl named Alice falling through a rabbit hole into a fantasy world populated by peculiar, anthropomorphic creatures. The tale plays with logic, giving the story lasting popularity with adults as well as with children. It is considered to be one of the best examples of the literary nonsense genre. Its narrative course, structure, characters, and imagery have been enormously influential in both popular culture and literature, especially in the fantasy genre."

- 영숫자 외에는 모두 삭제

In [46]:
text2 = re.sub('[^A-Za-z0-9 ]', '', text1)
text2

'Alices Adventures in Wonderland commonly shortened to Alice in Wonderland is an 1865 novel written by English author Charles Lutwidge Dodgson under the pseudonym Lewis Carroll It tells of a young girl named Alice falling through a rabbit hole into a fantasy world populated by peculiar anthropomorphic creatures The tale plays with logic giving the story lasting popularity with adults as well as with children It is considered to be one of the best examples of the literary nonsense genre Its narrative course structure characters and imagery have been enormously influential in both popular culture and literature especially in the fantasy genre'

### 연습문제

### HTML 에서 BABY 이름 찾기 (https://developers.google.com/edu/python/exercises/baby-names)

- baby1998.html 에서  

`<tr align="right"><td>1</td><td>Michael</td><td>Jessica</td>` 에  

match 되는 정규표현식을 이용하여 순위, 남자 아이 이름, 여자 아이 이름을 추출하여 출력한다.

```
import sys
import re

def extract_name(filename):
    f = open(filename, 'r')
    text = f.read()
    
    %% Your Code Here %%

if __name__ == '__main__':
    args = sys.argv[1:]
    if not args:
        print("file 명을 parameter 로 입력 바랍니다.")
        sys.exit(1)

    filename = './babynames/' + args[0]
    extract_name(filename)
```