# Regular Expression
[more about regular expression](https://docs.python.org/3/library/re.html)

># 1. Patterns

### 1) a-Z, A-Z, 0-9
* 정확히 해당 문자와 일치 / 기본적으로 대소문자 구별 / 구별하지 않도록 설정 가능

### 2) Back Slash (\\)
* 다른 문자와 함께 사용되어 특수한 의미를 지님
  * \d : [0-9]와 동일
  * \D : [^0-9]와 동일
  * \s : 공백 문자 (\t, \n, \r - tab, newline, return)
  * \S : 공백이 아닌 문자
  * \w : [0-9a-zA-Z_]와 동일
  * \W : [^0-9a-zA-Z_]와 동일
* 메타 캐릭터가 캐릭터 자체를 표현하도록 할 경우 사용
  * \\. : 마침표
  * \\\ : 백슬래시

### 3) . (마침표)
* 공백을 제외한 모든 문자를 의미

### 4) ^, $
* ^: 문자열의 **맨 앞부터** 일치하는 경우 검색
* \$: 문자열의 **맨 뒤부터** 일치하는 경우 검색

### 5) +,`*`,? 
* greedy search (maximum matching)
* +: 1 or more
* `*`: 0 or more
* ?: 0 or 1

### 6) +?, `*`?, ??
* non-greedy search (minimum matching)

### 7) {}
* 반복 횟수 제한
* {4} - 4번 반복
* {3,4} - 3~4번 반복

### 8) {}?
* 제한된 반복 횟수 내에서 non-greedy하게 동작

### 9) Meta Characters
* `'or'`과 동일한 의미
* `'.'`: []안에 있을 경우 그냥 마침표를 의미
* `'^'`: 맨 앞에 있을 경우 해당 문자 패턴이 아닌 것을 의미 / 다른 위치에 있는 경우 문자 '^'를 의미
* `'-'`: 범위를 의미

># 2. Methods

### 1) search
* `m = re.search(pattern, string)`
* 첫 번째로 패턴을 찾으면 match객체를 반환, 없는 경우 None 반환
* 일반적으로 패턴에는 escape string이 사용되므로 raw string 검색 시 r을 붙임

In [14]:
import re
match = re.search(r'test', '111test111')
print(match)
print(match.start()) # 문자열에서 매치하는 패턴의 시작 인덱스
print(match.end())   # 문자열에서 매치하는 패턴의 마지막 인덱스 + 1### Example - email address search
str1 = 'haha this is awesom macmath22@ macmath22@gmail.com test@gmail.co.kr monkey summer hot'
pattern = r'[\w.-]+@[\w.-]+'
m = re.search(pattern, str1).group()
m

# python email checker regex
email_regex = r"(^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$)"
m = re.search(email_regex,"macmath22@gmail.co.kr")
m.group()

<_sre.SRE_Match object; span=(3, 7), match='test'>
3
7


### Grouping
* ()를 하나의 그룹으로 인식
* 매칭 결과를 각 그룹별로 분리 가능

In [13]:
m = re.search(r'(\w+)@(.+)', "My email is baegwangbin@gmail.com")

print(m.group()) #전체
print(m.group(0)) #전체
print(m.group(1)) #첫 번째 그룹
print(m.group(2)) #두 번째 그룹
print(m.groups()) #전체 그룹을 튜플 형태로 변환

baegwangbin@gmail.com
baegwangbin@gmail.com
baegwangbin
gmail.com
('baegwangbin', 'gmail.com')


In [82]:
# 반복이 사용되는 경우 그루핑과 반복의 위치가 중요
# 반복이 그루핑 내에 사용되는 경우 전체 매칭이 서브그룹화
# 반복이 그루핑 밖에 사용 되는 경우 마지막 매칭만 서브 그룹화
m = re.search(r'((pi)+)(k+)(\d)+', 'pipipipikkk12345')
#m = re.search(r'(pi)+(k+)(\d+)', 'pitpitpipikkk12345')

print(m.group())
print(m.group(0))
print(m.group(1))
print(m.group(2))
print(m.group(3))

print(m.groups())

pipipipikkk12345
pipipipikkk12345
pipipipi
pi
kkk
('pipipipi', 'pi', 'kkk', '5')


### 2) match
* `m = re.match(pattern, string)`
* search에서 앞에 ^를 붙인 것과 동일
* search와 유사하나, 주어진 문자열의 시작부터 비교하여 패턴이 있는지 확인
* 시작부터 해당 패턴이 존재하지 않다면 None 반환

### 3) findall
* `m = re.findall(pattern, string)`
* 매칭되는 모든 결과를 리스트 형태로 반환

### 4) sub
* `m = re.sub(pattern, repl, string, count=0)`
* replace pattern with **repl** and return new string
* repl: **string** or **function**
* count: 0인 경우는 전체를, 1이상이면 해당 숫자만큼 치환

In [2]:
nmap = {'1': 'one', '2': 'two', '3': 'three'}
s = "1 to the 2 to the 3"

# note that m.group() is used as parameter, not m
print(re.sub(r'\d', lambda m: nmap[m.group()], s))

one to the two to the three


### 5) split
* `re.split(pattern, string)`

In [5]:
a = "one,two three.four*five:six"
print(re.split(r'[:,.*\s]*', a))

['one', 'two', 'three', 'four', 'five', 'six']


  return _compile(pattern, flags).split(string, maxsplit)


### 6) compile
* `re.compile(pattern)`
* save the pattern as "re.RegexObject" object

In [12]:
import re

email_reg = re.compile(r'[\w.-]+@[\w.-]+')
print(email_reg.search('test1@test1.com and test2@test2.com').group())
print(email_reg.findall('test1@test1.com and test2@test2.com'))
print(email_reg.sub('test', 'My email is test3@test3.com'))

test1@test1.com
['test1@test1.com', 'test2@test2.com']
My email is test


># 3. Examples & Practices

### 1) search - email address search

In [16]:
pattern1 = r'[\w.-]+@[\w.-]+'
str1 = 'can you find where my address is? baegwangbin@gmail.com'
m = re.search(pattern1, str1).group()
m

'baegwangbin@gmail.com'

In [19]:
#widely used e-mail pattern
email_regex = r"([a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+)"
m = re.search(email_regex, str1)
m.group()

'baegwangbin@gmail.com'

### 2) search - news crawling & email address search 

In [23]:
import requests
from bs4 import BeautifulSoup

def get_news_content(url):
    response = requests.get(url)
    content = response.text

    soup = BeautifulSoup(content, 'html5lib')
    div = soup.find('div', attrs = {'id' : 'harmonyContainer'})
    
    content = ''
    for paragraph in div.find_all('p'):
        content += paragraph.get_text()
        
    return content

news = {}
news[1] = get_news_content('http://v.media.daum.net/v/20170924152555405')
news[2] = get_news_content('http://v.media.daum.net/v/20170922100806612')
news[3] = get_news_content('http://v.media.daum.net/v/20170924145729977?d=y')

pattern2 = r'[\w_]+[\w.-]*@[\w.-]+'

for news in news.values():
    m = re.search(pattern2, news)
    if m:
        print(m.group())

moon@inews24.com
ecowoori@hani.co.kr


### 3) findall - find a word in context 

In [31]:
context = '''Python is a widely used high-level programming language for general-purpose programming, 
created by Guido van Rossum and first released in 1991. An interpreted language, Python has a design 
philosophy that emphasizes code readability (notably using whitespace indentation to delimit code blocks 
rather than curly brackets or keywords), and a syntax that allows programmers to express concepts in fewer 
lines of code than might be used in languages such as C++ or Java.[23][24] The language provides constructs 
intended to enable writing clear programs on both a small and large scale.[25] Python features a dynamic type 
system and automatic memory management and supports multiple programming paradigms, including object-oriented, 
imperative, functional programming, and procedural styles. It has a large and comprehensive standard library.[26]

Python interpreters are available for many operating systems, allowing Python code to run on a wide variety 
of systems. CPython, the reference implementation of Python, is open source software[27] and has a community-based 
development model, as do nearly all of its variant implementations. CPython is managed by the non-profit Python Software Foundation.
'''

# \b - suitable for word search
pattern3 = r'\b[Pp]ython\b'
m = re.findall(pattern3, content)

print(m, "\n The word 'Python' appeared {} times in the given context.".format(len(m)))

['Python', 'Python', 'Python', 'Python', 'Python', 'Python', 'Python'] 
 The word 'Python' appeared 7 times in the given context.
