 # 정규표현식(Regular Expression)

## 학습목표
 + 정규표현식(re) 에 대한 이해 및 숙지

* 정규표현식 
 - regular expression
 - 특정한 패턴과 일치하는 문자열를 '검색', '치환', '제거' 하는 기능을 지원
 - 정규표현식의 도움없이 패턴을 찾는 작업(Rule 기반)은 불완전 하거나, 작업의 cost가 높음
 - e.g) 이메일 형식 판별, 전화번호 형식 판별, 숫자로만 이루어진 문자열 등

* **re**
 - 아래의 함수로 각각의 기능을 제공
 - search
 - match
 - findall
 - sub
 - split
 - compile

* **기본 패턴**
 - a, X, 9 등등 문자 하나하나의 character들은 정확히 해당 문자와 일치
   - e.g) 패턴 test는 test 문자열과 일치
   - 대소문자의 경우 기본적으로 구별하나, 구별하지 않도록 설정 가능
 - 몇몇 문자들에 대해서는 예외가 존재하는데, 이들은 틀별한 의미로 사용 됨
   - . ^ $ * + ? { } [ ] \ | ( )
 
 - . (마침표) - 어떤 한개의 character와 일치 (newline(엔터) 제외)
 
 - \w - 문자 character와 일치 [a-zA-Z0-9_]
 - \s - 공백문자와 일치
 - \t, \n, \r - tab, newline, return
 - \d - 숫자 character와 일치 [0-9]
 - ^ = 시작, $ = 끝 각각 문자열의 시작과 끝을 의미
 - \가 붙으면 스페셜한 의미가 없어짐. 예를들어 \\.는 .자체를 의미 \\\는 \를 의미
 - 자세한 내용은 링크 참조 https://docs.python.org/3/library/re.html

* **raw string**
 - 문자열 앞에 r이 붙으면 해당 문자열이 구성된 그대로 문자열로 변환

In [None]:
a = 'abcdef\n'
print(a)

# raw string
b = r'abcdef\n'
print(b)

* **search method**
 - 첫번째로 패턴을 찾으면 match 객체를 반환
 - 패턴을 찾지 못하면 None 반환

In [None]:
import re

In [None]:
# 패턴과 패턴을 검색할 문자열을 입력으로 전달
# 일반적으로 패턴은 escape문자열이 사용 되기 때문에, raw string으로 사용함
m = re.search(r'test', 'test was hard')
print(m)

# 가장 기본적으로는 각 문자는 해당 문자와 매칭 되기 때문에
# 위의 경우에서는 test가 test라는 패턴과 일치하여 결과를 match 객체를 반환

In [None]:
# piiig에 패턴 iii가 속해 있음
match = re.search(r'iii', 'piiig') # 패턴을 찾은 경우
print(match)

In [None]:
print(match.start()) # 문자열에서 매치하는 패턴의 시작 인덱스
print(match.end())   # 문자열에서 매치하는 패턴의 마지막 인덱스 + 1
print(match.group()) # 문자열에서 매치하는 패턴 문자열

In [None]:
match = re.search(r'iiiig', 'piiig') # 패턴이 없는 경우
print(match) # None 반환

In [None]:
match = re.search(r'\d\d.', 'he1432324')
match.start(), match.group()

* **metacharacters (메타 캐릭터)**

- **[]** 문자들의 범위를 나타내기 위해 사용
   - [] 내부의 메타 캐릭터는 캐릭터 자체를 나타냄
   - e.g)
   - [abck] : a or b or c or k
   - [abc.^] : a or b or c or . or ^
   - [a-d]  : -와 함께 사용되면 해당 문자 사이의 범위에 속하는 문자 중 하나
   - [0-9]  : 모든 숫자
   - [a-z]  : 모든 소문자
   - [A-Z]  : 모든 대문자
   - [a-zA-Z0-9] : 모든 알파벳 문자 및 숫자
   - [^0-9] : ^가 맨 앞에 사용 되는 경우 해당 문자 패턴이 아닌 것과 매칭

In [None]:
print(re.search(r'[cbm]at', 'cat'))
print(re.search(r'[cbm]at', 'bat'))
print(re.search(r'[cbm]at', 'mat'))
print(re.search(r'[cbm]at', 'aat'))

In [None]:
print(re.search(r'[0-9]haha', '1haha'))
print(re.search(r'[0-4]haha', '7haha'))

In [None]:
print(re.search(r'[abc.^]aron', 'daron'))
print(re.search(r'[abc.^]aron', 'caron'))
print(re.search(r'[abc.^]aron', '^aron'))

In [None]:
print(re.search(r'[^abc]aron', '^aron'))
print(re.search(r'[^abc]aron', 'aaron'))
print(re.search(r'[^abc]aron', 'baron'))
print(re.search(r'[^abc]aron', 'caron'))
print(re.search(r'[^abc]aron', 'daron karon paron').group())

* **\** 
 1. 다른 문자와 함께 사용되어 특수한 의미를 지님
   - \d : 숫자를          [0-9]와 동일
   - \D : 숫자가 아닌 문자  [^0-9]와 동일
   - \s : 공백 문자(띄어쓰기, 탭, 엔터 등)
   - \S : 공백이 아닌 문자
   - \w : 알파벳대소문자, 숫자 [0-9a-zA-Z]와 동일
   - \W : non alpha-numeric 문자 [^0-9a-zA-Z]와 동일
 2. 메타 캐릭터가 캐릭터 자체를 표현하도록 할 경우 사용
   - \\. , \\\


In [None]:
m = re.search(r'\d\d\d', 'p123g') 
print(m.group())

m = re.search(r'\d\d\d', '오마이갓123이럴수가') 
print(m.group())

m = re.search(r'\w\w\w', '@@abcd!!')
print(m.group())

m = re.search(r'\w\w\w', '@@ab0!!')
print(m.group())

m = re.search(r'\W\W', '@%a!!')
print(m.group())

m = re.search(r'\w\w\w', '@@ab!!')
print(m)

m = re.search(r'abc', 'ABC', flags=re.IGNORECASE)
print(m)

m = re.search(r'[aA][bB][cC]', 'ABC')
print(m)

* **.** 
 - 모든 문자를 의미

In [None]:
m = re.search(r'...a.', 'b@@ab0!!a')
print(m.group())

In [None]:
m = re.search(r'....a.', 'b@@ab0!!a')
print(m)

In [None]:
m = re.search(r'iii', 'piiiigiiiiik') # 맨 첫번째로 매칭되는 문자열을 반환 
print(m.start())
print(m.group())

* **반복패턴**
 - 패턴 뒤에 위치하는 *, +, ?는 해당 패턴이 반복적으로 존재하는지 검사 
   - '+' -> 1번 이상의 패턴이 발생
   - '*' -> 0번 이상의 패턴이 발생
   - '?' -> 0 혹은 1번의 패턴이 발생
 - 반복을 패턴의 경우 greedy하게 검색 함, 즉 가능한 많은 부분이 매칭되도록 함
  - e.g) a[bcd]*b  패턴을 abcbdccb에서 검색하는 경우
    - ab, abcb, abcbdccb 전부 가능 하지만 최대한 많은 부분이 매칭된 abcbdccb가 검색된 패턴

In [None]:
re.search(r'a[bcd]*b', 'abcbdccb').group()

In [None]:
m = re.search(r'pi+g', 'piiig')
print(m.group())

m = re.search(r'pi+g', 'pg')
print(m)

m = re.search(r'pi*g', 'pg')
print(m.group())

In [None]:
m = re.search(r'i+', 'piigiiii')
print(m.group()) # search는 앞에서 부터 검색 함

In [None]:
m = re.search(r'\d\s*\d\s*\d', 'xx1 2   3xx')
print(m.group())

* **^**, **$**
 - ^  문자열의 맨 앞부터 일치하는 경우 검색
 - \$  문자열의 맨 뒤부터 일치하는 경우 검색

In [None]:
m = re.search(r'b\w+a', 'cabana')
print(m.group())

m = re.search(r'^b\w+a', 'cabana')
print(m)

m = re.search(r'^b\w+a', 'banana')
print(m.group())

m = re.search(r'b\w+a$', 'cabana')
print(m.group())

m = re.search(r'b\w+a$', 'cabbbbbbana')
print(m.group())

m = re.search(r'^c\w+a$', 'cabana')
print(m.group())

* **간단 email 주소 패턴**

In [None]:
str1 = 'haha this is awesom macmath22@ macmath22@gmail.com test@gmail.co.kr monkey summer hot'

* 연습문제) 위의 문자열에서 이메일 주소를 추출해 보세요

In [None]:
pattern = r'[\w.-]+@[\w.-]+'
re.search(pattern, str1).group()

In [None]:
# python email checker regex
email_regex = r"(^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$)"

m = re.search(email_regex,
              "macmath22@gmail.co.kr")

m.group()

 * **grouping**
  - ()을 사용하여 그루핑
  - 매칭 결과를 각 그룹별로 분리 가능
  - 패턴 명시 할 때, 각 그룹을 괄호() 안에 넣어 분리하여 사용

In [None]:
m = re.search(r'\w+@.+',
              "My email is macmath22@gmail.com")

m = re.search(r'(\w+)@(.+)',
              "My email is macmath22@gmail.com")

print(m.group())
print(m.group(0))
print(m.group(1))
print(m.group(2))

In [None]:
print(m.group()) # 전체결과를 가져옴
print(m.group(0)) # 전체결과를 가져옴

print(m.group(1)) # 1번째 서브그룹
print(m.group(2)) # 2번째 서브그룹

In [None]:
print(m.groups()) # 전체 그룹을 튜플로 반환

In [None]:
# 반복이 사용되는 경우 그루핑과 반복의 위치가 중요
# 반복이 그루핑 내에 사용되는 경우 전체 매칭이 서브그룹화
# 반복이 그루핑 밖에 사용 되는 경우 마지막 매칭만 서브 그룹화
m = re.search(r'(pi)+(k+)(\d)+', 'pipipipikkk12345')
m = re.search(r'(pi)+(k+)(\d+)', 'pitpitpipikkk12345')

print(m.group())
print(m.group(0))
print(m.group(1))
print(m.group(2))
print(m.group(3))

print(m.groups())

* 연습문제) 
 - 다음 뉴스의 본문을 크롤링 하는 함수가 주어짐
 - 이때, 본문의 텍스트에는 기자의 이메일이 포함 됨 
 - 이때, 기자 이메일 주소를 추출하시오

In [None]:
import requests
from bs4 import BeautifulSoup
# 위의 두 모듈이 없는 경우에는 pip install requests bs4 실행

def get_news_content(url):
    response = requests.get(url)
    content = response.text

    soup = BeautifulSoup(content, 'html5lib')

    div = soup.find('div', attrs = {'id' : 'harmonyContainer'})
    
    content = ''
    for paragraph in div.find_all('p'):
        content += paragraph.get_text()
        
    return content

In [None]:
news1 = get_news_content('http://v.media.daum.net/v/20170918164130845')
news2 = get_news_content('http://v.media.daum.net/v/20170918142847946')

In [None]:
print(news1)

In [None]:
print(news2)

In [None]:
pattern = r'[\w_]+[\w.-]*@[\w.-]+'


re.search(pattern, news1).group(), re.search(pattern, news2).group()

* **연습문제)**
 - 전화번호를 추출하는 정규표현식을 작성하시오
 - 010-1111-2222

In [None]:
pattern = r'^010-\d+-\d+'
phone = '010-1111-2222'
re.search(pattern, phone).group()

 * **{}**
  - *, +, ?을 사용하여 반복적인 패턴을 찾는 것이 가능하나, 반복의 횟수 제한은 불가
  - 패턴뒤에 위치하는 중괄호{}에 숫자를 명시하면 해당 숫자 만큼의 반복인 경우에만 매칭
  - {4} - 4번 반복
  - {3,4} - 3 ~ 4번 반복

In [None]:
pattern = r'^01\d{1}-\d{3,4}-\d{4}'
print(re.search(pattern, '010-1111-6360').group())
print(re.search(pattern, '010-111-6360').group())
print(re.search(pattern, '010-11-6360'))

* **match**
 - search와 유사하나, 주어진 문자열의 시작부터 비교하여 패턴이 있는지 확인
 - 시작부터 해당 패턴이 존재하지 않다면 None 반환

In [None]:
m = re.match(r'[\w-]@[\w-]+',
              "My email is macmath22@gmail.com")

if m != None:
    print(m.group())
else:
    print('No pattern')
    
    
m = re.match(r'[\w-]+@[\w-]+',
              "macmath22@gmail.com is my email")

if m != None:
    print(m.group())

* **findall**
 - search가 최초로 매칭되는 패턴만 반환한다면, findall은 매칭되는 전체의 패턴을 반환
 - 매칭되는 모든 결과를 리스트 형태로 반환

In [None]:
str = 'What a nice weather macmath22@gmail.com, test@test.com mina@minas.net'
emails = re.findall(r'[\w-]+@[\w-]+', str) 
for email in emails:
    print(email)

In [None]:
str = 'What a nice weather macmath22@gmail.com, test@test.com mina@minas.net'
emails = re.findall(r'([\w\.-]+)@([\w\.-]+)', str) 
for email in emails:
    print(email, email[0], email[1]) 

* **미니멈 매칭(non-greedy way)**
 - 기본적으로 *, +, ?를 사용하면 greedy(맥시멈 매칭)하게 동작함
   - 따라서 패턴 <.+> 가 문자열 <html> hahah </html>의 패턴을 찾는데 사용되면 전체 문자열이 매칭 됨
 - 이것은 <html>만을 찾고자 하는 의도한 결과가 아니기 때문에, 미니멈 매칭이 필요한 경우도 있음
 - *?, +?, ??을 이용하여 해당 기능을 구현
 - 위의 세가지를 사용하면 최소로 만족하는 조건을 검색

In [None]:
m = re.search(r'<.+>', '<html> haha </html>')
print(m.group())
print(m.start())
print(m.end())

In [None]:
m = re.search(r'<.+?>', '<html> haha </html>')
print(m.group())
print(m.start())
print(m.end())

In [None]:
print(re.search(r'a[bcd]*b', 'abccbbdbbd').group())

In [None]:
print(re.search(r'a[bcd]*?b', 'abccbbdbbd').group())

In [None]:
print(re.search(r'a[bcd]+b', 'abccbbdbbd').group())

In [None]:
print(re.search(r'a[bcd]+?b', 'abccbbdbbd').group())

* **{}?**
 - {m,n}의 경우 m번 혹은 n번 반복하나 greedy하게 동작
 - {m,n}?로 사용하면 non-greedy하게 동작. 즉, 최소 m번만 매칭하면 만족

In [None]:
print(re.search(r'a{3,5}', 'aaaaaa').group())

In [None]:
print(re.search(r'a{3,5}?', 'aaaaaa').group())

In [None]:
print(re.search(r'[pi]+', 'pipipiipiiipppg').group())
print(re.search(r'(pi)+', 'pipipiipiiipppg').group())
print(re.search(r'[pi]+?', 'pipipiipiiipppg').group())
print(re.search(r'[pi]{2,3}', 'pipipiipiiipppg').group())
print(re.search(r'[pi]{2,3}?', 'pipipiipiiipppg').group())
print(re.search(r'(pi){2,3}', 'pipipiipiiipppg').group())
print(re.search(r'(pi){2,3}?', 'pipipiipiiipppg').group())

* 연습문제)
 - 문자열 리스트내에서 올바른 파이썬 변수명만 있는지 판단하시오
 - 대소문자를 제외한 the라는 단어가 content 문자열에서 몇번 나왔는지 개수를 구하시오 
 - def is_substring(s, query)를 구현하시오

In [None]:
content = '''Python is very concise language compared to the other ones
Python has powerful tools and the tools are very nice
The tools include debugger profiler and the compiler
Python is used widely for many reasons and mostly for web apis
The apis built from python is about 2 times faster than ruby
python is language and also a specification python can be implemented in any language
'''

pattern = r'\b[tT]he\b'

re.findall(pattern, content)

In [None]:
variables = ['abc', '3dbd', 'a_bdd', '3', 'a', 'good344', 'aB_23'] # 각 문자열이 python 변수 명이라고 가정

pattern = r'^[a-zA-Z_]+[\w_]*'

for var in variables:
    m = re.search(pattern, var)
    if m:
        print(m.group())

In [None]:
# str1이 str2의 부분 문자열인지?
def is_substring(str1, str2):
    return re.search(str1, str2) != None

print(is_substring(r'test', 'hahaha tedfdfst'))

In [None]:
a = [None]
if a:
    print('hahaha')

* **sub**
 - 주어진 문자열에서 일치하는 모든 패턴을 replace
 - 그 결과를 문자열로 다시 반환함
 - 두번째 인자는 특정 문자열이 될 수도 있고, 함수가 될 수 도 있음
 - count가 0인 경우는 전체를, 1이상이면 해당 숫자만큼 치환 됨

In [None]:
str = 'What a nice weather macmath22@gmail.com, test@test.com mina@minas.net'
replaced = re.sub(r'[\w.-]+@[\w.-]+', 'test', str) 
print(replaced)

In [None]:
nmap = {'1': 'one', '2': 'two', '3': 'three'}
s = "1 to the 2 to the 3"

# 함수가 사용될 경우, 파라미터로 match객체가 전달됨. 따라서 group을 호출해 주어야 제대로 동작함
print(re.sub(r'\d', lambda m: nmap[m.group()], s))

* 실습)
 - 010-3335-5555형식의 번호를 (010) 3335-5555로 변환하는 함수를 만드시오
 - grouping을 이용

In [None]:
pattern = r'(\d{3})-(\d{4})-(\d{4})'
replace = r'(\1)\2-\3'

result = re.sub(pattern, replace, '010-3457-6360')
print(result)

* 연습문제
 - "one, two three.four*five:six"에서 one, two, three, four, five, six로 추출해보시오

In [None]:
test = "one,two three.four*five:six"
a, b = test.split(',')
b, c = b.split(' ')
a, b, c

* **split**
 - 문자열의 split과 유사하나, 정규표현식을 이용하여 더 편리하게 분할 가능

In [None]:
a = "one,two three.four*five:six"
print(re.split(r'[:,.*\s]*', a))

* **compile**
 - 동일한 정규표현식을 매번 다시 쓰기 번거로움을 해결
 - compile로 해당표현식을 re.RegexObject 객체로 저장하여 사용가능

In [None]:
import re

email_reg = re.compile(r'[\w.-]+@[\w.-]+')

m = email_reg.search('What a nice weather macmath22@gmail.com, test@test.com mina@minas.net')
if m:
    print(m.group())
    

print(email_reg.findall('What a nice weather macmath22@gmail.com, test@test.com mina@minas.net'))

print(email_reg.sub('test', 'My email is macmath22@gmail.com'))

 * 연습문제 
  - 다음중 올바른 (http, https) 웹페이지만 찾으시오

In [None]:
webs = ['http://www.test.co.kr', 
        'https://www.test1.com', 
        'http://www.test.com', 
        'ftp://www.test.com', 
        'http:://www.test.com',
       'htp://www.test.com',
       'http://www.google.com', 
       'https://www.homepage.com']

In [None]:
pattern = r'https?://[\w.]+'
for url in webs:
    m = re.search(pattern, url)
    if m:
        print(m.group())

In [None]:
import requests

res = requests.get('http://www.naver.com')
re.findall(pattern, res.text)