 # 정규표현식(Regular Expression)

## 학습목표
 + 정규표현식(re) 에 대한 이해 및 숙지

* 정규표현식 
 - regular expression
 - 특정한 패턴과 일치하는 문자열를 <b>'검색', '치환', '제거'</b> 하는 기능을 지원
 - 정규표현식의 도움없이 패턴을 찾는 작업(Rule 기반)은 불완전 하거나, 작업의 cost가 높음
 - e.g) 이메일 형식 판별, 전화번호 형식 판별, 숫자로만 이루어진 문자열 등

python re module로 제공
 - 아래의 함수로 각각의 기능을 제공
 - search
 - match
 - findall
 - sub
 - split
 - compile

* **기본 패턴**
 - a, X, 9 등등 문자 하나하나의 character들은 정확히 해당 문자와 일치
   - e.g) 패턴 test는 test 문자열과 일치
   - 대소문자의 경우 기본적으로 구별하나, 구별하지 않도록 설정 가능
 - 몇몇 문자들에 대해서는 예외가 존재하는데, 이들은 틀별한 의미로 사용 됨
   - . ^ $ * + ? { } [ ] \ | ( )
 
 - . (마침표) - 어떤 한개의 character와 일치 (newline(엔터) 제외)
     - .a = ba = #a = za = ka <br><br>
 
 - \w - 문자 character와 일치 [a-zA-Z0-9_] , ***영어대소문자, 숫자***
 - \s - 공백문자와 일치 ***띄어쓰기, 탭, 엔터***
 - \t, \n, \r - tab, newline, return
 - \d - ***숫자 character와 일치 [0-9]***
 - ^ = 시작, $ = 끝 각각 문자열의 시작과 끝을 의미
 - \가 붙으면 스페셜한 의미가 없어짐. 예를들어 \\.는 .자체를 의미 \\\는 \를 의미
 - 자세한 내용은 링크 참조 https://docs.python.org/2/library/re.html

* **raw string**
 - 문자열 앞에 r이 붙으면 해당 문자열이 구성된 그대로 문자열로 변환

In [3]:
a = 'abcdef\n'
print(a)

# raw string
b = r'abcdef\n'
print(b)

abcdef

abcdef\n


* **search method**
 - 첫번째로 패턴을 찾으면 match 객체를 반환
 - 패턴을 찾지 못하면 None 반환

In [4]:
import re

In [10]:
# 패턴과 패턴을 검색할 문자열을 입력으로 전달
# 일반적으로 패턴은 escape문자열이 사용 되기 때문에, raw string으로 사용함
m = re.search(r'test', 'dkdkss test  hard')
print(m)

# 가장 기본적으로는 각 문자는 해당 문자와 매칭 되기 때문에
# 위의 경우에서는 test가 test라는 패턴과 일치하여 결과를 match 객체를 반환

<_sre.SRE_Match object; span=(7, 11), match='test'>


In [22]:
# piiig에 패턴 iii가 속해 있음
match = re.search(r'iii', 'piiig') # 패턴을 찾은 경우
print(match)

<_sre.SRE_Match object; span=(1, 4), match='iii'>


In [23]:
print(match.start()) # 문자열에서 매치하는 패턴의 시작 인덱스
print(match.end())   # 문자열에서 매치하는 패턴의 마지막 인덱스 + 1 , 슬레이싱생각해!
print(match.group()) # 문자열에서 매치하는 패턴 문자열

1
4
iii


In [None]:
match = re.search(r'iiiig', 'piiig') # 패턴이 없는 경우
print(match) # None 반환

In [27]:
match = re.search(r'\d\do', 'he1432324')
print(match.start())

AttributeError: 'NoneType' object has no attribute 'start'

* **metacharacters (메타 캐릭터)**

- **[]** 문자들의 범위를 나타내기 위해 사용
   - [] 내부의 메타 캐릭터는 캐릭터 자체를 나타냄
   - e.g)
   - [abck] : a or b or c or k (넷중에 하나만 오면됨)
   - [abc.^] : a or b or c or . or ^ (대괄호안에 . 오면 당연그냥 점)
   - [a-d]  : -와 함께 사용되면 해당 문자 사이의 범위에 속하는 문자 중 하나(알파벳 순서대로)
   - [0-9]  : 모든 숫자
   - [a-z]  : 모든 소문자
   - [A-Z]  : 모든 대문자
   - [a-zA-Z0-9] : 모든 알파벳 문자 및 숫자
   - [^0-9] : ^가 맨 앞에 사용 되는 경우 해당 문자 패턴이 ***아닌 것***과 매칭

In [28]:
print(re.search(r'[cbm]at', 'cat'))
print(re.search(r'[cbm]at', 'bat'))
print(re.search(r'[cbm]at', 'mat'))
print(re.search(r'[cbm]at', 'aat'))

<_sre.SRE_Match object; span=(0, 3), match='cat'>
<_sre.SRE_Match object; span=(0, 3), match='bat'>
<_sre.SRE_Match object; span=(0, 3), match='mat'>
None


In [29]:
print(re.search(r'[0-9]haha', '1haha'))
print(re.search(r'[0-4]haha', '7haha'))

<_sre.SRE_Match object; span=(0, 5), match='1haha'>
None


In [34]:
print(re.search(r'[abc.^]aron', 'daron'))
print(re.search(r'[abc.^]aron', 'caron'))
print(re.search(r'[abc.^]aron', '^aron'))


None
<_sre.SRE_Match object; span=(0, 5), match='caron'>
<_sre.SRE_Match object; span=(0, 5), match='^aron'>


In [35]:
print(re.search(r'[^abc]aron', '^aron'), 
print(re.search(r'[^abc]aron', 'aaron'))
print(re.search(r'[^abc]aron', 'baron'))
print(re.search(r'[^abc]aron', 'caron'))
print(re.search(r'[^abc]aron', 'daron'))

NameError: name 'group' is not defined

* **\** 
 1. 다른 문자와 함께 사용되어 특수한 의미를 지님 // 대문자는 낫 의미함
 
   - \d : 숫자를          [0-9]와 동일
   - \D : 숫자가 아닌 문자  [^0-9]와 동일
   - \s : 공백 문자(띄어쓰기, 탭, 엔터 등)
   - \S : 공백이 아닌 문자
   - \w : 알파벳대소문자, 숫자 [0-9a-zA-Z]와 동일
   - \W : non alpha-numeric 문자 [^0-9a-zA-Z]와 동일
 2. 메타 캐릭터가 캐릭터 자체를 표현하도록 할 경우 사용
   - \\. , \\\
   - 그냥 점 자체가 필요한 경우


In [38]:
m = re.search(r'\d\d\d', 'p123g') 
print(m.group())

m = re.search(r'\d\d\d', '오마이갓123이럴수가') 
print(m.group())

m = re.search(r'\w\w\w', '@@abcd!!')
print(m.group())

m = re.search(r'\w\w\w', '@@ab0!!')
print(m.group())

m = re.search(r'\W\W', '@%a!!')
print(m.group())

m = re.search(r'\w\w\w', '@@ab!!')
print(m)

#대소문자 구별함!!!           ignore 대소문자 구별 안함
m = re.search(r'abc', 'ABC', flags=re.IGNORECASE)
print(m)
# 이렇게도 함 
m = re.search(r'[aA][bB][cC]', 'ABC')
print(m)



123
123
abc
ab0
@%
None
<_sre.SRE_Match object; span=(0, 3), match='ABC'>
<_sre.SRE_Match object; span=(0, 3), match='ABC'>


* **.** 
 - 모든 문자를 의미

In [39]:
m = re.search(r'...a.', 'b@@ab0!!a')
print(m.group())

b@@ab


In [40]:
m = re.search(r'....a.', 'b@@ab0!!a')
print(m)

None


In [44]:
m = re.search(r'iii', 'piiiigiiiiik') # 맨 첫번째로 매칭되는 문자열을 반환 // 앞에서부터 찾고 끝냄

print(m.start())
print(m.end())
print(m.group())

1
4
iii


* **반복패턴**
 - 패턴 뒤에 위치하는 *, +, ?는 해당 패턴이 반복적으로 존재하는지 검사 
   - '+ -> 1번 이상의 패턴이 발생
   - '*' -> 0번 이상의 패턴이 발생
   - '?' -> 0 혹은 1번의 패턴이 발생  
 - 반복을 패턴의 경우 greedy하게 검색 함, 즉 가능한 많은 부분이 매칭되도록 함
  - e.g) a[bcd]*b  패턴을 abcbdccb에서 검색하는 경우
    - ab, abcb, abcbdccb 전부 가능 하지만 최대한 많은 부분이 매칭된 abcbdccb가 검색된 패턴

In [45]:
re.search(r'a[bcd]*b', 'abcbdccb').group()

'abcbdccb'

In [46]:
m = re.search(r'pi+g', 'piiig')
print(m.group())

m = re.search(r'pi+g', 'pg')
print(m)

m = re.search(r'pi*g', 'pig')
print(m.group())

piiig
None
pig


In [49]:
m = re.search(r'i+', 'piigiiii')
print(m.group()) # search는 앞에서 부터 검색 함 / 찾으면 끝남

ii


In [52]:
m = re.search(r'\d\s*\d\s*\d', 'xx1 2  3xx')
print(m.group())

1 2  3


* **^**, **$**
 - ^  문자열의 **맨 앞**부터 일치하는 경우 검색
 - &  문자열의 **맨 뒤**부터 일치하는 경우 검색

In [53]:
m = re.search(r'b\w+a', 'cabana')
print(m.group())

m = re.search(r'^b\w+a', 'cabana')
print(m)

m = re.search(r'^b\w+a', 'banana')
print(m.group())

m = re.search(r'b\w+a$', 'cabana')
print(m.group())

m = re.search(r'b\w+a$', 'cabbbbbbana')
print(m.group())

m = re.search(r'^c\w+a$', 'cabana')
print(m.group())

bana
None
banana
bana
bbbbbbana
cabana


* **간단 email 주소 패턴**

In [54]:
str1 = 'haha this is awesom macmath22@ macmath22@gmail.com test@gmail.co.kr monkey summer hot'

* 연습문제) 위의 문자열에서 이메일 주소를 추출해 보세요

In [68]:
match = re.search(r'^.\w@', str1)
print(match.group())

AttributeError: 'NoneType' object has no attribute 'group'

In [71]:
match = re.search(r'[\w.-]+@[\w.-]+', str1)
if match:
    print(match.group())

macmath22@gmail.com


In [56]:
m = re.search(r'[\w.-]+@[\w.-]+',
              "My email is macmath22@gmail.com")

print(m.group(), type(m.group()))

macmath22@gmail.com <class 'str'>


In [57]:
# python email checker regex
email_regex = r"(^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$)"

m = re.search(email_regex,
              "macmath22@gmail.co.kr")

m.group()

'macmath22@gmail.co.kr'

 * **grouping**
  - ()을 사용하여 그루핑
  - 매칭 결과를 각 그룹별로 분리 가능
  - 패턴 명시 할 때, 각 그룹을 괄호() 안에 넣어 분리하여 사용

In [72]:
m = re.search(r'\w+@.+',
              "My email is macmath22@gmail.com")

m = re.search(r'(\w+)@(.+)',
              "My email is macmath22@gmail.com")

print(m.group())
print(m.group(0))
print(m.group(1))
print(m.group(2))

macmath22@gmail.com
macmath22@gmail.com
macmath22
gmail.com


In [73]:
print(m.group()) # 전체결과를 가져옴
print(m.group(0)) # 전체결과를 가져옴

print(m.group(1)) # 1번째 서브그룹
print(m.group(2)) # 2번째 서브그룹

macmath22@gmail.com
macmath22@gmail.com
macmath22
gmail.com


In [74]:
print(m.groups()) # 전체 그룹을 튜플로 반환 group sssssssssssss!!!!!!!!!!!!!!!!!!!!!!!!!!!ssssssssssssssssssss

('macmath22', 'gmail.com')


In [80]:
# 반복이 사용되는 경우 그루핑과 반복의 위치가 중요
# 반복이 그루핑 내에 사용되는 경우 전체 매칭이 서브그룹화
# 반복이 그루핑 밖에 사용 되는 경우 <<<<<<<마지막 매칭만 서브 그룹화>>>>>>>>

m = re.search(r'(pi)+(k+)(\d)+', 'pipipipikkk12345')
# m = re.search(r'(pi)+(k+)(\d+)', 'pitpitpipikkk12345')

print(m.group())
print(m.group(0))
print(m.group(1))
print(m.group(2))
print(m.group(3))

print(m.groups())

pipipipikkk12345
pipipipikkk12345
pi
kkk
5
('pi', 'kkk', '5')


In [81]:
# 반복이 사용되는 경우 그루핑과 반복의 위치가 중요
# 반복이 그루핑 내에 사용되는 경우 전체 매칭이 서브그룹화
# 반복이 그루핑 밖에 사용 되는 경우 마지막 매칭만 서브 그룹화

# m = re.search(r'(pi)+(k+)(\d)+', 'pipipipikkk12345')
m = re.search(r'(pi)+(k+)(\d+)', 'pitpitpipikkk12345')

print(m.group())
print(m.group(0))
print(m.group(1))
print(m.group(2))
print(m.group(3))

print(m.groups())

pipikkk12345
pipikkk12345
pi
kkk
12345
('pi', 'kkk', '12345')


* 연습문제) 
 - 다음 뉴스의 본문을 크롤링 하는 함수가 주어짐
 - 이때, 본문의 텍스트에는 기자의 이메일이 포함 됨 
 - 이때, 기자 이메일 주소를 추출하시오

In [82]:
import requests
from bs4 import BeautifulSoup
# 위의 두 모듈이 없는 경우에는 pip install requests bs4 실행

def get_news_content(url):
    response = requests.get(url)
    content = response.text

    soup = BeautifulSoup(content, 'html5lib')

    div = soup.find('div', attrs = {'id' : 'harmonyContainer'})
    
    content = ''
    for paragraph in div.find_all('p'):
        content += paragraph.get_text()
        
    return content

In [83]:
news1 = get_news_content('http://v.media.daum.net/v/20170918164130845')
news2 = get_news_content('http://v.media.daum.net/v/20170918142847946')

In [84]:
print(news1)

#지난해 10월 태풍 '차바' 피해현장에서 인명을 구조하려다 급류에 휩쓸려 순직한 고(故) 강기봉 소방사는 구조현장에 투입돼선 안되는 '구급대원'이었다. 구급대원 특채로 임용된 그는 온산소방서 소속 구급대원으로 근무했다. 당시 강 소방사는 고립된 차에 사람이 있다는 신고를 받고 동료 2명과 함께 회야강변 울주군 회야댐 수질개선사업소로 출동했다가, 불어난 강물에 휩쓸려 숨졌다.강원 강릉 석란정 사고로 소방관 2명이 생명을 잃은 가운데 소방관들의 근본적 처우 개선이 필요하다는 목소리가 높아지고 있다. 특히 소방관들의 숙원인 '국가직 전환'을 신속히 추진해 지방자치단체마다 제각각인 처우를 끌어올리고 인력 부족도 해소해야 한다는 지적이 나오고 있다.18일 소방청에 따르면 지난해 말 기준 전국 소방공무원은 4만4293명으로 소방기본법이 제시하는 기준 인력(5만2714명)보다 1만9254명 부족하다. 특히 화재 진압과 환자 구조 등에 필요한 현장 인력은 3만2460명에 불과하다.일선 소방관들이 느끼는 상황은 더 심각하다. 서울 일선 소방서의 한 소방관은 "10명이 3교대 근무를 해야할 것을 8명이 근무하고, 부족한 인력을 여러 지역 소방관들이 땜빵식으로 해결하는 상황"이라며 "서울은 그나마 낫고 지방은 더 열악하다"고 말했다.서울 지역 또 다른 소방관도 "인명구조 할 사람도 필요하고 화재 진압도 해야하는데 불끄다 인명 구조 못하는 상황이 생긴다"고 말했다.소방관들이 화재 현장에서 사망하는 안타까운 소식이 전해질 때마다 처우 개선을 해야한다는 여론이 컸지만 실상은 제자리 걸음이다. 세월호 참사 후 국민안전처로 합쳐졌던 소방청이 다시 독립기관으로 분리된 정도다.특히 국가직 공무원 전환은 소방관들의 숙원이다. 전체 소방공무원 중 1%만 국가직 공무원이고 나머지 99%는 지자체 소속 지방직 공무원이다. 현재 소방에서 사용되는 전체 예산이 4조590억원 정도인데, 이중 3조9540억원(97%)이 지자체 예산이다. 지자체 재원에 따라 소방관들의 장비와 처우 등이 천차만별인 상황이다

In [86]:
print(news2)

(서울=연합뉴스) 임화섭 기자 = 스마트폰 갤럭시노트8 출시를 계기로 지난 주말 일부 이동통신 집단상가에서 불법보조금 살포 등 시장 과열 현상이 나타난 데 대해 방송통신위원회가 이동통신 3사 중 한 곳에 구두경고를 했다고 18일 밝혔다.방통위 관계자는 "지난 주말에 일부 과열 상황이 생겨 이런 상황에 책임이 큰 1개 이통사에 오늘 공식으로 구두경고를 하도록 조치했다"며 "시장 상황을 지속적으로 모니터링하고 수시로 구두경고 등을 내릴 것"이라고 설명했다.그는 "다만 올 봄 갤럭시S8 발매 당시와 비교해 보면 아직 과열이 심각한 수준은 아니었다고 판단한다"며 당장 추가 조치를 취할 계획은 지금으로서는 없다고 설명했다. 삼성전자의 신제품 갤럭시노트8은 사전 예약자 대상의 개통 첫날인 15일 약 20만대가, 다음날인 16일에는 약 7만대가 각각 개통됐다.이동통신 시장의 분위기를 가늠하는 잣대인 번호이동 수치는 15일 3만8천여건, 16일 2만6천여건으로 방송통신위원회가 보는 시장과열 기준(하루 2만4천건)을 이틀 연속으로 넘었다. 17일에는 전산 휴무로 번호이동이 없었다.일부 집단상가와 SNS 등 온라인 유통망에서는 법적 상한선(33만원)을 훌쩍 뛰어넘는 불법 보조금이 유포됐다. 방통위가 15일부터 시장 모니터링을 강화했으나, 시간대별로 치고 빠지는 '떴다방식'(스팟성) 보조금이 기승을 부렸다.지원금을 받는 번호이동의 경우 갤노트8 64GB의 실구매가가 지난 주말에는 40만원 안팎까지 떨어졌다. 64GB 모델의 출고가가 109만원대인 점을 고려하면 공시 지원금 외에 보조금이 40만원 이상 추가로 지급된 셈이다.solatido@yna.co.kr


In [122]:
email = r'[a-zA-Z][\w.-]+@[\w.-]+'
print (re.search(email, news1).group(), re.search(email, news2).group())

human@mt.co.kr solatido@yna.co.kr


* **연습문제)**
 - 전화번호를 추출하는 정규표현식을 작성하시오
 - 010-1111-2222

In [111]:
pattern = r'^0\d+-\d+-\d+'
m = re.search(pattern, '010-3457-6360')
print(m.group())


010-3457-6360


 * **{}**
  - *, +, ?을 사용하여 반복적인 패턴을 찾는 것이 가능하나, 반복의 횟수 제한은 불가
  - 패턴뒤에 위치하는 중괄호{}에 숫자를 명시하면 해당 숫자 만큼의 반복인 경우에만 매칭
  - {4} - 4번 반복
  - {3,4} - 3 or 4번 반복

In [124]:
pattern = r'^01\d{1}-\d{3,4}-\d{4}'
print(re.search(pattern, '010-1111-6360').group())
print(re.search(pattern, '010-111-6360').group())
print(re.search(pattern, '010-11-6360'))

010-1111-6360
010-111-6360
None


* **match**
 - search와 유사하나, 주어진 문자열의 시작부터 비교하여 패턴이 있는지 확인
 - 시작부터 해당 패턴이 존재하지 않다면 None 반환

In [125]:
m = re.match(r'[\w-]@[\w-]+',
              "My email is macmath22@gmail.com")

if m != None:
    print(m.group())
else:
    print('No pattern')
    
    
m = re.match(r'[\w-]+@[\w-]+',
              "macmath22@gmail.com is my email")

if m != None:
    print(m.group())

No pattern
macmath22@gmail


* **findall**
 - search가 최초로 매칭되는 패턴만 반환한다면, findall은 매칭되는 전체의 패턴을 반환
 - 매칭되는 모든 결과를 리스트 형태로 반환

In [129]:
str = 'What a nice weather macmath22@gmail.com, test@test.com mina@minas.net'
emails = re.findall(r'[\w-]+@[\w.-]+', str) 
for email in emails:
    print(email)

macmath22@gmail.com
test@test.com
mina@minas.net


In [130]:
str = 'What a nice weather macmath22@gmail.com, test@test.com mina@minas.net'
emails = re.findall(r'([\w\.-]+)@([\w\.-]+)', str) 
for email in emails:
    print(email, email[0], email[1]) 

('macmath22', 'gmail.com') macmath22 gmail.com
('test', 'test.com') test test.com
('mina', 'minas.net') mina minas.net


* **미니멈 매칭(non-greedy way)**
 - 기본적으로 *, +, ?를 사용하면 greedy(맥시멈 매칭)하게 동작함
   - 따라서 패턴 <.+> 가 문자열 <html> hahah </html>의 패턴을 찾는데 사용되면 전체 문자열이 매칭 됨
 - 이것은 <html>만을 찾고자 하는 의도한 결과가 아니기 때문에, 미니멈 매칭이 필요한 경우도 있음
 - *?, +?, ??을 이용하여 해당 기능을 구현
 - 위의 세가지를 사용하면 최소로 만족하는 조건을 검색

In [131]:
m = re.search('<.+>', '<html> haha </html>') # 처음꺽쇠부터 제일 늦게나오는 꺽쇠까지 
print(m.group())
print(m.start())
print(m.end())

<html> haha </html>
0
19


In [132]:
m = re.search('<.+?>', '<html> haha </html>') # 물음표!
print(m.group())
print(m.start())
print(m.end())

<html>
0
6


In [133]:
print(re.search(r'a[bcd]*b', 'abccbbdbbd').group())

abccbbdbb


In [134]:
print(re.search(r'a[bcd]*?b', 'abccbbdbbd').group())

ab


In [135]:
print(re.search(r'a[bcd]+b', 'abccbbdbbd').group())

abccbbdbb


In [136]:
print(re.search(r'a[bcd]+?b', 'abccbbdbbd').group())

abccb


* **{}?**
 - {m,n}의 경우 m번 혹은 n번 반복하나 greedy하게 동작
 - {m,n}?로 사용하면 non-greedy하게 동작. 즉, 최소 m번만 매칭하면 만족

In [137]:
print(re.search(r'a{3,5}', 'aaaaaa').group())

aaaaa


In [138]:
print(re.search(r'a{3,5}?', 'aaaaaa').group())

aaa


In [139]:
print(re.search(r'[pi]+', 'pipipiipiiipppg').group())
print(re.search(r'(pi)+', 'pipipiipiiipppg').group())
print(re.search(r'[pi]+?', 'pipipiipiiipppg').group())
print(re.search(r'[pi]{2,3}', 'pipipiipiiipppg').group())
print(re.search(r'[pi]{2,3}?', 'pipipiipiiipppg').group())
print(re.search(r'(pi){2,3}', 'pipipiipiiipppg').group())
print(re.search(r'(pi){2,3}?', 'pipipiipiiipppg').group())

pipipiipiiippp
pipipi
p
pip
pi
pipipi
pipi


* 연습문제)
 - 문자열 리스트내에서 올바른 파이썬 변수명만 있는지 판단하시오
 - 대소문자를 제외한 the라는 단어가 content 문자열에서 몇번 나왔는지 개수를 구하시오 
 - def is_substring(s, query)를 구현하시오

In [171]:
variables = ['abc', '3dbd', 'a_bdd', 'good344', 'aB_23'] # 각 문자열이 python 변수 명이라고 가정

pattern = r'^[a-zA-Z_]+[\w_]*'

for var in variables:
    m = re.search(pattern, var)
    
    if m :
        print(m.group())



abc
a_bdd
good344
aB_23


In [176]:
content = '''Python is very concise language compared to the other ones
Python has powerful tools and the tools are very nice
The tools include debugger profiler and the compiler
Python is used widely for many reasons and mostly for web apis
The apis built from python is about 2 times faster than ruby
python is language and also a specification python can be implemented in any language
'''

pattern = r'\b[tT]he\b' # b 는 딱 그단어만!! o the r 이런거 걸러쥼

re.findall(pattern, content)

['the', 'the', 'The', 'the', 'The']

In [208]:
# str1이 str2의 부분 문자열인지?
def is_substring(str1, str2):
    return re.search(str1, str2) is not None
        
print(is_substring(r'test', 'hahaha teest'))


False


* **sub**
 - 주어진 문자열에서 일치하는 모든 패턴을 replace
 - 그 결과를 문자열로 다시 반환함
 - 두번째 인자는 특정 문자열이 될 수도 있고, 함수가 될 수 도 있음
 - count가 0인 경우는 전체를, 1이상이면 해당 숫자만큼 치환 됨

In [212]:
str = 'What a nice weather macmath22@gmail.com, test@test.com mina@minas.net'
replaced = re.sub(r'[\w.-]+@[\w.-]+', r'test', str) 
print(replaced)

What a nice weather test, test test


In [213]:
nmap = {'1': 'one', '2': 'two', '3': 'three'}
s = "1 to the 2 to the 3"

# 함수가 사용될 경우, 파라미터로 match객체가 전달됨. 따라서 group을 호출해 주어야 제대로 동작함
print(re.sub(r'\d', lambda m: nmap[m.group()], s))

one to the two to the three


* 실습)
 - 010-3335-5555형식의 번호를 (010) 3335-5555로 변환하는 함수를 만드시오
 - grouping을 이용

In [215]:
pattern = r'(\d{3})-(\d{4})-(\d{4})'
replace = r'(\1)\2-\3'

result = re.sub(pattern, replace, '010-3457-6360')
print(result)

(010)3457-6360


* 연습문제
 - "one, two three.four*five:six"에서 one, two, three, four, five, six로 추출해보시오

In [221]:
a = "one,two three.four*five:six"
b = a.split(',')
c = b[1].split(' ')
print(c)
print(b[0])
print(c[0])

['two', 'three.four*five:six']
one
two


* **split**
 - 문자열의 split과 유사하나, 정규표현식을 이용하여 더 편리하게 분할 가능

In [226]:
a = "one,two three.four*five:six"
print(re.split(r'[:,.*\s]*', a))

['one', 'two', 'three', 'four', 'five', 'six']


  return _compile(pattern, flags).split(string, maxsplit)


* **compile**
 - 동일한 정규표현식을 매번 다시 쓰기 번거로움을 해결
 - compile로 해당표현식을 re.RegexObject 객체로 저장하여 사용가능

In [227]:
import re


email_reg = re.compile(r'[\w.-]+@[\w.-]+') # 패턴이 잘 정해지먼 컴파일해서 

m = email_reg.search('What a nice weather macmath22@gmail.com, test@test.com mina@minas.net')
if m:
    print(m.group())
    

print(email_reg.findall('What a nice weather macmath22@gmail.com, test@test.com mina@minas.net'))

print(email_reg.sub('test', 'My email is macmath22@gmail.com'))

macmath22@gmail.com
['macmath22@gmail.com', 'test@test.com', 'mina@minas.net']
My email is test


 * 연습문제 
  - 다음중 올바른 (http, https) 웹페이지만 찾으시오

In [228]:
webs = ['http://www.test.co.kr', 
        'https://www.test1.com', 
        'http://www.test.com', 
        'ftp://www.test.com', 
        'http:://www.test.com',
       'htp://www.test.com',
       'http://www.google.com', 
       'https://www.homepage.com']

In [234]:
pattern = r'https?://[\w.]+' 

for url in webs:
    m = re.search(pattern, url)
    
    if m:
        print(m.group())


http://www.test.co.kr
https://www.test1.com
http://www.test.com
http://www.google.com
https://www.homepage.com


In [236]:
import requests

res = requests.get('http://www.naver.com')
res.text

re.findall(pattern, res.text)

['http://www.naver.com',
 'https://s.pstatic.net',
 'http://www.naver.com',
 'https://s.pstatic.net',
 'https://s.pstatic.net',
 'https://s.pstatic.net',
 'https://ssl.pstatic.net',
 'https://s.pstatic.net',
 'https://s.pstatic.net',
 'http://help.naver.com',
 'http://jr.naver.com',
 'http://happybean.naver.com',
 'https://search.naver.com',
 'https://help.naver.com',
 'https://nid.naver.com',
 'https://help.naver.com',
 'https://help.naver.com',
 'https://help.naver.com',
 'https://help.naver.com',
 'https://help.naver.com',
 'https://help.naver.com',
 'https://help.naver.com',
 'https://help.naver.com',
 'https://help.naver.com',
 'https://help.naver.com',
 'http://naver_diary.blog.me',
 'https://ssl.pstatic.net',
 'https://ssl.pstatic.net',
 'https://ssl.pstatic.net',
 'http://mail.naver.com',
 'http://section.cafe.naver.com',
 'http://section.blog.naver.com',
 'http://kin.naver.com',
 'http://shopping2.naver.com',
 'http://pay.naver.com',
 'http://tv.naver.com',
 'http://dic.naver.