 # 정규표현식(Regular Expression)

## 학습목표
 + 정규표현식(re) 에 대한 이해 및 숙지

* 정규표현식 
 - regular expression
 - 특정한 패턴과 일치하는 문자열를 '검색', '치환', '제거' 하는 기능을 지원
 - 정규표현식의 도움없이 패턴을 찾는 작업(Rule 기반)은 불완전 하거나, 작업의 cost가 높음
 - e.g) 이메일 형식 판별, 전화번호 형식 판별, 숫자로만 이루어진 문자열 등

python re module로 제공
 - 아래의 함수로 각각의 기능을 제공
 - search
 - match
 - findall
 - sub
 - split
 - compile

* **기본 패턴**
 - a, X, 9 등등 문자 하나하나의 character들은 정확히 해당 문자와 일치
   - e.g) 패턴 test는 test 문자열과 일치
   - 대소문자의 경우 기본적으로 구별하나, 구별하지 않도록 설정 가능
 - 몇몇 문자들에 대해서는 예외가 존재하는데, 이들은 특별한 의미로 사용 됨
   - . ^ $ * + ? { } [ ] \ | ( )
 
 - . (마침표) - 어떤 한개의 character와 일치 (newline(엔터) 제외)
 
 - \w - 문자 character와 일치 [a-zA-Z0-9_]
 - \s - 공백문자와 일치
 - \t, \n, \r - tab, newline, return
 - \d - 숫자 character와 일치 [0-9]
 - ^ = 시작, $ = 끝 각각 문자열의 시작과 끝을 의미
 - \가 붙으면 스페셜한 의미가 없어짐. 예를들어 \\.는 .자체를 의미 \\\는 \를 의미
 - 자세한 내용은 링크 참조 https://docs.python.org/2/library/re.html

* **raw string**
 - 문자열 앞에 r이 붙으면 해당 문자열이 구성된 그대로 문자열로 변환

In [2]:
a = 'abcdef\n'               #-----> 특정 기능을 하게 하는 것임
print(a)

# raw string
b = r'abcdef\n'             # r을 추가하면 \n도 무시하고 그냥 문자열로 인식하게 함
print(b)

abcdef

abcdef\n


* **search method**
 - 첫번째로 패턴을 찾으면 match 객체를 반환
 - 패턴을 찾지 못하면 None 반환

In [2]:
import re

In [None]:
# 패턴과 패턴을 검색할 문자열을 입력으로 전달
# 일반적으로 패턴은 escape문자열이 사용 되기 때문에, raw string으로 사용함/ 뒤는 그냥 문자열
m = re.search(r'test', 'test')           # r'test'와 'test'가 일치하는 것이 있는가 하는 의미/// 항상 패턴에는 앞에  r을 붙여준다.
print(m)

# 가장 기본적으로는 각 문자는 해당 문자와 매칭 되기 때문에
# 위의 경우에서는 test가 test라는 패턴과 일치하여 결과를 match 객체를 반환

In [9]:
# 패턴과 패턴을 검색할 문자열을 입력으로 전달
# 일반적으로 패턴은 escape문자열이 사용 되기 때문에, raw string으로 사용함/ 뒤는 그냥 문자열
m = re.search(r'testi', 'test')           # r'test'와 'test'가 일치하는 것이 있는가 하는 의미/// 항상 패턴에는 앞에  r을 붙여준다.
print(m)

# 가장 기본적으로는 각 문자는 해당 문자와 매칭 되기 때문에
# 위의 경우에서는 test가 test라는 패턴과 일치하여 결과를 match 객체를 반환

None


In [11]:
# piiig에 패턴 iii가 속해 있음
match = re.search(r'iii', 'piiig') # 패턴을 찾은 경우     -----------> 왼쪽에 있는 것보다 오른쪽에 있는 문자열이 더 크고 더 많아야 하는듯...
print(match)

<_sre.SRE_Match object; span=(1, 4), match='iii'>


In [12]:
print(match.start()) # 문자열에서 매치하는 패턴의 시작 인덱스 (시작하는 매치)
print(match.end())   # 문자열에서 매치하는 패턴의 마지막 인덱스 + 1 (+1은 나중에 슬라이싱하기 위해서 쓰는 것)
print(match.group()) # 문자열에서 매치하는 패턴 문자열

1
4
iii


In [13]:
match = re.search(r'iiiig', 'piiig') # 패턴이 없는 경우
print(match) # None 반환

None


In [5]:
match = re.search(r'..', 'hello')       #아무거나 문자 2개. 근데 처음부터...
match.group()

'he'

In [21]:
match = re.search(r'\w\w', 'hello')
match.group()

'he'

In [13]:
match = re.search(r'\w\wo', 'hello')   #----> 문자 1개(\w), 또 문자 1개(\w)에 o가 들어간 부분을 포함하여 총
match.group()                                 # 문자 3개를 반환

'llo'

In [19]:
match = re.search(r'\d\do', 'hello')
match.group()

AttributeError: 'NoneType' object has no attribute 'group'

In [23]:
match = re.search(r'\d\do', 'he2654651o')
match.group()

'51o'

* **metacharacters (메타 캐릭터)**

- **[]** 문자들의 범위를 나타내기 위해 사용
   - [] 내부의 메타 캐릭터는 캐릭터 자체를 나타냄
   - e.g)
   - [abck] : a or b or c or k
   - [abc.^] : a or b or c or . or ^(-----> 문자열)
   - [a-d]  : -와 함께 사용되면 해당 문자 사이의 범위에 속하는 문자 중 하나
   - [0-9]  : 모든 숫자
   - [a-z]  : 모든 소문자
   - [A-Z]  : 모든 대문자
   - [a-zA-Z0-9] : 모든 알파벳 문자 및 숫자
   - [^0-9] : ^가 맨 앞에 사용 되는 경우 해당 문자 패턴이 아닌 것과 매칭       (----> not 0-9, 즉 숫자가 아닌 것)

In [24]:
print(re.search(r'[cbm]at', 'cat'))    #[cbm]은 문자 3개가 아니라 그냥 1개로 취급 [cbm]중에 한개만 있으면 ok
print(re.search(r'[cbm]at', 'bat'))
print(re.search(r'[cbm]at', 'mat'))
print(re.search(r'[cbm]at', 'aat'))

<_sre.SRE_Match object; span=(0, 3), match='cat'>
<_sre.SRE_Match object; span=(0, 3), match='bat'>
<_sre.SRE_Match object; span=(0, 3), match='mat'>
None


In [25]:
print(re.search(r'[0-9]haha', '1haha'))
print(re.search(r'[0-4]haha', '7haha'))

<_sre.SRE_Match object; span=(0, 5), match='1haha'>
None


In [24]:
print(re.search(r'[abc.^]aron', 'daron'))     # abc.^과 매칭되는 문자가 없기 때문에 None 출력
print(re.search(r'[abc.^]aron', 'caron'))
print(re.search(r'[abc.^]aron', '^aron'))    # abc와 점(.)은 없으나 ^가 있기 때문에 None을 출력하지 않음
print(re.search(r'[abc.^]aron', '.aron'))

#^가 제일 뒤에 들어가있으면 같이 묶여있는 문자들 중 어느 것이라도 그 다음 문자열의 <제일 앞 문자>와 일치하면 출력

None
<_sre.SRE_Match object; span=(0, 5), match='caron'>
<_sre.SRE_Match object; span=(0, 5), match='^aron'>
<_sre.SRE_Match object; span=(0, 5), match='.aron'>


In [33]:
print(re.search(r'[^abc]aron', '^aron'))          #abc 아닌 것....^가 맨 앞이면 not
print(re.search(r'[^abc]aron', 'aaron'))
print(re.search(r'[^abc]aron', 'baron'))
print(re.search(r'[^abc]aron', 'caron'))
print(re.search(r'[^abc]aron', 'daron'))
print(re.search(r'[^abc.]aron', 'karon'))

# ^가 제일 앞에 나왔을 경우는 같이 묶여있는 문자들 중 어느 것이라도, 그 다음 문자열의 어느 순서에 있든 '있으면' None

<_sre.SRE_Match object; span=(0, 5), match='^aron'>
None
None
None
<_sre.SRE_Match object; span=(0, 5), match='daron'>
<_sre.SRE_Match object; span=(0, 5), match='karon'>


In [29]:
print(re.search(r'[^abc]aron', '^aron'))          #abc 아닌 것....^가 맨 앞이면 not
print(re.search(r'[^abc]aron', 'aaron'))
print(re.search(r'[^abc]aron', 'baron'))
print(re.search(r'[^abc]aron', 'caron'))
print(re.search(r'[^abc]aron', 'daron karon paron'))     # ----> 이렇게 해도 문자열에서 가장 처음 나오는 인식값만 출력

<_sre.SRE_Match object; span=(0, 5), match='^aron'>
None
None
None
<_sre.SRE_Match object; span=(0, 5), match='daron'>


* **\** 
 1. 다른 문자와 함께 사용되어 특수한 의미를 지님
   - \d : 숫자를          [0-9]와 동일
   - \D : 숫자가 아닌 문자  [^0-9]와 동일
   - \s : 공백 문자(띄어쓰기, 탭, 엔터 등)
   - \S : 공백이 아닌 문자
   - \w : 알파벳대소문자, 숫자 [0-9a-zA-Z]와 동일
   - \W : non alpha-numeric 문자 [^0-9a-zA-Z]와 동일        -----> 따라서 특수기호와 같은 것만 인식
 2. 메타 캐릭터가 캐릭터 자체를 표현하도록 할 경우 사용
   - \\. , \\\        ---> 점 자체를 인식시키고 싶을때 사용
   - 원래 . 은 문자 전체를 의미함

In [38]:
m = re.search(r'\d\d\d', 'p123g') 
print(m.group())

m = re.search(r'\d\d\d', '오마이갓123이럴수가') 
print(m.group())

m = re.search(r'\w\w\w', '@@abcd!!')
print(m.group())

m = re.search(r'\w\w\w', '@@ab0!!')
print(m.group())

m = re.search(r'\W\W', '@%a!!')
print(m.group())

m = re.search(r'\w\w\w', '@@ab!!')         # 3개를 원하는데 문자가 3개가 아니라서 None
print(m)

m = re.search(r'abc', 'ABC', flags=re.IGNORECASE)       # flag라는 parameter를 줄 수 있는데 이 안에서 ignorecase를 주면 인식하게 해줌
print(m)                                                                    # 왼쪽에 있는 명령어를 무시하도록 하는 것

   #  ↑ 위의 코드는 r'abc' 이므로 abc가 있으면 출력을 하고 없으면 None이지만, ignorecase때문에 그냥 출력한 것.

123
123
abc
ab0
@%
None
<_sre.SRE_Match object; span=(0, 3), match='ABC'>


* **.** 
 - 모든 문자를 의미

In [37]:
m = re.search(r'...a.', 'b@@ab0!!a')
print(m.group())

b@@ab


In [39]:
m = re.search(r'....a.', 'b@@ab0!!a')  # 다섯번째에서 a가 나타날 경우 그 앞의 4개가 무엇이든 출력해야 하지만
print(m)                                           # a는 다섯번째가 아닌 네번째 이므로 오류가 생겨서 None을 반환

None


In [41]:
m = re.search(r'iii', 'piiiigiiiiik') # 맨 첫번째로 매칭되는 문자열을 반환 
print(m.start())         # ------> 첫번째 그룹을 의미....??
print(m.group())

1
iii


* **반복패턴**
 - 패턴 뒤에 위치하는 *, +, ?는 해당 패턴이 반복적으로 존재하는지 검사 
   - '+' -> 1번 이상의 패턴이 발생
   - '*' -> 0번 이상의 패턴이 발생
   - '?' -> 0 혹은 1번의 패턴이 발생
 - 반복을 패턴의 경우 greedy하게 검색 함, 즉 가능한 많은 부분이 매칭되도록 함
  - e.g) a[bcd]*b  패턴을 abcbdccb에서 검색하는 경우
    - ab, abcb, abcbdccb 전부 가능 하지만 최대한 많은 부분이 매칭된 abcbdccb가 검색된 패턴

In [43]:
m = re.search(r'\w+\d*', 'sdfsdfsf54546')     #대소문자숫자 한번 이상, 숫자 0번 이상
print(m.group())

sdfsdfsf54546


In [45]:
re.search(r'a[bcd]*b', 'abcbdccb').group()        #------->greedy. 일단 최대한 호출하려는 문자가 있는데까지 가면서 걸리는 것 모두 반환

'abcbdccb'

In [46]:
m = re.search(r'pi+g', 'piiig')
print(m.group())

m = re.search(r'pi+g', 'pg')        # i가 무조건 한번 이상이어야 하므로 None
print(m)

m = re.search(r'pi*g', 'pig')       # i가 0번 이상이므로 None이 아님
print(m.group())

piiig
None
pig


In [47]:
m = re.search(r'i+', 'piigiiii')
print(m.group()) # search는 앞에서 부터 검색 함

ii


In [48]:
m = re.search(r'\d\s*\d\s*\d', 'xx1 2   3xx')
print(m.group())

1 2   3


<Cf.> ?는 0번 또는 1번이므로 있거나 없거나. Ex) http[s]?:// ----> s가 있거나 없거나....

* **^**, **$**
 - ^  문자열의 맨 앞부터 일치하는 경우 검색
 
 - $  문자열의 맨 뒤부터 일치하는 경우 검색

In [44]:
m = re.search(r'b\w+a', 'cabana')
print(m.group())

m = re.search(r'^b\w+a', 'cabana')        # 첫번째부터 있어야 하는데 시작이 b가 아니라 c이므로 None
print(m)

m = re.search(r'^b\w+a', 'banana') # a가 중간에도 있지만, 문자가 그대로 이어지고 마지막에도 있으므로 전체가 반환
print(m.group())

m = re.search(r'b\w+a$', 'cabana')
print(m.group())

m = re.search(r'b\w+a$', 'cabbbbbbana')
print(m.group())

m = re.search(r'^c\w+a$', 'cabana')
print(m.group())

bana
None
banana
bana
bbbbbbana
cabana


* **간단 email 주소 패턴**

In [52]:
str1 = 'haha this is awesom macmath22@ macmath22@gmail.com test@gmail.co.kr monkey summer hot'

* 연습문제) 위의 문자열에서 이메일 주소를 추출해 보세요

In [54]:
str1 = re.search(r'm\w\W.m')
print(str1.group())

TypeError: search() missing 1 required positional argument: 'string'

In [51]:
str1 = 'haha this is awesom macmath22@ macmath22@gmail.com test@gmail.co.kr monkey summer hot'
m = re.search(r'm\w+@\w+\.\w+m$', str1)
print(m.group())

AttributeError: 'NoneType' object has no attribute 'group'

In [56]:
match = re.search(r'\w+@\w+\.[\w.]+', str1)
if match:
    print(match.group())

macmath22@gmail.com


In [57]:
m = re.search(r'[\w.-]+@[\w.-]+',
              "My email is macmath22@gmail.com")

print(m.group(), type(m.group()))

macmath22@gmail.com <class 'str'>


In [57]:
# python email checker regex
email_regex = r"(^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$)"

m = re.search(email_regex,
              "macmath22@gmail.co.kr")

m.group()

'macmath22@gmail.co.kr'

 * **grouping**
  - ()을 사용하여 그루핑
  - 매칭 결과를 각 그룹별로 분리 가능
  - 패턴 명시 할 때, 각 그룹을 괄호() 안에 넣어 분리하여 사용

In [63]:
m = re.search(r'(\w+)@(.+)',
              "My email is macmath22@gmail.com")

print(m.group())           #그룹을 안주면 기본적으로 디폴트가 0
print(m.group(0))
print(m.group(1))          # 첫번째 그룹
print(m.group(2))          # 두번째 그룹

macmath22@gmail.com
macmath22@gmail.com
macmath22
gmail.com


In [61]:
m = re.search(r'\w+@.+',
              "My email is macmath22@gmail.com")
print(m.group())

macmath22@gmail.com


In [64]:
print(m.group()) # 전체결과를 가져옴
print(m.group(0)) # 전체결과를 가져옴

print(m.group(1)) # 1번째 서브그룹
print(m.group(2)) # 2번째 서브그룹

macmath22@gmail.com
macmath22@gmail.com
macmath22
gmail.com


In [65]:
print(m.groups()) # 전체 그룹을 튜플로 반환

('macmath22', 'gmail.com')


In [67]:
# 반복이 사용되는 경우 그루핑과 반복의 위치가 중요
# 반복이 그루핑 내에 사용되는 경우 전체 매칭이 서브그룹화
# 반복이 그루핑 밖에 사용 되는 경우 마지막 매칭만 서브 그룹화

m = re.search(r'(pi)+(k+)(\d)+', 'pipipipikkk12345')
m = re.search(r'(pi)+(k+)(\d+)', 'pitpitpipikkk12345')

print(m.group())
print(m.group(0))
print(m.group(1))
print(m.group(2))        #k는 (k+)로 1개 이상을 모두 불러들이는 것이기 때문에 kkk가  출력됨.
print(m.group(3))

print(m.groups())

pipikkk12345
pipikkk12345
pi
kkk
12345
('pi', 'kkk', '12345')


* 연습문제) 
 - 다음 뉴스의 본문을 크롤링 하는 함수가 주어짐
 - 이때, 본문의 텍스트에는 기자의 이메일이 포함 됨 
 - 이때, 기자 이메일 주소를 추출하시오

In [60]:
import requests
from bs4 import BeautifulSoup
# 위의 두 모듈이 없는 경우에는 pip install requests bs4 실행

def get_news_content(url):
    response = requests.get(url)
    content = response.text

    soup = BeautifulSoup(content, 'html5lib')

    div = soup.find('div', attrs = {'id' : 'harmonyContainer'})
    
    content = ''
    for paragraph in div.find_all('p'):
        content += paragraph.get_text()
        
    return content

In [61]:
news1 = get_news_content('http://v.media.daum.net/v/20170918164130845')
news2 = get_news_content('http://v.media.daum.net/v/20170918142847946')

In [62]:
print(news1)

#지난해 10월 태풍 '차바' 피해현장에서 인명을 구조하려다 급류에 휩쓸려 순직한 고(故) 강기봉 소방사는 구조현장에 투입돼선 안되는 '구급대원'이었다. 구급대원 특채로 임용된 그는 온산소방서 소속 구급대원으로 근무했다. 당시 강 소방사는 고립된 차에 사람이 있다는 신고를 받고 동료 2명과 함께 회야강변 울주군 회야댐 수질개선사업소로 출동했다가, 불어난 강물에 휩쓸려 숨졌다.강원 강릉 석란정 사고로 소방관 2명이 생명을 잃은 가운데 소방관들의 근본적 처우 개선이 필요하다는 목소리가 높아지고 있다. 특히 소방관들의 숙원인 '국가직 전환'을 신속히 추진해 지방자치단체마다 제각각인 처우를 끌어올리고 인력 부족도 해소해야 한다는 지적이 나오고 있다.18일 소방청에 따르면 지난해 말 기준 전국 소방공무원은 4만4293명으로 소방기본법이 제시하는 기준 인력(5만2714명)보다 1만9254명 부족하다. 특히 화재 진압과 환자 구조 등에 필요한 현장 인력은 3만2460명에 불과하다.일선 소방관들이 느끼는 상황은 더 심각하다. 서울 일선 소방서의 한 소방관은 "10명이 3교대 근무를 해야할 것을 8명이 근무하고, 부족한 인력을 여러 지역 소방관들이 땜빵식으로 해결하는 상황"이라며 "서울은 그나마 낫고 지방은 더 열악하다"고 말했다.서울 지역 또 다른 소방관도 "인명구조 할 사람도 필요하고 화재 진압도 해야하는데 불끄다 인명 구조 못하는 상황이 생긴다"고 말했다.소방관들이 화재 현장에서 사망하는 안타까운 소식이 전해질 때마다 처우 개선을 해야한다는 여론이 컸지만 실상은 제자리 걸음이다. 세월호 참사 후 국민안전처로 합쳐졌던 소방청이 다시 독립기관으로 분리된 정도다.특히 국가직 공무원 전환은 소방관들의 숙원이다. 전체 소방공무원 중 1%만 국가직 공무원이고 나머지 99%는 지자체 소속 지방직 공무원이다. 현재 소방에서 사용되는 전체 예산이 4조590억원 정도인데, 이중 3조9540억원(97%)이 지자체 예산이다. 지자체 재원에 따라 소방관들의 장비와 처우 등이 천차만별인 상황이다

In [63]:
match = re.search(r'\w+@\w+\.[\w.]+', news1)
print(match.group())

human@mt.co.kr


In [64]:
pattern = re.search(r'\w+@.+', news1)
print(pattern.group())

human@mt.co.kr


In [71]:
print(news2)

(서울=연합뉴스) 임화섭 기자 = 스마트폰 갤럭시노트8 출시를 계기로 지난 주말 일부 이동통신 집단상가에서 불법보조금 살포 등 시장 과열 현상이 나타난 데 대해 방송통신위원회가 이동통신 3사 중 한 곳에 구두경고를 했다고 18일 밝혔다.방통위 관계자는 "지난 주말에 일부 과열 상황이 생겨 이런 상황에 책임이 큰 1개 이통사에 오늘 공식으로 구두경고를 하도록 조치했다"며 "시장 상황을 지속적으로 모니터링하고 수시로 구두경고 등을 내릴 것"이라고 설명했다.그는 "다만 올 봄 갤럭시S8 발매 당시와 비교해 보면 아직 과열이 심각한 수준은 아니었다고 판단한다"며 당장 추가 조치를 취할 계획은 지금으로서는 없다고 설명했다. 삼성전자의 신제품 갤럭시노트8은 사전 예약자 대상의 개통 첫날인 15일 약 20만대가, 다음날인 16일에는 약 7만대가 각각 개통됐다.이동통신 시장의 분위기를 가늠하는 잣대인 번호이동 수치는 15일 3만8천여건, 16일 2만6천여건으로 방송통신위원회가 보는 시장과열 기준(하루 2만4천건)을 이틀 연속으로 넘었다. 17일에는 전산 휴무로 번호이동이 없었다.일부 집단상가와 SNS 등 온라인 유통망에서는 법적 상한선(33만원)을 훌쩍 뛰어넘는 불법 보조금이 유포됐다. 방통위가 15일부터 시장 모니터링을 강화했으나, 시간대별로 치고 빠지는 '떴다방식'(스팟성) 보조금이 기승을 부렸다.지원금을 받는 번호이동의 경우 갤노트8 64GB의 실구매가가 지난 주말에는 40만원 안팎까지 떨어졌다. 64GB 모델의 출고가가 109만원대인 점을 고려하면 공시 지원금 외에 보조금이 40만원 이상 추가로 지급된 셈이다.solatido@yna.co.kr


* **연습문제)**
 - 전화번호를 추출하는 정규표현식을 작성하시오
 - 010-1111-2222

In [84]:
number = r'\d+-\d+-\d+'
match = re.search(number, '010-1111-2222')
print(match.group())

010-1111-2222


In [66]:
pattern = r'^0\d+-\d+-\d+'
m = re.search(pattern, '010-3457-6360')
print(m.group())


010-3457-6360


 * **{}**
  - *, +, ?을 사용하여 반복적인 패턴을 찾는 것이 가능하나, 반복의 횟수 제한은 불가
  - 패턴뒤에 위치하는 중괄호{}에 숫자를 명시하면 해당 숫자 만큼의 반복인 경우에만 매칭
  - {4} - 4번 반복
  - {3,4} - 3 ~ 4번 반복

In [68]:
pattern = r'^01\d{1}-\d{3,4}-\d{4}'     # \d{1}은 숫자 1개만, \d{3, 4}는 3개나 4개, \d(4)는 4개가 있어야 출력
print(re.search(pattern, '010-1111-6360').group())
print(re.search(pattern, '010-111-6360').group())
print(re.search(pattern, '010-11-6360').group())

010-1111-6360
010-111-6360


AttributeError: 'NoneType' object has no attribute 'group'

* **match**
 - search와 유사하나, 주어진 문자열의 시작부터 비교하여 패턴이 있는지 확인
 - 시작부터 해당 패턴이 존재하지 않다면 None 반환

In [86]:
m = re.match(r'[\w-]@[\w-]+',
              "My email is macmath22@gmail.com")    #match는 ^ 표시가 맨 앞에 있어서 맨 앞에 찾고자 하는 것이 없으면 출력하지 못하는 것과 같다

if m != None:
    print(m.group())
else:
    print('No pattern')
    
    
m = re.match(r'[\w-]+@[\w-]+',
              "macmath22@gmail.com is my email")

if m != None:
    print(m.group())

No pattern
macmath22@gmail


* **findall**
 - search가 최초로 매칭되는 패턴만 반환한다면, findall은 매칭되는 전체의 패턴을 반환
 - 매칭되는 모든 결과를 리스트 형태로 반환

In [88]:
str = 'What a nice weather macmath22@gmail.com, test@test.com mina@minas.net'
emails = re.findall(r'[\w-]+@[\w-]+', str) 
for email in emails:
    print(email)
    
# findall은 모든 값을 찾아서 리스트 형식으로 출력

macmath22@gmail
test@test
mina@minas


In [89]:
str = 'What a nice weather macmath22@gmail.com, test@test.com mina@minas.net'
emails = re.findall(r'([\w\.-]+)@([\w\.-]+)', str) 
for email in emails:
    print(email, email[0], email[1]) 

('macmath22', 'gmail.com') macmath22 gmail.com
('test', 'test.com') test test.com
('mina', 'minas.net') mina minas.net


* **미니멈 매칭(non-greedy way)**
 - 기본적으로 *, +, ?를 사용하면 greedy(맥시멈 매칭)하게 동작함
   - 따라서 패턴 <.+> 가 문자열 <html> hahah </html>의 패턴을 찾는데 사용되면 전체 문자열이 매칭 됨
 - 이것은 <html>만을 찾고자 하는 의도한 결과가 아니기 때문에, 미니멈 매칭이 필요한 경우도 있음
 - *?, +?, ??을 이용하여 해당 기능을 구현           ------> [최소한의 매칭만 찾으면 종료]
 - 위의 세가지를 사용하면 최소로 만족하는 조건을 검색

In [90]:
m = re.search('<.+>', '<html> haha </html>')
print(m.group())             #-----> 이렇게 하면 첫번째만 매칭하지 않고 모든 것을 매칭함
print(m.start())
print(m.end())

<html> haha </html>
0
19


In [92]:
m = re.search('<.+?>', '<html> haha </html>')
print(m.group())               #-----> 이렇게 ?를 달면 첫번째만 매칭해서 출력
print(m.start())
print(m.end())

<html>
0
6


In [94]:
print(re.search(r'a[bcd]*b', 'abccbbdbbd').group())       #마지막 b까지

abccbbdbb


In [93]:
print(re.search(r'a[bcd]*?b', 'abccbbdbbd').group())      #첫번째 b까지

ab


In [95]:
print(re.search(r'a[bcd]+b', 'abccbbdbbd').group())

abccbbdbb


In [104]:
print(re.search(r'a[bcd]+?b', 'abccbbdbbd').group())     #bcd중 하나는 나와야 하므로 나올때까지 출력하다가 스톱
                                                                                 #이거 왜 d까지 안가나...??

abccb


* **{}?**
 - {m,n}의 경우 m번 혹은 n번 반복하나 greedy하게 동작
 - {m,n}?로 사용하면 non-greedy하게 동작. 즉, 최소 m번만 매칭하면 만족

In [101]:
print(re.search(r'a{3,5}', 'aaaaaa').group())         #맥시멈

aaaaa


In [102]:
print(re.search(r'a{3,5}?', 'aaaaaa').group())       #미니멈

aaa


In [106]:
print(re.search(r'[pi]+', 'pipipiipiiipppg').group())
print(re.search(r'(pi)+', 'pipipiipiiipppg').group())          #pi가 끝나는 첫번째 지점에서 스톱
print(re.search(r'[pi]+?', 'pipipiipiiipppg').group())
print(re.search(r'[pi]{2,3}', 'pipipiipiiipppg').group())
print(re.search(r'[pi]{2,3}?', 'pipipiipiiipppg').group())
print(re.search(r'(pi){2,3}', 'pipipiipiiipppg').group())
print(re.search(r'(pi){2,3}?', 'pipipiipiiipppg').group())

pipipiipiiippp
pipipi
p
pip
pi
pipipi
pipi


* 연습문제)
 - 문자열 리스트내에서 올바른 파이썬 변수명만 있는지 판단하시오
 - 대소문자를 제외한 the라는 단어가 content 문자열에서 몇번 나왔는지 개수를 구하시오 
 - def is_substring(s, query)를 구현하시오

In [110]:
content = '''Python is very concise language compared to the other ones
Python has powerful tools and the tools are very nice
The tools include debugger profiler and the compiler
Python is used widely for many reasons and mostly for web apis
The apis built from python is about 2 times faster than ruby
python is language and also a specification python can be implemented in any language
'''

count = re.search(r'[Python]+'.content(), str)
print(count.group())

AttributeError: 'str' object has no attribute 'content'

In [122]:
content = '''Python is very concise language compared to the other ones
Python has powerful tools and the tools are very nice
The tools include debugger profiler and the compiler
Python is used widely for many reasons and mostly for web apis
The apis built from python is about 2 times faster than ruby
python is language and also a specification python can be implemented in any language
'''

In [125]:
#pattern = r'\s[tT]he\s'       # \s를 하는 이유는 공백문자 제외된 것을 사용??
pattern = r'\b[tT]he\b'

re.findall(pattern, content)

['the', 'the', 'The', 'the', 'The']

In [120]:
variables = ['abc', '3dbd', 'a_bdd', 'good344', 'aB_23'] # 각 문자열이 python 변수 명이라고 가정

var = re.search(r'^\d+', variables)
print(var.group())

TypeError: expected string or bytes-like object

In [9]:
variables = ['abc', '3dbd', 'a_bdd', 'good344', 'aB_23'] # 각 문자열이 python 변수 명이라고 가정

pattern = r'^[_a-zA-Z]+\w*'        # 여기에 ^가 붙으면 위의 리스트 2번째에 있는 '3dbd' 자체가 생략되지만, ^를 없애면 3만 사라지고
                                                 #  dbd가 출력이 된다. 따라서 제외가 되는 상황이 아니게 되므로 오류가 발생한 것이라고 볼 수 있다.

for var in variables:
    m = re.search(pattern, var)
    if m:
        print(m.group())

abc
a_bdd
good344
aB_23


In [7]:
# str1이 str2의 부분 문자열인지?
def is_substring(str1, str2):
    return re.search(str1, str2)

print(is_substring(r'test', 'hahaha testsdfsdf'))

<_sre.SRE_Match object; span=(7, 11), match='test'>


* **sub**
 - 주어진 문자열에서 일치하는 모든 패턴을 replace
 - 그 결과를 문자열로 다시 반환함
 - 두번째 인자는 특정 문자열이 될 수도 있고, 함수가 될 수 도 있음
 - count가 0인 경우는 전체를, 1이상이면 해당 숫자만큼 치환 됨

In [6]:
str = 'What a nice weather macmath22@gmail.com, test@test.com mina@minas.net'
replaced = re.sub(r'[\w.-]+@[\w.-]+', r'test', str) 
print(replaced)

What a nice weather test, test test


In [8]:
nmap = {'1': 'one', '2': 'two', '3': 'three'}
s = "1 to the 2 to the 3"

# 함수가 사용될 경우, 파라미터로 match객체가 전달됨. 따라서 group을 호출해 주어야 제대로 동작함
print(re.sub(r'\d', lambda m: nmap[m.group()], s))               # 여기서 m은 match

one to the two to the three


* 실습)
 - 010-3335-5555형식의 번호를 (010) 3335-5555로 변환하는 함수를 만드시오
 - grouping을 이용

In [6]:
pattern = r'(\d{3})-(\d{4})-(\d{4})'
replace = r'(\1) \2-\3'                             #그룹을 이용해서 형식을 바꿈

result = re.sub(pattern, replace, '010-3457-6360')
print(result)

#위와 같은 형식은 'sub'만이 가능하다.

(010) 3457-6360


* 연습문제
 - "one, two three.four*five:six"에서 one, two, three, four, five, six로 추출해보시오

In [14]:
a = "one,two three.four*five:six"
b = a.split(',')
c = b[1].split(' ')
print(b[0])
print(c[0])

one
two


* **split**
 - 문자열의 split과 유사하나, 정규표현식을 이용하여 더 편리하게 분할 가능

In [3]:
a = "one,two three.four*five:six"
print(re.split(r'[:,.*\s]*', a))

['one', 'two', 'three', 'four', 'five', 'six']


  return _compile(pattern, flags).split(string, maxsplit)


* **compile**
 - 동일한 정규표현식을 매번 다시 쓰기 번거로움을 해결
 - compile로 해당표현식을 re.RegexObject 객체로 저장하여 사용가능

In [17]:
import re

                                                                           # compile을 이용하면 해당 표현식에 대해서 반복적으로 사용할 수 있도록 해줌.
email_reg = re.compile(r'[\w.-]+@[\w.-]+')            #미리 실행가능한 상태로 첫 머리에 compile해주는 것

m = email_reg.search('What a nice weather macmath22@gmail.com, test@test.com mina@minas.net')
if m:
    print(m.group())
    

print(email_reg.findall('What a nice weather macmath22@gmail.com, test@test.com mina@minas.net'))

print(email_reg.sub('test', 'My email is macmath22@gmail.com'))

macmath22@gmail.com
['macmath22@gmail.com', 'test@test.com', 'mina@minas.net']
My email is test


 * 연습문제 
  - 다음중 올바른 (http, https) 웹페이지만 찾으시오

In [7]:
webs = ['http://www.test.co.kr', 
        'https://www.test1.com', 
        'http://www.test.com', 
        'ftp://www.test.com', 
        'http:://www.test.com',
       'htp://www.test.com',
       'http://www.google.com', 
       'https://www.homepage.com']

In [10]:
is_searching = re.search(r'^http[s]+')
print(is_searching.group(), webs)

TypeError: search() missing 1 required positional argument: 'string'

In [19]:
import re
                                                                           # compile을 이용하면 해당 표현식에 대해서 반복적으로 사용할 수 있도록 해줌.
url_regex = re.compile('https?://[\w.]+')

for url in webs:
    m = url_regex.search(url)
    if m:
        print(m.group())

http://www.test.co.kr
https://www.test1.com
http://www.test.com
http://www.google.com
https://www.homepage.com
