# 정규표현식
- Regular Expression
- 특정 패턴과 일치하는 문자열을 검색, 치환, 제거할 수 있음
- ex) 이메일 형식 판별, 전화번호 형식 판별 등

- raw string
  - 문자열 앞에 r이 붙으면 구성된 그대로 문자열로 반환

In [2]:
a = 'abcdef\n'
print(a)

b = r'abcedf\n'
print(b) # escape 문자도 표현됨

abcdef

abcedf\n


### 기본 패턴
- a, X, 9 등 문자 하나는 정확히 해당 문자와 일치
- . ^ $ * + ? {} [] \ | () 문자는 특별한 의미로 사용됨
- . (마침표) : 어떤 한개 character와 일치
- \w : 문자 character와 일치 [a-zA-Z0-9]
- \s : 공백문자와 일치
- \t, \n, \r : tab, newline, return
- \d : 숫자 character와 일치[0-9]
- ^ = 시작, $ = 끝 : 각각 문자열의 시작과 끝을 의미
- 특수문자는 \ 를 한번 더 적어서 자체를 표현할 수 있음


### search method
- 패턴을 찾으면 match 객체 반환
- 찾지 못하면 None 반환

In [3]:
import re

In [4]:
m = re.search(r'abc', '123abcdef') # 123abcdef 에서 abc 패턴을 검색
print(m.start()) # 시작 인덱스
print(m.end()) # 종료 인덱스
print(m.group()) 

print(re.search(r'abc', 'vvdcer')) # None 반환

3
6
abc
None


In [5]:
m = re.search(r'\d\d', '112abcdedf991') # 숫자 2개가 나란히 있는 경우 검색 -> 처음부터 검색한 결과를 반환함
print(m.start())
print(m.end())

m = re.search(r'\d\d\d\w', '112abcdedf991')
print(m)


0
2
<re.Match object; span=(0, 4), match='112a'>


In [6]:
m = re.search(r'..\w\w', '@#%#!@SDSDgdasfge')
print(m)

<re.Match object; span=(4, 8), match='!@SD'>


### metacharacters
- [] : 문자의 범위를 나타내기 위해 사용
  - [abck] : a, b, c, k 중 1개
  - [abc.^] : a, b, c, . , ^ 중 1 개. 대괄호 안의 특수문자는 그 자체로 매핑됨
  - [a-d] : a 부터 d 사이
  - [0-9] : 모든 숫자
  - [a-z] : 모든 소문자
  - [a-zA-Z0-9] : 모든 알파벳 및 숫자
  - [^0-9] : 맨 앞의 ^은 not을 의미. 숫자가 아닌 문자

In [7]:
print(re.search(r'[cbm]at', 'cat'))
print(re.search(r'[cbm]at', 'bat'))
print(re.search(r'[cbm]at', 'mat'))

<re.Match object; span=(0, 3), match='cat'>
<re.Match object; span=(0, 3), match='bat'>
<re.Match object; span=(0, 3), match='mat'>


In [8]:
print(re.search(r'[0-9]hahah', '1hahaha'))

<re.Match object; span=(0, 6), match='1hahah'>


In [9]:
re.search(r'[abc.]aron', 'caron')

<re.Match object; span=(0, 5), match='caron'>

In [10]:
print(re.search(r'[^abc]aron', 'aaron')) # abc 가 아닌것을 찾기 때문에 매칭 안됨
re.search(r'[^abc]aron', '#aron') # abc 가 아닌것을 찾기 때문에 매칭 됨

None


<re.Match object; span=(0, 5), match='#aron'>

- \
1. 다른 문자와 사용되어 특수 의미를 나타냄
  - \d: 숫자
  - \D: 숫자가 아닌 문자
  - \s: 공백 문자
  - \s: 공백이 아닌 문자
  - \w: 알파벳 대소문자, 숫자
  - \W: non alphabet-numeric 문자

In [11]:
re.search(r'\sand', 'apple and banana')

<re.Match object; span=(5, 9), match=' and'>

- .
모든 문자를 의미

In [12]:
re.search(r'.and', 'sand')

<re.Match object; span=(0, 4), match='sand'>

### 반복패턴
- 패턴 뒤에 위치하는 *, +, ?는 해당 패턴이 반복 존재하는지 검사
  - '+' : 1번 이상의 패턴 발생
  - '*' : 0번 이상의 패턴 발생
  - ? : 0번 혹은 1번 패턴 발생
- greedy 하게 탐색하므로 가장 많은 부분이 매치되도록 함

In [13]:
re.search(r'a[bcd]*b', 'abcbdccb') # ab, abcb 도 가능하지만 abcbdccb 가 가장 많이 매칭됨

<re.Match object; span=(0, 8), match='abcbdccb'>

In [14]:
re.search(r'b\w+a', 'banana')

<re.Match object; span=(0, 6), match='banana'>

In [16]:
re.search(r'i+', 'piigiiii') # 가장 먼저, greedy 하게 검색

<re.Match object; span=(1, 3), match='ii'>

In [21]:
print(re.search(r'pi+g', 'piig'))
print(re.search(r'pi*g', 'piig'))
print(re.search(r'pi*g', 'pg'))
print(re.search(r'pi+g', 'pg')) # + 는 한 번 이상 있어야함

<re.Match object; span=(0, 4), match='piig'>
<re.Match object; span=(0, 4), match='piig'>
<re.Match object; span=(0, 2), match='pg'>
None


In [24]:
print(re.search(r'https?', 'https://www.naver.com'))
print(re.search(r'https?', 'http://www.naver.com'))
print(re.search(r'https?', 'httpk://www.naver.com'))

<re.Match object; span=(0, 5), match='https'>
<re.Match object; span=(0, 4), match='http'>
<re.Match object; span=(0, 4), match='http'>


### ^*, *$
- ^ : 문자열 맨 앞 부터 일치하는 경우
- $ : 문자열 맨 뒤 부터 일치하는 경우

In [36]:
print(re.search(r'b\w+a', 'cabana'))
print(re.search(r'^b\w+a', 'cabana')) # 시작부터 b\w+a 와 매칭되어야 함

<re.Match object; span=(2, 6), match='bana'>
None


In [38]:
print(re.search(r'b\w+a$', 'cabana')) # 뒤에서부터 매칭 됨

<re.Match object; span=(2, 6), match='bana'>


### Grouping
- ()을 이용해서 그루핑
- 매칭 결과를 그룹별로 분리 가능


In [48]:
m = re.search(r'(\w+)@(.+)', 'test@gmail.com') # 이메일에서 아이디와 도메인 부분을 분리해서 그루핑 가능
print(m.group())
print(m.group(0))
print(m.group(1))
print(m.group(2))

test@gmail.com
test@gmail.com
test
gmail.com


### {}
- 반복의 횟수 제한이 필요한 경우(+, * 는 명시할 수 없음)
- {3}: 3번 반복
- {3,4}: 3~4 번 반복

In [52]:
re.search('pi{3,5}g', 'piiiig')

<re.Match object; span=(0, 6), match='piiiig'>

### 미니멈 매칭
- *, +, ?는 기본적으로 greedy하게 동작함
- *?, +?를 사용하면 미니멈 매칭 가능

In [55]:
print(re.search(r'<.+>', '<html>hihi</html>')) # 전체를 찾도록 동작함
print(re.search(r'<.+?>', '<html>hihi</html>')) # 최소로 매칭되는 <html>만 검색

<re.Match object; span=(0, 17), match='<html>hihi</html>'>
<re.Match object; span=(0, 6), match='<html>'>


### {}?
- {m, n}? 로 사용하면 최소 m만 매칭하도록 검출

In [56]:
print(re.search(r'a{3,5}', 'aaaaaaa'))
print(re.search(r'a{3,5}?', 'aaaaaaa'))

<re.Match object; span=(0, 5), match='aaaaa'>
<re.Match object; span=(0, 3), match='aaa'>


### match
- search와 유사하나, 시작부터 비교하여 패턴이 있는지 확인

In [57]:
re.match(r'\d\d\d', 'my number is 123')

In [58]:
re.match(r'\d\d\d', '123 is my number')

<re.Match object; span=(0, 3), match='123'>

### findall
- search는 최초 매칭 패턴만 반환, findall은 매칭 패턴 전체를 반환
- 리스트로 반환됨

In [59]:
re.findall(r'[\w-]+@[\w.]+', 'test@gmail.com haha test2@gmail.com abc hi hihihihi')

['test@gmail.com', 'test2@gmail.com']

### sub
- 일치하는 패턴을 replace
- 두번째 인자는 문자열, 또는 함수가 됨
- 변경된 문자열이 반환됨
- count 파라미터가 0 이면 전체가 치환, 주어지면 해당 갯수만 치환됨

In [62]:
print(re.sub(r'[\w-]+@[\w.]+', 'great', 'test@gmail.com haha test2@gmail.com abc hi hihihihi'))
print(re.sub(r'[\w-]+@[\w.]+', 'great', 'test@gmail.com haha test2@gmail.com abc hi hihihihi', count=1))

great haha great abc hi hihihihi
great haha test2@gmail.com abc hi hihihihi


### compile
- 정규 표현식을 re.RegexObject 객체로 저장해서 사용

In [63]:
email_reg = re.compile(r'[\w-]+@[\w.]+')
email_reg.search('test@gmail.com haha test2@gmail.com abc hi hihihihi')

<re.Match object; span=(0, 14), match='test@gmail.com'>

### 연습문제
- 아래 뉴스에서 이메일 주소를 추출
- 다음 중 올바른(http, https) 웹페이지만 검출

In [90]:
import requests
from bs4 import BeautifulSoup
# 위의 두 모듈이 없는 경우에는 pip install requests bs4 실행

def get_news_content(url):
    response = requests.get(url)
    content = response.text

    soup = BeautifulSoup(content, 'html5lib')

    div = soup.find('div', attrs = {'id' : 'harmonyContainer'})
    
    content = ''
    for paragraph in div.find_all('p'):
        content += paragraph.get_text()
        
    return content

# news1 = get_news_content('https://news.v.daum.net/v/20190617073049838') # 이거 링크 죽음
news1 = get_news_content('https://news.v.daum.net/v/20211210121256789')
# print(news1)
re.search(r'[\w-]+@[\w.]+\w+', news1)

<re.Match object; span=(2739, 2756), match='dyhlee@newsis.com'>

In [87]:
webs = ['http://www.test.co.kr', 
        'https://www.test1.com', 
        'http://www.test.com', 
        'ftp://www.test.com', 
        'http:://www.test.com',
       'htp://www.test.com',
       'http://www.google.com', 
       'https://www.homepage.com.']

ret = [re.search('https?:/{2}[\w.]+\w+$', w) for w in webs]
print([r for r in ret if r is not None])

[<re.Match object; span=(0, 21), match='http://www.test.co.kr'>, <re.Match object; span=(0, 21), match='https://www.test1.com'>, <re.Match object; span=(0, 19), match='http://www.test.com'>, <re.Match object; span=(0, 21), match='http://www.google.com'>]
