# 정규표현식
- regular expression
- 특정한 패턴과 일치하는 문자열을 '검색','치환','제거'하는 기능을 지원

# **raw string**
- 문자열 앞에 r이 붙으면 해당 문자열이 구성된 그대로 문자열로 반환

In [1]:
a = 'abcdef\n'
print(a)

b = r'abcdef\n'
print(b)

abcdef

abcdef\n


# **search method**
- 첫번째로 패턴을 찾으면 match 객체 반환
- 패턴을 찾지 못하면 None

In [2]:
import re


In [4]:
m = re.search(r'abc', 'abcdef')  # 'abc'패턴이 문자열 안에 있는지 없는지

print(m.start())
print(m.end())
print(m.group())

0
3
abc


In [5]:
m = re.search(r'abc', 'abdef') 

print(m)

None


- \d : 숫자 1개
- \w : 문자 1개
- . (마침표) : 어떠한 문자라도 일치 1개



In [6]:
m = re.search(r'\d\d', '112asdaf231')  # \d\d : 숫자 두개가 연속으로 있는지
m

<re.Match object; span=(0, 2), match='11'>

In [8]:
m = re.search(r'\d\d\d\w', '112asdaf231')  
m

<re.Match object; span=(0, 4), match='112a'>

In [10]:
m = re.search(r'..\w\w', 'A@#$%VSD')  
m

<re.Match object; span=(3, 7), match='$%VS'>

# **meta characters**

# **[ ]**
- [abcd] : a or b or c or d
- [abc.^] : a or b or c or . or ^
<br/>
- [a-d] : a와 d 문자 사이의 범위에 속하는 문자 중 하나
- [0-9] : 모든 숫자
- [a-z] : 모든 소문자
- [A-Z] : 모든 대문자
- [a-zA-Z0-9] : 모든 알파벳 문자 및 숫자
<br/>
- [^0-9] : ^는 앞에 사용하면 not, 숫자가 아닌 것

In [11]:
re.search(r'[cbm]at', 'cat') # [cbm]: c, b, m 셋 중에 하나

<re.Match object; span=(0, 3), match='cat'>

In [13]:
re.search(r'[0-4]haha', '8hahaha')

In [14]:
re.search(r'[^abc]aron', '#aron')

<re.Match object; span=(0, 5), match='#aron'>

# **\**

- 1. 다른 문자와 함께 사용되어 특수한 의미를 지님
 - \d : 숫자와 동일
 - \D : 숫자가 아닌 것
 - \s : 공백 문자
 - \S : 공백이 아닌 문자
 - \w: 알파벳대소문자, 숫자
 - \W : w와 반대


In [15]:
re.search(r'\Segend', 'League of Legend')

<re.Match object; span=(10, 16), match='Legend'>

In [17]:
re.search(r'\.and', '.and')   # . 그 자체를 표현하려면 \. 을 사용

<re.Match object; span=(0, 4), match='.and'>

In [18]:
re.search(r'p.g', 'pig')  # .은 모든 문자를 의미

<re.Match object; span=(0, 3), match='pig'>

# **반복패턴**
- '+' : 1번 이상의 패턴이 발생
- '*' : 0번 이상의 패턴
- '?' : 0번 혹은 1번의 패턴이 발생


In [19]:
re.search(r'a[bcd]*b', 'abcbdccb')  # b나 c나 d가 0번 이상

<re.Match object; span=(0, 8), match='abcbdccb'>

In [20]:
re.search(r'a[bcd]*b', 'abcgbccb') 

<re.Match object; span=(0, 2), match='ab'>

In [22]:
re.search(r'b\w+a', 'banaba')

<re.Match object; span=(0, 6), match='banaba'>

In [23]:
re.search(r'i+', 'piigiii')

<re.Match object; span=(1, 3), match='ii'>

In [26]:
re.search(r'pi+g', 'pg')

In [25]:
re.search(r'pi*g', 'pg')

<re.Match object; span=(0, 2), match='pg'>

In [28]:
re.search(r'https?', 'https:\\www.naver.com')  # s가 0번 혹은 1번

<re.Match object; span=(0, 5), match='https'>

# ^ , $

-  ^ : 문자열의 맨 앞부터 일치하는 경우 검색
-  $ : 문자열의 맨 뒤부터 일치하는 경우 검색

In [29]:
re.search(r'b\w+a', 'cabana')


<re.Match object; span=(2, 6), match='bana'>

In [30]:
re.search(r'^b\w+a', 'cabana')

In [31]:
re.search(r'b\w+a', 'babana')

<re.Match object; span=(0, 6), match='babana'>

In [32]:
re.search(r'b\w+a$', 'cabana')

<re.Match object; span=(2, 6), match='bana'>

# **grouping**

In [34]:
m = re.search(r'\w+@.+', 'test@gmail.com')
m

<re.Match object; span=(0, 14), match='test@gmail.com'>

In [35]:
m = re.search(r'\w+@.+', 'test@gmail.com')
m.group()

'test@gmail.com'

In [37]:
m = re.search(r'(\w+)@(.+)', 'test@gmail.com')
print(m.group(1))
print(m.group(2))

test
gmail.com


# **{}**

In [39]:
re.search('pi+g', 'piiiiiig')

<re.Match object; span=(0, 8), match='piiiiiig'>

In [40]:
re.search('pi{3}g', 'piiig')  # 반복횟수 명시

<re.Match object; span=(0, 5), match='piiig'>

In [42]:
re.search('pi{3,5}g', 'piiiig')  # 최소 3번, 최대 5번

<re.Match object; span=(0, 6), match='piiiig'>

# **미니멈 매칭(non-greedy way)**

In [43]:
re.search(r'<.+>', '<html>hello<html>')

<re.Match object; span=(0, 17), match='<html>hello<html>'>

In [44]:
re.search(r'<.+?>', '<html>hello<html>')  # 최소한으로 매칭되는 것을 찾는다

<re.Match object; span=(0, 6), match='<html>'>

In [45]:
re.search(r'a{3,5}', 'aaaaa')

<re.Match object; span=(0, 5), match='aaaaa'>

In [46]:
re.search(r'a{3,5}?', 'aaaaa')  # 최소한으로 매칭되는 것을 찾는다

<re.Match object; span=(0, 3), match='aaa'>

# **match**

-  search와 유사하나, 주어진 문자열의 시작부터 비교하여 패턴이 있는지 확인

In [47]:
re.match(r'\d\d\d', 'my number is 123')

In [48]:
re.match(r'\d\d\d', '123 is my number')

<re.Match object; span=(0, 3), match='123'>

# **findall**

In [54]:
re.findall(r'[\w-]+@[\w.]+', 'koreabh0216@naver.com is my email')

['koreabh0216@naver.com']

# **sub**

- 일치하는 패턴을 replace

In [56]:
re.sub(r'[\w-]+@[\w.]+', 'great', 'koreabh0216@naver.com is my email')

'great is my email'

# **compile**

-  동일한 정규표현식을 매번 다시 쓰기 번거로움을 해결


In [58]:
email_reg = re.compile(r'[\w-]+@[\w.]+')

email_reg.search('koreabh0216@naver.com')

<re.Match object; span=(0, 21), match='koreabh0216@naver.com'>

# 뉴스 내용에서 email만 추출

In [61]:
import requests
from bs4 import BeautifulSoup

def get_news_content(url):
  response = requests.get(url)
  content = response.text

  soup = BeautifulSoup(content, 'html5lib')

  div = soup.find('div', attrs = {'id' : 'harmonyContainer'})

  content= ''
  for paragraph in div.find_all('p'):
    content += paragraph.get_text()

  return content

news = get_news_content('https://news.v.daum.net/v/20190617073049838')
print(news)

(로스앤젤레스=연합뉴스) 옥철 특파원 = 팀 쿡 애플 최고경영자(CEO)가 16일(현지시간) 실리콘밸리 앞마당 격인 미국 서부 명문 스탠퍼드대학 학위수여식에서 테크기업들을 향해 쓴소리를 쏟아냈다.쿡은 이날 연설에서 실리콘밸리 테크기업들은 자신들이 만든 혼란에 대한 책임을 질 필요가 있다고 경고했다.근래 IT 업계의 가장 큰 이슈인 개인정보 침해, 사생활 보호 문제를 콕 집어 라이벌인 구글, 페이스북 등 IT 공룡을 겨냥한 발언이라는 해석이 나왔다.쿡은 "최근 실리콘밸리 산업은 고귀한 혁신과는 점점 더 거리가 멀어지는 것으로 알려져 있다. 책임을 받아들이지 않고도 신뢰를 얻을 수 있다는 그런 믿음 말이다"라고 꼬집었다.개인정보 유출 사건으로 미 의회 청문회에 줄줄이 불려 나간 경쟁사 CEO들을 향해 일침을 가한 것으로 보인다.그는 또 실리콘밸리에서 희대의 사기극을 연출한 바이오벤처 스타트업 테라노스(Theranos)를 직격했다.쿡은 "피 한 방울로 거짓된 기적을 만들 수 있다고 믿었느냐"면서 "이런 식으로 혼돈의 공장을 만든다면 그 책임에서 절대 벗어날 수 없다"라고 비난했다.테라노스는 손가락 끝을 찔러 극미량의 혈액 샘플만 있으면 각종 의학정보 분석은 물론 거의 모든 질병 진단이 가능한 바이오헬스 기술을 개발했다고 속여 월가 큰손들로부터 거액의 투자를 유치했다가 해당 기술이 사기인 것으로 드러나 청산한 기업이다.쿡은 애플의 경우 프라이버시(사생활) 보호에 초점을 맞춘 새로운 제품 기능들로 경쟁사들에 맞서고 있다며 자사의 데이터 보호 정책을 은근히 홍보하기도 했다.oakchul@yna.co.kr저작권자(c)연합뉴스. 무단전재-재배포금지


In [69]:
email_reg = re.compile(r'[\w-]+@[\w.]+')
email_reg.search(news)

<re.Match object; span=(774, 795), match='oakchul@yna.co.kr저작권자'>