## 정규표현식 
 - regular expression
 - 특정한 패턴과 일치하는 문자열를 '검색', '치환', '제거' 하는 기능을 지원
 - 정규표현식의 도움없이 패턴을 찾는 작업(Rule 기반)은 불완전 하거나, 작업의 cost가 높음
 - e.g) 이메일 형식 판별, 전화번호 형식 판별, 숫자로만 이루어진 문자열 등

### **raw string**
 - 문자열 앞에 r이 붙으면 해당 문자열이 구성된 그대로 문자열로 변환

In [1]:
a = 'abcdef\n'
print(a)

b = r'abcdef\n'
print(b)

abcdef

abcdef\n


### **search method**
 - 첫번째로 패턴을 찾으면 match 객체를 반환
 - 패턴을 찾지 못하면 None 반환

In [1]:
import re

In [4]:
m = re.search(r'abc', 'abcdef')  #'abcdef'에서 'abc'를 찾는다
print(m.start())
print(m.end())
print(m.group())

0
3
abc


In [5]:
m = re.search(r'abc', 'abwcdef')
print(m)

None


### **기본 패턴**
 - a, X, 9 등등 문자 하나하나의 character들은 정확히 해당 문자와 일치
   - e.g) 패턴 test는 test 문자열과 일치
   - 대소문자의 경우 기본적으로 구별하나, 구별하지 않도록 설정 가능
 - 몇몇 문자들에 대해서는 예외가 존재하는데, 이들은 특별한 의미로 사용 됨
   > . ^ $ * + ? { } [ ] \ | ( )
 
   - `. (마침표)` : 어떤 한개의 character와 일치 (newline(엔터) 제외)
   - `\w` : 문자 character와 일치 [a-zA-Z0-9_]
   - `\s` : 공백문자와 일치
   - `\t`, `\n`, `\r` : tab, newline, return
   - `\d` : 숫자 character와 일치 [0-9]
   - `^` = 시작, `$` = 끝 각각 문자열의 시작과 끝을 의미
   - \가 붙으면 스페셜한 의미가 없어짐. 예를들어 \\.는 .자체를 의미 \\\는 \를 의미
 - 자세한 내용은 링크 참조 https://docs.python.org/3/library/re.html

In [8]:
m1 = re.search(r'\d\d', '112abcef119')  #연속으로 숫자 두개가 있는 패턴이 있는가? --> 제일 '처음' 만나는 연속적인 두 숫자를 return한다. 
print(m1)

m2 = re.search(r'\d\d\d\w', '112abcef119')
print(m2)

<re.Match object; span=(0, 2), match='11'>
<re.Match object; span=(0, 4), match='112a'>


In [9]:
m = re.search(r'..\w\w', '@#$%ABCDabcd')
print(m)

<re.Match object; span=(2, 6), match='$%AB'>


#### **.(온점)** 
 - 모든 문자를 의미

In [24]:
re.search(r'p.g', 'pig')

<re.Match object; span=(0, 3), match='pig'>

#### **\ (백슬래시)** 
 1. 다른 문자와 함께 사용되어 특수한 의미를 지님
   - \d : 숫자를          [0-9]와 동일
   - \D : 숫자가 아닌 문자  [^0-9]와 동일
   - \s : 공백 문자(띄어쓰기, 탭, 엔터 등)
   - \S : 공백이 아닌 문자
   - \w : 알파벳대소문자, 숫자 [0-9a-zA-Z]와 동일
   - \W : non alpha-numeric 문자 [^0-9a-zA-Z]와 동일
 2. 메타 캐릭터가 캐릭터 자체를 표현하도록 할 경우 사용
   - \\. , \\\


In [22]:
print(re.search(r'\sand', 'apple and banana'))
print(re.search(r'\Sand', 'apple and banana'))

<re.Match object; span=(5, 9), match=' and'>
None


In [23]:
print(re.search(r'\.and', '.and'))
print(re.search(r'\.and', 'pand'))

<re.Match object; span=(0, 4), match='.and'>
None


### **metacharacters (메타 캐릭터)**

#### **[]** 문자들의 범위를 나타내기 위해 사용. 즉 OR의 의미
   - [] 내부의 메타 캐릭터는 캐릭터 자체를 나타냄 예) .은 .자체이다.(임의의 캐릭터를 의미하는 것이 아님)
   > 예를 들어,
   > - [abck] : a or b or c or k
   > - [abc.^] : a or b or c or . or ^
   > - [a-d]  : -와 함께 사용되면 해당 문자 사이의 범위에 속하는 문자 중 하나
   > - [0-9]  : 모든 숫자
   > - [a-z]  : 모든 소문자
   > - [A-Z]  : 모든 대문자
   > - [a-zA-Z0-9] : 모든 알파벳 문자 및 숫자
   > - [^0-9] : ^가 맨 앞에 사용 되는 경우 해당 문자 패턴이 아닌 것과 매칭. 즉 이 경우 숫자가 아닌것을 의미

In [15]:
print(re.search(r'[cbm]at', 'cat'))
print(re.search(r'[cbm]at', 'bat'))
print(re.search(r'[cbm]at', 'mat'))

<re.Match object; span=(0, 3), match='cat'>
<re.Match object; span=(0, 3), match='bat'>
<re.Match object; span=(0, 3), match='mat'>


In [16]:
print(re.search(r'[0-9]haha', '1hahaha'))
print(re.search(r'[0-4]haha', '7hahaha'))  #출력안됨

<re.Match object; span=(0, 5), match='1haha'>
None


In [19]:
print(re.search(r'[abc.^]aron', 'caron'))
print(re.search(r'[abc.^]aron', '.aron'))
print(re.search(r'[abc.^]aron', '^aron'))

<re.Match object; span=(0, 5), match='caron'>
<re.Match object; span=(0, 5), match='.aron'>
<re.Match object; span=(0, 5), match='^aron'>


In [21]:
print(re.search(r'[^abc]aron', 'aaron'))
print(re.search(r'[^abc]aron', '#aron'))

None
<re.Match object; span=(0, 5), match='#aron'>


### **반복패턴**
 - 패턴 뒤에 위치하는 *, +, ?는 해당 패턴이 반복적으로 존재하는지 검사 
   - '+' -> 1번 이상의 패턴이 발생
   - '*' -> 0번 이상의 패턴이 발생
   - '?' -> 0 혹은 1번의 패턴이 발생
 - 반복을 패턴의 경우 **greedy하게** 검색 함, 즉 가능한 많은 부분이 매칭되도록 함
  - e.g) a[bcd]*b  패턴을 abcbdccb에서 검색하는 경우
    - ab, abcb, abcbdccb 전부 가능 하지만 최대한 많은 부분이 매칭된 abcbdccb가 검색된 패턴

In [25]:
re.search(r'a[bcd]*b', 'abcbdccb')  

<re.Match object; span=(0, 8), match='abcbdccb'>

In [26]:
re.search(r'b\w+a', 'bananan')

<re.Match object; span=(0, 6), match='banana'>

In [27]:
re.search(r'i+', 'pigiii')

<re.Match object; span=(1, 2), match='i'>

In [29]:
print(re.search(r'pi+g', 'pg'))
print(re.search(r'pi*g', 'pg'))

None
<re.Match object; span=(0, 2), match='pg'>


In [31]:
re.search(r'https?', 'http://www.naver.com')  #s가 없어도 검출된다. 

<re.Match object; span=(0, 4), match='http'>

### **^**, **$**
 - ^  문자열의 맨 앞부터 일치하는 경우 검색
 - \$  문자열의 맨 뒤부터 일치하는 경우 검색

In [32]:
re.search(r'b\w+a', 'cabana')

<re.Match object; span=(2, 6), match='bana'>

In [33]:
print(re.search(r'^b\w+a', 'cabana'))
print(re.search(r'^b\w+a', 'babana'))

None
<re.Match object; span=(0, 6), match='babana'>


In [34]:
print(re.search(r'b\w+a$', 'babana'))
print(re.search(r'b\w+a$', 'babanap'))

<re.Match object; span=(0, 6), match='babana'>
None


### **grouping()**
  - ()을 사용하여 그루핑
  - 매칭 결과를 각 그룹별로 분리 가능
  - 패턴 명시 할 때, 각 그룹을 괄호() 안에 넣어 분리하여 사용

In [37]:
m1 = re.search(r'\w+@.+', 'test@gmail.com')
m1.group()

m2 = re.search(r'(\w+)@(.+)', 'test@gmail.com')
print(m2.group(1))
print(m2.group(2))
print(m2.group(0))

test
gmail.com
test@gmail.com


 ### **{}**
  - *, +, ?을 사용하여 반복적인 패턴을 찾는 것이 가능하나, 반복의 횟수 제한은 불가
  - 패턴뒤에 위치하는 중괄호{}에 숫자를 명시하면 해당 숫자 만큼의 반복인 경우에만 매칭
  - {4} - 4번 반복
  - {3,4} - 3 ~ 4번 반복(,(comma)뒤에 뛰어쓰기 하면 안된다.)

In [39]:
print(re.search(r'pi+g', 'piiiiiig'))
print(re.search(r'pi+g', 'piiiiiiiiig'))

print(re.search(r'pi{3}g', 'piiig'))

<re.Match object; span=(0, 8), match='piiiiiig'>
<re.Match object; span=(0, 11), match='piiiiiiiiig'>
<re.Match object; span=(0, 5), match='piiig'>


In [41]:
##이것도 greedy하게 검출!
print(re.search(r'pi{3,5}g', 'piiig'))
print(re.search(r'pi{3,5}g', 'piiiig'))
print(re.search(r'pi{3,5}g', 'piiiiig'))

<re.Match object; span=(0, 5), match='piiig'>
<re.Match object; span=(0, 6), match='piiiig'>
<re.Match object; span=(0, 7), match='piiiiig'>


#### **미니멈 매칭(non-greedy way)**
 - 기본적으로 *, +, ?를 사용하면 greedy(맥시멈 매칭)하게 동작함
 - *?, +?을 이용하여 해당 기능을 구현

In [42]:
print(re.search(r'<.+>', '<html>haha</html>'))
print(re.search(r'<.+?>', '<html>haha</html>'))

<re.Match object; span=(0, 17), match='<html>haha</html>'>
<re.Match object; span=(0, 6), match='<html>'>


#### **{}?**
 - {m,n}의 경우 m번 에서 n번 반복하나 greedy하게 동작
 - {m,n}?로 사용하면 **non-greedy하게** 동작. 즉, 최소 m번만 매칭하면 만족

In [43]:
print(re.search(r'a{3,5}', 'aaaaaaa'))
print(re.search(r'a{3,5}?', 'aaaaaaa'))

<re.Match object; span=(0, 5), match='aaaaa'>
<re.Match object; span=(0, 3), match='aaa'>


---

(`search`이외의 다른 함수도 알아보자)

#### **match**
 - search와 유사하나, 주어진 문자열의 시작부터 비교하여 패턴이 있는지 확인
 - 시작부터 해당 패턴이 존재하지 않다면 None 반환

In [44]:
print(re.match(r'\d\d\d', 'My number is 123.'))
print(re.match(r'\d\d\d', '123 is my number.'))

None
<re.Match object; span=(0, 3), match='123'>


In [45]:
print(re.search(r'\d\d\d', 'My number is 123.'))

<re.Match object; span=(13, 16), match='123'>


#### **findall**
 - search가 최초로 매칭되는 패턴만 반환한다면, findall은 매칭되는 전체의 패턴을 반환
 - 매칭되는 모든 결과를 리스트 형태로 반환

In [46]:
re.findall(r'[\w]+@[\w.]+', 'test@gmail.com hahah test2@gmail.com nice test test')

['test@gmail.com', 'test2@gmail.com']

#### **sub**
 - 주어진 문자열에서 일치하는 모든 패턴을 replace
 - 그 결과를 문자열로 다시 반환함
 - 두번째 인자는 특정 문자열이 될 수도 있고, 함수가 될 수 도 있음
 - count가 0인 경우는 전체를, 1이상이면 해당 숫자만큼 치환 됨

In [50]:
print(re.sub(r'[\w]+@[\w.]+', 'great','test@gmail.com hahah test2@gmail.com nice test test'))
print(re.sub(r'[\w]+@[\w.]+', 'great','test@gmail.com hahah test2@gmail.com nice test test', count =1))

great hahah great nice test test
great hahah test2@gmail.com nice test test


#### **compile**
 - 동일한 정규표현식을 매번 다시 쓰기 번거로움을 해결
 - compile로 해당표현식을 re.RegexObject 객체로 저장하여 사용가능

In [51]:
email_reg = re.compile(r'[\w]+@[\w.]+')
email_reg.search('test@gmail.com hahah')

<re.Match object; span=(0, 14), match='test@gmail.com'>

### 연습문제 
  - 아래 뉴스에서 이메일 주소를 추출해 보세요


In [21]:
import requests
from bs4 import BeautifulSoup

def get_news_content(url):
    response = requests.get(url)
    content = response.text

    soup = BeautifulSoup(content, 'html5lib')

    div = soup.find('div', attrs = {'id' : 'harmonyContainer'})
    
    content = ''
    for paragraph in div.find_all('p'):
        content += paragraph.get_text()
        
    return content

news1 = get_news_content('https://news.v.daum.net/v/20210908140216334')
print(news1)

[경향신문] 올 상반기 한국인들은 소셜 앱 중 유튜브에서 가장 많은 시간을 보내고, 카카오톡에 가장 많은 지출을 한 것으로 나타났다. 가장 많이 다운로드받은 앱은 당근마켓이었다.모바일 데이터 분석 플랫폼인 앱애니는 8일 이 같은 내용이 담긴 ‘소셜 미디어 앱의 진화 보고서’를 발표했다.앱애니에 따르면 2021년 상반기 한국인들은 소셜 앱에 1억2300만달러(1430억9820만원)을 지출하며 세계에서 다섯 번째로 많은 소비자 지출을 한 것으로 나타났다. 1위부터 4위는 미국, 일본, 중국, 사우디아라비아가 순서대로 차지했다. 한국인들의 유튜브 월간 평균 사용 시간은 39시간이다. 사용시간 1위~3위는 유튜브, 카카오톡, 페이스북이 2018년부터 변동없이 자리를 지켰다. 소비자 지출 부문에서는 카카오톡이 10년간 1위 자리를 유지했다. 2위는 유튜브, 3위는 왓챠 등 상위 10위권에 비디오 관련 앱이 6개를 차지했다.다운로드 기준으로는 2019년 4위에 오른 중고거래 플랫폼 당근마켓이 2020년에 이어 올해 상반기까지 1위에 이름을 올렸다. 넷플릭스와 카카오톡이 그 뒤를 이었다.앱애니는 2025년까지 소셜 앱에 대한 전 세계 소비자 지출이 770억달러(89조5279억원)에 달할 것으로 예상했다. 특히 라이브 스트리밍과 콘텐츠 크리에이터 관련 지출이 172억달러(19조9984억원)에 달할 것으로 예측했다. 실제로 라이브 스트리밍 앱은 2018년 부터 매년 평균 25%의 성장률을 보이며, 2021년 전체 소설 앱 소비자 지출의 76%를 차지하는 것으로 나타났다.데이비드 김 앱애니 한국 지사장은 “2021년 말까지 중국 외 지역의 상위 5개 소셜 앱의 사용시간은 안드로이드 스마트폰 에서만 5조 시간을 넘어설 것으로 전망된다”며 “텍스트에서 사진, 동영상, 음성, 동영상 및 라이브 스트리밍까지 무궁무진하게 발전하는 소셜 앱들의 성장세는 당분간 지속될 것이다”고 밝혔다.이유진 기자 yjleee@kyunghyang.comⓒ 경향신문 & 경향닷컴(www.khan.co.kr),

In [22]:
email_reg = re.compile(r'[\w]+@[\w.]+\w+')
email_reg.search(news1)

<re.Match object; span=(949, 970), match='yjleee@kyunghyang.com'>

---

  - 다음중 올바른 (http, https) 웹페이지만 찾으시오
      - `http` 로 시작.
      - `s?`: s가 있거나 없거나
      - `://`: 가 다음에 오고
      - `[\w.]+`: 문자 또는 .이 1개 이상
      - `\w+$`: 문자로 끝남.

In [2]:
webs = ['http://www.test.co.kr', 
        'https://www.test1.com', 
        'http://www.test.com', 
        'ftp://www.test.com', 
        'http:://www.test.com',
       'htp://www.test.com',
       'http://www.google.com', 
       'https://www.homepage.com.']

In [24]:
[re.match(r'https?://[\w.]+\w+$', i).group() for i in webs if re.match(r'https?://[\w.]+\w+$', i)]

['http://www.test.co.kr',
 'https://www.test1.com',
 'http://www.test.com',
 'http://www.google.com']

---

* 해쉬태그 두 개로 시작하는 라인 → `##.*`