 # 정규표현식(Regular Expression)

## 학습목표
 + 정규표현식(re) 에 대한 이해 및 숙지

* 정규표현식 
 - regular expression
 - 특정한 패턴과 일치하는 문자열를 '검색', '치환', '제거' 하는 기능을 지원
 - 정규표현식의 도움없이 패턴을 찾는 작업(Rule 기반)은 불완전 하거나, 작업의 cost가 높음
 - e.g) 이메일 형식 판별, 전화번호 형식 판별, 숫자로만 이루어진 문자열 등

* **re**
 - 아래의 함수로 각각의 기능을 제공
 - search
 - match
 - findall
 - sub
 - compile

* **raw string**
 - 문자열 앞에 r이 붙으면 해당 문자열이 구성된 그대로 문자열로 변환

In [1]:
a = 'python\n\n' # escape 문자열
print(a)

b = r'python\n\n'
print(b)

python


python\n\n


* **기본 패턴**
 - a, X, 9 등등 문자 하나하나의 character들은 정확히 해당 문자와 일치
   - e.g) 패턴 test는 test 문자열과 일치
   - 대소문자의 경우 기본적으로 구별하나, 구별하지 않도록 설정 가능
 - 몇몇 문자들에 대해서는 예외가 존재하는데, 이들은 틀별한 의미로 사용 됨
   - . ^ $ * + ? { } [ ] \ | ( )
 
 - . (마침표) - 어떤 한개의 character와 일치 (newline(엔터) 제외)
 
 - \w - 문자 character와 일치 [a-zA-Z0-9_]
 - \s - 공백문자와 일치
 - \t, \n, \r - tab, newline, return
 - \d - 숫자 character와 일치 [0-9]
 - ^ = 라인의 처음을 매칭
 - $ = 라인의 끝 문자열을 매칭
 - \가 붙으면 스페셜한 의미가 없어짐. 예를들어 \\.는 .자체를 의미 \\\는 \를 의미
 - 자세한 내용은 링크 참조 https://docs.python.org/3/library/re.html

* **search method**
 - 첫번째로 패턴을 찾으면 match 객체를 반환
 - 패턴을 찾지 못하면 None 반환

In [3]:
import re

In [3]:
print(re.search(r'test', 'test is hard'))

<re.Match object; span=(0, 4), match='test'>


* search에서 숫자를 찾을 때, 제일 먼저 나오는 걸 찾고 중지됨

In [5]:
print(re.search(r'\d', 'hi there 45k'))  # 45에서 4만 찾아냄
print(re.search(r'\d\d', 'hi there 45k'))

<re.Match object; span=(9, 10), match='4'>
<re.Match object; span=(9, 11), match='45'>


In [7]:
print(re.search(r'\w\w', 'hi there'))
print(re.search(r'\w\w\w', 'hi there'))

<re.Match object; span=(0, 2), match='hi'>
<re.Match object; span=(3, 6), match='the'>


* **metacharacters (메타 캐릭터)**
- **[ ]** 문자들의 범위를 나타내기 위해 사용
   - [__] 내부의 메타 캐릭터는 각 str 캐릭터 자체를 나타냄
   - e.g)
   - [abck] : a or b or c or k
   - [abc.^] : a or b or c or . or ^
   - [a-d]  : -와 함께 사용되면 해당 문자 사이의 범위에 속하는 문자 중 하나
   - [0-9]  : 모든 숫자
   - [a-z]  : 모든 소문자
   - [A-Z]  : 모든 대문자
   - [a-zA-Z0-9] : 모든 알파벳 문자 및 숫자
   - [^0-9] : ^가 맨 앞에 사용 되는 경우 해당 문자 패턴이 아닌 것과 매칭  
   [^  ] 의미는 not(=!)을 의미함

In [9]:
print(re.search(r'[abc]at', 'cat'))
print(re.search(r'[abc]at', 'bat'))
print(re.search(r'[abc]at', 'zat'))  #z는 [abc] 에 속하지 않기 때문에 None 반환

<re.Match object; span=(0, 3), match='cat'>
<re.Match object; span=(0, 3), match='bat'>
None


* match.start = 해당 search 결과가 시작하는 인덱스 넘버
* match.end = search결과가 끝나는 인덱스 넘버
* match.group = 해당 결과 문자를 그대로 가져오는 것   
바로 위에 출련된 <re.match object;  > 사이의 결과에서 필요한 것만 가져옴

In [10]:
match = re.search(r'[abc]at', 'cat')
print(match.start())
print(match.end())
print(match.group())

0
3
cat


In [11]:
print(re.search(r'[0-5]at', '1at'))
print(re.search(r'[0-5]at', '8at'))
print(re.search(r'[0-9]at', '8at'))

<re.Match object; span=(0, 3), match='1at'>
None
<re.Match object; span=(0, 3), match='8at'>


In [12]:
print(re.search(r'[^abc]at', 'aat'))
print(re.search(r'[^abc]at', 'bat'))
print(re.search(r'[^abc]at', 'cat'))

print(re.search(r'[^abc]at', 'dat'))
print(re.search(r'[^abc]at', '1at'))

None
None
None
<re.Match object; span=(0, 3), match='dat'>
<re.Match object; span=(0, 3), match='1at'>


### **\ 백슬래쉬**

1. 다른 문자와 함께 사용되어 특수한 의미를 지님
   - \d : 숫자를          [0-9]와 동일
   - \D : 숫자가 아닌 문자  [^0-9]와 동일
   - \s : 공백 문자(띄어쓰기, 탭, 엔터 등)
   - \S : 공백이 아닌 문자
   - \w : 알파벳대소문자, 숫자 [0-9a-zA-Z]와 동일
   - \W : non alpha-numeric 문자 [^0-9a-zA-Z]와 동일  
   
   
2. 메타 캐릭터가 캐릭터 자체를 표현하도록 할 경우 사용
   - 엑셀에서 '~' 와 같은 의미
   - \\. , \\\


In [13]:
print(re.search(r'\d\d\d', 'a124k'))   # 숫자가 3개 연속된 걸 찾아라
print(re.search(r'\d\d\D', 'a124k'))   # 숫자2개와 숫자가 아닌 걸 찾아라

<re.Match object; span=(1, 4), match='124'>
<re.Match object; span=(2, 5), match='24k'>


In [14]:
print(re.search(r'\W\w\w', '@@abc123'))  #문자가 아닌 것과 문자인 걸 찾아라

<re.Match object; span=(1, 4), match='@ab'>


* **.** 점은 모든 문자를 의미

In [27]:
print(re.search(r'...a\.', 'bcda.'))  # 문자&숫자 3개 + a + Not 문자&숫자 + .(점)을 찾아라
print(re.search(r'...a\.', 'kl#ap'))

<re.Match object; span=(0, 5), match='bcda.'>
None


* **반복패턴**
 - 패턴 뒤에 위치하는 *, +, ?는 해당 패턴이 반복적으로 존재하는지 검사 
   - ' + ' → 1번 이상의 패턴이 발생
   - ' * ' → 0번 이상의 패턴이 발생한 것 중에서 가장 큰 문자열
   - ' ? ' → 0 혹은 1번의 패턴이 발생한 것 중에서 제일 처음에 나온 문자열
 - 반복을 패턴의 경우 최대한 많은 부분을 계속 검색하여 가장 많은 부분이 매칭된 결과를 반환함
    - e.g) a[bcd]*b  패턴을 abcbdccb에서 검색하는 경우
    - ab, abcb, abcbdccb 전부 가능 하지만 최대한 많은 부분(가장 큰 문자)이 매칭된 abcbdccb가 검색된 패턴

In [76]:
print(re.search(r'a[bcd]*b', 'abcbdccb'))  # a로 시작하고 b, c, d 중 하나가 0번 이상 반복되고 + b로 끝나는 걸 찾아라

<re.Match object; span=(0, 8), match='abcbdccb'>


In [23]:
print(re.search('a[bcde].*', 'akk is abbd kac'))
print(re.search('a[bcde].?', 'akk is abbd kac'))
print(re.search('a[bcde].+', 'akk is abbd kac'))


<re.Match object; span=(7, 15), match='abbd kac'>
<re.Match object; span=(7, 10), match='abb'>
<re.Match object; span=(7, 15), match='abbd kac'>


In [7]:
print(re.search(r'a[bcd]*b', 'ab'))
print(re.search(r'a[bcd]+b', 'abb'))
print(re.search(r'a[bcd]?b', 'acab'))

<re.Match object; span=(0, 2), match='ab'>
<re.Match object; span=(0, 3), match='abb'>
<re.Match object; span=(2, 4), match='ab'>


In [26]:
print(re.search(r'a[bcd]+2', 'aw2 ac2 abcdcdcd2 adb2'))
print(re.search(r'a[bcd]*b', 'anbbaabb')) 
print(re.search(r'a[bcd]?b', 'accb'))

<re.Match object; span=(4, 7), match='ac2'>
<re.Match object; span=(5, 8), match='abb'>
None


In [80]:
y = 'T ell fuck me why you T ellll her'
print(re.search('^T ([cde]l+.)*',y))

<re.Match object; span=(0, 6), match='T ell '>


* **^**, **$**
 - ^  문자열의 맨 앞부터 일치하는 경우 검색
 - \$  문자열의 맨 뒤부터 일치하는 경우 검색

In [28]:
print(re.search(r'b\w+a', 'cabana'))
print(re.search(r'^b\w+a', 'cabana'))
print(re.search(r'^b\w+a', 'babana'))

<re.Match object; span=(2, 6), match='bana'>
None
<re.Match object; span=(0, 6), match='babana'>


In [None]:
print(re.search(r'b\w+a$', 'cabana'))
print(re.search(r'b\w+a$', 'cabanap'))

 * **grouping**
  - ()을 사용하여 그루핑
  - 매칭 결과를 각 그룹별로 분리 가능
  - 패턴 명시 할 때, 각 그룹을 괄호() 안에 넣어 분리하여 사용

In [5]:
m = re.search(r'\w+@.+', 'my email address is test@test.com')
print(m)

<re.Match object; span=(20, 33), match='test@test.com'>


In [6]:
m = re.search(r'(\w+)@(.+)', 'my email address is test@test.com')
print(m)
print(m.group())
print(m.group(0))
print(m.group(1))
print(m.group(2))

<re.Match object; span=(20, 33), match='test@test.com'>
test@test.com
test@test.com
test
test.com


* (  ) : 괄호는 조건식(정규식) 내에서 괄호 안의 text만 추출해주는 명령어

In [7]:
txt = 'From setp.mar@navr.com sat Jan'
y = re.findall('\S+@\S+', txt)
print(y)

# @ 뒤에다가 괄호를 붙여서 도메인만 긁어오도록 코딩
y2 = re.findall('^From \S+@(\S+)', txt)

print(y2)

['setp.mar@navr.com']
['navr.com']


 * **{}**
  - *, +, ?을 사용하여 반복적인 패턴을 찾는 것이 가능하나, 반복의 횟수 제한은 불가
  - 패턴뒤에 위치하는 중괄호{}에 숫자를 명시하면 해당 숫자 만큼의 반복인 경우에만 매칭
  - {4} - 4번 반복
  - {3,4} - 3 ~ 4번 반복

In [None]:
print(re.search(r'010-\d{4}-\d{4}', '010-1111-1111'))
print(re.search(r'010-\d{4,5}-\d{4}', '010-11110-1111'))
print(re.search(r'010-\d{4,5}-\d{4}', '010-111-1111'))

* **미니멈 매칭(non-greedy way)**
 - 기본적으로 *, +, ?를 사용하면 greedy(맥시멈 매칭)하게 동작함
 - *?, +?을 이용하여 해당 기능을 구현

In [None]:
# html 
# <a>
# <img>
# <h1></h1>
print(re.search(r'<.+>', '<html>Title</html>'))
print(re.search(r'<.+?>', '<html>Title</html>'))

* **{}?**
 - {m,n}의 경우 m번 에서 n번 반복하나 greedy하게 동작
 - {m,n}?로 사용하면 non-greedy하게 동작. 즉, 최소 m번만 매칭하면 만족

In [None]:
print(re.search(r'a{3,5}', 'aaaaaa'))
print(re.search(r'a{3,5}?', 'aaaaaa'))

* **match**
 - search와 유사하나, 주어진 문자열의 시작부터 비교하여 패턴이 있는지 확인
 - 시작부터 해당 패턴이 존재하지 않다면 None 반환

In [None]:
print(re.search(r'010\d\d', 'hahah 01016'))

print(re.search(r'^010\d\d', 'hahah 01016'))
print(re.search(r'^010\d\d', '01016'))

print(re.match(r'010\d\d', 'hahah 01016'))
print(re.match(r'010\d\d', '01016'))

* **findall**
 - search가 최초로 매칭되는 패턴만 반환한다면, findall은 매칭되는 전체의 패턴을 반환
 - 매칭되는 모든 결과를 리스트 형태로 반환

In [None]:
print(re.search(r'010\d\d', 'hahaha 01023 01034 010 56'))
print(re.findall(r'010\d\d', 'hahaha 01023 01034 010 56'))

* **sub**
 - 주어진 문자열에서 일치하는 모든 패턴을 replace
 - 그 결과를 문자열로 다시 반환함
 - 두번째 인자는 특정 문자열이 될 수도 있고, 함수가 될 수 도 있음
 - count가 0인 경우는 전체를, 1이상이면 해당 숫자만큼 치환 됨

In [None]:
re.sub('\d+', 'number', '010 hahah nice good great 99 112 nice good')

* **compile**
 - 동일한 정규표현식을 매번 다시 쓰기 번거로움을 해결
 - compile로 해당표현식을 re.RegexObject 객체로 저장하여 사용가능

In [None]:
email_re = re.compile(r'\w+@.+')

print(email_re.search('test@gmail.com'))
print(email_re.search('test2@gmail.com'))

print(email_re.sub('number', 'test@gmail.com'))

### 연습문제 
  - 아래 뉴스에서 이메일 주소를 추출해 보세요
  - 다음중 올바른 (http, https) 웹페이지만 찾으시오

In [None]:
import requests
from bs4 import BeautifulSoup
# 위의 두 모듈이 없는 경우에는 pip install requests bs4 실행

def get_news_content(url):
    response = requests.get(url)
    content = response.text

    soup = BeautifulSoup(content, 'html5lib')

    div = soup.find('div', attrs = {'id' : 'harmonyContainer'})
    
    content = ''
    for paragraph in div.find_all('p'):
        content += paragraph.get_text()
        
    return content

news1 = get_news_content('https://news.v.daum.net/v/20190617073049838')
print(news1)


In [None]:
email_pattern = '\w+@.+'
# 아이디 : 문자, -, . 숫자도 올 수 있다.
# 도메인: 문자 숫자, . gmail.com yahoo.co.kr

email_re = re.compile(r'^\w+[\w.-]*@[\w.]+\w+$')
print(email_re.search('test-gmail@gmial.co.kr.'))



In [None]:
webs = ['http://www.test.co.kr', 
        'https://www.test1.com', 
        'http://www.test.com', 
        'ftp://www.test.com', 
        'http:://www.test.com',
       'htp://www.test.com',
       'http://www.google.com', 
       'https://www.homepage.com.']

In [None]:
web_re = re.compile(r'https?://[\w.]+\w+$')
for w in webs:
    print(web_re.search(w))

In [16]:
txt = 'From setp.mar@navr.com sat Jan'
d_e = re.findall('^From \S+@(\S[^ ]*)', txt)
print(d_e)

['navr.com']


In [19]:
cd desktop/jupyter

C:\Users\1000\desktop\jupyter


In [79]:
import re

fh = open('mbox-short.txt')
maxcount = list()


for line in fh :
    line = line.rstrip()
#     s_line = line.split()
    m_word = re.findall('X-DSPAM-Confidence: ([0-9.]*)', line)
    
    if len(m_word) != 1: continue 
    num = float(m_word[0])
    maxcount.append(num)

print(max(maxcount))
print(min(maxcount))
print(maxcount)
maxcount.sort()
print(maxcount)

0.9907
0.6178
[0.8475, 0.6178, 0.6961, 0.7565, 0.7626, 0.7556, 0.7002, 0.7615, 0.7601, 0.7605, 0.6959, 0.7606, 0.7559, 0.7605, 0.6932, 0.7558, 0.6526, 0.6948, 0.6528, 0.7002, 0.7554, 0.6956, 0.6959, 0.7556, 0.9846, 0.8509, 0.9907]
[0.6178, 0.6526, 0.6528, 0.6932, 0.6948, 0.6956, 0.6959, 0.6959, 0.6961, 0.7002, 0.7002, 0.7554, 0.7556, 0.7556, 0.7558, 0.7559, 0.7565, 0.7601, 0.7605, 0.7605, 0.7606, 0.7615, 0.7626, 0.8475, 0.8509, 0.9846, 0.9907]


In [62]:
mon = 'money is the big stuff, $20.0 for you'
print(re.findall('\$[0-9.0-9]*', mon))

['$20.0']


In [177]:
fh = open('mbox-short.txt')
hour = {}
lst = []

for line in fh :
    line = line.rstrip()

    if line.startswith('From') == True and line.find(':') > 4 :
        hour_p = line.find(':')
        hour_1 = line[hour_p - 2 : hour_p]
        hour[hour_1]= hour.get(hour_1, 0) + 1 


lst2= []

for k, v in hour.items() :
    lst2.append((k, v))
    lst2.sort()

for o1, o2 in lst2 :
    print(o1, o2)

04 3
06 1
07 1
09 2
10 3
11 6
14 1
15 2
16 4
17 2
18 1
19 1


In [132]:
xx = 'rom stephen.marquard@uct.ac.za Sat Jan  5 09:14:16 2008'
xy = '5 09:14:16 2008'

x2 = xx.split()
x3 = xy.find(':')
print(x2)
print(x3)
print(xy[x3-2 : x3])

['rom', 'stephen.marquard@uct.ac.za', 'Sat', 'Jan', '5', '09:14:16', '2008']
4
09
