## Regular Expression(Regex, re)

In [2]:
import re

#### +) 메타 문자(meta-characters)
- 문자가 본래의 의미와 다른 기능을 함.

---
- [] : 문자들의 범위를 나타내기 위해 사용
    > - [abc] : a or b or c or k
    > - [^0-9] : ^가 맨 앞에 사용되는 경우 해당 문자 패턴이 아닌 것과 매칭
- .(마침표) : 모든 문자를 의미
- \ : 다른 문자와 함께 사용되어 특수한 의미로 사용됨.
    >- \d : [0-9]
    >- \D : 숫자가 아닌 문자[^0-9]
    >- \s : 공백문자(띄어쓰기, 탭, 엔터 등)
    >- \S : 공백이 아닌 문자
    >- \w : 알파벳 대소문자, 숫자, [0-9a-zA-Z]
    >- \W : non-alpha-numeric
    >- \t, \n, \r : tab, newline, return
    >-\\{메타문자} : 메타 문자 그대로를 나타내게 하고 싶을 때.

In [4]:
sample = '@#$%ABCDabcd'
re.search(r'..\w\w', sample)

<re.Match object; span=(2, 6), match='$%AB'>

#### +) 반복패턴
패턴 뒤에 위치하는 *, +, ?는 해당 패턴이 반복적으로 존재하는지 검사한다.
- '+' : 1번 이상의 패턴 발생
- '*' : 0번 이상의 패턴 발생
- '?' : 0혹은 1번
- {m, n} : 반복 횟수 설정(m이상 n이하}

> 반복을 greedy 하게 검색한다 - 즉, 가능한 많은 부분이 매칭되도록 한다

#### +) 문자열의 시작과 끝
- ^ : 문자열의 맨 앞부터 일치하는 경우 검색
- $ : 문자열의 맨 뒤부터 일치하는 경우 검색

In [5]:
re.search(r'https?', 'http://www.naver.com') # https와 매치되지 않으나, 0혹은 1이므로 매치

<re.Match object; span=(0, 4), match='http'>

In [6]:
re.search(r'https+', 'http://www.naver.com') 

#### +) 최소 매칭(non-greedy way)
기본적으로 \*, +, ?을 사용하면 greedy(맥시멈 매칭)하게 동작한다.\
***?, +?**을 이용하여 최소매칭을 구현할 수 있다.

In [8]:
re.search(r'<.+>','<html>haha</html>')

<re.Match object; span=(0, 17), match='<html>haha</html>'>

In [9]:
re.search(r'<.+?>','<html>haha</html>')

<re.Match object; span=(0, 6), match='<html>'>

In [11]:
re.search(r'a{3,5}?', 'aaaaa') # 최소 m번 매칭하면 만족

<re.Match object; span=(0, 3), match='aaa'>

### Grouping
(   )을 사용하여 grouping. 매칭 경과를 각 그룹별로 분리할 수 있다.
> 패턴 생성 시, 각 그룹을 괄호 안에 넣어 분리하여 사용한다.

In [7]:
m = re.search(r'(\w+)@(.+)','test@gmail.com')
print(m)
print(m.group(1))
print(m.group(2))
print(m.group(0))

<re.Match object; span=(0, 14), match='test@gmail.com'>
test
gmail.com
test@gmail.com


### re.search(pat, string)
- 문자열 내에서 패턴을 찾으면 match 객체를 반환
- 찾지 못하면 None 반환

In [3]:
re.search(r'abd', '123abdef')

<re.Match object; span=(3, 6), match='abd'>

### re.match(pat, string)
- search와 유사하나, 주어진 문자열의 **시작부터 비교**하여 패턴이 있는지 확인한다.
- 찾지 못하면 None 반환

In [12]:
re.match(r'\d\d\d', 'my number is 123')

In [13]:
re.match(r'\d\d\d', '123 is my number')

<re.Match object; span=(0, 3), match='123'>

### re.findall(pat, string)
search가 최초로 매칭되는 패턴만 반환한다면, findall은 매칭되는 전체의 패턴을 반환한다.
- 매칭되는 모든 결과를 **리스트**형태로 반환

In [14]:
re.findall(r'[\w-]+@[\w.]+', 'test@gmail.com haha test2@gmail.com nice test test')

['test@gmail.com', 'test2@gmail.com']

### re.sub(pat, sub-string, string, count = 0)
- count가 0인 경우 전체 치환(default), 1이상이면 해당 숫자만큼 치환

In [15]:
re.sub(r'[\w-]+@[\w.]+', 'great', 'test@gmail.com haha test2@gmail.com nice test test', count=1)

'great haha test2@gmail.com nice test test'

In [16]:
re.sub(r'[\w-]+@[\w.]+', 'great', 'test@gmail.com haha test2@gmail.com nice test test')

'great haha great nice test test'

### 예제(2019 KAKAO BLIND RECRUITMENT-매칭점수)
[문제링크](https://programmers.co.kr/learn/courses/30/lessons/42893)

```html
<html lang=\"ko\" xml:lang=\"ko\" xmlns=\"http://www.w3.org/1999/xhtml\">
    <head>\n  <meta charset=\"utf-8\">
        <meta property=\"og:url\" content=\"https://a.com\"/> <--페이지url-->
    </head>  
    <body>
        Blind Lorem Blind ipsum dolor Blind test sit amet, consectetur adipiscing elit. 
        <a href=\"https://b.com\"> Link to b </a> <--외부링크-->
    </body>
</html>
```

In [17]:
sample = ["<html lang=\"ko\" xml:lang=\"ko\" xmlns=\"http://www.w3.org/1999/xhtml\">\n<head>\n  <meta charset=\"utf-8\">\n  <meta property=\"og:url\" content=\"https://a.com\"/>\n</head>  \n<body>\nBlind Lorem Blind ipsum dolor Blind test sit amet, consectetur adipiscing elit. \n<a href=\"https://b.com\"> Link to b </a>\n</body>\n</html>",
          "<html lang=\"ko\" xml:lang=\"ko\" xmlns=\"http://www.w3.org/1999/xhtml\">\n<head>\n  <meta charset=\"utf-8\">\n  <meta property=\"og:url\" content=\"https://b.com\"/>\n</head>  \n<body>\nSuspendisse potenti. Vivamus venenatis tellus non turpis bibendum, \n<a href=\"https://a.com\"> Link to a </a>\nblind sed congue urna varius. Suspendisse feugiat nisl ligula, quis malesuada felis hendrerit ut.\n<a href=\"https://c.com\"> Link to c </a>\n</body>\n</html>",
          "<html lang=\"ko\" xml:lang=\"ko\" xmlns=\"http://www.w3.org/1999/xhtml\">\n<head>\n  <meta charset=\"utf-8\">\n  <meta property=\"og:url\" content=\"https://c.com\"/>\n</head>  \n<body>\nUt condimentum urna at felis sodales rutrum. Sed dapibus cursus diam, non interdum nulla tempor nec. Phasellus rutrum enim at orci consectetu blind\n<a href=\"https://a.com\"> Link to a </a>\n</body>\n</html>"]

In [24]:
print(sample[0])

<html lang="ko" xml:lang="ko" xmlns="http://www.w3.org/1999/xhtml">
<head>
  <meta charset="utf-8">
  <meta property="og:url" content="https://a.com"/>
</head>  
<body>
Blind Lorem Blind ipsum dolor Blind test sit amet, consectetur adipiscing elit. 
<a href="https://b.com"> Link to b </a>
</body>
</html>


In [22]:
# 페이지 링크 추출하기
pattern = '<meta\s.+?content=\"(https://.+)\"/>'
print(re.search(pattern, sample[0]).group(1))

https://a.com


In [29]:
# 외부링크 추출하기
pattern1 = '<a href=\"(https://.+)\">'
print(re.findall(pattern1, sample[1]))

['https://a.com', 'https://c.com']


In [33]:
# body 본문 추출하기
body = '<body>((.|\s)+)</body>'
print(re.search(body, sample[0]).group(1))


Blind Lorem Blind ipsum dolor Blind test sit amet, consectetur adipiscing elit. 
<a href="https://b.com"> Link to b </a>



In [35]:
# 문제에서 나온대로 blind counting하기
count = 0
temp = ''
for char in re.search(body, sample[0]).group(1).lower():
    if char.isalpha():
        temp+=char
        if temp == 'blind':
            count+=1
    else:
        temp = ''
print(count)

3
