In [41]:
# python에서 정규식을 쓰는 패키지
import re

#### 정규식 기초
- 

###### Meta characters 

- . => Any characters (single)
- [or] => bracket(범위) one of them, 
    - -는 범위: A-Z
- ? => True or False
- {m, n} => Min=m, Max=n로 반복 횟수를 의미한다.
- \* => {0, } 와 같은 표현. 없거나, 한번 이상 반복
- \+ => {1, } 와 같은 표현. 한번 이상 반복
- \d => A-za-z0-9_
- \s => whitespace(공백)
- \b => Word Boundary

* 대문자로 쓰면 Not의 의미를 갖는다.
    - \D => 문자가 아닌 애들
    - \S => whitespace(공백)이 아닌 애들
    - \B => Word Boundary가 아닌 애들
    
* ^ => 1. not (bracket 안에 있을 때만), 2. startwith
- .+ => 아무글자가 1번(Greedy 방식)
- .+? => Lazy 방식
- () => 그룹

## 기본 연습

In [2]:
# 패턴 "가.다"에 해당하는 글자들만 뽑아온다.
# .은 아무 글자나 1개를 의미를 하므로, 가와 다 사이에 아무 글자나 있으면 가져온다.

re.findall("가.다", "가나다라마바사 가가다 가다 가라다 가가가가다")

['가나다', '가가다', '가라다', '가가다']

In [6]:
# [] 안에 있는 글자들 중에 일치하는 글자를 찾는다.

re.findall("[아버지]", "아버지가 아버지께서 아버지와 아버지는 강아지")

['아', '버', '지', '아', '버', '지', '아', '버', '지', '아', '버', '지', '아', '지']

In [5]:
# ?은 있거나 없거나 라는 뜻
# .?는 아무글자나 한개가 있거나 없거나 라는 뜻. -> 강아지의 "아지"가 걸리는 이유.

re.findall("아.?지", "아버지가 아버지께서 아버지와 아버지는 강아지")

['아버지', '아버지', '아버지', '아버지', '아지']

In [7]:
# [] 안에 -가 있으면 범위를 나타낸다.
# [가-나] 는 "가" 부터 "나" 까지의 범위를 의미한다.
# 알파벳 [a-c]는 "a"부터 "c"까지의 범위를 의미한다.

re.findall("[가-나]", "아버지가 아버지께서 아버지와 아버지는")

['가', '께']

In [8]:
# 자음만 걸러낸다.

re.findall("[ㄱ-ㅎ]", "ㄱㄶㅇㄷ 아버지가 아버지께서 아버지와 아버지는")

['ㄱ', 'ㄶ', 'ㅇ', 'ㄷ']

In [12]:
# 모음이 연달아서 2번 이상 나올때만 걸러낸다.

re.findall("[ㅏ-ㅣ]{2,}", "ㅠㅠ ㅡㅡ ㅣㅣ ㄱㄶㄷㅇ 아버지가 아버지께서 아버지와 아버지는")

['ㅠㅠ', 'ㅡㅡ', 'ㅣㅣ']

In [11]:
# 비속어를 걸러내는데 쓸 수 있다.

re.findall("[ㄱ-ㅎ]{2,}", "ㅅㅂ ㅋㅋ ㅎㅎ")

['ㅅㅂ', 'ㅋㅋ', 'ㅎㅎ']

r"" => raw format

In [17]:
# 제대로 문자를 해석하지 못할 때가 있다.

re.findall(r"\B[^가-힣]+\B", "아버@#$@#$@#$지가 아버지께서 아버지와 아버지는")

['#$@#$@#']

In [18]:
# 걸러낸 문자를 지워버리는 기능으로 쓸 수 있다.

re.sub(r"\B[^가-힣]+\B", "", "아버@#$@#$@#$지가 아버지께서 아버지와 아버지는")

'아버@$지가 아버지께서 아버지와 아버지는'

In [23]:
# Lazy 방식

re.findall(r"^아.+?\b", "아버지가 아버지께서 아버지와 아버지는")

['아버지가']

In [22]:
#Greedy 방식

re.findall(r"^아.+\b", "아버지가 아버지께서 아버지와 아버지는")

['아버지가 아버지께서 아버지와 아버지는']

In [20]:
# 알아서 이스케이프 처리 다 해주는 메서드

re.escape("|$%#&#(($&|))")

'\\|\\$%\\#\\&\\#\\(\\(\\$\\&\\|\\)\\)'

## url을 정규식으로 걸러내는 연습

In [None]:
urls = [
    "http://www.naver.com",
    "https://www.naver.com",
    "//www.naver.com",
    "www.naver.com"
]

In [33]:
# http로 시작하는 url만 찾는 방법

for _ in urls:
    if _.startswith("http"):
        print(_)

http://www.naver.com
https://www.naver.com


In [32]:
# 정규식을 이용해서 http로 시작하는 url만 찾는 방법

# 정규식 패턴을 미리 정해놓을 수 있다.
pattern = re.compile(r"^http")

# list comprehension
[_ for _ in urls if pattern.search(_)]

['http://www.naver.com', 'https://www.naver.com']

In [34]:
# url 종류를 추가함

urls = [
    "http://www.naver.com",
    "https://www.naver.com",
    "//www.naver.com",
    "www.naver.com",
    "www.daum.net",
    "lms.koipa.or.kr"
]

In [35]:
# .com 또는 .net으로 끝나는 것만 가져오는 방법

pattern = re.compile(r".com$|.net$")
[_ for _ in urls if pattern.search(_)]

['http://www.naver.com',
 'https://www.naver.com',
 '//www.naver.com',
 'www.naver.com',
 'www.daum.net']

## 이메일을 정규식으로 걸러내는 연습

In [36]:
# 이메일로 해보기

re.findall(r"[a-z][a-z0-9]{2,}@\w{3,}[.][a-z]{3}", "test@domain.com")

['test@domain.com']

In [37]:
# 아이디 부분만 추출하고 싶으면, 아이디에 해당하는 정규식 부분만 ()그룹핑해주면 된다.

re.findall(r"([a-z][a-z0-9]{2,})@\w{3,}[.][a-z]{3}", "test@domain.com")

['test']

In [38]:
# ()그룹핑을 통해서 아이디와 도메인을 따로 뽑을 수도 있다.

re.findall(r"([a-z][a-z0-9]{2,})@(\w{3,}[.][a-z]{3})", "test@domain.com")

[('test', 'domain.com')]

In [None]:
# 결과를 groups 객체에 할당

groups = re.findall(r"([a-z][a-z0-9]{2,})@(\w{3,}[.][a-z]{3})", 
                    "test@domain.com")

In [43]:
# 이메일 도메인 찾는 정규식을 url에도 활용해보자.

re.findall(r"(https?):\/\/(\w+([.][a-z]{2})+)", 
           "https://domain.com")

[('https', 'domain.com', '.com')]

In [45]:
# 이메일 도메인 찾는 정규식을 url에도 활용해보자
# .com이 아니라 or.kr도 찾을 수 있다.

re.findall(r"(https?):\/\/(\w+([.][a-z]{2})+)", 
           "https://domain.co.kr")

[('https', 'domain.co.kr', '.kr')]

## html 태그에서 정규식으로 원하는 내용 찾는 연습

### 실습

In [26]:
import requests
import random
import time

In [69]:
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36"}

def download(method="get", url="", headers={}, params={}, retries=3):
    try:
        resp = requests.request(method, 
                                url, 
                                headers=headers,
                                params=params if method=="get" else {},
                                data = params if method=="post" else {}
                               )
        resp.raise_for_status()
        
    except requests.exceptions.HTTPError as e:
        if 500 <= resp.status_code < 600 and retries > 0:
            print("Retries:",retries)
            time.sleep(random.randint(1,5))
            return download(method, url, headers, params, retries-1)
            
        else:
            print(resp.status_code)
            print(resp.reason)
            print(resp.request.headers)
            print(resp.url)

    return resp

In [29]:
url = "http://example.webscraping.com/places/default/index"
resp = download(url=url)
resp.text



In [64]:
# response 받은 결과에서, image source만 가져와보자.

groups = re.findall(r'<img src="(.+?)" \/>', resp.text)
groups

['/places/static/images/flags/af.png',
 '/places/static/images/flags/ax.png',
 '/places/static/images/flags/al.png',
 '/places/static/images/flags/dz.png',
 '/places/static/images/flags/as.png',
 '/places/static/images/flags/ad.png',
 '/places/static/images/flags/ao.png',
 '/places/static/images/flags/ai.png',
 '/places/static/images/flags/aq.png',
 '/places/static/images/flags/ag.png']

In [53]:
# 정규식으로 알아낸 이미지 주소와, 사이트 주소를 합쳐서 실제 이미지 주소를 알아내기
# 정규식으로 알아낸 이미지 주소는 상대주소이고, 우리가 필요한 것은 절대 주소.

[requests.compat.urljoin(resp.url, _) for _ in groups]

['http://example.webscraping.com/places/static/images/flags/af.png',
 'http://example.webscraping.com/places/static/images/flags/ax.png',
 'http://example.webscraping.com/places/static/images/flags/al.png',
 'http://example.webscraping.com/places/static/images/flags/dz.png',
 'http://example.webscraping.com/places/static/images/flags/as.png',
 'http://example.webscraping.com/places/static/images/flags/ad.png',
 'http://example.webscraping.com/places/static/images/flags/ao.png',
 'http://example.webscraping.com/places/static/images/flags/ai.png',
 'http://example.webscraping.com/places/static/images/flags/aq.png',
 'http://example.webscraping.com/places/static/images/flags/ag.png']

In [62]:
# response 받은 결과에서, link가 있는 것만 가져와보자.

groups = re.findall(r'<a href="(.+?)"', resp.text)
print(len(groups)) # len은 갯수를 세어주는 함수
[requests.compat.urljoin(resp.url, _) for _ in groups]

16


['http://example.webscraping.com/places/default/index',
 'http://example.webscraping.com/places/default/user/register?_next=/places/default/index',
 'http://example.webscraping.com/places/default/user/login?_next=/places/default/index',
 'http://example.webscraping.com/places/default/index',
 'http://example.webscraping.com/places/default/search',
 'http://example.webscraping.com/places/default/view/Afghanistan-1',
 'http://example.webscraping.com/places/default/view/Aland-Islands-2',
 'http://example.webscraping.com/places/default/view/Albania-3',
 'http://example.webscraping.com/places/default/view/Algeria-4',
 'http://example.webscraping.com/places/default/view/American-Samoa-5',
 'http://example.webscraping.com/places/default/view/Andorra-6',
 'http://example.webscraping.com/places/default/view/Angola-7',
 'http://example.webscraping.com/places/default/view/Anguilla-8',
 'http://example.webscraping.com/places/default/view/Antarctica-9',
 'http://example.webscraping.com/places/defau

# 구글 검색에서 정규식으로 원하는 결과만 가져오기

In [77]:
url = "https://www.google.com/search"
params = {
    "q":"성소"
}
resp = download('get', url, params=params, headers=headers)

In [79]:
# title을 한번 뽑아보자.

re.findall(r"<title>(.*?)</title>", resp.text)

['성소 - Google 검색']

In [84]:
from html import unescape

In [85]:
# link들만 가져오기

groups = re.findall(r'<a href="(.+?)".+?><h3 class="LC20lb"><div class="ellip">(.+?)<\/div>', resp.text)
groups

[('/search?q=%EC%84%B1%EC%86%8C&amp;gbv=1&amp;sei=XXJvXY-POcKWr7wPj6CMuA4',
  '성소(우주소녀) - 나무위키'),
 ('https://namu.wiki/w/%EC%84%B1%EC%86%8C', '성소 - 나무위키'),
 ('https://ko.wikipedia.org/wiki/%EC%84%B1%EC%86%8C_(%EA%B0%80%EC%88%98)',
  '성소 (가수) - 위키백과, 우리 모두의 백과사전'),
 ('https://1boon.daum.net/benter/sungso', '비주얼 파티 중이라는 우주소녀 성소 근황 | 1boon'),
 ('http://news.chosun.com/site/data/html_dir/2018/09/03/2018090301347.html',
  '[SC이슈]&quot;컴백 NO, 예능은 OK&quot;…우주소녀 성소, 中스케줄 논란 - 조선일보'),
 ('https://twitter.com/hashtag/%EC%84%B1%EC%86%8C', '#성소 hashtag on Twitter'),
 ('https://news.sbs.co.kr/news/endPage.do?news_id=N1004917577',
  '우주소녀, 13명→10명 체제 컴백…&quot;성소 등 3명은 참여NO&quot; - SBS 뉴스'),
 ('https://1boon.kakao.com/newsade/WJSN-SS', '우주소녀 성소, CG 아닌가요? | 1boon'),
 ('https://www.mbcsportsplus.com/news/?mode=view&amp;cate=&amp;b_idx=99863462.000',
  '[오·아] &quot;더 예뻐졌네&quot;…성소, 물오른 미모 공개 &#39;섹시미UP&#39; - 엠스플뉴스')]

In [94]:
# url 중에서 상대주소는 절대주소로 바꿔주고,
# 제목은 한글로 인코딩해주는 작업을 함.

[(requests.compat.urljoin(resp.url, _[0]), unescape(_[1])) for _ in groups]

[('https://www.google.com/search?q=%EC%84%B1%EC%86%8C&amp;gbv=1&amp;sei=XXJvXY-POcKWr7wPj6CMuA4',
  '성소(우주소녀) - 나무위키'),
 ('https://namu.wiki/w/%EC%84%B1%EC%86%8C', '성소 - 나무위키'),
 ('https://ko.wikipedia.org/wiki/%EC%84%B1%EC%86%8C_(%EA%B0%80%EC%88%98)',
  '성소 (가수) - 위키백과, 우리 모두의 백과사전'),
 ('https://1boon.daum.net/benter/sungso', '비주얼 파티 중이라는 우주소녀 성소 근황 | 1boon'),
 ('http://news.chosun.com/site/data/html_dir/2018/09/03/2018090301347.html',
  '[SC이슈]"컴백 NO, 예능은 OK"…우주소녀 성소, 中스케줄 논란 - 조선일보'),
 ('https://twitter.com/hashtag/%EC%84%B1%EC%86%8C', '#성소 hashtag on Twitter'),
 ('https://news.sbs.co.kr/news/endPage.do?news_id=N1004917577',
  '우주소녀, 13명→10명 체제 컴백…"성소 등 3명은 참여NO" - SBS 뉴스'),
 ('https://1boon.kakao.com/newsade/WJSN-SS', '우주소녀 성소, CG 아닌가요? | 1boon'),
 ('https://www.mbcsportsplus.com/news/?mode=view&amp;cate=&amp;b_idx=99863462.000',
  '[오·아] "더 예뻐졌네"…성소, 물오른 미모 공개 \'섹시미UP\' - 엠스플뉴스')]