In [6]:
#.3.1 단일 도메인 내의 이동

"""
도메인 내에는 단순히 그 도메인 내의 콘텐츠 이외에도, 
다양한 종류의 링크를 포함하고 있다. 

그 예로 위키피디아를 들 수 있는데, 위키피디아의 여섯 다리라는 말이 있다.
위키백과의 경우, 링크로 연결된 항목을 통해 총 여섯 다리면 원하는 곳에 도착할 수 있다는 말이다.

이번 절에서는 '위키백과의 여섯 다리'를 풀어보는 프로젝트를 수행해보자.
'에릭아이들'의 페이지에서 '케빈 베이컨'의 페이지에 닿는 최소한의 클릭 수를 찾아보자.
"""

from urllib.request import urlopen
from bs4 import BeautifulSoup
import ssl

context = ssl._create_unverified_context()
html = urlopen('https://en.wikipedia.org/wiki/Kevin_Bacon', context = context)
bs = BeautifulSoup(html, 'html.parser')
for link in bs.findAll('a'):
    if 'href' in link.attrs:  # 'href'는 링크 정보를 가지고 있는 태그 내의 속성이다.
        print(link.attrs['href'])
        
"""
하지만, 이것은 문제가 있다.
링크 목록을 살펴보면 원하는 것들도 있지만, 그렇지 않은 것들도 포함되어 있기 때문이다.
위키백과의 모든 페이지에는 사이드바, 푸터, 헤더 링크, 카테코리 페이지 등 우리가 관심 있어 하는 항목이 아닌 
페이지를 가리키는 링크도 많이 있기 때문이다.

그렇다면 '항목 링크'와 '다른 링크'를 구분하는 패턴을 고민해보자.
(실제 크롤러를 만든다면, 문법보다도 이런 부분이 중요할 것이다.)
항목 링크에는 다른 링크와는 달리 세 가지 공통점이 있다.

1. 이 링크들은 id가 bodyContent인 div 안에 있다.
2. URL에는 콜론이 포함되어 있지 않다.
3. URL은 /wiki/로 시작한다.

이들 규칙을 활용하면 정규표현식을 작성할 수 있다.
^(/wiki/)((?!:).)*$     # 첫 번째 규칙은, bs 객체 함수 findAll()의 attribute 매개변수로 적용해주자.

"""

/wiki/Wikipedia:Protection_policy#semi
#mw-head
#searchInput
/wiki/Kevin_Bacon_(disambiguation)
/wiki/File:Kevin_Bacon_SDCC_2014.jpg
/wiki/Philadelphia,_Pennsylvania
/wiki/Kevin_Bacon_filmography
/wiki/Kyra_Sedgwick
/wiki/Sosie_Bacon
#cite_note-1
/wiki/Edmund_Bacon_(architect)
/wiki/Michael_Bacon_(musician)
/wiki/Holly_Near
/wiki/Wikipedia:Citation_needed
http://baconbros.com/
#cite_note-2
#cite_note-actor-3
/wiki/Footloose_(1984_film)
/wiki/JFK_(film)
/wiki/A_Few_Good_Men
/wiki/Apollo_13_(film)
/wiki/Mystic_River_(film)
/wiki/Balto_(film)
/wiki/Sleepers
/wiki/The_Woodsman_(2004_film)
/wiki/Animal_House
/wiki/Diner_(1982_film)
/wiki/Tremors_(1990_film)
/wiki/Crazy,_Stupid,_Love
/wiki/Friday_the_13th_(1980_film)
/wiki/Flatliners
/wiki/The_River_Wild
/wiki/Wild_Things_(film)
/wiki/Stir_of_Echoes
/wiki/Hollow_Man
/wiki/Frost/Nixon_(film)
/wiki/X-Men:_First_Class
/wiki/Black_Mass_(film)
/wiki/Patriots_Day_(film)
/wiki/Fox_Broadcasting_Company
/wiki/The_Following
/wiki/HBO
/wiki/Taking_Chan

In [18]:
# 위에 입각하여 코드를 수정해 보자.

import re

for link in bs.find('div',{'id':'bodyContent'}).findAll('a', {'href':re.compile('^(/wiki/)((?!:).)*$')}):
    # find 함수로 div를 찾아준 뒤, findAll로 href가 정규표현식의 성질을 가진 것을 추출.
    # 1,2,3의 규칙을 모두 적용한 것이다.
    if 'href' in link.attrs:       
# 의심이 들어서 한번 지워봤는데 결과엔 차이가 없다. 아마 혹시 모를 사정을 대비한 것 같다. 
# 웹이 어떻게 생겼을지 혹시 모르기 때문이다.
        print(link.attrs['href'])

    
"""
이 스크립트도 훌륭하지만, 이 스크립트로는 도메인을 계속 이동할 수는 없다.
따라서, 받아온 /wiki/<article_name> 형태인 URL을 받고 URL 전체를 반환할 수 있어야 하고
반환된 링크 목록에서 무작위로 항목 링크를 선택하여 다시 getLInks를 다시 호출해야 하고
그 작업은 프로그램을 끝내거나 새 페이지에 항목 링크가 없을 때까지 반복되어야 한다.
"""

/wiki/Kevin_Bacon_(disambiguation)
/wiki/Philadelphia,_Pennsylvania
/wiki/Kevin_Bacon_filmography
/wiki/Kyra_Sedgwick
/wiki/Sosie_Bacon
/wiki/Edmund_Bacon_(architect)
/wiki/Michael_Bacon_(musician)
/wiki/Holly_Near
/wiki/Footloose_(1984_film)
/wiki/JFK_(film)
/wiki/A_Few_Good_Men
/wiki/Apollo_13_(film)
/wiki/Mystic_River_(film)
/wiki/Balto_(film)
/wiki/Sleepers
/wiki/The_Woodsman_(2004_film)
/wiki/Animal_House
/wiki/Diner_(1982_film)
/wiki/Tremors_(1990_film)
/wiki/Crazy,_Stupid,_Love
/wiki/Friday_the_13th_(1980_film)
/wiki/Flatliners
/wiki/The_River_Wild
/wiki/Wild_Things_(film)
/wiki/Stir_of_Echoes
/wiki/Hollow_Man
/wiki/Frost/Nixon_(film)
/wiki/Black_Mass_(film)
/wiki/Patriots_Day_(film)
/wiki/Fox_Broadcasting_Company
/wiki/The_Following
/wiki/HBO
/wiki/Taking_Chance
/wiki/Golden_Globe_Award
/wiki/Screen_Actors_Guild_Award
/wiki/Primetime_Emmy_Award
/wiki/Streaming_television
/wiki/I_Love_Dick_(TV_series)
/wiki/Golden_Globe_Award_for_Best_Actor_%E2%80%93_Television_Series_Musical_or

In [29]:
import datetime
import random

random.seed(55) # 단순히 현재 시각으로 random seed를 입력해준 것. 
# (시행할 때마다 계속 바뀔 수 있도록) 말하자면 random이라는 객체에 attribute을 부여해주는 작업이다.
# 근데 해보면 알겠지만, Deprecation Error라고 randome.seed로 받을 수 있는 것들이 한정되었다고 한다.
# 업데이트 버전 차이인 것 같은데, 우선 중요한 것은 아니니 아무 int값이나 넣어주었다. 

def getLinks(articleUrl):
    html = urlopen('http://en.wikipedia.org{}'.format(articleUrl), context = context)
    bs = BeautifulSoup(html, 'html.parser')
    return bs.find('div', {'id':'bodyContent'}).findAll('a', {'href':re.compile('^(/wiki/)((?!:).)*$')})

links = getLinks('/wiki/Kevin_Bacon')
while len(links) > 0: # 새 페이지에 항목 링크가 없을 때까지.
    newArticle = links[random.randint(0, len(links)-1)].attrs['href']
    print(newArticle)
    links = getLinks(newArticle)

"""
아직 위키백과의 여섯 다리 문제를 풀지는 못했지만, 그 문제를 해결하려면
반드시 결과 데이터를 저장하고 분석할 수 있어야 한다고 한다.
데이터의 저장과 분석은 챕터 6에서 다루기 때문에 잠시 넘어가보자.

실제 웹크롤러를 만들 때에는, '예외 처리'가 매우 중요하다.
다만 여기서는 이미 다 알고 있는 웹에서 따오는 것이기 때문에 별다른 문제가 없는 것이다.
"""

/wiki/Edmund_Bacon_(architect)
/wiki/I-695_(PA)
/wiki/Philadelphia
/wiki/NBC


KeyboardInterrupt: 

In [34]:
# 3.2 전체 사이트 크롤링

"""
링크에서 링크로 움직이며 웹사이트를 무작위로 이동하며 링크를 따오는 것을 해보았다.
하지만, 사이트의 모든 페이지를 분류하거나 검색해야한다면 이러한 방식은 옳지 않다.

하나의 페이지 안에도 많은 수의 링크가 포함되어있는데,
중간규모의 사이트에서도 최소 105페이지 최대 100,000페이지를 찾아야 하는 경우도 있기 때문이다.

그렇다면 무작위로 하나씩 켜는 방식 말고, 어떻게 해야할까?

이때에는 요소의 순서가 없고 중복없이 유일한 요소만 저장하는 set 자료구조를 사용해야 한다.

발견하는 링크에 모두 일정한 형식을 취하고, 동작하는 동안 계속 유지되는 세트에 보관한다면,
새로운 링크만 탐색하고 그 안에서 다른 링크를 검색하도록 하는 목적을 달성할 수 있을 것이다.
"""

pages = set()
def getLinks(pageUrl):
    global pages
    html = urlopen('http://en.wikipedia.org{}'.format(pageUrl), context = context)
    bs = BeautifulSoup(html, 'html.parser')
    for link in bs.findAll('a', href = re.compile('^(/wiki/)')):
        if 'href' in link.attrs:
            if link.attrs['href'] not in pages:
                # 새 페이지를 발견
                newPage = link.attrs['href']
                print(newPage)
                pages.add(newPage)
                getLinks(newPage)
                
getLinks('')

/wiki/Wikipedia
/wiki/Wikipedia:Protection_policy#semi
/wiki/Wikipedia:Requests_for_page_protection
/wiki/Wikipedia:Requests_for_permissions
/wiki/Wikipedia:Protection_policy#extended
/wiki/Wikipedia:Lists_of_protected_pages
/wiki/Wikipedia:Protection_policy


KeyboardInterrupt: 

In [6]:
# 전체 사이트에서 '데이터 수집'

"""
크롤러는 단순히 이 페이지 저 페이지를 왔다갔다 이동만 하는 것이 아니라,
그 안에서 데이터를 수집할 수도 있어야 한다. (저장은 아직 불가능하므로 여기서는 '출력'에 초점이 있다.)

페이지 제목, 첫 번째 문단, 편집 페이지를 가리키는 링크(존재한다면)를 수집하는 스크레이퍼를 만들어 보자.

당연히 실제로 스크레이퍼를 만든다면, html상으로 저 정보들이 어떤 형식으로 올라가 있는 지를 확인해야 한다.

[1] 페이지 제목
항목 페이지 제목은 어떤 페이지든 상관없이 항상 h1 태그 안에 있다. (콘텐츠로)

[2] 첫 번째 문단
바디 텍스트 안에 있을 것이므로 div#bodyContent('div' 태그 안의 'id' : 'body') 안에 있다. 
하지만, 그것은 모든 바디 텍스트를 선택하는 것이다. 이를테면 중간중간 비어있는 공백이나 끼워진 사진까지도.

따라서 첫 번재 문단의 텍스트만 선택하려 한다면 더 좋은 방법을 찾는 것이 좋다.
이 때 chrome에서 '검사' 탭에 들어간 이후 하나씩 선택을 해보면서 어떤 것을 지칭하는 지 확인해보자.

div#bodyContent 안에도 div#mw-content-text를 클릭하면 더 구체적으로 지칭이 되는 것을 볼 수 있는데,
이 안에 'p' 태그들이 있다. 아마도 paragraph 의 축약어 정도인 것 같다.
이 때, findAll 이 아니라 find 함수로 p를 지정하면 콘텐츠 텍스트 섹션의 첫 번째 문단만 추출할 수 있을 것이다.

[3] 편집 링크
위키디피아의 항목 페이지에만 존재할 것이다. 이 섹션 전체의 추출 코드에 존재하지 않을 것을 대비해 어차피 try를
설정해 놓을 것이므로 존재한다면, li#ca-edit -> span -> a 로 find 한다.
이 것 역시 [2]와 같은 과정으로 하나씩 지정해보면서 위치를 찾아주면서 공통된 패턴을 지정하면 된다.
"""

# 기본 크롤링 코드를 수정하여 크롤러와 데이터 수집 기능이 있는 프로그램을 만들어 보자.

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
import ssl

pages = set()

def getLinks(pageUrl):
    context = ssl._create_unverified_context()
    html = urlopen('http://en.wikipedia.org' + pageUrl, context = context)
    bs = BeautifulSoup(html, 'html.parser')
    try:
        # 다음의 것들은 모두 존재한다고 확신이 없으므로, AttributeError가 나기 전에
        # 가장 존재 확률이 높은 순으로 작성한 것이다.
        print(bs.find('h1').get_text())
        print(bs.find('div', {'id' : 'mw-content-text'}).find('p').get_text())
        print(bs.find('li', {'id' : 'ca-edit'}).find('span').find('a').attrs['href'])
    except AttributeError:
        print('This page is missing something! No worries though!')
    for link in bs.findAll('a', {'href' : re.compile('^(/wiki/)')}):
        if link.attrs['href'] not in pages:
            newPage = link.attrs['href']
            print('---------------------\n' + newPage)
            pages.add(newPage)
            getLinks(newPage)
                
getLinks('')

Main Page
Synthetic diamond is diamond produced in a technological process. Claims of diamond synthesis were documented between 1879 and 1928 but none have been confirmed. In the 1940s, research began in the United States, Sweden and the Soviet Union to grow diamond using chemical vapor deposition (CVD) and high-pressure high-temperature (HPHT)  processes. The first reproducible synthesis was in 1953. CVD and HPHT  still dominate the production of synthetic diamonds, whose properties vary depending on the process used. The hardness, thermal conductivity and electron mobility of some manufactured diamonds  are superior to those of natural diamonds. Synthetic diamond is used in cutting and polishing tools, abrasives and heat sinks. Electronic applications of synthetic diamond are being developed, including high-power switches at power stations, high-frequency field-effect transistors and light-emitting diodes. Both CVD and HPHT diamonds can be cut into gems and produced in  various color

KeyboardInterrupt: 

In [30]:
# 3.3 인터넷 크롤링

"""
지금 까지는 정규표현식을 이용해 /wiki/로 시작하는 것들만 링크를 수집하여
도메인을 이동했고, 그것들만 크롤링의 대상으로 삼았다.

하지만, 실용적인 웹 크롤러라면 다양한 페이지를 넘나들 수 있어야 한다.
구글 역시 다양한 페이지를 크롤링 하면서 데이터 베이스의 정보를 저장하는 방식으로
운용되고 있다.

따라서 이번 웹 크롤러도 페이지와 페이지를 이동하며 각 페이지의 정보를 수집하되,
내부 링크가 아닌, '외부 링크'를 따라가며 크롤링하는 프로그램을 만들어 보자.
"""

import random      # 바로 윗 셸에서는 그냥 '스택' 자료 구조로 탐색했지만
                    # set을 썼으니 정확히 '스택'은 아니지만, 제일 밑에꺼 썼다는 말임.
                    # 이번에는 랜덤으로 외부 링크 중에서 추출하려고 한다.
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
import ssl
        
pages = set()
random.seed(50)

# 페이지에서 발견된 내부 링크를 모두 목록으로 만든다.
def getInternalLInks(bs, includeUrl):
    internalLInks = []
    includeUrl = '{}://{}'.format(urlparse(includeUrl).scheme, urlparse(includeUrl).netloc)
    # 여기서 urlparse() 는 urllib.urlparse 모듈의 한 함수이다. 딱히 새로 import 하지 않아도 되는 것을 보면,
    # 이미 urlopen 모듈을 import 할 때 그 안에 포함되어 같이 import된 것 같다.
    # urlparse(url)은 url을 6개의 튜플로 나누어 반환하는 함수이다.
    # 만약 https://naver.com/cafe/parkjeongwoong/?!232155 와 같은 가상의 도메인이 있다고 하자.
    # .scheme은 http|https를 반환하고, .netloc은 naver.com 과 같은 것을 반환한다.
    # 여기서는  내부 링크를 Full로 반환하기 위해 앞선 내용을 작성해 준 것에 불과하다.
    
    # /로 시작하는 링크를 모두 찾는다. 그 외부 페이지의 내부 링크는 http|www가 아니라 '/'로 시작할 거니까.
    for link in bs.findAll('a', { 'href' : re.compile( '^(/|.*' + includeUrl + ')' ) }):
        """
        정규 표현식을 왜 이렇게 작성하는지 도통 모르겠지만 일단 따라가보자.
        암만 고민하고 찾아봐도 알 수 없다.
        """
        if link.attrs['href'] is not None:   # 1장에서 했던 오류 걸러내기. 
                                              # 존재하지 않는 태그에 접속하는 것은 아닌지 확인
            if link.attrs['href'] not in internalLInks: # 중복 제거. 지금까지 했던 효율성
                
                # 여기서부터가 함수 반환의 핵심적인 조건
                if (link.attrs['href'].startswith('/')):
                    internalLInks.append(includeUrl+link.attrs['href']) 
                    # 내부 링크 세트에, https://naver.com(includeUrl) + /cafe/parjeongwoong/?dfae(href)를
                    # 더하여 반환해주는 꼴
                else:
                    internalLInks.append(link.attrs['href'])
                    # 그게 아니면 
                    
    return internalLInks

# 페이지에서 발견된 외부 링크를 모두 목록으로 만든다.
def getExternalLinks(bs, excludeUrl):
    externalLinks = []
    # 현재 URL을 포함하지 않으면서 https나 www로 시작하는 링크를 모두 찾습니다.
    for link in bs.findAll('a', 
        href = re.compile('^(http|www)((?!' + excludeUrl + ').)*$')):
        if link.attrs['href'] is not None:
            if link.attrs['href'] not in externalLinks:
                externalLinks.append(link.attrs['href'])
    return externalLinks

def getRandomExternalLink(startingPage):
    html = urlopen(startingPage, context = context)
    bs = BeautifulSoup(html, 'html.parser')
    externalLinks = getExternalLinks(bs, urlparse(startingPage).netloc)  # 여기서 외부 링크 찾기 함수 등장
    if len(externalLinks) == 0:
        print('No external links, looking around the site for one')
        domain = '{}://{}'.format(urlparse(startingPage).scheme, urlparse(startingPage).netloc)
        internalLInks = getInternalLinks(bs, domain)  # 여기서 내부 링크 찾기 함수 등장
        return getRandomExternalLink(internalLInks[random.randint(0,len(internalLinks)-1)])
    else:
        return externalLinks[random.randint(0,len(externalLinks)-1)]
    
def followExternalOnly(startingSite):
    externalLink = getRandomExternalLink(startingSite)
    print('Random external link is: {}'.format(externalLink))
    followExternalOnly(externalLink)
    
followExternalOnly('http://oreilly.com')


"""
해보면 알겠지만, random.seed(50) 으로는 copyright.gov/~에서 HTTPError가 난다.
1장에서 이미 해본 예외처리이다. 이러한 경우에는 다음 걸로 넘어가도록 설정해주는 것이 어렵지 않다. 

사실 이 것은, 본 예제 프로그램은 실무에 적합하지 않다는 반증이다.
실무 코드로 사용해야 한다면 당연히 여러 점검 내용과 예외처리가 필수적이다.
그래야 크롤링 중에 문제가 생기더라도 continue 하고 다음 것으로 넘어갈 수 있기 때문이다.

하지만 여기서는 공백과 가독성을 위해 이정도로 멈추도록 하겠다. 
지금은 예외보다는 구조에 집중하자. 

# 사실 코드를 다 작성한 지금도, 정규표현식을 왜 저렇게 썼는지 잘 이해가 되지 않는다.
하지만 만약 함수 그 자체로 하나씩 이해한다면 위 코드들은 작성하기도 이해하기도 어렵지는 않다. 
"""

Random external link is: https://itunes.apple.com/us/app/safari-to-go/id881697395
Random external link is: http://www.oreilly.com/
Random external link is: https://learning.oreilly.com/search/?query=author%3A%22Sari%20Greene%22&extended_publisher_data=true&highlight=true&include_assessments=false&include_case_studies=true&include_courses=true&include_playlists=true&include_collections=true&include_notebooks=true&include_sandboxes=true&include_scenarios=true&is_academic_institution_account=false&source=user&sort=date_added&facet_json=true&json_facets=true&page=0&include_facets=false
Random external link is: https://www.oreilly.com/terms/
Random external link is: https://www.copyright.gov/title17/92chap1.html#107


HTTPError: HTTP Error 403: Forbidden

In [32]:
"""
위의 쉘에서는 작업을

[1] '이 페이지에 있는 모든 내부 링크를 찾는다'
[2] '이 페이지에 있는 모든 외부 링크를 찾는다'
[3] '어떤 링크를 받았을 때, 그 페이지의 외부 링크를 랜덤으로 반환한다' (1번과 2번 사용)
[4] '외부 링크를 출력하고 그 외부 링크에서 다시 새로운 외부 링크를 요청한다(말하자면 3번에 다시 input).'

의 네 가지로 단순한 함수로 분할하였다. 
이렇게 단순한 함수로 나누면, 코드를 다른 크롤링 작업에 쓸 수 있도록 리팩토링하기 쉽다.

하나의 예시로 
'각 외부 링크마다 어떤 곳이 있었는 지 전부 기록을 남기고 싶다면 어떻게 해야할까?'

아예 처음부터 새로운 코드를 작성할 것이 아니다.
단순히 3번에 대응되는 새로운 함수를 하나 추가해주면 된다. (대신 아래 코드로는 4번처럼 출력은 안되겠지)
(필요하면 그것도 합쳐서 어렵지 않게 만들 수 있다.)

"""

allExtLinks = set()
allIntLinks = set()

def getAllExternalLinks(siteUrl):
    html = urlopen(siteUrl)
    domain = '{}://{}'.format(urlparse(siteUrl).scheme,urlparse(siteUrl).netloc)
    bs = BeautifulSoup(html, 'html.parser')
    internalLinks = getInternalLinks(bs, domain) # 이미 만들었던 1번 함수
    ExternalLInks = getExternalLinks(bs, domain) # 이미 만들었던 2번 함수
    
    for link in externalLinks:
        if link not in allExtLinks:
            allExtLInks.add(link)
            print(link)
    for link in internalLinks:
        if link not in allIntLinks:
            allIntLinks.add(link)
            getAllExternalLinks(link)
        
allIntLinks.add('http://oreilly.com') # 내부 링크에 미리 넣어둠으로써 내부 링크의 기준을 세운 것이다.
getAllExternalLinks('http://oreilly.com')


"""
위의 1번과 2번 함수를 가져오면 그대로 실행될 것이다.
굳이 하지는 않겠다... 마지막에 print(allExtLinks) 까지 작성한다면 어떤 외부 링크가 있었는지 확인할 수 있다.
"""

NameError: name 'getInternalLinks' is not defined

In [None]:
"""
챕터 3를 공부해보았지만,
우선 1번함수 2번함수의 정규표현식을 이해할 수 없다. 

함수 후반부에도 왜 internal/external Link를 저렇게 return했는 지도 모르겠는데, 
아무래도 정규표현식과 html 에 대해 아직 익숙하지 않아서 그런 것이 큰 것 같다.

정규표현식으로 써졌으니 그것에 대해선 말할 필요가 없고,
그것 이상으로 html에서 내부 링크와 외부 링크를 어떤 패턴으로 작성하는 지 잘 구분을 못한 게 아닐까 싶다.

우선 넘어가고 조금씩 돌아보면서 왜 그런것인지 고민을 해볼 예정이고,
html 자료들을 계속 눈에 익히면서 구조를 파악해 볼 예정이다.
"""