In [6]:
#.3.1 단일 도메인 내의 이동

"""
도메인 내에는 단순히 그 도메인 내의 콘텐츠 이외에도, 
다양한 종류의 링크를 포함하고 있다. 

그 예로 위키피디아를 들 수 있는데, 위키피디아의 여섯 다리라는 말이 있다.
위키백과의 경우, 링크로 연결된 항목을 통해 총 여섯 다리면 원하는 곳에 도착할 수 있다는 말이다.

이번 절에서는 '위키백과의 여섯 다리'를 풀어보는 프로젝트를 수행해보자.
'에릭아이들'의 페이지에서 '케빈 베이컨'의 페이지에 닿는 최소한의 클릭 수를 찾아보자.
"""

from urllib.request import urlopen
from bs4 import BeautifulSoup
import ssl

context = ssl._create_unverified_context()
html = urlopen('https://en.wikipedia.org/wiki/Kevin_Bacon', context = context)
bs = BeautifulSoup(html, 'html.parser')
for link in bs.findAll('a'):
    if 'href' in link.attrs:  # 'href'는 링크 정보를 가지고 있는 태그 내의 속성이다.
        print(link.attrs['href'])
        
"""
하지만, 이것은 문제가 있다.
링크 목록을 살펴보면 원하는 것들도 있지만, 그렇지 않은 것들도 포함되어 있기 때문이다.
위키백과의 모든 페이지에는 사이드바, 푸터, 헤더 링크, 카테코리 페이지 등 우리가 관심 있어 하는 항목이 아닌 
페이지를 가리키는 링크도 많이 있기 때문이다.

그렇다면 '항목 링크'와 '다른 링크'를 구분하는 패턴을 고민해보자.
(실제 크롤러를 만든다면, 문법보다도 이런 부분이 중요할 것이다.)
항목 링크에는 다른 링크와는 달리 세 가지 공통점이 있다.

1. 이 링크들은 id가 bodyContent인 div 안에 있다.
2. URL에는 콜론이 포함되어 있지 않다.
3. URL은 /wiki/로 시작한다.

이들 규칙을 활용하면 정규표현식을 작성할 수 있다.
^(/wiki/)((?!:).)*$     # 첫 번째 규칙은, bs 객체 함수 findAll()의 attribute 매개변수로 적용해주자.

"""

/wiki/Wikipedia:Protection_policy#semi
#mw-head
#searchInput
/wiki/Kevin_Bacon_(disambiguation)
/wiki/File:Kevin_Bacon_SDCC_2014.jpg
/wiki/Philadelphia,_Pennsylvania
/wiki/Kevin_Bacon_filmography
/wiki/Kyra_Sedgwick
/wiki/Sosie_Bacon
#cite_note-1
/wiki/Edmund_Bacon_(architect)
/wiki/Michael_Bacon_(musician)
/wiki/Holly_Near
/wiki/Wikipedia:Citation_needed
http://baconbros.com/
#cite_note-2
#cite_note-actor-3
/wiki/Footloose_(1984_film)
/wiki/JFK_(film)
/wiki/A_Few_Good_Men
/wiki/Apollo_13_(film)
/wiki/Mystic_River_(film)
/wiki/Balto_(film)
/wiki/Sleepers
/wiki/The_Woodsman_(2004_film)
/wiki/Animal_House
/wiki/Diner_(1982_film)
/wiki/Tremors_(1990_film)
/wiki/Crazy,_Stupid,_Love
/wiki/Friday_the_13th_(1980_film)
/wiki/Flatliners
/wiki/The_River_Wild
/wiki/Wild_Things_(film)
/wiki/Stir_of_Echoes
/wiki/Hollow_Man
/wiki/Frost/Nixon_(film)
/wiki/X-Men:_First_Class
/wiki/Black_Mass_(film)
/wiki/Patriots_Day_(film)
/wiki/Fox_Broadcasting_Company
/wiki/The_Following
/wiki/HBO
/wiki/Taking_Chan

In [18]:
# 위에 입각하여 코드를 수정해 보자.

import re

for link in bs.find('div',{'id':'bodyContent'}).findAll('a', {'href':re.compile('^(/wiki/)((?!:).)*$')}):
    # find 함수로 div를 찾아준 뒤, findAll로 href가 정규표현식의 성질을 가진 것을 추출.
    # 1,2,3의 규칙을 모두 적용한 것이다.
    if 'href' in link.attrs:       
# 의심이 들어서 한번 지워봤는데 결과엔 차이가 없다. 아마 혹시 모를 사정을 대비한 것 같다. 
# 웹이 어떻게 생겼을지 혹시 모르기 때문이다.
        print(link.attrs['href'])

    
"""
이 스크립트도 훌륭하지만, 이 스크립트로는 도메인을 계속 이동할 수는 없다.
따라서, 받아온 /wiki/<article_name> 형태인 URL을 받고 URL 전체를 반환할 수 있어야 하고
반환된 링크 목록에서 무작위로 항목 링크를 선택하여 다시 getLInks를 다시 호출해야 하고
그 작업은 프로그램을 끝내거나 새 페이지에 항목 링크가 없을 때까지 반복되어야 한다.
"""

/wiki/Kevin_Bacon_(disambiguation)
/wiki/Philadelphia,_Pennsylvania
/wiki/Kevin_Bacon_filmography
/wiki/Kyra_Sedgwick
/wiki/Sosie_Bacon
/wiki/Edmund_Bacon_(architect)
/wiki/Michael_Bacon_(musician)
/wiki/Holly_Near
/wiki/Footloose_(1984_film)
/wiki/JFK_(film)
/wiki/A_Few_Good_Men
/wiki/Apollo_13_(film)
/wiki/Mystic_River_(film)
/wiki/Balto_(film)
/wiki/Sleepers
/wiki/The_Woodsman_(2004_film)
/wiki/Animal_House
/wiki/Diner_(1982_film)
/wiki/Tremors_(1990_film)
/wiki/Crazy,_Stupid,_Love
/wiki/Friday_the_13th_(1980_film)
/wiki/Flatliners
/wiki/The_River_Wild
/wiki/Wild_Things_(film)
/wiki/Stir_of_Echoes
/wiki/Hollow_Man
/wiki/Frost/Nixon_(film)
/wiki/Black_Mass_(film)
/wiki/Patriots_Day_(film)
/wiki/Fox_Broadcasting_Company
/wiki/The_Following
/wiki/HBO
/wiki/Taking_Chance
/wiki/Golden_Globe_Award
/wiki/Screen_Actors_Guild_Award
/wiki/Primetime_Emmy_Award
/wiki/Streaming_television
/wiki/I_Love_Dick_(TV_series)
/wiki/Golden_Globe_Award_for_Best_Actor_%E2%80%93_Television_Series_Musical_or

In [29]:
import datetime
import random

random.seed(55) # 단순히 현재 시각으로 random seed를 입력해준 것. 
# (시행할 때마다 계속 바뀔 수 있도록) 말하자면 random이라는 객체에 attribute을 부여해주는 작업이다.
# 근데 해보면 알겠지만, Deprecation Error라고 randome.seed로 받을 수 있는 것들이 한정되었다고 한다.
# 업데이트 버전 차이인 것 같은데, 우선 중요한 것은 아니니 아무 int값이나 넣어주었다. 

def getLinks(articleUrl):
    html = urlopen('http://en.wikipedia.org{}'.format(articleUrl), context = context)
    bs = BeautifulSoup(html, 'html.parser')
    return bs.find('div', {'id':'bodyContent'}).findAll('a', {'href':re.compile('^(/wiki/)((?!:).)*$')})

links = getLinks('/wiki/Kevin_Bacon')
while len(links) > 0: # 새 페이지에 항목 링크가 없을 때까지.
    newArticle = links[random.randint(0, len(links)-1)].attrs['href']
    print(newArticle)
    links = getLinks(newArticle)

"""
아직 위키백과의 여섯 다리 문제를 풀지는 못했지만, 그 문제를 해결하려면
반드시 결과 데이터를 저장하고 분석할 수 있어야 한다고 한다.
데이터의 저장과 분석은 챕터 6에서 다루기 때문에 잠시 넘어가보자.

실제 웹크롤러를 만들 때에는, '예외 처리'가 매우 중요하다.
다만 여기서는 이미 다 알고 있는 웹에서 따오는 것이기 때문에 별다른 문제가 없는 것이다.
"""

/wiki/Edmund_Bacon_(architect)
/wiki/I-695_(PA)
/wiki/Philadelphia
/wiki/NBC


KeyboardInterrupt: 

In [34]:
# 3.2 전체 사이트 크롤링

"""
링크에서 링크로 움직이며 웹사이트를 무작위로 이동하며 링크를 따오는 것을 해보았다.
하지만, 사이트의 모든 페이지를 분류하거나 검색해야한다면 이러한 방식은 옳지 않다.

하나의 페이지 안에도 많은 수의 링크가 포함되어있는데,
중간규모의 사이트에서도 최소 105페이지 최대 100,000페이지를 찾아야 하는 경우도 있기 때문이다.

그렇다면 무작위로 하나씩 켜는 방식 말고, 어떻게 해야할까?

이때에는 요소의 순서가 없고 중복없이 유일한 요소만 저장하는 set 자료구조를 사용해야 한다.

발견하는 링크에 모두 일정한 형식을 취하고, 동작하는 동안 계속 유지되는 세트에 보관한다면,
새로운 링크만 탐색하고 그 안에서 다른 링크를 검색하도록 하는 목적을 달성할 수 있을 것이다.
"""

pages = set()
def getLinks(pageUrl):
    global pages
    html = urlopen('http://en.wikipedia.org{}'.format(pageUrl), context = context)
    bs = BeautifulSoup(html, 'html.parser')
    for link in bs.findAll('a', href = re.compile('^(/wiki/)')):
        if 'href' in link.attrs:
            if link.attrs['href'] not in pages:
                # 새 페이지를 발견
                newPage = link.attrs['href']
                print(newPage)
                pages.add(newPage)
                getLinks(newPage)
                
getLinks('')

/wiki/Wikipedia
/wiki/Wikipedia:Protection_policy#semi
/wiki/Wikipedia:Requests_for_page_protection
/wiki/Wikipedia:Requests_for_permissions
/wiki/Wikipedia:Protection_policy#extended
/wiki/Wikipedia:Lists_of_protected_pages
/wiki/Wikipedia:Protection_policy


KeyboardInterrupt: 

In [None]:
# 전체 사이트에서 '데이터 수집'

"""
크롤러는 단순히 이 페이지 저 페이지를 왔다갔다 이동만 하는 것이 아니라,
그 안에서 데이터를 수집할 수도 있어야 한다.

페이지 제목, 첫 번째 문단, 편집 페이지를 가리키는 링크(존재한다면)를 수집하는 스크레이퍼를 만들어 보자.

당연히 첫 번째 할 일은, 사이트의 페이지 몇 개를 살펴보며 패턴을 찾는 일이다.
"""