In [2]:
# 4.2 다양한 웹사이트 레이아웃 다루기

"""
구조에 대한 지식 없이도 다양한 웹 사이트에서 관련성 있고 유용한 데이터를 추출하는 것은 어렵다.
그렇다면 크롤러가 여러 곳에서 데이터를 수집하여 비교 분석하기 위해서는 반드시
복잡한 알고리즘이나 머신러닝을 사용해야하는 걸까?

그렇지 않다.
다행스럽게도, 본 적도 들어본 적도 없는 사이트에서 데이터를 수집하는 경우는 별로 없다.
대부분 만드는 사람이 미리 선택한 웹사이트 몇 개 또는 몇십 개에서 수집하는 경우가 대부분이다.

따라서 이번에는 두 개의 뉴스 웹사이트를 미리 지정해놓고, 
두 개의 웹사이트에서 데이터를 수집해볼 것이다.

크롤러 역할을 하는 함수를 각각 하나씩 만들어 놓고,
콘텐츠를 저장할 클래스도 하나 만들어 클래스에 함수를 투입하여 인스턴스를 찍어내는 방식으로 구조를 만들어보자.

이때, 콘텐츠를 저장할 클래스를 통해 우리는 크롤러의 데이터 수집 모델을 기획할 수 있다.
"""

import requests
import ssl
from bs4 import BeautifulSoup
from urllib.request import urlopen

context = ssl._create_unverified_context()

class Content:
    def __init__(self, url, title, body):
        self.url = url
        self.title = title
        self.body = body
        
def getPage(url):
    req = urlopen(url, context = context)
    return BeautifulSoup(req, 'html.parser')

def scrapeNYTimes(url):
    bs = getPage(url)
    title = bs.find('h1').text        
    # 생소한 함수 .text 이다. 객체 지향적이라고 하는데, 사실 그냥 get_text()이다.
    # 차이점은 get_text() 는 괄호가 있기 때문에 여기에 매개변수를 지정해 줄 수 있다는 점이다.
    lines = bs.select('div.StoryBodyCompanionColumn div p')
    # select()는 말하자면 findAll() 이라고 생각하면 된다. find()에 대응되는 것은 참고로 select_one()이다.
    # 하지만 find계열과는 달리, css 문법에 따라 지정하는 것이라고 한다.더 직관적이라는 말도 있다.
    body = '\n'.join([line.text for line in lines])
    # 'something'.join(a) 함수는 a 이터레이터를 하나씩 뽑아 하나의 string을 만들되,
    # 앞의 something을 구분자로 하여 만드는 것이다.
    # 즉 여기서는, 뽑아낸 lines를 한줄씩 뽑아 중간중간 줄바꿈으로 구분해 주었다고 보면 된다.
    return Content(url, title, body)

def scrapeBrookings(url):
    bs = getPage(url)
    title = bs.find('h1').text
    body = bs.find('div', {'class':'post-body post-body-enhanced'}).get_text()
    # 책에는 attributes 부분이, {'class', 'post-body'}로 되어 있는데, 
    # AttributeError가 난다. Nonetype이 나온다는 거지. 즉, 형식이 바뀐 것으로 보인다.
    # 그래서 다시 형식을 바꿔서 코드를 작성해주었다.
    # 어 그런데, 다시 해봐도 또 똑같길래, getPage(url)부분을 requests 모듈이 아니라 urlopen 모듈을
    # 사용하도록 수정해줬다. 그러니까 된다. 다시 책에 나온 attribute을 작성해줬다. 그래도 된다.
    # 그래도 그냥 내가 찾은 걸로 썼다. 필요하면 나중에 책을 확인해보자.
    return Content(url, title, body)

# 코드의 스크레이퍼 함수는 총 두 개로 구성되어 있다. 어떤 용도의 차이가 있는지 알아내보자.

url = """
https://www.brookings.edu/blog/future-development/2018/01/26/delivering-inclusive-urban-access-3-uncomfortable-truths/
"""
content = scrapeBrookings(url)
print('Title: {}'.format(content.title))
print('URL: {}\n'.format(content.url))
print(content.body)

url = """
https://www.nytimes.com/2018/01/25/opinion/sunday/silicon-valley-immortality.html
"""

content = scrapeNYTimes(url)
print('Title: {}'.format(content.title))
print('URL: {}\n'.format(content.url))
print('Content : \n{}', format(content.body))

"""
우선 출력 너무 잘되고, 이런식으로 앞으로도 객체지향으로 짜주면 될 것 같다.
다만, 이 코드를 전부 이해하기에는 css 선택자(문법)을 모른다. 그 select 함수 때문에 .join도 쓴 것인데,
이런 게 있구나 정도로만 알고 우선 지나가고 차차 css 선택자까지 알아보자. 
"""

Title: Delivering inclusive urban access: 3 uncomfortable truths
URL: 
https://www.brookings.edu/blog/future-development/2018/01/26/delivering-inclusive-urban-access-3-uncomfortable-truths/



The past few decades have been filled with a deep optimism about the role of cities and suburbs across the world. These engines of economic growth host a majority of world population, are major drivers of economic innovation, and have created pathways to opportunities for untold amounts of people.







Jeffrey Gutman

					Former Nonresident Fellow, Global Economy and Development										







Adie Tomer

					Senior Fellow - Brookings Metro 

 Twitter
AdieTomer





But all is not well within our so-called Urban Century. Rapid urbanization, rising gentrification, concentrated poverty, and shortages of basic infrastructure have combined to create spatial inequity in cities and suburbs across the globe. The challenges of housing, moving, and employing so many people have led to longer travel 

In [8]:
import requests
import ssl
from bs4 import BeautifulSoup
from urllib.request import urlopen

context = ssl._create_unverified_context()
        
def getPage(url):
    req = urlopen(url, context = context)
    return BeautifulSoup(req, 'html.parser')

bs = getPage('https://finance.naver.com/item/main.naver?code=035720')
grays = bs.find('div', {'id':'tab_con1'}).findAll('div', {'class':'gray'})
per = grays[-1].find('td').text.strip() # 공백이 너무 많아서 strip()을 하나 씌워줬다. 
print("'카카오'의 PER : ", per)

"""
뭔가 느낌을 좀 알 것 같아서,
궁극적인 GOAL대로 네이버 금융에서 per 값을 도출하는 작업을 한번 해봤다.

해보니까 사실 내가 필요한 것은,
종목마다 네이버 금융에서 도출하는 것이기 때문에 그다지 어렵지 않겠다는 생각이 들었다.
네이버 자체가 스크롤을 하기에도 매우 훌륭하고 구조가 확실한 사이트이기도 하니까 말이다.

전체적인 스크롤의 과정은, 재귀적으로 이리저리 왔다갔다하면서 모든 종목의 값들을 추출하고 저장하는 것이다.
'탐색' '추출' '저장' 의 과정이라고 한다면,
지금 한 것은, '추출'이다.
'탐색'도 이미 배워서 할 수도 있을 지 모른다.
6장에서 SQL에 '저장'하는 데 까지 우선 쭉 달려보자. 
"""

'카카오'의 PER :  6.16배


"\n뭔가 느낌을 좀 알 것 같아서,\n궁극적인 GOAL대로 네이버 금융에서 per 값을 도출하는 작업을 한번 해봤다.\n\n해보니까 사실 내가 필요한 것은,\n종목마다 네이버 금융에서 도출하는 것이기 때문에 그다지 어렵지 않겠다는 생각이 들었다.\n네이버 자체가 스크롤을 하기에도 매우 훌륭하고 구조가 확실한 사이트이기도 하니까 말이다.\n\n전체적인 스크롤의 과정은, 재귀적으로 이리저리 왔다갔다하면서 모든 종목의 값들을 추출하고 저장하는 것이다.\n'탐색' '추출' '저장' 의 과정이라고 한다면,\n지금 한 것은, '추출'이다.\n'탐색'도 이미 배워서 할 수도 있을 지 모른다.\n6장에서 SQL에 '저장'하는 데 까지 우선 쭉 달려보자. \n"