# 오늘수업 : SCRAPING
### crawling과 scraping의 차이점
crawling은 웹페이지 전체를 다운로드 해야함, crawling 사이즈 큼, <br>
scarping은 특정한 데이터만 가져옴, 특정부분만 추출해서 사용<br>

# 전에 만들었던 다운로드 함수

In [None]:
from urllib import parse

header = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'}

def getDownload(url, params={}, retries=3):
    resp = None
    
    try:
        resp = requests.get(url, params=params, headers=header)
        resp.raise_for_status()
    except requests.exceptions.HTTPError as e:
        if 500 <= e.response.status_code < 600 and retries > 0:
            print(retries)
            resp = getDownload(url, params, retries-1)
        else:
            print(e.response.status_code)
            print(e.response.reason)
            print(e.response.headers)
            
    return resp

In [None]:
import requests
from bs4 import BeautifulSoup

# 예제사이트로 scraping 하기

In [None]:
url = "http://example.webscraping.com/places/default/index"
html = getDownload(url)
dom = BeautifulSoup(html.content, 'lxml')

### 국가명 가져오기

In [None]:
nationNameList = [_.text.strip() for _ in dom.select("#results a")]

### 이미지 가져오기

In [None]:
imgList = [requests.compat.urljoin(url, _["src"]) for _ in dom.select("#results a > img")]

for src in imgList:
    img = getDownload(src)
    with open(src.split("/")[-1], "wb") as f:
        f.write(img.content)
#     print(src.split)
#     print(html.url)
    print(img.headers["Content-Type"].split('/')[0] == "image")     # content-type을 봐야함!!
#     break

### validator.w3.org/unicorn/ - 웹페이지 문법검사 페이지 : href 같은 속성이 누락되는 것 확인 해줘야 함

# 뽐뿌 뽐뿌게시판 가져오기

In [128]:
url = "http://www.ppomppu.co.kr/zboard/zboard.php"
params = {"id":"ppomppu"}
html = getDownload(url, params)

### 인코딩 확인 필수

In [66]:
html.encoding

'euc-kr'

In [67]:
html.text[:10]

'<!DOCTYPE '

### 바이트 받아서 스트링으로 바꿨다가 다시 바이트로 변환

In [76]:
html = html.content.decode("euc-kr", "ignore").encode("utf-8").decode("utf-8") 

## 뽐뿌사이트 게시판 가져오기

In [101]:
dom = BeautifulSoup(html.content, "lxml")
# 안되면 lxml -> html.parser

In [91]:
[_.text.strip() for _ in dom.select(".list_title")]

['(끌올) [옥션] 타타와 초콜릿 케잌쿠키 2BOX (8510원/무료)',
 '[인터파크]해외커클랜드 시그니처 푸어 허니 2.27kg/벌꿀 2개 (42,500/무료)',
 '[위메프] 착한리필 25L 10매(18,900원/무료배송) 최종혜택가 15,120원',
 '[옥션] 토니모리 올인원 에센스 120ml 1+1 (12,750/무배)',
 '[옥션] 다이나킹 R7 로봇청소기(299,000/무배)',
 '[옥션] 립톤 아이스티 복숭아 1500g + 콜드브루 컵 (스마일클럽만 7,800원/무료배송)',
 '[티몬] 순한칫솔 초극세모 4개입 외 10원품목들 (10/무료배송데이)',
 '[SKT 초콜릿] 컬쳐 105,000원권 (95,000/무료) - 계좌이체딜',
 '[위메프] 오뚜기 육개장 매운맛(용기)86g x 24개 (9,900원 무배)',
 '영화 배심원들 1+1 롯데시네마',
 '[지마켓] 버블플랍 균일가 4900원 2개구매시 1개 증정 (4900원/무료배송)',
 '[G마켓] (사료)고연어11.3키로(84.900/무료)',
 '[옥션] 천연사이다 190ml*60캔 (11,090/무배)',
 '[11번가] 소니 WF-SP700N 블루투스 이어폰 (119,000/무료)',
 '[위메프] 동원샘물 2L*18 (6,650원/무료배송)',
 '[위메프] 트리오 주방세제 14kg 슈퍼 대용량 (9,555원, 무료)']

In [139]:
itemList = list()
# 행단위로 가져오기 위함 
# 정규식 뜻 : tr에서 class가 list로 시작하는 애들
for _ in dom.select("tr[class^='list']")[1:]:
    item = dict()
#     tdList = _.select("td")
    tdList = _.find_all("td", recursive=False)
    item["name"] = tdList[3].select_one("a > font").text.strip()
    item["img"] = requests.compat.urljoin(url, \
                                          tdList[3].select_one("img.thumb_border")["src"]) # 이미지 경로
    item["url"] = requests.compat.urljoin(url, \
                                      tdList[3].select_one("img.thumb_border").find_parent()["href"]) # 상세페이지 경로
    item["reg"] = tdList[4].text.strip()
    if len(tdList[5]) > 0:
        thumbs = tdList[5].text.strip().split(" - ")
        item["thumbsup"] = int(thumbs[0])
        item["thumbsdown"] = int(thumbs[1])
    else:
        item["thumbsup"] = 0
        item["thumbsdown"] = 0
    item["hit"] = tdList[6].text.strip()
    itemList.append(item)
    
    
print("아이템 개수 : ", len(itemList))
print(itemList[0])
# itemList[0]["name"]
# print(itemList[0]["name"])

아이템 개수 :  20
{'name': '(끌올) [옥션] 타타와 초콜릿 케잌쿠키 2BOX (8510원/무료)', 'img': 'http://cdn.ppomppu.co.kr/zboard/data/_thumb/ppomppu/9/small_316729.jpg?t=20190508194258', 'url': 'http://www.ppomppu.co.kr/zboard/view.php?id=ppomppu&page=1&divpage=55&&no=316729', 'reg': '19:36:25', 'thumbsup': 2, 'thumbsdown': 0, 'hit': '781'}


# 뽐뿌 자유게시판 가져오기

In [181]:
url = "http://www.ppomppu.co.kr/zboard/zboard.php"
params = {"id":"freeboard"}
html = getDownload(url, params)

In [182]:
dom = BeautifulSoup(html.content, "lxml")

In [215]:
for _ in dom.select("font.list_title")[1:]:
    print("제목 :", _.text.strip())
    detail_url = requests.compat.urljoin(url, _.find_parent()["href"])
    print("상세페이지 url :", detail_url)
    html = getDownload(detail_url)
    detail_dom = BeautifulSoup(html.content, "lxml")
    
    print("내용 :", detail_dom.select_one(".board-contents").text.strip())
    break

# 안되면 1. parser upgrade => lxml
#        2. html구조 확인

제목 : 뽐뿌베팅 걸어봅니다.
상세페이지 url : http://www.ppomppu.co.kr/zboard/view.php?id=freeboard&page=1&divpage=1202&no=6435666
내용 : 네덜란드 시간으로 오후1시50분이네요.
네덜란드 시간으로 오후9시가 되면 경기 시작합니다.
과연 리버풀을 만날 결승 팀은 어디가 될까요?
   
 
결승진출 기준으로 뽐뿌베팅 걸어봅니다.


In [171]:
postList = list()

for _ in dom.select("tr[class^='list']")[1:]:
    tdList = _.find_all("td", recursive=False)
    post = dict()
    post["title"] = tdList[2].select_one(".list_title").text.strip()
    print(tdList[2])
#     post["writer"] = tdList[2].select_one(".list_name").text.strip()
    
#     print(_)class="list_name"
    break

    

AttributeError: 'list' object has no attribute 'text'