## requests

- requests는 브라우저 없이 파이썬에서 다이렉스로 서버에 http 요청
- 요청받은 페이지는 해당 페이지의 소스코드를 파이썬 내부로 전송
- 단, 버튼 클릭, 광고 닫기 등의 작업은 브라우저가 없어서 불가능하고
- 특정 주소로 접근했을 때 최초로 전송되는 페이지 코드만 받아올 수 있습니다.
- 대신 물리 브라우저를 직접 켜지 않고, 명목상으로 요청만 하기 때문에
- 속도, 리소스 관리에 유리합니다.

##### 교보문고는 비동기식 페이지라 리퀘스트가 첫 페이지만 가능함..
##### 교보문제 예시는 셀레니움을 사용

1. 내가 브라우저로 특정 서버 주소를 쳐서 접속시도를 합니다.
2. 서버에 내가 접속한다는 요청이 들어갑니다.
3. 서버가 요청에 응답 하면서 response데이터를 함께 전송합니다.
4. 브라우저가 받은 데이터를 해석해서 내 PC에 반영합니다.
    - 4-1 -> 웹사이트 접속이었으면 소스코드를 받아와서
5. 사람이 볼 수 있도록 자동으로 그려줍니다.(렌더링 해줍니다.)
    - 5-1 -> 게임이면 해당 명령어가 들어가서 게임 상황에 반영됩니다.

In [2]:
import requests
from bs4 import BeautifulSoup
import time

In [3]:
# 특정주소 요청은 requests.get('주소')로 합니다.
# 요청에 대한 서버의 응답(response)는 req 변수에 저장됩니다.
req = requests.get('http://www.naver.com')

In [5]:
# html 소스코드 읽어오기(selenium의 .text는 문법은 같으나 기능이 다름)
# req.text를 이용하면 셀레니움의 driver.page_source와 동일한 코드를 받아옵니다.
source = req.text

In [6]:
# http 헤더 가져오기
# 요청에 따른 상세 정보를 보여줍니다.
req.headers

{'Server': 'NWS', 'Date': 'Fri, 14 Oct 2022 01:42:25 GMT', 'Content-Type': 'text/html; charset=UTF-8', 'Transfer-Encoding': 'chunked', 'Connection': 'keep-alive', 'Set-Cookie': 'PM_CK_loc=eeb1b259a03c465783af0c5c528ee7b7f75400c8075582247a7d434d73103936; Expires=Sat, 15 Oct 2022 01:42:25 GMT; Path=/; HttpOnly', 'Cache-Control': 'no-cache, no-store, must-revalidate', 'Pragma': 'no-cache', 'P3P': 'CP="CAO DSP CURa ADMa TAIa PSAa OUR LAW STP PHY ONL UNI PUR FIN COM NAV INT DEM STA PRE"', 'X-Frame-Options': 'DENY', 'X-XSS-Protection': '1; mode=block', 'Content-Encoding': 'gzip', 'Strict-Transport-Security': 'max-age=63072000; includeSubdomains', 'Referrer-Policy': 'unsafe-url'}

In [7]:
# http 상태코드 가져오기
req.status_code

200

In [None]:
# 이후 진행방식은 BeautifulSoup로 정제하면 됩니다.

##### 알라딘 베스트셀러 7페이지 크롤링 실습
- 1. requests 이용
- 2. beautifulsoup 을 이용하여 정제도 같이 해주세요
- 3. 제목, 저자, 가격을 추출하세요

In [11]:
req_ala_7 = requests.get("https://www.aladin.co.kr/shop/common/wbest.aspx?BestType=Bestseller&BranchType=1&CID=0&page=7&cnt=1000&SortOrder=1")
source = req_ala_7.text

In [12]:
# 파싱 - 뷰티풀 숩 정제
parsed_source = BeautifulSoup(source, 'html.parser')
parsed_source


<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<title>알라딘: 베스트셀러</title>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<style type="text/css">
    <!--
    body {
      margin-left: 0px;
      margin-top: 0px;
      margin-right: 0px;
      margin-bottom: 0px;
    }
    -->
    </style>
<script src="/shop/common/allitemcheck.js?ver=2022101411" type="text/javascript"></script>
<script src="/shop/common/basket_add.js?ver=202210141110" type="text/javascript"></script>
<script src="/shop/common/safebasket_add.js?ver=2022101411" type="text/javascript"></script>
<script type="text/javascript">
        function FindZipByList(addInputShop) {
            var addInputShopObj = $(addInputShop);

            if (!addInputShopObj)
                return;

            var addrInputTableObj = $(addrInputTable);
            addrInputTableObj.parentNode.

In [13]:
# 파싱된 소스에서 div, ss_book_box 클래스만 가져오기
# 책에 대한 정보 가져오기
div_book_list = parsed_source.find_all('div', class_ = 'ss_book_box')
len(div_book_list)

50

In [15]:
# li객체만 찾기
book_li_list = div_book_list[0].find_all('li')
book_li_list

[<li><span class="ss_ht1">[<a href="/events/wevent_redirect.aspx?eventid=240537">보온보냉 주전자, 텀블러, 피너츠 호보백 등(자격증.토익.공무원.IT교재 5만원 이상)</a>]</span><br/></li>,
 <li><span style="font-size: 14px;">[국내도서]</span> <a class="bo3" href="https://www.aladin.co.kr/shop/wproduct.aspx?ItemId=301881165"><b>세상 쉬운 영문법</b></a> </li>,
 <li><a href="/Search/wSearchResult.aspx?AuthorSearch=윤여홍@8991420&amp;BranchType=1">윤여홍</a> (지은이) | <a href="/search/wsearchresult.aspx?PublisherSearch=%ec%8b%9c%ea%b0%84%ea%b3%bc%ea%b3%b5%ea%b0%84%ec%82%ac@3164&amp;BranchType=1">시간과공간사</a> | 2022년 10월</li>,
 <li><span class="">19,800</span>원 → <span class="ss_p2"><b><span class="">17,820</span>원</b></span> (<span class="ss_p">10%</span>할인),  마일리지 <span class="ss_p">990</span>원 (<span class="ss_p">5%</span> 적립)</li>,
 <li><img border="0" src="//image.aladin.co.kr/img/common/star_s10.gif" style="vertical-align: middle;"/> (<a href="https://www.aladin.co.kr/shop/wproduct.aspx?ItemId=301881165#K182839995_CommentReview">5</a>) | 세일

In [16]:
# li객체들 표시결과 하나보여주기
for i in range(len(book_li_list)):
    print(book_li_list[i].text)

[보온보냉 주전자, 텀블러, 피너츠 호보백 등(자격증.토익.공무원.IT교재 5만원 이상)]
[국내도서] 세상 쉬운 영문법 
윤여홍 (지은이) | 시간과공간사 | 2022년 10월
19,800원 → 17,820원 (10%할인),  마일리지 990원 (5% 적립)
 (5) | 세일즈포인트 : 4,860
양탄자배송 밤 11시 잠들기전 배송(중구 서소문로 89-31) 
보관함
마이리스트


In [17]:
for book in div_book_list:
    book_li_list = book.find_all('li')

    if(book_li_list[1].text[0] == '['):
        print(book_li_list[1].text)
        print(book_li_list[2].text)
        print(book_li_list[3].text)

    else:
        print(book_li_list[0].text)
        print(book_li_list[1].text)
        print(book_li_list[2].text)

    print('-'*50)

[국내도서] 세상 쉬운 영문법 
윤여홍 (지은이) | 시간과공간사 | 2022년 10월
19,800원 → 17,820원 (10%할인),  마일리지 990원 (5% 적립)
--------------------------------------------------
[국내도서] 어떻게 말해줘야 할까 (60만 부 기념 한정판 리커버) 
오은영 (지은이), 차상미 (그림) | 김영사 | 2022년 7월
17,500원 → 15,750원 (10%할인),  마일리지 870원 (5% 적립)
--------------------------------------------------
[국내도서] 브라질에 비가 내리면 스타벅스 주식을 사라 
피터 나바로 (지은이), 이창식 (옮긴이), 윤지호 (감수) | 에프엔미디어 | 2022년 4월
18,000원 → 16,200원 (10%할인),  마일리지 900원 (5% 적립)
--------------------------------------------------
[국내도서] 재수사 2  
장강명 (지은이) | 은행나무 | 2022년 8월
16,000원 → 14,400원 (10%할인),  마일리지 800원 (5% 적립)
--------------------------------------------------
[국내도서] 뇌, 욕망의 비밀을 풀다  
한스-게오르크 호이젤 (지은이), 강영옥, 김신종, 한윤진 (옮긴이) | 비즈니스북스 | 2019년 10월
18,000원 → 16,200원 (10%할인),  마일리지 900원 (5% 적립)
--------------------------------------------------
[국내도서] 임신 출산 육아 대백과 (2022~2023년 개정판) 
삼성출판사 편집부 (엮은이) | 삼성출판사 | 2022년 7월
19,500원 → 17,550원 (10%할인),  마일리지 970원 (5% 적립)
--------------------------------------------------
[국내도서] 부

In [23]:
# csv에 보기 좋은 방식으로 양식전환

for book in div_book_list:
    book_li_list = book.find_all('li')

    if(book_li_list[1].text[0] == '['):
        print(book_li_list[1].text.split('[국내도서]')[1],'&',
              book_li_list[2].text.split('|')[0],'&',
              book_li_list[3].text.split(' ')[2].replace(',',''))

    else:
        print(book_li_list[0].text.split('[국내도서]')[1],'&',
              book_li_list[1].text.split('|')[0],'&',
              book_li_list[2].text.split(' ')[2].replace(',',''))


 세상 쉬운 영문법  & 윤여홍 (지은이)  & 17820원
 어떻게 말해줘야 할까 (60만 부 기념 한정판 리커버)  & 오은영 (지은이), 차상미 (그림)  & 15750원
 브라질에 비가 내리면 스타벅스 주식을 사라  & 피터 나바로 (지은이), 이창식 (옮긴이), 윤지호 (감수)  & 16200원
 재수사 2   & 장강명 (지은이)  & 14400원
 뇌, 욕망의 비밀을 풀다   & 한스-게오르크 호이젤 (지은이), 강영옥, 김신종, 한윤진 (옮긴이)  & 16200원
 임신 출산 육아 대백과 (2022~2023년 개정판)  & 삼성출판사 편집부 (엮은이)  & 17550원
 부동산 경매로 1년 만에 꼬마빌딩주 되다  & 김상준 (지은이)  & 16200원
 사로잡는 얼굴들  & 이사 레슈코 (지은이), 김민주 (옮긴이)  & 25200원
 부부 이상, 연인 미만. 1~2 합본판  & 카나마루 유키 (지은이), 송재희 (옮긴이)  & 10800원
 그들의 말 혹은 침묵  & 아니 에르노 (지은이), 정혜용 (옮긴이)  & 12600원
 데뷔 못 하면 죽는 병 걸림 1부 초판 한정 굿즈박스 세트 ㅣ 데뷔 못 하면 죽는 병 걸림 1  & 백덕수 (지은이)  & 85500원
 미움받을 용기 (반양장) ㅣ 미움받을 용기 1  & 기시미 이치로, 고가 후미타케 (지은이), 전경아 (옮긴이), 김정운 (감수)  & 13410원
 체리새우 : 비밀글입니다 ㅣ 문학동네 청소년 42  & 황영미 (지은이)  & 10350원
 정의란 무엇인가   & 마이클 샌델 (지은이), 김명철 (옮긴이), 김선욱 (감수)  & 13500원
 나는 당신이 행복했으면 좋겠습니다  & 박찬위 (지은이)  & 12420원
 어디로 가세요 펀자이씨? ㅣ 펀자이씨툰 1   & 엄유진 (지은이)  & 14400원
 부모의 말  & 김종원 (지은이)  & 15120원
 혼자 공부하는 컴퓨터 구조 + 운영체제  & 강민철 (지은이)  & 25200원
 우리가 빛의 속도로 갈 수 없다면   & 김초

In [20]:
import codecs

In [26]:
f = codecs.open("C:/doksan_bank/02.crawler/aladin_7_result.txt"  , mode = 'w', encoding = 'utf-8')

for book in div_book_list:
    book_li_list = book.find_all('li')

    if(book_li_list[1].text[0] == '['):

        f.write(book_li_list[1].text.split('[국내도서]')[1]) 
        f.write(book_li_list[2].text.split('|')[0])
        f.write(book_li_list[3].text.split(' ')[2].replace(',',''))
        f.write('\n')
    
    else:
        f.write(book_li_list[1].text.split('[국내도서]')[1]) 
        f.write(book_li_list[2].text.split('|')[0])
        f.write(book_li_list[3].text.split(' ')[2].replace(',',''))
        f.write('\n')

f.close()


IndexError: list index out of range