# 주제: 사람들이 가장 즐겨읽는 문학도서들?
### 사이트: https://www.aladin.co.kr/home/welcome.aspx - 알라딘

In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

## 스테디셀러 - 오랜 기간동안 꾸준하게 팔린 도서들

### requests를 이용하여 get 방식으로 요청

In [2]:
url = 'https://www.aladin.co.kr/shop/wbrowse.aspx?CID=1&BrowseTarget=SteadySeller'
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'
}
res = requests.get(url, headers=headers)
res

<Response [200]>

In [3]:
res.text[:300]

'\r\n\r\n<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" >\r\n<html>\r\n\t<head>\r\n\t\t<title>알라딘: 소설/시/희곡</title>\r\n\t\t<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />\r\n\t\t<meta content="http://schemas.microsoft.com/intellisense/ie5" name="vs_targetSchema" />\r\n        <meta http-'

### BeautifulSoup 활용

In [None]:
soup = BeautifulSoup(res.text)
soup

### 책제목 추출하기

In [5]:
books = soup.select('.bo')
title = []

for book in books:
    title.append(book.get_text())

title[:10]

['인간 실격',
 '우리가 빛의 속도로 갈 수 없다면',
 '아몬드 (양장)',
 '밤의 여행자들',
 '파친코 1',
 '파친코 2',
 '종의 기원',
 '여름은 오래 그곳에 남아',
 '내 문장이 그렇게 이상한가요?',
 '[세트] 파친코 1~2 세트 - 전2권']

### 작가, 출판사 추출하기
* ex) '이민진 지음, 이미정 옮김 / 문학사상사'와 같이 나옴, 필요한 것: 작가, 출판사

In [6]:
books = soup.select('.gw')
writer = []
publisher = []

for book in books:
    name = book.get_text().split(' / ')  # 
    writer.append(name[0].split(' 지음')[0]) 
    publisher.append(name[1]) 

writer[:10], publisher[:10]

(['다자이 오사무',
  '김초엽',
  '손원평',
  '윤고은',
  '이민진',
  '이민진',
  '정유정',
  '마쓰이에 마사시',
  '김정선',
  '이민진'],
 ['민음사', '허블', '창비', '민음사', '문학사상사', '문학사상사', '은행나무', '비채', '유유', '문학사상사'])

### 평점 추출하기

In [7]:
books = soup.select('.br2010_star')
stars = []

for book in books:
    stars.append(book.get_text())

stars[:10]

['8.6', '8.9', '8.6', '8.6', '9.0', '8.7', '8.4', '9.2', '8.1', '8.7']

### DataFrame으로 변환하기

In [8]:
df_data = {
    '책제목' : title,
    '작가' : writer,
    '출판사' : publisher,
    '평점' : stars
}

df = pd.DataFrame(df_data)
df

Unnamed: 0,책제목,작가,출판사,평점
0,인간 실격,다자이 오사무,민음사,8.6
1,우리가 빛의 속도로 갈 수 없다면,김초엽,허블,8.9
2,아몬드 (양장),손원평,창비,8.6
3,밤의 여행자들,윤고은,민음사,8.6
4,파친코 1,이민진,문학사상사,9.0
...,...,...,...,...
95,완득이,김려령,창비,9.1
96,리버보이 (리커버 특별판),팀 보울러,놀(다산북스),8.8
97,해리 포터와 비밀의 방 2 (무선),J.K. 롤링,문학수첩,10.0
98,오만과 편견,제인 오스틴,민음사,8.9


## 베스트셀러 - 최근 일주일동안 가장 많이 팔린 도서들

### Selenium으로 페이지 불러오기

In [9]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

driver_path = 'C:\\JupyterLab\\chromedriver.exe'
driver = webdriver.Chrome(driver_path)
driver.get("https://www.aladin.co.kr/home/welcome.aspx")

elem = driver.find_element_by_id("browse5").click()
# time.sleep(1)

best = 'body > div.browse-wrap > table > tbody > tr > td:nth-child(1) > table:nth-child(5) > tbody > tr:nth-child(2) > td > table > tbody > tr:nth-child(3) > td > a'
driver.find_element_by_css_selector(best).click()
# time.sleep(2)

html = driver.page_source
driver.close()

### BeautifulSoup 활용

In [None]:
soup2 = BeautifulSoup(html)
soup2

### 책제목 추출하기

In [11]:
books = soup2.select('.bo')
title = []

for book in books:
    title.append(book.get_text())

title[:10]

['해리 포터와 비밀의 방 (미나리마 에디션)',
 '방금 떠나온 세계',
 '당장 써! CREATE NOW!',
 '행성어 서점',
 '듄 신장판 1',
 '달러구트 꿈 백화점 2',
 '듄 신장판 1~6 세트 - 전6권',
 '해리 포터와 마법사의 돌 (미나리마 에디션)',
 '영혼 통행증',
 '작별하지 않는다']

### 작가, 출판사 추출하기

In [12]:
books = soup2.select('.gw')
writer = []
publisher = []

for book in books:
    name = book.get_text().split(' / ') 
    writer.append(name[0].split(' 지음')[0]) 
    publisher.append(name[1]) 

writer[:10], publisher[:10]

(['J.K. 롤링',
  '김초엽',
  '맥라우드 형제',
  '김초엽',
  '프랭크 허버트',
  '이미예',
  '프랭크 허버트',
  'J.K. 롤링',
  '미야베 미유키',
  '한강'],
 ['문학수첩',
  '한겨레출판',
  '북드림',
  '마음산책',
  '황금가지',
  '팩토리나인',
  '황금가지',
  '문학수첩',
  '북스피어',
  '문학동네'])

### 기록 추출하기
* 'br_sf6box'라는 클래스는 기록이 있는 책에 한해 존재함.
* select: 결과를 리스트로 가져옴.
* select_one 사용

In [13]:
books = soup2.select('.tc')
records = []

for book in books:
    br = book.select_one('.br_sf6box')  # 리스트에 담기지 않게 하기위해 select_one을 씀
    if br != None:
        records.append(br.get_text())  # 기록이 있는 경우
    else:
        records.append('없음')  # 기록이 없는 경우

records[:10]

['없음',
 '없음',
 '없음',
 '없음',
 '소설/시/희곡 top10 2주',
 '종합 top1 3주',
 '종합 top100 5주',
 '종합 top10 2주',
 '없음',
 '종합 top1 2주']

### DataFrame으로 변환하기

In [14]:
df_data2 = {
    '책제목' : title,
    '작가' : writer,
    '출판사' : publisher,
    '기록' : records
}

df2 = pd.DataFrame(df_data2)
df2

Unnamed: 0,책제목,작가,출판사,기록
0,해리 포터와 비밀의 방 (미나리마 에디션),J.K. 롤링,문학수첩,없음
1,방금 떠나온 세계,김초엽,한겨레출판,없음
2,당장 써! CREATE NOW!,맥라우드 형제,북드림,없음
3,행성어 서점,김초엽,마음산책,없음
4,듄 신장판 1,프랭크 허버트,황금가지,소설/시/희곡 top10 2주
...,...,...,...,...
95,홍천기 1~2 세트 - 전2권 (리커버 에디션),정은궐,파란(파란미디어),종합 top100 3주
96,피프티 피플,정세랑,창비,소설/시/희곡 top100 11주
97,미스터리 가이드북,윤영천,한즈미디어(한스미디어),소설/시/희곡 top100 5주
98,언네임드 메모리 1,후루미야 쿠지,대원씨아이(단행본),없음


# Open API 활용 : 경기도 공공,지역 도서관 인기대출도서
* https://data.gg.go.kr/portal/data/service/selectServicePage.do?page=1&rows=10&sortColumn=&sortDirection=&infId=4K9YEYMEGUD0N4ZIATSR24291536&infSeq=2&order=&loc=

In [15]:
serviceKey = '5bcc11a7b97c4614baa9a3e73f16eb96'

url = 'https://openapi.gg.go.kr/Poplitloanbook?KEY={}&Type=json&pIndex=1&pSIze=100'.format(serviceKey)
url

'https://openapi.gg.go.kr/Poplitloanbook?KEY=5bcc11a7b97c4614baa9a3e73f16eb96&Type=json&pIndex=1&pSIze=100'

In [16]:
res = requests.get(url)
res

<Response [200]>

In [17]:
res.text[:200]

'{"Poplitloanbook":[{"head":[{"list_total_count":1000},{"RESULT":{"CODE":"INFO-000","MESSAGE":"정상 처리되었습니다."}},{"api_version":"1.0"}]},{"row":[{"STD_YM":"2021-09","RKI_NO":35,"BOOK_NM_INFO":"(추리 천재) 엉덩이'

In [None]:
data = res.json()
data

* 페이지당 요청 숫자의 한도: 1000, 데이터의 개수 : 1000
* 페이지당 100개씩 10페이지를 받는것으로

In [61]:
book_name = []
author = []
publisher = []
rank = []

for i in range(1, 11):  # 1~10
    pageNo = i
    url = 'https://openapi.gg.go.kr/Poplitloanbook?KEY={}&Type=json&pIndex={}&pSIze=100'.format(serviceKey, pageNo)
    res = requests.get(url)
    data = res.json()
    
    items = data['Poplitloanbook'][1]['row']
    
    for item in items:
        book_name.append(item['BOOK_NM_INFO'])
        author.append(item['AUTHOR_NM_INFO'])
        publisher.append(item['PUBLSHCMPY_NM'])
        rank.append(item['RKI_NO'])

book_name[:10], author[:10], publisher[:10], rank[:10]

(['달러구트 꿈 백화점 :이미예 장편소설',
  '아몬드 :손원평 장편소설',
  '(추리 천재) 엉덩이 탐정',
  '(추리 천재) 엉덩이 탐정',
  '(추리 천재) 엉덩이 탐정',
  '(추리 천재) 엉덩이 탐정',
  '흔한남매',
  '(이상한 과자 가게) 전천당',
  '시선으로부터,',
  '흔한남매'],
 ['지은이: 이미예',
  '지은이: 손원평',
  '트롤 글·그림 ;김정화 옮김',
  '트롤 글·그림 ;김정화 옮김',
  '트롤 글·그림 ;김정화 옮김',
  '트롤 글·그림 ;김정화 옮김',
  '원작: 흔한남매 ;그림: 유난희',
  '히로시마 레이코 글;김정화 옮김',
  '정세랑 (지은이)',
  '원작: 흔한남매 ;그림: 유난희'],
 ['팩토리나인', '창비', '미래엔', '미래엔', '미래엔', '미래엔', '미래엔', '길벗스쿨', '문학동네', '미래엔'],
 [1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

### 리스트들의 길이가 같은지 확인

In [62]:
len(book_name), len(author), len(publisher), len(rank)

(1000, 1000, 1000, 1000)

### DataFrame으로 변환하기

In [63]:
df_data = {
    '책제목' : book_name,
    '작가' : author,
    '출판사' : publisher,
    '순위' : rank
}
pd.DataFrame(df_data)

Unnamed: 0,책제목,작가,출판사,순위
0,달러구트 꿈 백화점 :이미예 장편소설,지은이: 이미예,팩토리나인,1
1,아몬드 :손원평 장편소설,지은이: 손원평,창비,2
2,(추리 천재) 엉덩이 탐정,트롤 글·그림 ;김정화 옮김,미래엔,3
3,(추리 천재) 엉덩이 탐정,트롤 글·그림 ;김정화 옮김,미래엔,4
4,(추리 천재) 엉덩이 탐정,트롤 글·그림 ;김정화 옮김,미래엔,5
...,...,...,...,...
995,(코믹 메이플스토리) 수학도둑 :사고력과 이해력을 향상시켜 주는 국내 최초 수학논술만화,글: 송도수 ;서정 엔터테인먼트,서울문화사,918
996,도깨비를 빨아 버린 우리 엄마,사토 와키코,한림출판사,918
997,설날,김영진 (지은이),길벗어린이,920
998,엉덩이 탐정 : 뿡뿡 사라진 과자를 찾아라!,"트롤 (지은이), 전경아 (옮긴이)",문학수첩 리틀북,920


### 결론: 만들어진 데이터 프레임을 보면 "달러구트 꿈 백화점"과 "아몬드"를 최근에 많이 읽는다고 할 수 있다