# 웹스크래핑

In [1]:
import gdown

gdown.download('https://bit.ly/3q9SZix', '20s_best_book.json', quiet=False)

Downloading...
From: https://bit.ly/3q9SZix
To: /content/20s_best_book.json
100%|██████████| 92.9k/92.9k [00:00<00:00, 32.3MB/s]


'20s_best_book.json'

In [2]:
import pandas as pd

books_df = pd.read_json('20s_best_book.json')
books_df.head()

Unnamed: 0,no,ranking,bookname,authors,publisher,publication_year,isbn13,addition_symbol,vol,class_no,class_nm,loan_count,bookImageURL
0,1,1,우리가 빛의 속도로 갈 수 없다면 :김초엽 소설,지은이: 김초엽,허블,2019,9791190090018,3810,,813.7,문학 > 한국문학 > 소설,461,https://image.aladin.co.kr/product/19359/16/co...
1,2,2,달러구트 꿈 백화점.이미예 장편소설,지은이: 이미예,팩토리나인,2020,9791165341909,3810,,813.7,문학 > 한국문학 > 소설,387,https://image.aladin.co.kr/product/24512/70/co...
2,3,3,지구에서 한아뿐 :정세랑 장편소설,지은이: 정세랑,난다,2019,9791188862290,3810,,813.7,문학 > 한국문학 > 소설,383,https://image.aladin.co.kr/product/19804/82/co...
3,4,4,"시선으로부터, :정세랑 장편소설",지은이: 정세랑,문학동네,2020,9788954672214,3810,,813.7,문학 > 한국문학 > 소설,370,https://image.aladin.co.kr/product/24131/37/co...
4,5,5,아몬드 :손원평 장편소설,지은이: 손원평,창비,2017,9788936434267,3810,,813.7,문학 > 한국문학 > 소설,365,http://image.aladin.co.kr/product/16839/4/cove...


In [3]:
# 원하는 열만 선택해서 새로운 데이터프레임 만들기

books = books_df[['no','ranking','bookname','authors','publisher',
                 'publication_year','isbn13']]
books.head()

Unnamed: 0,no,ranking,bookname,authors,publisher,publication_year,isbn13
0,1,1,우리가 빛의 속도로 갈 수 없다면 :김초엽 소설,지은이: 김초엽,허블,2019,9791190090018
1,2,2,달러구트 꿈 백화점.이미예 장편소설,지은이: 이미예,팩토리나인,2020,9791165341909
2,3,3,지구에서 한아뿐 :정세랑 장편소설,지은이: 정세랑,난다,2019,9791188862290
3,4,4,"시선으로부터, :정세랑 장편소설",지은이: 정세랑,문학동네,2020,9788954672214
4,5,5,아몬드 :손원평 장편소설,지은이: 손원평,창비,2017,9788936434267


In [4]:
# loc 메서드를 이용해서 행과 열 선택하기

books_df.loc[[0,1], ['bookname', 'authors']]

Unnamed: 0,bookname,authors
0,우리가 빛의 속도로 갈 수 없다면 :김초엽 소설,지은이: 김초엽
1,달러구트 꿈 백화점.이미예 장편소설,지은이: 이미예


In [5]:
# 슬라이스 연산자 (:) 사용해서 행과 열 선택하기

books_df.loc[0:1, 'bookname':'authors']

Unnamed: 0,bookname,authors
0,우리가 빛의 속도로 갈 수 없다면 :김초엽 소설,지은이: 김초엽
1,달러구트 꿈 백화점.이미예 장편소설,지은이: 이미예


In [6]:
# 스텝을 지정해서 선택하기

books_df.loc[::2, 'no':'isbn13'].head()

Unnamed: 0,no,ranking,bookname,authors,publisher,publication_year,isbn13
0,1,1,우리가 빛의 속도로 갈 수 없다면 :김초엽 소설,지은이: 김초엽,허블,2019,9791190090018
2,3,3,지구에서 한아뿐 :정세랑 장편소설,지은이: 정세랑,난다,2019,9791188862290
4,5,5,아몬드 :손원평 장편소설,지은이: 손원평,창비,2017,9788936434267
6,7,7,목소리를 드릴게요 :정세랑 소설집,지은이: 정세랑,아작,2020,9791165300005
8,9,9,선량한 차별주의자,김지혜 지음,창비,2019,9788936477196


## 검색결과 페이지 HTML 가져오기: requests.get() 함수

In [7]:
import requests

isbn = 9791190090018      # '우리가 빛의 속도로 갈 수 없다면'의 ISBN
url = 'http://www.yes24.com/Product/Search?domain=BOOK&query={}'

r = requests.get(url.format(isbn))

In [None]:
print(r.text)

## HTML에서 데이터 추출하기: BeautifulSoup

In [9]:
from bs4 import BeautifulSoup

In [10]:
soup = BeautifulSoup(r.text, 'html.parser')

In [12]:
prd_link = soup.find('a', attrs={'class':'gd_name'})
prd_link

<a class="gd_name" href="/Product/Goods/74261416" onclick="setSCode('101_005_003_001');setGoodsClickExtraCodeHub('032', '9791190090018', '74261416', '0');">우리가 빛의 속도로 갈 수 없다면</a>

In [15]:
# 태그 안의 속성 참조
prd_link['href']

'/Product/Goods/74261416'

### 도서 상세 페이지 HTML 가져오기

In [16]:
url = 'http://www.yes24.com'+prd_link['href']
r = requests.get(url)

In [None]:
print(r.text)

In [None]:
soup = BeautifulSoup(r.text, 'html.parser')
prd_detail = soup.find('div', attrs={'id':'infoset_specific'})
print(prd_detail)

### 테이블 태그를 리스트로 가져오기: find_all() 메서드

In [None]:
prd_tr_list = prd_detail.find_all('tr')
print(prd_tr_list)

### 태그 안의 텍스트 가져오기: get_text() 메서드

In [20]:
for tr in prd_tr_list:
    if tr.find('th').get_text() == "쪽수, 무게, 크기":
        page_td = tr.find('td').get_text()
        break

In [21]:
print(page_td)

330쪽 | 496g | 130*198*30mm


In [23]:
page_td.split()[0][:-1]

'330'

## 전체 도서의 쪽수 구하기

In [27]:
def get_page_cnt(isbn):
    url = 'http://www.yes24.com/Product/Search?domain=BOOK&query={}'
    r = requests.get(url.format(isbn))
    soup = BeautifulSoup(r.text, 'html.parser')
    prd_info = soup.find('a', attrs={'class':'gd_name'})
    url = 'http://www.yes24.com'+prd_info['href']
    r = requests.get(url)
    soup = BeautifulSoup(r.text, 'html.parser')
    prd_detail = soup.find('div', attrs={'id':'infoset_specific'})
    prd_tr_list = prd_detail.find_all('tr')
    for tr in prd_tr_list:
        if tr.find('th').get_text() == "쪽수, 무게, 크기":
            return tr.find('td').get_text().split()[0][:-1]
    return ''

In [28]:
get_page_cnt(9791198278227)

'228'

### 데이터프레임 행 또는 열에 함수 적용하기: apply() 메서드

In [35]:
top10_books = books.head(10)
top10_books

Unnamed: 0,no,ranking,bookname,authors,publisher,publication_year,isbn13
0,1,1,우리가 빛의 속도로 갈 수 없다면 :김초엽 소설,지은이: 김초엽,허블,2019,9791190090018
1,2,2,달러구트 꿈 백화점.이미예 장편소설,지은이: 이미예,팩토리나인,2020,9791165341909
2,3,3,지구에서 한아뿐 :정세랑 장편소설,지은이: 정세랑,난다,2019,9791188862290
3,4,4,"시선으로부터, :정세랑 장편소설",지은이: 정세랑,문학동네,2020,9788954672214
4,5,5,아몬드 :손원평 장편소설,지은이: 손원평,창비,2017,9788936434267
5,6,6,피프티 피플 :정세랑 장편소설,지은이: 정세랑,창비,2016,9788936434243
6,7,7,목소리를 드릴게요 :정세랑 소설집,지은이: 정세랑,아작,2020,9791165300005
7,8,8,나미야 잡화점의 기적 :히가시노 게이고 장편소설,지은이: 히가시노 게이고 ;옮긴이: 양윤옥,현대문학,2012,9788972756194
8,9,9,선량한 차별주의자,김지혜 지음,창비,2019,9788936477196
9,10,9,쇼코의 미소 :최은영 소설,지은이: 최은영,문학동네,2016,9788954641630


In [36]:
def get_page_cnt2(row):
    isbn = row['isbn13']
    return get_page_cnt(isbn)

In [38]:
# axis=1 이면 행에, 기본값 0을 지정하면 열에 적용함.
page_count = top10_books.apply(get_page_cnt2, axis=1)

TypeError: ignored

In [39]:
def get_page_cnt(isbn):
    try:
        url = 'http://www.yes24.com/Product/Search?domain=BOOK&query={}'
        r = requests.get(url.format(isbn))
        soup = BeautifulSoup(r.text, 'html.parser')
        prd_info = soup.find('a', attrs={'class':'gd_name'})
        url = 'http://www.yes24.com'+prd_info['href']
        r = requests.get(url)
        soup = BeautifulSoup(r.text, 'html.parser')
        prd_detail = soup.find('div', attrs={'id':'infoset_specific'})
        prd_tr_list = prd_detail.find_all('tr')
        for tr in prd_tr_list:
            if tr.find('th').get_text() == "쪽수, 무게, 크기":
                return tr.find('td').get_text().split()[0][:-1]
        return ''
    except TypeError:
        return ''

def get_page_cnt2(row):
    isbn = row['isbn13']
    return get_page_cnt(isbn)

page_count = top10_books.apply(get_page_cnt2, axis=1)


In [40]:
page_count

0    330
1    300
2    228
3    340
4    264
5    396
6    272
7       
8    244
9    296
dtype: object

나미야잡화점의기적은 2022년에 무선개정판으로 출시되면서 이전 판은 더이상 판매되지 않는다.

### 데이터프레임과 시리즈 합치기: merge()함수

In [41]:
# page_count 객체에 이름 지정해주기
page_count.name = 'page_count'
print(page_count)

0    330
1    300
2    228
3    340
4    264
5    396
6    272
7       
8    244
9    296
Name: page_count, dtype: object


In [42]:
# 두 객체의 인덱스를 기준으로 합치는 경우 left_index, right_index 모두 True로 지정
top10_with_page_count = pd.merge(top10_books, page_count, left_index=True, right_index=True)
top10_with_page_count

Unnamed: 0,no,ranking,bookname,authors,publisher,publication_year,isbn13,page_count
0,1,1,우리가 빛의 속도로 갈 수 없다면 :김초엽 소설,지은이: 김초엽,허블,2019,9791190090018,330.0
1,2,2,달러구트 꿈 백화점.이미예 장편소설,지은이: 이미예,팩토리나인,2020,9791165341909,300.0
2,3,3,지구에서 한아뿐 :정세랑 장편소설,지은이: 정세랑,난다,2019,9791188862290,228.0
3,4,4,"시선으로부터, :정세랑 장편소설",지은이: 정세랑,문학동네,2020,9788954672214,340.0
4,5,5,아몬드 :손원평 장편소설,지은이: 손원평,창비,2017,9788936434267,264.0
5,6,6,피프티 피플 :정세랑 장편소설,지은이: 정세랑,창비,2016,9788936434243,396.0
6,7,7,목소리를 드릴게요 :정세랑 소설집,지은이: 정세랑,아작,2020,9791165300005,272.0
7,8,8,나미야 잡화점의 기적 :히가시노 게이고 장편소설,지은이: 히가시노 게이고 ;옮긴이: 양윤옥,현대문학,2012,9788972756194,
8,9,9,선량한 차별주의자,김지혜 지음,창비,2019,9788936477196,244.0
9,10,9,쇼코의 미소 :최은영 소설,지은이: 최은영,문학동네,2016,9788954641630,296.0


# **부록** merge() 함수

In [49]:
df1 = pd.DataFrame([['a', 1], ['b', 2], ['c', 3]], columns = ['col1','col2'])
df2 = pd.DataFrame([['a', 10], ['b', 20], ['d', 30]], columns = ['col1','col3'])
df1

Unnamed: 0,col1,col2
0,a,1
1,b,2
2,c,3


In [50]:
df2

Unnamed: 0,col1,col3
0,a,10
1,b,20
2,d,30


In [51]:
# on 매개변수: col1 열의 값이 같은 행끼리 합쳐진다.
df_on = pd.merge(df1, df2, on='col1')
df_on

Unnamed: 0,col1,col2,col3
0,a,1,10
1,b,2,20


In [52]:
# how 매개변수. 기본값은 left.
# 첫 번째 데이터프레임을 기준으로 두 번째 데이터프레임을 합친다.
df_how_left = pd.merge(df1, df2, how='left', on='col1')
df_how_left

Unnamed: 0,col1,col2,col3
0,a,1,10.0
1,b,2,20.0
2,c,3,


In [55]:
# how_right. 두 번째 데이터프레임을 기준으로
df_how_right = pd.merge(df1, df2, how='right', on='col1')
df_how_right

Unnamed: 0,col1,col2,col3
0,a,1.0,10
1,b,2.0,20
2,d,,30


In [56]:
# how_outer. 두 프레임의 모든 행을 유지하면서 합친다.
df_how_outer = pd.merge(df1, df2, how='outer', on='col1') # col1의 값이 동일한 행은 합쳐지고, 그렇지 않은 행은 별개의 행으로 추가된다.
df_how_outer

Unnamed: 0,col1,col2,col3
0,a,1.0,10.0
1,b,2.0,20.0
2,c,3.0,
3,d,,30.0


In [59]:
# left_on과 right_on 매개변수: 합칠 기준이 되는 열의 이름이 서로 다를 경우 각기 지정할 수 있음.
# 실행결과 df_on과 동일.
df = pd.merge(df1, df2, left_on='col1', right_on='col1')
df

Unnamed: 0,col1,col2,col3
0,a,1,10
1,b,2,20


In [61]:
# left_index와 right_index 매개변수: 합칠 기준이 열이 아니라 인덱스일 경우
# 두 데이터 프레임에 동일한 이름의 열이 존재할 경우, 첫번째 데이터프레임의 열 이름에는 _x 접미사가 붙고, 두번째에는 _y 접미사가 붙는다.
df_index = pd.merge(df1, df2, left_on='col2', right_index=True)
df_index

Unnamed: 0,col1_x,col2,col1_y,col3
0,a,1,b,20
1,b,2,d,30
