In [1]:
# 데이터프레임 정보 요약 확인하기
import gdown
gdown.download('http://bit.ly/3GisL6J', 'ns_book4.csv', quiet=False)

Downloading...
From: http://bit.ly/3GisL6J
To: /content/ns_book4.csv
100%|██████████| 55.5M/55.5M [00:00<00:00, 196MB/s]


'ns_book4.csv'

In [2]:
import pandas as pd
ns_book4 = pd.read_csv('ns_book4.csv', low_memory=False)
ns_book4.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 384591 entries, 0 to 384590
Data columns (total 13 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   번호       384591 non-null  int64  
 1   도서명      384188 non-null  object 
 2   저자       384393 non-null  object 
 3   출판사      379950 non-null  object 
 4   발행년도     384577 non-null  object 
 5   ISBN     384591 non-null  object 
 6   세트 ISBN  56576 non-null   object 
 7   부가기호     310386 non-null  object 
 8   권        63378 non-null   object 
 9   주제분류번호   364727 non-null  object 
 10  도서권수     384591 non-null  int64  
 11  대출건수     384591 non-null  float64
 12  등록일자     384591 non-null  object 
dtypes: float64(1), int64(2), object(10)
memory usage: 38.1+ MB


In [3]:
# 누락된 값 개수 확인하기
ns_book4.isna().sum()

번호              0
도서명           403
저자            198
출판사          4641
발행년도           14
ISBN            0
세트 ISBN    328015
부가기호        74205
권          321213
주제분류번호      19864
도서권수            0
대출건수            0
등록일자            0
dtype: int64

In [4]:
# 누락된 값으로 표시하기 (None, np.nan)
ns_book4.loc[0, '도서권수'] = None
ns_book4['도서권수'].isna().sum()

import numpy as np
ns_book4.loc[0, '부가기호'] = np.nan
ns_book4.head(2)



Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
0,1,인공지능과 흙,김동훈 지음,민음사,2021,9788937444319,,,,,,0.0,2021-03-19
1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,2021,9791190123969,,,,,1.0,0.0,2021-03-19


In [5]:
# 데이터 타입 변경
ns_book4.loc[0, '도서권수'] = 1
ns_book4 = ns_book4.astype({'도서권수':'int32', '대출건수':'int32'})
ns_book4.head()

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
0,1,인공지능과 흙,김동훈 지음,민음사,2021,9788937444319,,,,,1,0,2021-03-19
1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,2021,9791190123969,,,,,1,0,2021-03-19
2,3,나도 한 문장 잘 쓰면 바랄 게 없겠네,김선영 지음,블랙피쉬,2021,9788968332982,,,,,1,0,2021-03-19
3,4,예루살렘 해변,"이도 게펜 지음, 임재희 옮김",문학세계사,2021,9788970759906,,,,,1,0,2021-03-19
4,5,김성곤의 중국한시기행 : 장강·황하 편,김성곤 지음,김영사,2021,9788934990833,,,,,1,0,2021-03-19


In [6]:
# loc 을 이용하여 누락된 값 바꾸기 : 세트 ISBN
isna_set_isbn = ns_book4['세트 ISBN'].isna()
ns_book4.loc[isna_set_isbn, '세트 ISBN'] = ''
ns_book4['세트 ISBN'].isna().sum()

0

In [7]:
# fillna 메서드를 사용하여 누락된 값 바꾸기
## case1 : 전체
ns_book4.fillna('없음').isna().sum()

번호         0
도서명        0
저자         0
출판사        0
발행년도       0
ISBN       0
세트 ISBN    0
부가기호       0
권          0
주제분류번호     0
도서권수       0
대출건수       0
등록일자       0
dtype: int64

In [8]:
## case2 : 부가기호 -> 없음으로 대체
ns_book4['부가기호'].fillna('없음').isna().sum()

0

In [9]:
## case3 : 딕셔너리를 이용하여 대체
ns_book4.fillna({'부가기호':'없음'}).isna().sum()

번호              0
도서명           403
저자            198
출판사          4641
발행년도           14
ISBN            0
세트 ISBN         0
부가기호            0
권          321213
주제분류번호      19864
도서권수            0
대출건수            0
등록일자            0
dtype: int64

In [10]:
# replace를 이용하여 누락된 값 바꾸기
## 바꾸려는 값이 하나일 때
ns_book4.replace(np.nan, '없음').isna().sum()

번호         0
도서명        0
저자         0
출판사        0
발행년도       0
ISBN       0
세트 ISBN    0
부가기호       0
권          0
주제분류번호     0
도서권수       0
대출건수       0
등록일자       0
dtype: int64

In [11]:
## 바꾸려는 값이 여러 개일 때 (1)
ns_book4.replace([np.nan, '2021'], ['없음', '21']).head()

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
0,1,인공지능과 흙,김동훈 지음,민음사,21,9788937444319,,없음,없음,없음,1,0,2021-03-19
1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,21,9791190123969,,없음,없음,없음,1,0,2021-03-19
2,3,나도 한 문장 잘 쓰면 바랄 게 없겠네,김선영 지음,블랙피쉬,21,9788968332982,,없음,없음,없음,1,0,2021-03-19
3,4,예루살렘 해변,"이도 게펜 지음, 임재희 옮김",문학세계사,21,9788970759906,,없음,없음,없음,1,0,2021-03-19
4,5,김성곤의 중국한시기행 : 장강·황하 편,김성곤 지음,김영사,21,9788934990833,,없음,없음,없음,1,0,2021-03-19


In [12]:
## 바꾸려는 값이 여러 개일 때 (2)
ns_book4.replace({np.nan:'없음', '2021':'21'}).head()

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
0,1,인공지능과 흙,김동훈 지음,민음사,21,9788937444319,,없음,없음,없음,1,0,2021-03-19
1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,21,9791190123969,,없음,없음,없음,1,0,2021-03-19
2,3,나도 한 문장 잘 쓰면 바랄 게 없겠네,김선영 지음,블랙피쉬,21,9788968332982,,없음,없음,없음,1,0,2021-03-19
3,4,예루살렘 해변,"이도 게펜 지음, 임재희 옮김",문학세계사,21,9788970759906,,없음,없음,없음,1,0,2021-03-19
4,5,김성곤의 중국한시기행 : 장강·황하 편,김성곤 지음,김영사,21,9788934990833,,없음,없음,없음,1,0,2021-03-19


In [13]:
## 열마다 다른 값으로 바꿀 때 (1)
ns_book4.replace({'부가기호':np.nan}, '없음').head()

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
0,1,인공지능과 흙,김동훈 지음,민음사,2021,9788937444319,,없음,,,1,0,2021-03-19
1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,2021,9791190123969,,없음,,,1,0,2021-03-19
2,3,나도 한 문장 잘 쓰면 바랄 게 없겠네,김선영 지음,블랙피쉬,2021,9788968332982,,없음,,,1,0,2021-03-19
3,4,예루살렘 해변,"이도 게펜 지음, 임재희 옮김",문학세계사,2021,9788970759906,,없음,,,1,0,2021-03-19
4,5,김성곤의 중국한시기행 : 장강·황하 편,김성곤 지음,김영사,2021,9788934990833,,없음,,,1,0,2021-03-19


In [14]:
## 열마다 다른 값으로 바꿀 때 (2)
ns_book4.replace({'부가기호':{np.nan:'없음'}, '발행년도':{'2021':'21'}}).head()

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
0,1,인공지능과 흙,김동훈 지음,민음사,21,9788937444319,,없음,,,1,0,2021-03-19
1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,21,9791190123969,,없음,,,1,0,2021-03-19
2,3,나도 한 문장 잘 쓰면 바랄 게 없겠네,김선영 지음,블랙피쉬,21,9788968332982,,없음,,,1,0,2021-03-19
3,4,예루살렘 해변,"이도 게펜 지음, 임재희 옮김",문학세계사,21,9788970759906,,없음,,,1,0,2021-03-19
4,5,김성곤의 중국한시기행 : 장강·황하 편,김성곤 지음,김영사,21,9788934990833,,없음,,,1,0,2021-03-19


In [15]:
# 정규 표현식을 이용하여 숫자 변경 (1)
ns_book4.replace({'발행년도':{r'\d\d(\d\d)':r'\1'}}, regex=True)[100:102]

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
100,101,No라고 말할 줄 아는 남편과 아내 - 개정판,"헨리 클라우드, 존 타운센드 (지은이), 김진웅 (옮긴이)",좋은씨앗,18,9788958743019,,,,234.9,1,1,2021-03-15
101,102,"D2C 레볼루션 - 스타트업부터 글로벌 기업까지, 마켓 체인저의 필수 전략","로런스 인그래시아 (지은이), 안기순 (옮긴이)",부키,21,9788960518483,,,,325.1,1,0,2021-03-15


In [16]:
# 정규 표현식을 이용하여 숫자 변경 (2)
ns_book4.replace({'발행년도':{r'\d{2}(\d{2})':r'\1'}}, regex=True)[100:102]

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
100,101,No라고 말할 줄 아는 남편과 아내 - 개정판,"헨리 클라우드, 존 타운센드 (지은이), 김진웅 (옮긴이)",좋은씨앗,18,9788958743019,,,,234.9,1,1,2021-03-15
101,102,"D2C 레볼루션 - 스타트업부터 글로벌 기업까지, 마켓 체인저의 필수 전략","로런스 인그래시아 (지은이), 안기순 (옮긴이)",부키,21,9788960518483,,,,325.1,1,0,2021-03-15


In [17]:
# 정규 표현식을 이용하여 문자 변경
ns_book4.replace({'저자':{r'(.*)\s\(지은이\)(.*)\s\(옮긴이\)':r'\1\2'}, '발행년도':{r'\d{2}(\d{2})':r'\1'}}, regex=True)[100:102]


Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
100,101,No라고 말할 줄 아는 남편과 아내 - 개정판,"헨리 클라우드, 존 타운센드, 김진웅",좋은씨앗,18,9788958743019,,,,234.9,1,1,2021-03-15
101,102,"D2C 레볼루션 - 스타트업부터 글로벌 기업까지, 마켓 체인저의 필수 전략","로런스 인그래시아, 안기순",부키,21,9788960518483,,,,325.1,1,0,2021-03-15


In [18]:
# 발행년도를 int32로 바꾸려 하나, 옳지 않은 값이 포함되어 있어 바꿀 수 없음
#ns_book4.astype({'발행년도':'int32'})
ns_book4['발행년도'].str.contains('1988').sum()

407

In [19]:
# 문자를 포함한 값이 있는 가 확인
invalid_number = ns_book4['발행년도'].str.contains('\D', na=True)
print(invalid_number.sum())
ns_book4[invalid_number].head()

1777


Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
19138,19565,단국강토,홍태수 저,매일경제신문사,1988.,9788974420031,,,,511.1,1,1,2019-12-19
19227,19736,삼성의 역사,송부웅 撰,삼양,단기4334[2001],9788985464369,,0.0,,911.02,1,1,2019-12-06
26097,26812,배고픈 애벌레,에릭 칼 글·그림 ;이희재 옮김,더큰컴퍼니,[2019],9788959514083,,,,843.0,1,0,2019-08-12
29817,30586,(The) Sopranos sessions,"Matt Zoller Seitz,$eAlan Sepinwall,$eLaura Lip...",Harry N Abrams Inc,2019.,9781419734946,,,,326.76,1,0,2019-06-13
29940,30709,다음엔 너야,에른스트 얀들 글;노르만 융에 그림;박상순 옮김,비룡소,2018.,9788949110646,9788949110004.0,7.0,,853.0,1,9,2019-06-04


In [20]:
# 년도 앞 뒤에 붙은 문자 제거
ns_book5 = ns_book4.replace({'발행년도':{r'.*(\d{4}).*':r'\1'}}, regex=True)
ns_book5[invalid_number].head()

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
19138,19565,단국강토,홍태수 저,매일경제신문사,1988,9788974420031,,,,511.1,1,1,2019-12-19
19227,19736,삼성의 역사,송부웅 撰,삼양,2001,9788985464369,,0.0,,911.02,1,1,2019-12-06
26097,26812,배고픈 애벌레,에릭 칼 글·그림 ;이희재 옮김,더큰컴퍼니,2019,9788959514083,,,,843.0,1,0,2019-08-12
29817,30586,(The) Sopranos sessions,"Matt Zoller Seitz,$eAlan Sepinwall,$eLaura Lip...",Harry N Abrams Inc,2019,9781419734946,,,,326.76,1,0,2019-06-13
29940,30709,다음엔 너야,에른스트 얀들 글;노르만 융에 그림;박상순 옮김,비룡소,2018,9788949110646,9788949110004.0,7.0,,853.0,1,9,2019-06-04


In [21]:
# 년도 앞 뒤에 문자를 제거하였으나, 아직도 옳지 않은 값 포함 
unknown_year = ns_book5['발행년도'].str.contains('\D', na=True)
print(unknown_year.sum())
ns_book5[unknown_year].head()

67


Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
30838,31616,본격 한중일 세계사 5,굽시니스트 지음,위즈덤하우스,,9791190065092,,,,,0,0,2019-05-28
39130,40141,정책금융의 현황과 발전과제,정책금융연구회,한국산업은행,,9788992784108,,,,327.1,1,0,2019-01-22
39256,40268,서울지역 유적 발굴조사 총서 3,서울역사박물관,서울역사박물관,,9791186324714,9791186324431.0,,,,0,0,2019-01-22
76836,81202,흰머리 큰줄기,한호진 지음,秀文出版社,[발행년불명],9788973010769,,0.0,,699.1,1,1,2016-11-10
150543,160436,(속) 경제학사,박장환 지음,,[20--],9788994339207,,1.0,,320.9,1,2,2012-11-19


In [22]:
# 옳지 않은 값들을 -1로 수정
ns_book5.loc[unknown_year, '발행년도'] = '-1'
ns_book5 = ns_book5.astype({'발행년도':'int32'})

In [23]:
# 연도 중 4000년을 넘어가는 연도가 있어 2333을 빼고 서기 연도로 변경
dangun_yy_rows = ns_book5['발행년도'] > 4000
print(dangun_yy_rows.sum())
ns_book5.loc[dangun_yy_rows, '발행년도'] = ns_book5.loc[dangun_yy_rows, '발행년도'] - 2333
ns_book5[dangun_yy_rows].head()

131


Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
91004,96933,鳳宇日記,權泰勳 지음;鄭在乘 編,정신세계사,1998,9788935701162,,0,2.0,81.0,2,24,2016-03-15
91005,96934,鳳宇日記,權泰勳 지음;鄭在乘 編,정신세계사,1998,9788935701155,,0,1.0,81.0,2,26,2016-03-15
122467,131014,애일라 :항일투쟁으로 산화한 애국지사,김수호 지음,얼레빗,2014,9791185776002,,0,,813.7,1,2,2014-07-11
126287,135169,광전자,新井 晃 著,한진,1997,9788986412123,,9,,569.0,1,2,2014-05-04
150544,160437,세계분쟁의 총체적 해법과 조국통일 =(The) world conflict solut...,안창범 지음,삼진출판사,2012,9788994736044,,9,,349.9,1,1,2012-11-19


In [24]:
# 아직 4000을 넘는 연도가 있어 -1로 변경함
dangun_year = ns_book5['발행년도'] > 4000
ns_book5.loc[dangun_year, '발행년도'] = -1
ns_book5.head(2)

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
0,1,인공지능과 흙,김동훈 지음,민음사,2021,9788937444319,,,,,1,0,2021-03-19
1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,2021,9791190123969,,,,,1,0,2021-03-19


In [25]:
# 연도가 작은 값을 -1로 변경함
old_books = (ns_book5['발행년도'] > 0) & (ns_book5['발행년도'] < 1900)
ns_book5.loc[old_books, '발행년도'] = -1
ns_book5.loc[old_books].head(2)

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
61149,64093,"고흐 씨, 시 읽어 줄까요 :내 마음을 알아주는 시와 그림의 만남",이운진 지음,사계절,-1,9788958284277,,0,,811.7,1,6,2017-10-27
70566,74347,정신 병리학의 문제들,지은이: 지그문트 프로이트 ;옮긴이: 황보석,열린책들,-1,9788932905181,9788932905082.0,9,10.0,185.5,1,4,2017-04-26


In [26]:
# 누락된 정보 확인
na_rows = ns_book5['도서명'].isna() | ns_book5['저자'].isna() | ns_book5['출판사'].isna() | ns_book5['발행년도'].eq(-1)
print(na_rows.sum())
ns_book5[na_rows].head(2)

5268


Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
78,79,아산 정주영 레거시,김화진,,2021,9788952129529,,,,325.0,1,1,2021-03-15
265,278,골목의 시간을 그리다,정명섭.김효찬 지음,,2021,9791191266054,,,,,1,0,2021-03-12


In [27]:
import requests
from bs4 import BeautifulSoup

# 도서 제목을 가져오는 함수 작성
def get_book_title(isbn):
  # Yes24 도서 검색 페이지 URL
  url = 'http://www.yes24.com/Product/Search?domain=BOOK&query={}'
  # url에 isbn을 넣어 HTML을 가져옴
  r = requests.get(url.format(isbn))
  soup = BeautifulSoup(r.text, 'html.parser')
  # 클래스 이름이 'gd_name'인 <a> 태그의 텍스트를 가져온다.
  title = soup.find('a', attrs={'class':'gd_name'}).get_text()
  return title

In [28]:
get_book_title(9791191266054)

'골목의 시간을 그리다'

In [29]:
# 도서의 저자, 출판사, 발행 연도를 추출하여 반환하는 함수 작성
import re

def get_book_info(row):
  title = row['도서명']
  author = row['저자']
  pub = row['출판사']
  year = row['발행년도']

  # Yes24 도서 검색 페이지 URL
  url = "http://www.yes24.com/Product/Search?domain=BOOK&query={}"
  # URL에 ISBN을 넣어 HTML을 가져옴
  r = requests.get(url.format(row['ISBN']))
  soup = BeautifulSoup(r.text, 'html.parser')
  try:
    if pd.isna(title):
      # 클래스 이름이 'gd_name'인 <a> 태그의 텍스트를 가져온다.
      title = soup.find('a', attrs={'class':'gd_name'}).get_text()
  except AttributeError:
    pass
  
  try:
    if pd.isna(author):
      # 클래스 이름이 info_auth인 <span> 태그 아래 <a> 태그의 텍스트를 가져온다.
      authors = soup.find('span', attrs={'class':'info_auth'}).find_all('a')
      author_list = [auth.get_text() for auth in authors]
      author = ','.join(author_list)
  except AttributeError:
    pass
  
  try:
    if pd.isna(pub):
      # 클래스 이름이 info_pub인 <span> 태그 아래 <a> 태그의 텍스트를 가져온다.
      pub = soup.find('span', attrs={'class':'info_auth'}).find('a').get_text()
  except AttributeError:
    pass
  
  try:
    if year == -1:
      # 클래스 이름이 'info_date'인 <span> 태그 아래 텍스트를 가져온다.
      year_str = soup.find('span', attrs={'class':'info_date'}).get_text()
      # 정규 표현식으로 찾은 값 중에 첫 번째 것만 사용한다.
      year = re.findall(r'\d{4}', year_str)[0]
  except AttributeError:
    pass
  
  return title, author, pub, year

In [30]:
update_sample = ns_book5[na_rows].head(2).apply(get_book_info, axis=1, result_type='expand')
update_sample

Unnamed: 0,0,1,2,3
78,아산 정주영 레거시,김화진,김화진,2021
265,골목의 시간을 그리다,정명섭.김효찬 지음,정명섭,2021


In [31]:
# 미리 만들어 놓은 ns_book5_update.csv파일 이용
gdown.download('http://bit.ly/3UJZiHw', 'ns_book5_update.csv', quiet=False)
ns_book5_update = pd.read_csv('ns_book5_update.csv', index_col=0)
ns_book5_update.head()


Downloading...
From: http://bit.ly/3UJZiHw
To: /content/ns_book5_update.csv
100%|██████████| 406k/406k [00:00<00:00, 80.9MB/s]


Unnamed: 0,도서명,저자,출판사,발행년도
78,아산 정주영 레거시,김화진,서울대학교출판문화원,2021
265,골목의 시간을 그리다,정명섭.김효찬 지음,초록비책공방,2021
354,한국인의 맛,정명섭 지음,추수밭,2021
539,"한성부, 달 밝은 밤에",김이삭 지음,고즈넉이엔티,2021
607,100일 완성 마그마 러시아어 중고급 단어장,러포자 구제 연구소 외 지음,문예림,2021


In [32]:
# ns_book5 데이터프레임을 ns_book5_update 데이터 프레임 데이터로 업데이트
ns_book5.update(ns_book5_update)
na_rows = ns_book5['도서명'].isna() | ns_book5['저자'].isna() | ns_book5['출판사'].isna() | ns_book5['발행년도'].eq(-1)
print(na_rows.sum()) 

4615


In [33]:
# 누락된 값 삭제하고 분석 대상에서 제외
ns_book5 = ns_book5.astype({'발행년도':'int32'})
ns_book6 = ns_book5.dropna(subset=['도서명', '저자', '출판사'])
ns_book6 = ns_book6[ns_book6['발행년도'] != -1]
ns_book6.head()

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
0,1,인공지능과 흙,김동훈 지음,민음사,2021,9788937444319,,,,,1,0,2021-03-19
1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,2021,9791190123969,,,,,1,0,2021-03-19
2,3,나도 한 문장 잘 쓰면 바랄 게 없겠네,김선영 지음,블랙피쉬,2021,9788968332982,,,,,1,0,2021-03-19
3,4,예루살렘 해변,"이도 게펜 지음, 임재희 옮김",문학세계사,2021,9788970759906,,,,,1,0,2021-03-19
4,5,김성곤의 중국한시기행 : 장강·황하 편,김성곤 지음,김영사,2021,9788934990833,,,,,1,0,2021-03-19


In [34]:
ns_book6.to_csv('ns_book6.csv', index=False)

In [35]:
# 일괄 처리 함수
def data_fixing(ns_book4):
  """
  잘못된 값을 수정하거나 NaN을 채우는 함수
  : param ns_book4: data_cleaning() 함수에서 전처리된 데이터프레임
  """
  # 도서권수와 대출건수를 int32로 바꾼다.
  ns_book4.astype({'도서권수':'int32', '대출건수':'int32'})
  # NaN인 세트 ISBN을 빈 문자열로 바꾼다.
  set_isbn_na_rows = ns_book4['세트 ISBN'].isna()
  ns_book4.loc[set_isbn_na_rows, '세트 ISBN'] = ''
  # 발행년도 열에서 연도 네 자리를 추출하여 대체한다. 나머지 발행년도는 -1로 바꾼다.
  ns_book5 = ns_book4.replace({'발행년도':{r'.*(\d{4}).*':r'\1'}}, regex=True)
  unknown_year = ns_book5['발행년도'].str.contains('\D', na=True)
  ns_book5.loc[unknown_year, '발행년도'] = '-1'
  # 발행년도를 int32로 바꾼다.
  ns_book5.astype({'발행년도':'int32'})
  # 4000년 이상인 경우 2333년을 뺀다.
  dangun_yy_rows = ns_book5['발행년도'] > 4000
  ns_book5.loc[dangun_yy_rows, '발행년도'] = ns_book5.loc[dangun_yy_rows, '발행년도'] - 2333
  # 여전히 4000년 이상인 경우 -1로 바꾼다,
  dangun_year = ns_book5['발행년도']>4000
  ns_book5.loc[dangun_year, '발행년도'] = -1
  # 0-1900년 사이의 발행년도는 -1로 바꾼다.
  old_books = (ns_book5['발행년도'] > 0) & (ns_book5['발행년도'] < 1900)
  ns_book5.loc[old_books, '발행년도'] = -1
  # 도서명, 저자, 출판사가 NaN이거나 발행년도가 -1인 행을 찾는다,
  na_rows = ns_book5['도서명'].isna() | ns_book5['저자'].isna() | ns_book5['출판사가'].isna() | ns_book5['발행년도'].eq(-1)
  # yes24 도서 상세 페이지에서 누락된 정보를 채운다.
  updated_sample = ns_book5[na_rows].apply(get_book_info, axis=1, result_type='expand')
  # 도서명, 저자, 출판사가 NaN이거나 발행년도가 -1인 행을 삭제한다.
  ns_book6 = ns_book5.dropna(subset=['도서명','저자','출판사'])
  ns_book6 = ns_book6[ns_book6['발행년도'] != -1]

  return ns_book6