# **데이터프레임 정보 요약 확인하기**

**미리 구글 드라이브에 업로드되어 있는 ns_book4.csv 파일 다운로드하기: gdown 패키지**

In [1]:
import gdown
gdown.download('https://bit.ly/3GisL6J', 'ns_book4.csv', quiet=False)

Downloading...
From: https://bit.ly/3GisL6J
To: /content/ns_book4.csv
100%|██████████| 55.5M/55.5M [00:01<00:00, 33.7MB/s]


'ns_book4.csv'

**다운로드한 ns_book4.csv 파일을 판다스데이터프레임으로 불러 온 후 처음 다섯 개 행 출력하기: head() 메서드**

In [2]:
import pandas as pd
ns_book4 = pd.read_csv('ns_book4.csv', low_memory=False)
ns_book4.head()

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
0,1,인공지능과 흙,김동훈 지음,민음사,2021,9788937444319,,,,,1,0.0,2021-03-19
1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,2021,9791190123969,,,,,1,0.0,2021-03-19
2,3,나도 한 문장 잘 쓰면 바랄 게 없겠네,김선영 지음,블랙피쉬,2021,9788968332982,,,,,1,0.0,2021-03-19
3,4,예루살렘 해변,"이도 게펜 지음, 임재희 옮김",문학세계사,2021,9788970759906,,,,,1,0.0,2021-03-19
4,5,김성곤의 중국한시기행 : 장강·황하 편,김성곤 지음,김영사,2021,9788934990833,,,,,1,0.0,2021-03-19


**열마다 NaN이 아닌 값이 몇개나 있는지 확인하기: info() 메서드 (데이터프레임 정보를 요약해서 출력)**

In [3]:
ns_book4.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 384591 entries, 0 to 384590
Data columns (total 13 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   번호       384591 non-null  int64  
 1   도서명      384188 non-null  object 
 2   저자       384393 non-null  object 
 3   출판사      379950 non-null  object 
 4   발행년도     384577 non-null  object 
 5   ISBN     384591 non-null  object 
 6   세트 ISBN  56576 non-null   object 
 7   부가기호     310386 non-null  object 
 8   권        63378 non-null   object 
 9   주제분류번호   364727 non-null  object 
 10  도서권수     384591 non-null  int64  
 11  대출건수     384591 non-null  float64
 12  등록일자     384591 non-null  object 
dtypes: float64(1), int64(2), object(10)
memory usage: 38.1+ MB


**※ float64는 실수형, int64는 정수형, object는 문자열 또는 혼합형 데이터 타입**

**※ 메모리 사용량 확인하기 (info() 메서드는 기본적으로 원소 개수와 열 데이터 타입을 기반으로 메모리 사용량을 추정하므로 정확한 메모리 사용량을 얻으려면 memory_usage 매개변수에 'deep' 옵션을 지정한다.)**

In [4]:
ns_book4.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 384591 entries, 0 to 384590
Data columns (total 13 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   번호       384591 non-null  int64  
 1   도서명      384188 non-null  object 
 2   저자       384393 non-null  object 
 3   출판사      379950 non-null  object 
 4   발행년도     384577 non-null  object 
 5   ISBN     384591 non-null  object 
 6   세트 ISBN  56576 non-null   object 
 7   부가기호     310386 non-null  object 
 8   권        63378 non-null   object 
 9   주제분류번호   364727 non-null  object 
 10  도서권수     384591 non-null  int64  
 11  대출건수     384591 non-null  float64
 12  등록일자     384591 non-null  object 
dtypes: float64(1), int64(2), object(10)
memory usage: 266.2 MB


# **누락된 값 처리하기**

**누락된 값 개수 확인하기: isna() 메서드 (isna() 메서드는 각 행이 비어 있는지를 나타내는 불리언 배열 반환하므로 sum() 메서드를 이어서 호출하면 불리언 배열의 True 개수로 비어 있는 행 개수를 얻을 수 있다.)**

In [5]:
ns_book4.isna().sum()

번호              0
도서명           403
저자            198
출판사          4641
발행년도           14
ISBN            0
세트 ISBN    328015
부가기호        74205
권          321213
주제분류번호      19864
도서권수            0
대출건수            0
등록일자            0
dtype: int64

**※ isna() 메서드와 반대로 누락되지 않은 값 확인하기: notna() 메서드**

In [6]:
ns_book4.notna().sum()

번호         384591
도서명        384188
저자         384393
출판사        379950
발행년도       384577
ISBN       384591
세트 ISBN     56576
부가기호       310386
권           63378
주제분류번호     364727
도서권수       384591
대출건수       384591
등록일자       384591
dtype: int64

**누락된 값으로 표시하기: None과 np.nan (판다스 데이터프레임에서는 정수를 저장하는 열에 파이썬의 None을 입력하면 누락된 값으로 인식)**

**ns_book4 데이터프레임의 '도서권수' 열에 있는 첫 번째 행 값을 None으로 바꾼 후 '도서권수' 열에 isna() 메서드를 적용해 누락된 값 세어 보기**

In [7]:
ns_book4.loc[0, '도서권수'] = None
ns_book4['도서권수'].isna().sum()

1

**처음 두 개의 행 출력하기: head() 메서드**

In [8]:
ns_book4.head(2)

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
0,1,인공지능과 흙,김동훈 지음,민음사,2021,9788937444319,,,,,,0.0,2021-03-19
1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,2021,9791190123969,,,,,1.0,0.0,2021-03-19


**데이터 타입 지정하기: astype() 메서드 (매개변수: {열 이름:데이터타입} 형식의 딕셔너리) (기본적으로 새로운 데이터프레임 반환)**

In [9]:
ns_book4.loc[0, '도서권수'] = 1
ns_book4 = ns_book4.astype({'도서권수':'int32', '대출건수':'int32'})
ns_book4.head(2)

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
0,1,인공지능과 흙,김동훈 지음,민음사,2021,9788937444319,,,,,1,0,2021-03-19
1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,2021,9791190123969,,,,,1,0,2021-03-19


**정수형이 아니라 문자열을 저장할 수 있는 열에 None 입력해 보기**

In [10]:
ns_book4.loc[0, '부가기호'] = None
ns_book4.head(2)

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
0,1,인공지능과 흙,김동훈 지음,민음사,2021,9788937444319,,,,,1,0,2021-03-19
1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,2021,9791190123969,,,,,1,0,2021-03-19


**판다스는 NaN이라는 값을 따로 가지고 있지 않다. 대신 np.nan을 사용해야 한다.**

In [11]:
import numpy as np
ns_book4.loc[0, '부가기호'] = np.nan
ns_book4.head(2)

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
0,1,인공지능과 흙,김동훈 지음,민음사,2021,9788937444319,,,,,1,0,2021-03-19
1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,2021,9791190123969,,,,,1,0,2021-03-19


**※ 숫자와 문자열 데이터 타입에 상관없이 데이터프레임 셀 값을 NaN으로 표시하려면 넘파이의 np.nan 사용하기**

**누락된 값 바꾸기(1): loc, fillna() 메서드**

**loc 메서드를 사용하면 누락된 값을 원하는 값으로 바꿀 수 있다. 그러려면 누락된 값을 가리키는 불리언 배열을 만들어야 하는데, 누락된 값을 확인하는 isna() 메서드로 간단하게 만들 수 있다.**

In [12]:
set_isbn_na_rows = ns_book4['세트 ISBN'].isna() # 누락된 값을 찾아 불리언 배열 반환
ns_book4.loc[set_isbn_na_rows, '세트 ISBN'] = '' # 누락된 값을 빈 문자열로 바꾸기
ns_book4['세트 ISBN'].isna().sum() # 누락된 값이 몇 개인지 세기

0

**ns_book4에 있는 모든 NaN을 '없음' 문자열로 바꾸기: fillna() 메서드 (fillna() 메서드는 기본적으로 새로운 데이터프레임을 반환하므로 fillna() 메서드에 이어서 isna() 메서드를 연결하면 NaN의 개수를 셀 수 있다.)**

In [13]:
ns_book4.fillna('없음').isna().sum()

번호         0
도서명        0
저자         0
출판사        0
발행년도       0
ISBN       0
세트 ISBN    0
부가기호       0
권          0
주제분류번호     0
도서권수       0
대출건수       0
등록일자       0
dtype: int64

**특정 열만 선택해서 NaN을 바꿀 수도 있다.**

In [14]:
ns_book4['부가기호'].fillna('없음').isna().sum()

0

**※ 특정 열을 선택한 후 fillna() 메서드를 적용하면 앞의 실행 결과처럼 열 이름 없이 개수만 있는 판다스 시리즈 객체로 반환**

**'부가기호' 열의 NaN을 바꾸면서 전체 데이터프레임을 반환하려면 열 이름과 바꾸려는 값으로 이루어진 딕셔너리를 전달하면 된다**

In [15]:
ns_book4.fillna({'부가기호':'없음'}).isna().sum()

번호              0
도서명           403
저자            198
출판사          4641
발행년도           14
ISBN            0
세트 ISBN         0
부가기호            0
권          321213
주제분류번호      19864
도서권수            0
대출건수            0
등록일자            0
dtype: int64

**누락된 값 바꾸기(2): replace() 메서드 (NaN은 물론 어떤 값도 바꿀 수 있는 편리한 메소드)**

**첫째, 바꾸려는 값이 하나일 때 (첫 번째 매개변수: 원래 값, 두 번째 매개변수: 새로운 값)**

In [16]:
ns_book4.replace(np.nan, '없음').isna().sum()

번호         0
도서명        0
저자         0
출판사        0
발행년도       0
ISBN       0
세트 ISBN    0
부가기호       0
권          0
주제분류번호     0
도서권수       0
대출건수       0
등록일자       0
dtype: int64

**둘째, 바꾸려는 값이 여러 개일 때 (리스트 형식으로 전달)**

In [17]:
ns_book4.replace([np.nan, '2021'], ['없음', '21']).head(2)

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
0,1,인공지능과 흙,김동훈 지음,민음사,21,9788937444319,,없음,없음,없음,1,0,2021-03-19
1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,21,9791190123969,,없음,없음,없음,1,0,2021-03-19


**또는 리스트 대신 딕셔너리 형식으로도 전달 가능**

In [18]:
ns_book4.replace({np.nan: '없음', '2021': '21'}).head(2)

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
0,1,인공지능과 흙,김동훈 지음,민음사,21,9788937444319,,없음,없음,없음,1,0,2021-03-19
1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,21,9791190123969,,없음,없음,없음,1,0,2021-03-19


**셋째, 열 마다 다른 값으로 바꿀 때 (열 이름과 바꾸려는 값을 딕셔너리 형식으로 전달하여 열마다 다른 값을 바꿀 수 있다.)**

In [19]:
ns_book4.replace({'부가기호': np.nan}, '없음').head(2)

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
0,1,인공지능과 흙,김동훈 지음,민음사,2021,9788937444319,,없음,,,1,0,2021-03-19
1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,2021,9791190123969,,없음,,,1,0,2021-03-19


**또는 열이름과 변경 전후의 값을 중첩된 딕셔너리로도 전달 가능**

In [20]:
ns_book4.replace({'부가기호': {np.nan: '없음'}, '발행년도': {'2021': '21'}}).head(2)

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
0,1,인공지능과 흙,김동훈 지음,민음사,21,9788937444319,,없음,,,1,0,2021-03-19
1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,21,9791190123969,,없음,,,1,0,2021-03-19


# **정규 표현식**

**정규 표현식 또는 줄여서 정규식은 문자열 패턴을 찾아서 대체하기 위한 규칙의 모음이다.**

**replace() 메서드는 연도가 다르면 문제가 된다. 연도가 '2021'일 경우 '21'로 바뀌지만 '2018'은 적용이 되지 않는다.**

In [21]:
ns_book4.replace({'발행년도': {'2021': '21'}})[100:102]

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
100,101,No라고 말할 줄 아는 남편과 아내 - 개정판,"헨리 클라우드, 존 타운센드 (지은이), 김진웅 (옮긴이)",좋은씨앗,2018,9788958743019,,,,234.9,1,1,2021-03-15
101,102,"D2C 레볼루션 - 스타트업부터 글로벌 기업까지, 마켓 체인저의 필수 전략","로런스 인그래시아 (지은이), 안기순 (옮긴이)",부키,21,9788960518483,,,,325.1,1,0,2021-03-15


**※ 판다스 데이터프레임의 다른 메서드와 마찬가지로 replace() 메서드는 기본적으로 새로운 데이터프레임을 반환한다. 그래서 여러 메서드를 연이어 쓸 수 있었다. 마찬가지로 대괄호를 사용한 인덱싱도 연이어 쓸 수 있다. 앞의 코드는 다음과 같이 풀어서 쓴 것과 동일하다.**

In [22]:
ns_temp = ns_book4.replace({'발행연도':{'20021': '21'}})
ns_temp[100:102]

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
100,101,No라고 말할 줄 아는 남편과 아내 - 개정판,"헨리 클라우드, 존 타운센드 (지은이), 김진웅 (옮긴이)",좋은씨앗,2018,9788958743019,,,,234.9,1,1,2021-03-15
101,102,"D2C 레볼루션 - 스타트업부터 글로벌 기업까지, 마켓 체인저의 필수 전략","로런스 인그래시아 (지은이), 안기순 (옮긴이)",부키,2021,9788960518483,,,,325.1,1,0,2021-03-15


**숫자 찾기: \d**

*   정규 표현식에서 숫자를 나타내는 기호: \d
*   표현식을 그룹으로 묶을 때는 괄호 사용
*   뒤에 두 자리만 하나의 그룹으로 묶을 때는 \d\d(\d\d)
*   패턴 안에 있는 그룹을 나타낼 때는 \1, \2처럼 사용, 그룹의 번호는 패턴 안에 등장하는 순서대로 매겨짐

**'발행년도' 열의 값을 정규 표현식으로 두 자리 연도로 바꾸어 보기 (정규 표현식을 사용한다는 의미로 regex 매개변수 옵션을 True로 지정)**

In [23]:
ns_book4.replace({'발행년도': {r'\d\d(\d\d)': r'\1'}}, regex=True)[100:102]

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
100,101,No라고 말할 줄 아는 남편과 아내 - 개정판,"헨리 클라우드, 존 타운센드 (지은이), 김진웅 (옮긴이)",좋은씨앗,18,9788958743019,,,,234.9,1,1,2021-03-15
101,102,"D2C 레볼루션 - 스타트업부터 글로벌 기업까지, 마켓 체인저의 필수 전략","로런스 인그래시아 (지은이), 안기순 (옮긴이)",부키,21,9788960518483,,,,325.1,1,0,2021-03-15


**※ 정규 표현식 앞에 붙인 r 문자는 파이썬에서 정규 표현식을 다른 문자열과 구분하기 위해 접두사처럼 붙인다.**

**정규 표현식이 반복될 때는 일일이 쓰는 대신 중괄호를 사용하여 개수를 지정할 수 있다.**

In [24]:
ns_book4.replace({'발행년도': {r'\d{2}(\d{2})': r'\1'}}, regex=True)[100:102]

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
100,101,No라고 말할 줄 아는 남편과 아내 - 개정판,"헨리 클라우드, 존 타운센드 (지은이), 김진웅 (옮긴이)",좋은씨앗,18,9788958743019,,,,234.9,1,1,2021-03-15
101,102,"D2C 레볼루션 - 스타트업부터 글로벌 기업까지, 마켓 체인저의 필수 전략","로런스 인그래시아 (지은이), 안기순 (옮긴이)",부키,21,9788960518483,,,,325.1,1,0,2021-03-15


**문자 찾기: 마침표(.)**

*   어떤 문자에도 대응하는 정규 표현식 문자: 마침표(.)
*   문자가 0개 이상 반복: * 문자
*   괄호를 일반 문자라고 인식: 역슬래시(\)
*   공백 문자를 나타내는 정규 표현식: \s


**이 정규 표현식을 replace() 메서드에 적용하기**

In [25]:
ns_book4.replace({'저자': {r'(.*)\s\(지은이\)(.*)\s\(옮긴이\)': r'\1\2'}, '발행년도': {r'\d{2}(\d{2})': r'\1'}}, regex=True)[100:102]

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
100,101,No라고 말할 줄 아는 남편과 아내 - 개정판,"헨리 클라우드, 존 타운센드, 김진웅",좋은씨앗,18,9788958743019,,,,234.9,1,1,2021-03-15
101,102,"D2C 레볼루션 - 스타트업부터 글로벌 기업까지, 마켓 체인저의 필수 전략","로런스 인그래시아, 안기순",부키,21,9788960518483,,,,325.1,1,0,2021-03-15


# **잘못된 값 바꾸기**

**데이터 타입 지정해 보기: astype() ('1988.'이라는 연도를 변환할 수 없어 오류 발생)**

In [26]:
ns_book4.astype({'발행년도': 'int32'})

ValueError: invalid literal for int() with base 10: '1988.': Error while type casting for column '발행년도'

**정규 포현식으로 다른 문자가 있는 연도 찾기: contains 메서드 (판다스 시리즈 객체는 str 속성 아래 다양한 문자열 처리 함수를 제공한다. 그중 contains() 메서드는 시리즈나 인덱스에서 문자열 패턴을 포함하고 있는지 검사한다.)**

In [27]:
ns_book4['발행년도'].str.contains('1988').sum()

407

**※ ns_book4['발행연도'] == '1988'처럼 쓰면 '발행년도'가 정확히 '1988'인 것만 찾을 수 있다. '1988.'와 같은 것은 제외된다. contains() 메서드는 주어진 문자열이 포함된 모든 행을 찾는다.**

**contains() 메서드는 기본적으로 정규 표현식을 인식한다. (숫자에 대응하는 정규 표현식은 \d, 반대로 숫자가 아닌 다른 모든 문자에 대응하는 표현은 \D)**

**'발행년도' 열에서 숫자가 아닌 문자를 포함하는 모든 행 찾기: contains() 메서드 (na 매개변수를 True로 지정하여 연도가 누락된 행을 True로 표시한다. 만약 '발행년도' 열에 누락된 값이 있다면 contains() 메서드는 기본적으로 np.nan으로 채워서 invaild_number 배열을 인덱싱에 사용할 수 없기 때문이다. 여기서는 누락된 값은 숫자 이외의 문자라고 간주한다.)**

In [28]:
invalid_number = ns_book4['발행년도'].str.contains('\D', na=True)
print(invalid_number.sum())
ns_book4[invalid_number].head()

1777


Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
19138,19565,단국강토,홍태수 저,매일경제신문사,1988.,9788974420031,,,,511.1,1,1,2019-12-19
19227,19736,삼성의 역사,송부웅 撰,삼양,단기4334[2001],9788985464369,,0.0,,911.02,1,1,2019-12-06
26097,26812,배고픈 애벌레,에릭 칼 글·그림 ;이희재 옮김,더큰컴퍼니,[2019],9788959514083,,,,843.0,1,0,2019-08-12
29817,30586,(The) Sopranos sessions,"Matt Zoller Seitz,$eAlan Sepinwall,$eLaura Lip...",Harry N Abrams Inc,2019.,9781419734946,,,,326.76,1,0,2019-06-13
29940,30709,다음엔 너야,에른스트 얀들 글;노르만 융에 그림;박상순 옮김,비룡소,2018.,9788949110646,9788949110004.0,7.0,,853.0,1,9,2019-06-04


**정규 표현식을 사용하여 연도 앞과 뒤에 있는 문자 제외하기**

In [29]:
ns_book5 = ns_book4.replace({'발행년도': {r'.*(\d{4}).*': r'\1'}}, regex=True)
ns_book5[invalid_number].head()

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
19138,19565,단국강토,홍태수 저,매일경제신문사,1988,9788974420031,,,,511.1,1,1,2019-12-19
19227,19736,삼성의 역사,송부웅 撰,삼양,2001,9788985464369,,0.0,,911.02,1,1,2019-12-06
26097,26812,배고픈 애벌레,에릭 칼 글·그림 ;이희재 옮김,더큰컴퍼니,2019,9788959514083,,,,843.0,1,0,2019-08-12
29817,30586,(The) Sopranos sessions,"Matt Zoller Seitz,$eAlan Sepinwall,$eLaura Lip...",Harry N Abrams Inc,2019,9781419734946,,,,326.76,1,0,2019-06-13
29940,30709,다음엔 너야,에른스트 얀들 글;노르만 융에 그림;박상순 옮김,비룡소,2018,9788949110646,9788949110004.0,7.0,,853.0,1,9,2019-06-04


**다시 숫자 이외의 문자가 들어간 행의 개수와 데이터 확인하기**

In [30]:
unknown_year = ns_book5['발행년도'].str.contains('\D', na=True)
print(unknown_year.sum())
ns_book5[unknown_year].head()

67


Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
30838,31616,본격 한중일 세계사 5,굽시니스트 지음,위즈덤하우스,,9791190065092,,,,,0,0,2019-05-28
39130,40141,정책금융의 현황과 발전과제,정책금융연구회,한국산업은행,,9788992784108,,,,327.1,1,0,2019-01-22
39256,40268,서울지역 유적 발굴조사 총서 3,서울역사박물관,서울역사박물관,,9791186324714,9791186324431.0,,,,0,0,2019-01-22
76836,81202,흰머리 큰줄기,한호진 지음,秀文出版社,[발행년불명],9788973010769,,0.0,,699.1,1,1,2016-11-10
150543,160436,(속) 경제학사,박장환 지음,,[20--],9788994339207,,1.0,,320.9,1,2,2012-11-19


**이제 변환되지 않은 값은 NaN이거나 네 자리 숫자가 아닌 값이다. 이런 값은 어떻게 변환할지 알 수 없기 때문에 임의로 -1 값으로 바꾼다음 astype() 메서드로 '발행년도' 열의 데이터 타입을 정수형인 int32로 변환한다.**

In [31]:
ns_book5.loc[unknown_year, '발행년도'] = '-1'
ns_book5 = ns_book5.astype({'발행년도': 'int32'})

**전달된 값보다 큰 값 찾기: gt() 메서드**

**연도가 4000년이 넘는 행의 전체 개수 확인하기**

In [32]:
ns_book5['발행년도'].gt(4000).sum()

131

**※ gt() 메서드 대신 > 기호 사용 가능**

In [33]:
(ns_book5['발행년도'] > 4000).sum()

131

**단군기원을 사용한 4000년이 넘는 연도에서 2333을 빼서 서기로 바꾼 다음 연도가 4,000년이 넘는 도서가 있는지 확인하기**

In [34]:
dangun_yy_rows = ns_book5['발행년도'].gt(4000) # 4000보다 큰 값 찾기
ns_book5.loc[dangun_yy_rows, '발행년도'] = ns_book5.loc[dangun_yy_rows, '발행년도'] - 2333 # 찾은 값에서 2333을 빼서 서기로 바꾸기
dangun_year = ns_book5['발행년도'].gt(4000) # 다시 4000보다 큰 값 찾기
print(dangun_year.sum())
ns_book5[dangun_year].head(2)

13


Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
222858,234268,Modern art,[computer file],GROLIER,7611,9780717233243,,,,609.205,1,1,2009-05-07
270269,282852,현대 영어학=Linguistic theory in modern english,이재영,열림기획,7634,9788986705072,,1.0,,740.1,1,6,2007-04-14


**연도가 이상하게 높은 도서를 모두 -1로 표시하기**

In [35]:
ns_book5.loc[dangun_year, '발행년도'] = -1

**연도가 작은 값 확인하기: lt() 메서드**

In [36]:
old_books = ns_book5['발행년도'].gt(0) & ns_book5['발행년도'].lt(1900)
ns_book5[old_books]

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
61149,64093,"고흐 씨, 시 읽어 줄까요 :내 마음을 알아주는 시와 그림의 만남",이운진 지음,사계절,176,9788958284277,,0,,811.7,1,6,2017-10-27
70566,74347,정신 병리학의 문제들,지은이: 지그문트 프로이트 ;옮긴이: 황보석,열린책들,151,9788932905181,9788932905082.0,9,10.0,185.5,1,4,2017-04-26
79550,84164,(최근 7년간) 중요 민법판례 :[2009년 1월~2016년 6월 중요 판례],이광섭 편저,법학사,163,9788962898651,,9,,365.0,1,14,2016-09-27
147950,157759,(한·중·일) 밥상 문화 :대표음식으로 본 3국 문화비교,김경은 지음,이가서,132,9788958643012,,0,,381.75,1,30,2013-02-19
194576,205407,책으로 뒤덮인 집의 비밀,N.E. 보드 지음 ;피터 퍼거슨 그림 ;김지현 옮김,개암나무,1015,9788992844413,,7,,843.0,1,15,2010-08-18
287252,300283,(밝혀질)우리歷史,吳在城 著,黎民族史硏究會,1607,9788986892130,,0,,911.0,1,5,2006-07-06


**연도가 이상하게 낮은 도서를 모두 -1로 표시하기**

In [37]:
ns_book5.loc[old_books, '발행년도'] = -1
ns_book5['발행년도'].eq(-1).sum() # -1과 같은 값이 몇 개인지 세기

86

# **누락된 정보 채우기**

**'도서명', '저자', '출판사' 열에 누락된 값이 있거나 '발행년도' 열이 -1인 행의 개수 확인하기**

In [38]:
na_rows = ns_book5['도서명'].isna() | ns_book5['저자'].isna() | ns_book5['출판사'].isna() | ns_book5['발행년도'].eq(-1)
print(na_rows.sum())
ns_book5[na_rows].head(2)

5268


Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
78,79,아산 정주영 레거시,김화진,,2021,9788952129529,,,,325.0,1,1,2021-03-15
265,278,골목의 시간을 그리다,정명섭.김효찬 지음,,2021,9791191266054,,,,,1,0,2021-03-12


**뷰티플수프를 사용해 값이 누락되었거나 알 수 없는 행 채우기: requests 패키지와 bs4 패키지**

In [39]:
import requests
from bs4 import BeautifulSoup

**Yes24에서 ISBN으로 검색한 결과 페이지에서 크롬 브라우저 개발자 도구로 도서명의 태그 정보 확인하기**

**\<a> 태그에 원하는 정보가 들어있으므로 도서명을 가져오는 함수 작성하기**

In [40]:
def get_book_title(isbn):
  # Yes24 도서 검색 페이지 URL
  url = 'https://www.yes24.com/product/search?query={}'
  # URL에 ISBN을 넣어 HTML 가져오기
  r = requests.get(url.format(isbn))
  soup = BeautifulSoup(r.text, 'html.parser') # HTML 파싱
  # 클래스 이름이 'gd_name'인 <a> 태그의 텍스트 가져오기
  title = soup.find('a', attrs={'class':'gd_name'}).get_text()
  return title

**작성한 get_book_title() 함수를 '골목의 시간을 그리다' 책의 ISBN으로 테스트하기**

In [41]:
get_book_title(9791191266054)

'골목의 시간을 그리다'

**같은 방식으로 저자, 출판사, 발행 연도를 추출하여 반환하는 함수 작성하기**

*   저자는 두 명 이상일 수 있기 때문에 뷰티플수프의 find_all() 메서드를 사용해 저자를 담은 \<a> 태그를 모두 추출한다.
*   리스트 안에 for 문을 사용하는 리스트 내포로 \<a> 태그에 속한 모든 텍스트를 파이썬 리스트에 저장한다.
*   추출한 결과를 join() 메서드를 사용해 하나의 문자열로 합쳐 준다.

*   발행 연도는 '2020년 12월'처럼 쓰여 있으므로 정규식을 사용하여 연도만 추출한다.
*   파이썬에서 정규 표현식을 지원하는 re 모듈의 findall() 함수를 사용하면 원하는 정규식에 매칭되는 모든 문자열을 찾아 리스트로 반환해 준다. (re 모듈의 findall() 함수의 첫 번째 매개변수는 원하는 정규식이고 두 번째 매개변수는 검색 대상 문자열이다.)

In [42]:
import re


def get_book_info(row):
  title = row['도서명']
  author = row['저자']
  pub = row['출판사']
  year = row['발행년도']
  #Yes24 도서 검색 페이지 URL
  url = 'https://www.yes24.com/product/search?query={}'
  # URL에 ISBN을 넣어 HTML 가져오기
  r = requests.get(url.format(row['ISBN']))
  soup = BeautifulSoup(r.text, 'html.parser') # HTML 파싱
  try:
    if pd.isna(title):
      # 클래스 이름이 'gd_name'인 <a> 태그의 텍스트 가져오기
      title = soup.find('a', attrs={'class':'gd_name'}).get_text()
  except AttributeError:
    pass


  try:
    if pd.isna(author):
      # 클래스 이름이 'authPub info_auth'인 <span> 태그 아래 <a> 태그의 텍스트 가져오기
      authors = soup.find('span', attrs={'class':'authPub info_auth'}).find_all('a')
      author_list = [auth.get_text() for auth in authors]
      author = ','.join(author_list)
  except AttributeError:
    pass


  try:
    if pd.isna(pub):
      # 클래스 이름이 'authPub info_pub'인 <span> 태그 아래 <a> 태그의 텍스트 가져오기
      pub = soup.find('span', attrs={'class':'authPub info_pub'}).find('a').get_text()
  except AttributeError:
    pass


  try:
    if year == -1:
      # 클래스 이름이 'authPub info_date'인 <span> 태그 아래 텍스트 가져오기
      year_str = soup.find('span', attrs={'class':'authPub info_date'}).get_text()
      # 정규 표현식으로 찾은 값 중에 첫 번째 것만 사용
      year = re.findall(r'\d{4}', year_str)[0]
  except AttributeError:
    pass


  return title, author, pub, year

**※ 오류 때문에 함수 실행이 종료되지 않고 이어서 다음 요소 추출하기: try~except 문**

**누락된 값이 있었던 처음 두 개의 행에 방금 작성한 get_book_info() 함수 적용하기**

**함수가 여러 개의 값을 반환하는 경우 apply() 메서드는 기본적으로 반환된 값을 하나의 튜플로 만든다. 따라서 result_type 매개변수를 'expand'로 지정하여 반환된 값을 각기 다른 열로 만든다.**

In [43]:
updated_sample = ns_book5[na_rows].head(2).apply(get_book_info, axis=1, result_type='expand')
updated_sample

Unnamed: 0,0,1,2,3
78,아산 정주영 레거시,김화진,서울대학교출판문화원,2021
265,골목의 시간을 그리다,정명섭.김효찬 지음,초록비책공방,2021


**이 함수를 5,268개 행에 모두 적용할 수 있지만 시간이 오래 걸린다. 그러므로 미리 만들어 놓은 ns_book5_update.csv 파일을 코랩에 다운로드하여 적용한다.**

In [44]:
gdown.download('https://bit.ly/3UJZiHw', 'ns_book5_update.csv', quiet=False)
ns_book5_update = pd.read_csv('ns_book5_update.csv', index_col=0)
ns_book5_update.head()

Downloading...
From: https://bit.ly/3UJZiHw
To: /content/ns_book5_update.csv
100%|██████████| 406k/406k [00:00<00:00, 6.51MB/s]


Unnamed: 0,도서명,저자,출판사,발행년도
78,아산 정주영 레거시,김화진,서울대학교출판문화원,2021
265,골목의 시간을 그리다,정명섭.김효찬 지음,초록비책공방,2021
354,한국인의 맛,정명섭 지음,추수밭,2021
539,"한성부, 달 밝은 밤에",김이삭 지음,고즈넉이엔티,2021
607,100일 완성 마그마 러시아어 중고급 단어장,러포자 구제 연구소 외 지음,문예림,2021


**ns_book5 데이터프레임을 ns_book5_update 데이터프레임 데이터로 업데이트한 후 누락된 행이 몇 개인지 다시 확인하기**

In [45]:
ns_book5.update(ns_book5_update)
na_rows = ns_book5['도서명'].isna() | ns_book5['저자'].isna() | ns_book5['출판사'].isna() | ns_book5['발행년도'].eq(-1)
print(na_rows.sum())

4615


**누락된 값을 가진 행을 삭제하여 분석 대상에서 제외하기**

**'도서명', '저자', '출판사' 열을 리스트로 지정한 후 누락된 값이 있는 행을 삭제하고 그다음 '발행년도' 열 값이 -1이 아닌 행만 선택하여 ns_book6 데이터프레임 생성하기**

In [46]:
ns_book5 = ns_book5.astype({'발행년도': 'int32'})
ns_book6 = ns_book5.dropna(subset=['도서명', '저자', '출판사'])
ns_book6 = ns_book6[ns_book6['발행년도'] != -1]
ns_book6.head()

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
0,1,인공지능과 흙,김동훈 지음,민음사,2021,9788937444319,,,,,1,0,2021-03-19
1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,2021,9791190123969,,,,,1,0,2021-03-19
2,3,나도 한 문장 잘 쓰면 바랄 게 없겠네,김선영 지음,블랙피쉬,2021,9788968332982,,,,,1,0,2021-03-19
3,4,예루살렘 해변,"이도 게펜 지음, 임재희 옮김",문학세계사,2021,9788970759906,,,,,1,0,2021-03-19
4,5,김성곤의 중국한시기행 : 장강·황하 편,김성곤 지음,김영사,2021,9788934990833,,,,,1,0,2021-03-19


**다음 작업을 위해 ns_book6 데이터프레임 저장하기**

In [47]:
ns_book6.to_csv('ns_book6.csv', index=False)

# **데이터를 이해하고 올바르게 정제하기**

**일괄 처리 함수**

In [65]:
def data_fixing(ns_book4):


  """
  잘못된 값을 수정하거나 NaN을 채우는 함수
  : param ns_book4: data_cleaning() 함수에서 전처리된 데이터프레임
  """
  # 도서권수와 대출건수를 int32로 바꾸기
  ns_book4 = ns_book4.astype({'도서권수':'int32', '대출건수': 'int32'})
  # NaN인 세트 ISBN을 빈 문자열로 바꾸기
  set_isbn_na_rows = ns_book4['세트 ISBN'].isna()
  ns_book4.loc[set_isbn_na_rows, '세트 ISBN'] = ''
  # 발행년도 열에서 연도 네 자리를 추출하여 대체하고, 나머지 발행년도는 -1로 바꾸기
  ns_book5 = ns_book4.replace({'저자': {r'(.*)\s\(지은이\)(.*)\s\(옮긴이\)': r'\1\2'}, '발행년도': {r'\d{2}(\d{2})': r'\1'}}, regex=True)
  unknown_year = ns_book5['발행년도'].str.contains('\D', na=True)
  ns_book5.loc[unknown_year, '발행년도'] = '-1'
  # 발행년도를 int32로 바꾸기
  ns_book5 = ns_book5.astype({'발행년도': 'int32'})
  # 4000년 이상인 경우 2333년 빼기
  dangun_yy_rows = ns_book5['발행년도'].gt(4000)
  ns_book5.loc[dangun_yy_rows, '발행년도'] = ns_book5.loc[dangun_yy_rows, '발행년도'] - 2333
  # 여전히 4000년 이상인 경우 -1로 바꾸기
  dangun_year = ns_book5['발행년도'].gt(4000)
  ns_book5.loc[dangun_year, '발행년도'] = -1
  # 0~1900년 사이의 발행년도는 -1로 바꾸기
  old_books = ns_book5['발행년도'].gt(0) & ns_book5['발행년도'].lt(1900)
  ns_book5.loc[old_books, '발행년도'] = -1
  # 도서명, 저자, 출판사가 NaN이거나 발행년도가 -1인 행 찾기
  na_rows = ns_book5['도서명'].isna() | ns_book5['저자'].isna() | ns_book5['출판사'].isna() | ns_book5['발행년도'].eq(-1)
  # Yes24 도서 상세 페이지에서 누락된 정보 채우기
  updated_sample = ns_book5[na_rows].head(2).apply(get_book_info, axis=1, result_type='expand')
  updated_sample.columns = ['도서명', '저자', '출판사', '발행년도']
  ns_book5.update(updated_sample)
  # 도서명, 저자, 출판사가 NaN이거나 발행년도가 -1인 행 삭제
  ns_book6 = ns_book5.dropna(subset=['도서명', '저자', '출판사'])
  ns_book6 = ns_book6[ns_book6['발행년도'] != -1]


  return ns_book6

**이 함수가 제대로 동작하는지 확인해 보기**

In [67]:
data_fixing(ns_book4).head()

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
0,1,인공지능과 흙,김동훈 지음,민음사,2021,9788937444319,,,,,1,0,2021-03-19
1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,2021,9791190123969,,,,,1,0,2021-03-19
2644,2690,모르는 것을 모르는 어리석음,이덕근 지음,삼신각,0,9788970021256,,0.0,,814.6,1,1,2021-02-06
2720,2766,사막을 나는 물고기,김영철 지음,현대미학사,0,9788977271562,,9.0,,811.6,1,1,2021-01-31
2721,2767,꽃과 운명,김영환 지음,푸른숲,0,9788971842881,,0.0,,811.6,2,1,2021-01-31
