In [1]:
import gdown
import pandas as pd

# 아래 두개의 값 입력 (로컬 컴퓨터 환경에서 실행은 url 비워둘 것)
filename = 'pt_book_fix.csv'  # 예제에서 사용할 filename 입력
url = ''    # 여기에 본인이 가진 링크의 난수 입력

if url != '' :
    gdown.download(f'https://drive.google.com/uc?id={url}', filename, quiet=False)
    dir = ''
else :
    dir = '../_csv/'  # 로컬 컴퓨터 환경에서 사용할 dir (예제는 _csv)

pt_book = pd.read_csv(f'{dir}{filename}', index_col=0, low_memory=False)
pt_book.head()

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
0,1,세이노의 가르침,세이노 지음,데이원,2023,9791170000000.0,,0,,199.1,1,0,2023-03-30
1,2,서울대생의 비밀과외,"소린TV,안소린 [공]지음",다산에듀,2023,9791130000000.0,,1,,373.7,1,0,2023-03-30
2,3,(현직 고등학교 선생님들이 직접 고른) 생기부 필독서 100,주경아 외 지음,센시오,2023,9791170000000.0,,1,,376.6,1,0,2023-03-30
3,4,당연하게도 나는 너를,이꽃님 지음,우리학교,2023,9791170000000.0,,4,,813.7,1,0,2023-03-30
4,5,고요한 우연,김수빈 지음,문학동네,2023,9788950000000.0,,0,,813.7,1,0,2023-03-30


## 요약 통계

In [2]:
pt_book.describe()     # 기술통계 요약

Unnamed: 0,번호,발행년도,세트 ISBN,도서권수,대출건수
count,207142.0,207142.0,15989.0,207142.0,207142.0
mean,112296.234612,2008.155975,9786803000000.0,1.027995,12.922053
std,65441.38611,9.824295,146537000000.0,0.194382,21.408999
min,1.0,0.0,89849800000.0,1.0,0.0
25%,55494.25,2003.0,9788950000000.0,1.0,2.0
50%,113103.5,2008.0,9788960000000.0,1.0,6.0
75%,169108.75,2013.0,9788990000000.0,1.0,15.0
max,227834.0,3012.0,9791200000000.0,13.0,1428.0


**count** : 누락된 값을 제외한 데이터 개수   
**mean** : 평균   
**std** : 표준편차   
**min** : 최솟값   
**50%** : 중앙값   
**25%와 75%** : 순서대로 늘어 놓았을 때 25% 지점과 75% 지점에 놓인 값   
**max** : 최댓값   

In [3]:
pt_book.describe(percentiles=[0.3, 0.6, 0.9])   # 특정 퍼센티지

Unnamed: 0,번호,발행년도,세트 ISBN,도서권수,대출건수
count,207142.0,207142.0,15989.0,207142.0,207142.0
mean,112296.234612,2008.155975,9786803000000.0,1.027995,12.922053
std,65441.38611,9.824295,146537000000.0,0.194382,21.408999
min,1.0,0.0,89849800000.0,1.0,0.0
30%,66360.3,2004.0,9788950000000.0,1.0,3.0
50%,113103.5,2008.0,9788960000000.0,1.0,6.0
60%,135566.6,2010.0,9788970000000.0,1.0,9.0
90%,202784.9,2019.0,9789000000000.0,1.0,33.0
max,227834.0,3012.0,9791200000000.0,13.0,1428.0


In [4]:
pt_book.describe(include='object')

Unnamed: 0,도서명,저자,출판사,ISBN,부가기호,권,주제분류번호,등록일자
count,207142,207142,207142,207142.0,158938,49819,206211.0,207142
unique,180465,139952,13468,244.0,15,662,8131.0,4504
top,(KBS)역사스페셜,편집부 편,웅진씽크빅,9788990000000.0,0,1,813.6,1998-07-11
freq,100,253,3056,38875.0,74017,7929,9583.0,3641


## 계산 함수

In [5]:
loan_mean = pt_book['대출건수'].mean()
loan_median = pt_book['대출건수'].median()
print(loan_mean, loan_median)

12.922053470566086 6.0


In [6]:
pt_book['대출건수'].drop_duplicates().median()  # 중복값 제거

161.5

In [7]:
loan_min = pt_book['대출건수'].min()
loan_max = pt_book['대출건수'].max()
print(loan_min, loan_max)

0 1428


In [8]:
pt_book['대출건수'].quantile(0.25)  # 분위값 (하위 25%)
pt_book['대출건수'].quantile([0.25,0.5,0.75])
# quantile은 보간을 하기때문에 두사이 지점의 특정위치의 값을 구함 (interpolation ='midpoint', 'nearest')

0.25     2.0
0.50     6.0
0.75    15.0
Name: 대출건수, dtype: float64

In [9]:
borrow_10_flag = pt_book['대출건수'] < 10   # 백분위, 10보다 작은 리스트
borrow_10_flag.mean()  # 리스트의 평균 (비율)

0.6263384538142917

## 통계 함수

In [10]:
pt_book['대출건수'].var()   # 분산

458.34524056239843

In [11]:
pt_book['대출건수'].std()   # 표준편차

21.408999055593384

In [12]:
pt_book['도서명'].mode()    # 최빈값 (가장 많이 등장하는 값)

0    (KBS)역사스페셜
Name: 도서명, dtype: object

In [13]:
pt_book.mean(numeric_only=True)     # 수치형 열만 연산

번호         1.122962e+05
발행년도       2.008156e+03
세트 ISBN    9.786803e+12
도서권수       1.027995e+00
대출건수       1.292205e+01
dtype: float64

In [14]:
pt_book.loc[:, '도서명':].mode()

Unnamed: 0,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
0,(KBS)역사스페셜,편집부 편,웅진씽크빅,2003,9788990000000.0,9788960000000.0,0,1,813.6,1,0,1998-07-11
