# 통계로 요약하기


## 기술통계 구하기

In [1]:
import gdown
gdown.download('http://bit.ly/3736JW1', 'ns_book6.csv', quiet=False)

Downloading...
From: http://bit.ly/3736JW1
To: /content/ns_book6.csv
100%|██████████| 55.0M/55.0M [00:02<00:00, 23.9MB/s]


'ns_book6.csv'

In [2]:
import pandas as pd
ns_book6 = pd.read_csv('ns_book6.csv', low_memory=False)
ns_book6.head()

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
0,1,인공지능과 흙,김동훈 지음,민음사,2021.0,9788937444319,,,,,1,0,2021-03-19
1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,2021.0,9791190123969,,,,,1,0,2021-03-19
2,3,나도 한 문장 잘 쓰면 바랄 게 없겠네,김선영 지음,블랙피쉬,2021.0,9788968332982,,,,,1,0,2021-03-19
3,4,예루살렘 해변,"이도 게펜 지음, 임재희 옮김",문학세계사,2021.0,9788970759906,,,,,1,0,2021-03-19
4,5,김성곤의 중국한시기행 : 장강·황하 편,김성곤 지음,김영사,2021.0,9788934990833,,,,,1,0,2021-03-19


In [3]:
ns_book6.describe()

Unnamed: 0,번호,발행년도,도서권수,대출건수
count,379976.0,379976.0,379976.0,379976.0
mean,201726.332847,2008.516306,1.135874,11.504629
std,115836.454596,8.780529,0.483343,19.241926
min,1.0,1947.0,0.0,0.0
25%,102202.75,2003.0,1.0,2.0
50%,203179.5,2009.0,1.0,6.0
75%,301630.25,2015.0,1.0,14.0
max,401681.0,2650.0,40.0,1765.0


In [4]:
sum(ns_book6['도서권수']==0)

3206

3천개가 넘는 도서권수가 0이다. 1%도 안되는 양이기 때문에 무시해도 되지만 꽤 많다면 제외할 지 말지 판단해야한다.

In [5]:
ns_book7 = ns_book6[ns_book6['도서권수']>0]

In [6]:
ns_book7.describe(percentiles=[0.3, 0.6, 0.9])

Unnamed: 0,번호,발행년도,도서권수,대출건수
count,376770.0,376770.0,376770.0,376770.0
mean,202977.476649,2008.460076,1.14554,11.593439
std,115298.245784,8.773148,0.473853,19.279409
min,1.0,1947.0,1.0,0.0
30%,124649.7,2004.0,1.0,2.0
50%,204550.5,2009.0,1.0,6.0
60%,243537.4,2011.0,1.0,8.0
90%,361341.1,2018.0,2.0,28.0
max,401681.0,2650.0,40.0,1765.0


In [7]:
# obj 타입의 열통계
ns_book7.describe(include='object')

Unnamed: 0,도서명,저자,출판사,ISBN,세트 ISBN,부가기호,권,주제분류번호,등록일자
count,376770,376770,376770,376770,55866,308252,61793,359792.0,376770
unique,336408,248850,21875,350810,14875,17,834,12467.0,4562
top,승정원일기,세종대왕기념사업회 [편],문학동네,9788937430299,9788937460005,0,1,813.6,1970-01-01
freq,250,303,4410,206,702,158235,13282,14816.0,28185


- count: 누락된 값을 제외한 데이터 개수
- unique: 고유한 값의 개수
- top: 가장 많이 등장하는 값
- freq: top 행에 등장하는 항목의 빈도수


In [8]:
ns_book7['대출건수'].mean()

11.593438968070707

In [9]:
ns_book7['대출건수'].median()

6.0

In [10]:
# 중복값 제거하고 중앙값 구하기
ns_book7['대출건수'].drop_duplicates().median()

183.0

중복된 값을 제거하니 중앙값이 엄청 높아짐
-> 작은 대출건수에 중복된 값이 많다.

In [11]:
ns_book7['대출건수'].min()

0

In [12]:
ns_book7['대출건수'].max()

1765

In [13]:
ns_book7['대출건수'].quantile(0.25)

2.0

In [14]:
ns_book7['대출건수'].quantile([0.25, 0.5, 0.75])

0.25     2.0
0.50     6.0
0.75    14.0
Name: 대출건수, dtype: float64

In [15]:
# 백분위 구하기
borrow_10_flag = ns_book7['대출건수'] < 10

In [16]:
borrow_10_flag.mean() # 10보다 작은 값이 차지하는 비율

0.6402712530190833

불리언 자료를 산술 연산하면 True는 1, False는 0으로 취급한다.

In [17]:
ns_book7['대출건수'].quantile(0.65)

10.0

In [18]:
# 분산
ns_book7['대출건수'].var()

371.69563042906674

In [19]:
# 표준편차
ns_book7['대출건수'].std()

19.279409493785508

In [21]:
# 최빈값
ns_book7['도서명'].mode()

0    승정원일기
Name: 도서명, dtype: object

In [22]:
ns_book7['발행년도'].mode()

0    2012.0
Name: 발행년도, dtype: float64

In [23]:
ns_book7.mean(numeric_only=True)

번호      202977.476649
발행년도      2008.460076
도서권수         1.145540
대출건수        11.593439
dtype: float64

In [24]:
# 번호 열 제외하고 최빈값 찾기
ns_book7.loc[:,'도서명':].mode()

Unnamed: 0,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
0,승정원일기,세종대왕기념사업회 [편],문학동네,2012.0,9788937430299,9788937460005,0,1,813.6,1,0,1970-01-01


In [25]:
ns_book7.to_csv('ns_book7.csv', index=False)