# Chapter 04 데이터 요약하기
1. 전체 데이터를 숫자로 요약하는 방법을 배우자.
2. 데이터 분포를 살펴보고 그래프를 통해 이해하는 방법을 알아보자. 

## 04-1 통계로 요약하기
- 기술통계: 자료의 내용을 압축해 설명하는 방법 (요약통계)
- 대표적인 통계량: 평균, 표준편차 -> 데이터 시각화를 아우르는 이런 데이터 방법을 탐색적 데이터 분석이라고 함

### 기술통계 구하기

In [1]:
# 03-2절에서 만든 ns_book6.csv 다운로드
import gdown
gdown.download('https://bit.ly/3736JW1', 'ns_book6.csv', quiet=False)

Downloading...
From: https://bit.ly/3736JW1
To: /Users/chae/Chaerim/data-analysis-study/ns_book6.csv
100%|██████████████████████████████████████| 55.0M/55.0M [00:01<00:00, 40.2MB/s]


'ns_book6.csv'

In [2]:
import pandas as pd
ns_book6 = pd.read_csv('ns_book6.csv', low_memory=False)
ns_book6.head()

Unnamed: 0,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
0,1,인공지능과 흙,김동훈 지음,민음사,2021.0,9788937444319,,,,,1,0,2021-03-19
1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,2021.0,9791190123969,,,,,1,0,2021-03-19
2,3,나도 한 문장 잘 쓰면 바랄 게 없겠네,김선영 지음,블랙피쉬,2021.0,9788968332982,,,,,1,0,2021-03-19
3,4,예루살렘 해변,"이도 게펜 지음, 임재희 옮김",문학세계사,2021.0,9788970759906,,,,,1,0,2021-03-19
4,5,김성곤의 중국한시기행 : 장강·황하 편,김성곤 지음,김영사,2021.0,9788934990833,,,,,1,0,2021-03-19


In [3]:
# pandas에서 수치형 열에 대한 기술통계 몇 가지 자동 추출
ns_book6.describe()

Unnamed: 0,번호,발행년도,도서권수,대출건수
count,379976.0,379976.0,379976.0,379976.0
mean,201726.332847,2008.516306,1.135874,11.504629
std,115836.454596,8.780529,0.483343,19.241926
min,1.0,1947.0,0.0,0.0
25%,102202.75,2003.0,1.0,2.0
50%,203179.5,2009.0,1.0,6.0
75%,301630.25,2015.0,1.0,14.0
max,401681.0,2650.0,40.0,1765.0


In [4]:
# 도서권수 열의값이 0인 개수의 행 세기
sum(ns_book6['도서권수']==0)

3206

In [5]:
# 전체 데이터 379,976개에 비하면 1%가 안되서 무시할만한 수치
# 제외할지 판단해야함 
ns_book7 = ns_book6[ns_book6['도서권수']>0]

In [6]:
ns_book7.describe(percentiles=[0.3, 0.6, 0.9])

Unnamed: 0,번호,발행년도,도서권수,대출건수
count,376770.0,376770.0,376770.0,376770.0
mean,202977.476649,2008.460076,1.14554,11.593439
std,115298.245784,8.773148,0.473853,19.279409
min,1.0,1947.0,1.0,0.0
30%,124649.7,2004.0,1.0,2.0
50%,204550.5,2009.0,1.0,6.0
60%,243537.4,2011.0,1.0,8.0
90%,361341.1,2018.0,2.0,28.0
max,401681.0,2650.0,40.0,1765.0


In [7]:
# 다른 데이터 타입의 열의 기술 통계
ns_book7.describe(include='object')

Unnamed: 0,도서명,저자,출판사,ISBN,세트 ISBN,부가기호,권,주제분류번호,등록일자
count,376770,376770,376770,376770,55866,308252,61793,359792.0,376770
unique,336408,248850,21875,350810,14875,17,834,12467.0,4562
top,승정원일기,세종대왕기념사업회 [편],문학동네,9788937430299,9788937460005,0,1,813.6,1970-01-01
freq,250,303,4410,206,702,158235,13282,14816.0,28185


### 평균 구하기

In [8]:
x = [10, 20, 30]
sum = 0
for i in range(3):
    sum += x[i]
print(sum/len(x))

20.0


#### mean() method

In [9]:
# pandas 평균
ns_book7['대출건수'].mean()

11.593438968070707

### 중앙값 구하기
#### median() method

In [10]:
# pandas 중앙값
ns_book7['대출건수'].median()

6.0

In [11]:
# 데이터가 짝수개면 가운데 두개의 평균이 중앙값
temp_df = pd.DataFrame([1,2,3,4])
temp_df.median()

0    2.5
dtype: float64

#### 중복값 제거하고 중앙값 구하기

In [12]:
ns_book7['대출건수'].drop_duplicates().median()

183.0

### 최솟값, 최댓값 구하기

In [13]:
ns_book7['대출건수'].min()

0

In [14]:
ns_book7['대출건수'].max()

1765

### 분위수 구하기
- 분위수는 데이터를 순서대로 늘어 놓았을 때 이를 균등한 간격으로 나누는 기준
- 이분위수는 두 구간으로 나누기에 중앙값에 해당 
- 많이 사용하는 사분위수는 25%, 50%, 75%에 해당

#### quantile() method

In [15]:
ns_book7['대출건수'].quantile(0.25)

2.0

In [16]:
ns_book7['대출건수'].quantile([0.25, 0.5, 0.75])

0.25     2.0
0.50     6.0
0.75    14.0
Name: 대출건수, dtype: float64

In [17]:
pd.Series([1,2,3,4,5]).quantile(0.9) # series 객체 정의한 후 분위수 구하기

4.6

In [18]:
# 두 지점 사이에 놓인 특정위치의 값을 구하기: 보간
pd.Series([1,2,3,4,5]).quantile(0.9, interpolation='midpoint') # 중앙값

4.5

In [19]:
pd.Series([1,2,3,4,5]).quantile(0.9, interpolation='nearest') # 더 가까운 값 

5

#### 백분위 구하기

In [20]:
borrow_10_flag = ns_book7['대출건수'] < 10

In [21]:
borrow_10_flag.mean()

0.6402712530190833

In [22]:
# 10권 대출에 대한 백분위는 약 0.65
ns_book7['대출건수'].quantile(0.65)

10.0

### 분산 구하기
- 평균으로부터 데이터가 얼마나 퍼져있는지를 나타내는 통계량

#### var() method

In [23]:
ns_book7['대출건수'].var()

371.6956304306922

### 표준편차 구하기
- 분산에 제곱근을 한 것, s

#### std() method

In [24]:
ns_book7['대출건수'].std()

19.27940949382766

In [27]:
import numpy as np
diff = ns_book7['대출건수'] - ns_book7['대출건수'].mean()
np.sqrt(np.sum(diff**2)/(len(ns_book7)-1))

19.279409493785508

### 최빈값 구하기
- 데이터에서 가장 많이 등장하는 값

#### mode() method

In [29]:
ns_book7['도서명'].mode()

0    승정원일기
Name: 도서명, dtype: object

In [30]:
ns_book7['발행년도'].mode()

0    2012.0
Name: 발행년도, dtype: float64

### dataframe에서 기술통계 구하기
- 해당 열에만 적용되도록 numeric_only 매개변수를 True로 설정, 안하면 시간이 오랙 ㅓㄹ림

In [31]:
ns_book7.mean(numeric_only=True)

번호      202977.476649
발행년도      2008.460076
도서권수         1.145540
대출건수        11.593439
dtype: float64

In [32]:
ns_book7.loc[:, '도서명':].mode() # loc method로 도서명 열부터 마지막까지

Unnamed: 0,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자
0,승정원일기,세종대왕기념사업회 [편],문학동네,2012.0,9788937430299,9788937460005,0,1,813.6,1,0,1970-01-01


In [33]:
# 승정원일기는 문학동네 도서가 아님 ! 
ns_book7.to_csv('ns_book7.csv', index=False)

## Numpy의 기술통계 함수

### 평균 구하기

In [34]:
import numpy as np
np.mean(ns_book7['대출건수'])

11.593438968070707

In [36]:
# 가중평균
np.average(ns_book7['대출건수'], weights=1/ns_book7['도서권수'])

10.543612175385386

In [37]:
np.mean(ns_book7['대출건수']/ns_book7['도서권수'])

9.873029861445774

In [38]:
ns_book7['대출건수'].sum()/ns_book7['도서권수'].sum()

10.120503701300958

### 중앙값 구하기

In [39]:
np.median(ns_book7['대출건수'])

6.0

### 최대값, 최소값 구하기

In [40]:
np.min(ns_book7['대출건수'])

0

In [41]:
np.max(ns_book7['대출건수'])

1765

### 분위수 구하기

In [42]:
np.quantile(ns_book7['대출건수'], [0.25, 0.5, 0.75])

array([ 2.,  6., 14.])

### 분산 구하기

In [43]:
np.var(ns_book7['대출건수'])

371.694643898775

In [44]:
ns_book7['대출건수'].var() # pandas

371.6956304306922

### n-1 자유도
pandas는 n-1로 나눈다. 

In [45]:
ns_book7['대출건수'].var(ddof=0) # pandas

371.694643898775

In [47]:
np.var(ns_book7['대출건수'], ddof=1) # numpy

371.6956304306922

### 표준편차 구하기

In [48]:
np.std(ns_book7['대출건수'])

19.279383908693113

### 최빈값 구하기
numpy는 최빈값을 계산하는 함수를 제공하지 않으나
unique()를 통해 배열에서 고유한 값을 찾아, counts 매개변수를 True로 바꿔 등장 횟수도 반환하게 하자.

In [50]:
values, counts = np.unique(ns_book7['도서명'], return_counts=True)

In [51]:
max_idx = np.argmax(counts) # argmax() : 가장 큰 값 인덱스 찾기

In [52]:
values[max_idx]

'승정원일기'