## 통계량 산출
Series나 DataFrame에는 일반적인 수학적, 통계적인 계산을 실행하는 함수들을 사용할 수 있습니다. DataFrame에 대해 열별 평균값을 산출 해보겠습니다.

In [1]:
import pandas as pd

anime_master_csv = './sample-data/anime/anime_master.csv'
df = pd.read_csv(anime_master_csv)

df.mean()

anime_id    14055.982035
episodes       13.939156
rating          6.507956
members     18924.950769
dtype: float64

Series에서도 같은 함수를 사용할 수 있습니다.

In [2]:
df['members'].sum()

190668879

합계나 평균값 외에 여러 가지 통계적 함수를 사용할 수 있습니다. 상세한 내용은 https://pandas.pydata.org/pandas-docs/stable/reference/index.html 를 참고하시면 됩니다.

https://nittaku.tistory.com/113 여기는 통계적 함수 표 정리가 되어있음

### 기본 통계량 산출하기

describe()함수를 사용하여 기본 통계량을 산출할 수 있습니다. round()를 실행하면 소수 두 번째 자리까지 반올림할 수 있습니다. 퍼센트 표시는 백분위 값입니다. 전체를 100으로 작은 쪽부터 세어서 몇 번째가 되는지 나타내는 수치입니다. 50%는 중앙값을 의미합니다.

In [3]:
df.describe().round(1)

Unnamed: 0,anime_id,episodes,rating,members
count,10075.0,10075.0,10075.0,10075.0
mean,14056.0,13.9,6.5,18925.0
std,11294.9,50.8,1.1,57117.5
min,1.0,1.0,1.7,12.0
25%,3431.0,1.0,5.9,177.0
50%,10526.0,1.0,6.6,1227.0
75%,24438.0,13.0,7.3,10254.0
max,34519.0,1818.0,10.0,1013917.0


백분위수 값을 변경하는 경우에는 키워드 인수 percentiles의 리스트 요소에 1이상의 소수 값을 지정하면 됩니다. 리스트 안에서 2개의 값을 지정해보겠습니다. 3개 이상 지정하는 것도 가능합니다.

In [4]:
df.describe(percentiles=[0.1, 0.9]).round(1)

Unnamed: 0,anime_id,episodes,rating,members
count,10075.0,10075.0,10075.0,10075.0
mean,14056.0,13.9,6.5,18925.0
std,11294.9,50.8,1.1,57117.5
min,1.0,1.0,1.7,12.0
10%,1259.4,1.0,5.1,74.0
50%,10526.0,1.0,6.6,1227.0
90%,31190.0,37.0,7.8,47587.6
max,34519.0,1818.0,10.0,1013917.0


In [5]:
df.describe(percentiles=[0.1, 0.25, 0.75, 0.9]).round(1)

Unnamed: 0,anime_id,episodes,rating,members
count,10075.0,10075.0,10075.0,10075.0
mean,14056.0,13.9,6.5,18925.0
std,11294.9,50.8,1.1,57117.5
min,1.0,1.0,1.7,12.0
10%,1259.4,1.0,5.1,74.0
25%,3431.0,1.0,5.9,177.0
50%,10526.0,1.0,6.6,1227.0
75%,24438.0,13.0,7.3,10254.0
90%,31190.0,37.0,7.8,47587.6
max,34519.0,1818.0,10.0,1013917.0


DataFrame에 대해서 통계적인 연산을 하는 함수를 실행한 경우에는 수치형의 열이 대상이 됩니다. 비수치열에 대해 describe()함수를 사용한 경우에는 다음과 같은 기본 통계량이 산출됩니다.

* count : 결손값을 제외한 데이터 수
* unique : 유니크한 데이터 수
* top : 데이터 수가 가장 많은 값
* freq : top의 데이터 수

In [6]:
df[['genre', 'type']].describe()

Unnamed: 0,genre,type
count,10075,10075
unique,2735,6
top,Comedy,TV
freq,500,3330
