## CH03-07 통계량 산출

Series나 DataFrame에는 일반적인 수학적, 통계적인 계산을 수행하는 메서드를 사용할 수 있다. 
그 예로 다음 코드에서 DataFrame에 대해 열별 편균값을 산출한다. 

In [1]:
import pandas as pd
anime_master_csv = './anime/anime_master.csv'
df =pd.read_csv(anime_master_csv)
df.mean()

anime_id    14055.982035
episodes       13.939156
rating          6.507956
members     18924.950769
dtype: float64

Series에서도 같은 메서드를 사용할 수 있다. 

In [2]:
df['members'].sum()

190668879

- 통계적인 메서드의 예

메서드   |설명                   | 메서드    | 설명
-------|----------------------|----------|-------------------------
count  | 결손값을 제외하나 데이터 수 | var      | 분산
sum    | 합계값                 | skew     | 왜도[skewness]
mean   | 평균값                 | kurt     | 첨도[kurtosis]
median | 중앙값                 | quantile | 사분위수[percentile]
min    | 최솟값                 | cov      | 공부산[covariance]
max    | 최댓값                 | corr     | 상관[correlation]
std    | 표준편차

### 기본 통계량 산출하기
describe() 메서드를 사용하여 기본 통계량을 산출할 수 있다. 다음 코드는 round()를 실행해서 소수 두 번째 자리를 반올림하고 있다. 

In [3]:
df.describe().round(1)

Unnamed: 0,anime_id,episodes,rating,members
count,10075.0,10075.0,10075.0,10075.0
mean,14056.0,13.9,6.5,18925.0
std,11294.9,50.8,1.1,57117.5
min,1.0,1.0,1.7,12.0
25%,3431.0,1.0,5.9,177.0
50%,10526.0,1.0,6.6,1227.0
75%,24438.0,13.0,7.3,10254.0
max,34519.0,1818.0,10.0,1013917.0


백분위수 값을 변경할 경우에는 키워드 인수 percentiles 의 리스트 요소에 1 개 이상의 소수 값을 지정한다. 

In [4]:
df.describe(percentiles=[0.1, 0.9]).round(2)

Unnamed: 0,anime_id,episodes,rating,members
count,10075.0,10075.0,10075.0,10075.0
mean,14055.98,13.94,6.51,18924.95
std,11294.94,50.82,1.06,57117.51
min,1.0,1.0,1.67,12.0
10%,1259.4,1.0,5.07,74.0
50%,10526.0,1.0,6.61,1227.0
90%,31190.0,37.0,7.76,47587.6
max,34519.0,1818.0,10.0,1013917.0


DataFrame에 대해서 통계적인 연산을 하는 메서드를 실행한 경우에는 수치형의 열이 대상이 된다. 
비수치열에 대해 describe() 메서드를 사용한 경우에는 다음과 같은 기본 통계량이 산출된다. 
- count: 결손값을 제외한 데이터 수
- unique: 유니크한 데이터 수
- top: 데이터 수가 가장 많은 값
- freq : top의 데이터 수

In [5]:
df[['genre', 'type']].describe()

Unnamed: 0,genre,type
count,10075,10075
unique,2735,6
top,Comedy,TV
freq,500,3330


## 03-08 크로스 집계

### groupby() 메서드로 집약하기

groupby()메서드를 사용해서 DataFrame을 집약한다. 지정된 열에서 집약된 오브젝트 DataFrameGroupBy 를 되돌려 준다. 다음은 type열에서 집약된 오브젝트를 작성하고 있다. 

In [6]:
import pandas as pd
import numpy as np

anime_master_csv = './anime/anime_master.csv'
df =pd.read_csv(anime_master_csv)

grouped = df.groupby('type')
type(grouped)
print(grouped.mean().round(2))

# 집약된 데이터의 기본 통계량
print(grouped.describe().round(2).head(16))

         anime_id  episodes  rating   members
type                                         
Movie    14322.48      1.10    6.33  10654.02
Music    22495.11      1.13    5.58   1273.03
ONA      22738.00      6.78    5.63   4401.82
OVA      12207.69      2.55    6.48   6849.53
Special  16802.34      2.50    6.53   7424.63
TV       10929.55     37.46    6.93  41832.31
        anime_id                                                         \
           count      mean       std    min       25%      50%      75%   
type                                                                      
Movie     2220.0  14322.48  10925.72    5.0   4396.75  10677.5  24071.5   
Music      485.0  22495.11  10175.01  731.0  12101.00  24903.0  31925.0   
ONA        591.0  22738.00  10346.00  574.0  13467.00  25241.0  32287.5   
OVA       1932.0  12207.69  10718.69   44.0   2297.25   8965.5  22459.5   
Special   1517.0  16802.34  10838.83  191.0   6877.00  15815.0  27821.0   
TV        3330.0  10929.55  1064

복수의 요소로 집약하는 경우, groupby()메서드 인수에 리스트를 넘겨준다. 다음 코드에서는 type 열과 episodes열에 기초한 데이터를 집약해서 평균을 구하고 있다. 

In [7]:
df.groupby(['type', 'episodes']).mean().round(2).head(20)

Unnamed: 0_level_0,Unnamed: 1_level_0,anime_id,rating,members
type,episodes,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Movie,1,14320.01,6.33,10588.56
Movie,2,13802.0,6.93,6638.88
Movie,3,11339.29,6.66,53598.14
Movie,4,15723.5,7.26,3566.5
Movie,5,12558.33,6.06,3641.0
Movie,6,8433.5,5.98,178.5
Movie,7,13602.5,6.94,11989.5
Movie,9,8928.0,6.22,267.0
Movie,10,31020.0,6.86,57.0
Movie,12,20908.0,5.45,790.67


### pivot_table 메서드로 집약하기
gourpby() 메서드와 같은 처리를 pivot_table() 메서드에서도 실시할 수 있다. 키워드 인수 index에 집약 대상의 열이름, aggfunc에 집계한 함수를 지정한다. 

In [8]:
df.pivot_table(index='type', aggfunc=np.mean)

Unnamed: 0_level_0,anime_id,episodes,members,rating
type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Movie,14322.477928,1.100901,10654.022072,6.328599
Music,22495.11134,1.125773,1273.028866,5.583918
ONA,22738.0,6.778342,4401.822335,5.629628
OVA,12207.692547,2.549689,6849.526398,6.475217
Special,16802.341463,2.495715,7424.628873,6.525577
TV,10929.554655,37.456156,41832.314414,6.928961


- pivot_table 메서드에 의한 복수열의 평균값

In [9]:
df.pivot_table(index=['type', 'episodes'], aggfunc=np.mean).head(16)

Unnamed: 0_level_0,Unnamed: 1_level_0,anime_id,members,rating
type,episodes,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Movie,1,14320.010507,10588.556418,6.325464
Movie,2,13802.0,6638.875,6.93
Movie,3,11339.285714,53598.142857,6.661429
Movie,4,15723.5,3566.5,7.26
Movie,5,12558.333333,3641.0,6.063333
Movie,6,8433.5,178.5,5.98
Movie,7,13602.5,11989.5,6.94
Movie,9,8928.0,267.0,6.22
Movie,10,31020.0,57.0,6.86
Movie,12,20908.0,790.666667,5.45


### 크로스 집계하기 
지금까지는 주로 type열에 대해 집계했다. 여기서부터는 type열과 genre열 두 항목에 대한 크로스 집계를 한다. 
먼저 다음의 전처리를 실시한다. 
- (1) 콤마로 항목이 분리되어 있는 열에서 각 항목의 유일값 추출
- (2) 원본 DataFrame에서 (1)의 데이터를 추출
- (3) (2)를 결합

다음 코드는 콤마로 항목이 분리되어 있는 csv열에서 각 항목의 유일값을 추출한다. 

In [10]:
# genres 열의 콤마 단락 데이터를 분할
genres = df['genre'].map(lambda x: x.split(','))
print(genres.head())
# numpy.array로 해서 2차원으로부터 1차원의 데이터로 변환
# print(genres.values)
ser = pd.Series(np.hstack(genres.values))
# print(ser.head(20))
# 유니크로 하기
unique_genres = ser.str.strip().unique()
# print(ser.str.strip().unique())
unique_genres.sort()
print(unique_genres)

0            [Drama,  Romance,  School,  Supernatural]
1    [Action,  Adventure,  Drama,  Fantasy,  Magic,...
2    [Action,  Comedy,  Historical,  Parody,  Samur...
3                                  [Sci-Fi,  Thriller]
4    [Action,  Comedy,  Historical,  Parody,  Samur...
Name: genre, dtype: object
['Action' 'Adventure' 'Cars' 'Comedy' 'Dementia' 'Demons' 'Drama'
 'Fantasy' 'Game' 'Harem' 'Historical' 'Horror' 'Josei' 'Kids' 'Magic'
 'Martial Arts' 'Mecha' 'Military' 'Music' 'Mystery' 'Parody' 'Police'
 'Psychological' 'Romance' 'Samurai' 'School' 'Sci-Fi' 'Seinen' 'Shoujo'
 'Shoujo Ai' 'Shounen' 'Shounen Ai' 'Slice of Life' 'Space' 'Sports'
 'Super Power' 'Supernatural' 'Thriller' 'Vampire']


- genre 별 DataFrame을 결합하는 전처리

In [11]:
# 지정한 장르명을 DataFrame에서 추출
def filter_df_by_genre(df, genre):
    genre_df = df.loc[df['genre'].map(lambda x: genre in x)].copy()
    genre_df['genre'] = genre
    return genre_df

# 위의 함수를 전부 장르에 대해서 실행
genre_df_list = [filter_df_by_genre(df, genre) for genre in unique_genres]

# 위의 data를 결합

df2 = pd.concat(genre_df_list)

# name 열로 소트
df2.sort_values('name', inplace=True)

# 멤버 수가 많은 장르 톱10
top10 = df2.groupby('genre')['members'].sum().sort_values(ascending=False).index[:10]

# top10 에서 데이터를 추출
df2 = df2[df2['genre'].isin(top10)]

df2.loc[df2['name']=='Kimi no Na wa.']

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
0,32281,Kimi no Na wa.,Supernatural,Movie,1,9.37,200630
0,32281,Kimi no Na wa.,Drama,Movie,1,9.37,200630
0,32281,Kimi no Na wa.,Romance,Movie,1,9.37,200630
0,32281,Kimi no Na wa.,School,Movie,1,9.37,200630


In [12]:
df2.pivot_table(index='genre', columns='type', values=['members'], aggfunc=np.sum).head()

Unnamed: 0_level_0,members,members,members,members,members,members
type,Movie,Music,ONA,OVA,Special,TV
genre,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Action,10224960.0,77054.0,524907.0,5793680.0,3412689.0,63364032.0
Adventure,9485223.0,42829.0,70431.0,2373765.0,2052024.0,27529975.0
Comedy,7293127.0,20860.0,1477266.0,5614758.0,6659293.0,65420862.0
Drama,9034099.0,100734.0,188427.0,3043374.0,1915578.0,41011557.0
Fantasy,8019406.0,43962.0,188937.0,2754224.0,2504131.0,34932563.0
