## pandas 그룹연산

데이터를 그룹별로 파악해야 할 경우가 많이 있다. 예를 들어, 어떤 수업에서 남성과 여성간의 학점차이를 살펴보고 싶다면, 성별에 따라 데이터를 분리하여, 각각 평균과 표준편차를 구하여 두 집단 사이의 유의미한 차이점이 있는지 확인하면 될 것이다. 만약 데이터에 속한 집단의 수가 많아진다면, 이러한 그룹별 연산을 수작업으로 하는것은 매우 귀찮을 일이 될 것이다. pandas에서는 데이터프레임 객체에 속한 groupby라는 메서드를 이용하여 그룹별 데이터 분석을 수행할 수 있다. 


In [3]:
#import the pandas library
import pandas as pd

ipl_data = {'Team': ['Riders', 'Riders', 'Devils', 'Devils', 'Kings',
   'kings', 'Kings', 'Kings', 'Riders', 'Royals', 'Royals', 'Riders'],
   'Rank': [1, 2, 2, 3, 3,4 ,1 ,1,2 , 4,1,2],
   'Year': [2014,2015,2014,2015,2014,2015,2016,2017,2016,2014,2015,2017],
   'Points':[876,789,863,673,741,812,756,788,694,701,804,690]}
df = pd.DataFrame(ipl_data)

df

Unnamed: 0,Team,Rank,Year,Points
0,Riders,1,2014,876
1,Riders,2,2015,789
2,Devils,2,2014,863
3,Devils,3,2015,673
4,Kings,3,2014,741
5,kings,4,2015,812
6,Kings,1,2016,756
7,Kings,1,2017,788
8,Riders,2,2016,694
9,Royals,4,2014,701


### 그룹으로 묶기

In [4]:
# 팀별로 데이터프레임을 묶고싶다.
df.groupby('Team') #출력시 특별한 결과를 출력하진 않는다.

<pandas.core.groupby.groupby.DataFrameGroupBy object at 0x000001EEF8419198>

### 그룹 살펴보기

In [7]:
df_grouped=df.groupby('Team')
df_grouped.groups # df.groupby('Team').groups

{'Devils': Int64Index([2, 3], dtype='int64'),
 'Kings': Int64Index([4, 6, 7], dtype='int64'),
 'Riders': Int64Index([0, 1, 8, 11], dtype='int64'),
 'Royals': Int64Index([9, 10], dtype='int64'),
 'kings': Int64Index([5], dtype='int64')}

### 여러개의 기준으로 그룹 묶기

In [9]:
df.groupby(['Team','Year']).groups

{('Devils', 2014): Int64Index([2], dtype='int64'),
 ('Devils', 2015): Int64Index([3], dtype='int64'),
 ('Kings', 2014): Int64Index([4], dtype='int64'),
 ('Kings', 2016): Int64Index([6], dtype='int64'),
 ('Kings', 2017): Int64Index([7], dtype='int64'),
 ('Riders', 2014): Int64Index([0], dtype='int64'),
 ('Riders', 2015): Int64Index([1], dtype='int64'),
 ('Riders', 2016): Int64Index([8], dtype='int64'),
 ('Riders', 2017): Int64Index([11], dtype='int64'),
 ('Royals', 2014): Int64Index([9], dtype='int64'),
 ('Royals', 2015): Int64Index([10], dtype='int64'),
 ('kings', 2015): Int64Index([5], dtype='int64')}

### 그룹 순회하기

In [11]:
for i in df.groupby('Year'):
    print(i)

(2014,      Team  Rank  Year  Points
0  Riders     1  2014     876
2  Devils     2  2014     863
4   Kings     3  2014     741
9  Royals     4  2014     701)
(2015,       Team  Rank  Year  Points
1   Riders     2  2015     789
3   Devils     3  2015     673
5    kings     4  2015     812
10  Royals     1  2015     804)
(2016,      Team  Rank  Year  Points
6   Kings     1  2016     756
8  Riders     2  2016     694)
(2017,       Team  Rank  Year  Points
7    Kings     1  2017     788
11  Riders     2  2017     690)


In [17]:
x=[(1,2),(1,3),(2,4)]
for i,j in x:
    print(i)
    print(j)

1
2
1
3
2
4


In [15]:
for name, group in df.groupby('Year'):
    print(name)

2014
2015
2016
2017


In [14]:
for name, group in df.groupby('Year'):
    print(name)
    print(group)

2014
     Team  Rank  Year  Points
0  Riders     1  2014     876
2  Devils     2  2014     863
4   Kings     3  2014     741
9  Royals     4  2014     701
2015
      Team  Rank  Year  Points
1   Riders     2  2015     789
3   Devils     3  2015     673
5    kings     4  2015     812
10  Royals     1  2015     804
2016
     Team  Rank  Year  Points
6   Kings     1  2016     756
8  Riders     2  2016     694
2017
      Team  Rank  Year  Points
7    Kings     1  2017     788
11  Riders     2  2017     690


### 그룹 선택하기

In [18]:
df.groupby('Year').get_group(2014)

Unnamed: 0,Team,Rank,Year,Points
0,Riders,1,2014,876
2,Devils,2,2014,863
4,Kings,3,2014,741
9,Royals,4,2014,701


### 그룹별 연산: Aggregation
이전 예제에서 Aggregation은 다수의 데이터로부터 요약된 하나의 값을 계산하는데 사용하였다. 마찬가지로 groupby와 함께 aggregation을 쓰면, 그룹단위로 요약된 하나의 값을 계산한다. 예를들면 다음과 같다:
    - 그룹의 평균, 표준편차
    - 그룹의 크기, 갯수

In [21]:
import numpy as np
df.groupby('Year').agg(np.mean)

Unnamed: 0_level_0,Rank,Points
Year,Unnamed: 1_level_1,Unnamed: 2_level_1
2014,2.5,795.25
2015,2.5,769.5
2016,1.5,725.0
2017,1.5,739.0


In [22]:
df.groupby('Team').agg(np.size)

Unnamed: 0_level_0,Rank,Year,Points
Team,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Devils,2,2,2
Kings,3,3,3
Riders,4,4,4
Royals,2,2,2
kings,1,1,1


In [26]:
df.groupby('Team')['Points'].agg(np.size)

Team
Devils    2
Kings     3
Riders    4
Royals    2
kings     1
Name: Points, dtype: int64

In [27]:
df.groupby('Team')['Points'].agg([np.size,np.mean,np.std])

Unnamed: 0_level_0,size,mean,std
Team,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Devils,2,768.0,134.350288
Kings,3,761.666667,24.006943
Riders,4,762.25,88.567771
Royals,2,752.5,72.831998
kings,1,812.0,


### 그룹단위연산: Transform
aggregation과 달리 원래 데이터프레임을 유지한다. 그룹별 대표갑을 계산하고, 그룹에 속한 모든 데이터가 동일한 대표값을 갖도록 계산한다. 

In [31]:
df.groupby('Team').transform(np.mean)

Unnamed: 0,Rank,Year,Points
0,1.75,2015.5,762.25
1,1.75,2015.5,762.25
2,2.5,2014.5,768.0
3,2.5,2014.5,768.0
4,1.666667,2015.666667,761.666667
5,4.0,2015.0,812.0
6,1.666667,2015.666667,761.666667
7,1.666667,2015.666667,761.666667
8,1.75,2015.5,762.25
9,2.5,2014.5,752.5


In [28]:
def standardize(x):
    return (x-np.mean(x))/x.std()

In [32]:
df.groupby('Team').transform(standardize)

Unnamed: 0,Rank,Year,Points
0,-1.5,-1.161895,1.284327
1,0.5,-0.387298,0.302029
2,-0.707107,-0.707107,0.707107
3,0.707107,0.707107,-0.707107
4,1.154701,-1.091089,-0.860862
5,,,
6,-0.57735,0.218218,-0.236043
7,-0.57735,0.872872,1.096905
8,0.5,0.387298,-0.770596
9,0.707107,-0.707107,-0.707107
