# 그룹으로 묶기

## groupby
간단한 집계를 넘어서서 조건부로 집계하고 싶은 경우

In [8]:
df = pd.DataFrame({'key': ['A','B','C','A','B','C'],
                  'data1': [1,2,3,1,2,3], 
                'data2':np.random.randint(0,6,6)})
print(df)
print(df.groupby('key').sum())
print(df.groupby(['key','data1']).sum())


  key  data1  data2
0   A      1      3
1   B      2      5
2   C      3      2
3   A      1      4
4   B      2      0
5   C      3      0
     data1  data2
key              
A        2      7
B        4      5
C        6      2
           data2
key data1       
A   1          7
B   2          5
C   3          2


## aggregate
groupby를 통해서 집계를 한번에 계산하는 방법

In [19]:
print(df.groupby('key').aggregate([min, np.median, 'max'])) # ''안에 넣어도되고 그냥 써도되고 numpy활용도 가능
print(df.groupby('key').aggregate({'data1': min, 'data2': sum}))

    data1            data2           
      min median max   min median max
key                                  
A       1    1.0   1     3    3.5   4
B       2    2.0   2     0    2.5   5
C       3    3.0   3     0    1.0   2
     data1  data2
key              
A        1      7
B        2      5
C        3      2


## filter
groupby를 통해서 그룹 속성을 기준으로 데이터 필터링

In [23]:
def filter_by_mean(x):
    return x['data2'].mean()>3
print(df.groupby('key').mean())
print(df.groupby('key').filter(filter_by_mean))

     data1  data2
key              
A      1.0    3.5
B      2.0    2.5
C      3.0    1.0
  key  data1  data2
0   A      1      3
3   A      1      4


## apply
groupby를 통해서 묶인 데이터에 함수 적용

In [26]:
df.groupby('key').apply(lambda x : x.max() -x.min())

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,0,1
B,0,5
C,0,2


## get_group
groupby로 묶인 데이터에서 key값으로 데이터를 가져올 수 있다.

```python
df.groupby("시도").get_group("충남")

```

# MultiIndex

인덱스를 계층으로 만들 수 있다

In [29]:
df = pd.DataFrame(
np.random.randn(4,2),
index=[['A','A','B','B'], [1,2,1,2]],
columns=['data1','data2'])
df

Unnamed: 0,Unnamed: 1,data1,data2
A,1,1.972367,-0.382492
A,2,1.420451,-0.089659
B,1,1.07053,-0.120309
B,2,-2.02007,-0.619692


열 인덱스도 계층적으로 만들 수 있다.

In [31]:
df= pd.DataFrame(
    np.random.randn(4, 4),
    columns=[["A", "A", "B", "B"], ["1", "2", "1", "2"]])
df

Unnamed: 0_level_0,A,A,B,B
Unnamed: 0_level_1,1,2,1,2
0,-0.554181,-0.181127,-0.999303,0.930327
1,0.99462,-0.881756,0.580017,-0.927154
2,-0.246537,0.988194,-0.192014,-0.071777
3,-1.437825,0.814913,0.193076,1.059731


다중 인덱스 컬럼의 경우 인덱싱은 계층적으로 한다.<br>
인덱스 탐색의 경우에는 loc, iloc 를 사용가능하다.

In [34]:
print(df["A"])
print()
print(df["A"]["1"])

          1         2
0 -0.554181 -0.181127
1  0.994620 -0.881756
2 -0.246537  0.988194
3 -1.437825  0.814913

0   -0.554181
1    0.994620
2   -0.246537
3   -1.437825
Name: 1, dtype: float64


# pivot_table

데이터에서 필요한 자료만 뽑아서 새롭게 요약, 분석 할 수 있는 기능 엑셀에서의 피봇 테이블과 같다.<br>

- Index : 행 인덱스로 들어갈 key
- Column : 열 인덱스로 라벨링될 값
- Value : 분석할 데이터

In [37]:
df = pd.DataFrame({'survived': [0,1,1,1,0],
                  'pclass' : [3,1,3,1,3],
                   'sex' : ['male','female','female','female','male'],
                   'age' : [22.0, 38.0, 26.0, 35.0, 35.0],
                   'sibsp' : [1,1,0,1,0],
                   'parch' : [0,0,0,0,0],
                   'fare' : [7.2500,71.2833,7.9250,53.100,8.0500],
                   'embarked' : ['S', 'C', 'S','S','S'],
                   'class' : ["Third","First","Third","First","Third"],
                   'who' : ['man','woman','woman','woman','man']
                  })
df

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who
0,0,3,male,22.0,1,0,7.25,S,Third,man
1,1,1,female,38.0,1,0,71.2833,C,First,woman
2,1,3,female,26.0,0,0,7.925,S,Third,woman
3,1,1,female,35.0,1,0,53.1,S,First,woman
4,0,3,male,35.0,0,0,8.05,S,Third,man


In [38]:
df.pivot_table(
    index='sex', columns='class', values='survived',
    aggfunc=np.mean)

class,First,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,1.0,1.0
male,,0.0


In [41]:

def main():
    df = pd.read_csv("./the_pied_piper_of_hamelin.csv")
    print(df.head())
    
    children = df[df["구분"] == "Child"]
    print(children.groupby("일차").mean())
    
    df2=children.pivot_table(index="일차", columns="성별", values="나이", aggfunc=np.mean)
    print(df2)
    
if __name__ == "__main__":
    main()


   일차   구분           이름  나이      성별
0   1  Rat       Stevne   3    Male
1   1  Rat  Christopher   3    Male
2   1  Rat      Barbare   1  Female
3   1  Rat        Marie   1  Female
4   1  Rat     Elsapeth   1  Female
          나이
일차          
3   9.333333
4   8.000000
5   8.750000
6   8.733333
성별    Female      Male
일차                    
3   9.500000  9.000000
4   9.000000  6.333333
5   8.666667  8.833333
6   9.411765  7.846154
