# 그룹화된 상태

- 그룹화된(grouped) 상태
  - 분할 -> 적용 -> 결합 중에서 분할까지만 이루어진 상태
- get_group 함수
  - 해당 키 값을 기준으로 분할된 데이터프레임 객체를 확인


In [12]:
import pandas as pd
import numpy as np

In [4]:
ipl_data = {
    "Team": [
        "Riders",
        "Riders",
        "Devils",
        "Devils",
        "Kings",
        "Kings",
        "Kings",
        "Kings",
        "Riders",
        "Royals",
        "Royals",
        "Riders",
    ],
    "Rank": [1, 2, 2, 3, 3, 4, 1, 1, 2, 4, 1, 2],
    "Year": [2014, 2015, 2014, 2015, 2014, 2015, 2016, 2017, 2016, 2014, 2015, 2017],
    "Points": [876, 789, 863, 673, 741, 812, 756, 788, 694, 701, 804, 690],
}

df = pd.DataFrame(ipl_data)
df

Unnamed: 0,Team,Rank,Year,Points
0,Riders,1,2014,876
1,Riders,2,2015,789
2,Devils,2,2014,863
3,Devils,3,2015,673
4,Kings,3,2014,741
5,Kings,4,2015,812
6,Kings,1,2016,756
7,Kings,1,2017,788
8,Riders,2,2016,694
9,Royals,4,2014,701


In [5]:
grouped = df.groupby("Team")
grouped.get_group("Riders")

Unnamed: 0,Team,Rank,Year,Points
0,Riders,1,2014,876
1,Riders,2,2015,789
8,Riders,2,2016,694
11,Riders,2,2017,690


# 집계

- 집계(aggregation)
  - 요약된 통계 정보를 추출
- agg 함수
  - min, 넘파이 mean 등 기존 함수 그대로 적용


In [10]:
grouped.agg("min")

Unnamed: 0_level_0,Rank,Year,Points
Team,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Devils,2,2014,673
Kings,1,2014,741
Riders,1,2014,690
Royals,1,2014,701


In [14]:
grouped.agg("mean")

Unnamed: 0_level_0,Rank,Year,Points
Team,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Devils,2.5,2014.5,768.0
Kings,2.25,2015.5,774.25
Riders,1.75,2015.5,762.25
Royals,2.5,2014.5,752.5


# 변환

- 변환(Transformation)
  - 해당 정보를 변환
  - 키 값별로 요약된 정보가 아닌 개별 데이터 변환 지원
  - 적용 시점에서는 그룹화된 상태의 값으로 적용


In [15]:
grouped.transform("max")

Unnamed: 0,Rank,Year,Points
0,2,2017,876
1,2,2017,876
2,3,2015,863
3,3,2015,863
4,4,2017,812
5,4,2017,812
6,4,2017,812
7,4,2017,812
8,2,2017,876
9,4,2015,804


In [17]:
grouped.transform(lambda x: (x - x.mean()) / x.std())

Unnamed: 0,Rank,Year,Points
0,-1.5,-1.161895,1.284327
1,0.5,-0.387298,0.302029
2,-0.707107,-0.707107,0.707107
3,0.707107,0.707107,-0.707107
4,0.5,-1.161895,-1.042333
5,1.166667,-0.387298,1.183401
6,-0.833333,0.387298,-0.572108
7,-0.833333,1.161895,0.43104
8,0.5,0.387298,-0.770596
9,0.707107,-0.707107,-0.707107


# 필터

- 필터(filter)
  - 특정 조건으로 데이터를 검색
  - 주로 filter 함수 사용
  - x는 분할된 상태에서 각각의 그룹화된 데이터프레임


In [18]:
df.groupby("Team").filter(lambda x: len(x) >= 3)

Unnamed: 0,Team,Rank,Year,Points
0,Riders,1,2014,876
1,Riders,2,2015,789
4,Kings,3,2014,741
5,Kings,4,2015,812
6,Kings,1,2016,756
7,Kings,1,2017,788
8,Riders,2,2016,694
11,Riders,2,2017,690


- lambda 함수는 분할된 데이터프레임 전체를 매개변수로 받음
- Points 열을 추출


In [19]:
df.groupby("Team").filter(lambda x: x["Points"].max() > 800)

Unnamed: 0,Team,Rank,Year,Points
0,Riders,1,2014,876
1,Riders,2,2015,789
2,Devils,2,2014,863
3,Devils,3,2015,673
4,Kings,3,2014,741
5,Kings,4,2015,812
6,Kings,1,2016,756
7,Kings,1,2017,788
8,Riders,2,2016,694
9,Royals,4,2014,701


# 병합

- 병합(merge)
  - 두 개의 데이터를 특정 기준한 기준을 가지고 하나로 통합하는 작업
- 내부 조인(inner join)
  - 키 값을 기준으로 두 테이블에 모두 존재하는 키 값의 행끼리 병합
- 완전 조인(full join)
  - 두 개의 테이블에서 각각의 행을 병합
  - 두 테이블에서 동일한 키 값을 가진 행은 통합하고, 두 테이블 중 하나라도 키 값이 존재하지 않는다면 존재하는 쪽의 데이터만 남겨둠
- 왼쪽 조인(left join)
  - 왼쪽 테이블의 값을 기준으로 같은 키 값을 소유하고 있는 행을 병합하고,
    오른쪽 테이블에 해당 키 값이 존재하지 않는다면 해당 행은 삭제
- 오른쪽 조인(right join)
  - 오른쪽 테이블의 값을 기준으로 같은 키 값을 소유하고 있는 행을 병합하고,
    왼쪽 테이블에 해당 키 값이 존재하지 않는다면 해당 행은 삭제
