# Chapter 6. 데이터 프레임의 다양한 응용

## 5. 그룹 연산

* 특정 기준을 적용하여 데이터 프레임을 그룹으로 분할하여 처리하는 것
* 데이터 집계, 변환, 필터링에 효율적

**데이터 그룹 분할 3단계**
* 1단계 분할(Split): 데이터를 특정 조건에 의해 분할
* 2단계 적용(Apply): 데이터 집계, 변환, 필터링하는데 필요한 메소드 적용
* 3단계 결합(Combine): 2단계의 처리 결과를 하나로 결합

### 5-1. 그룹 객체 만들기(분할 단계)

#### 1개 열을 기준으로 그룹화
![IMG_4FA7982795F1-1.jpeg](attachment:IMG_4FA7982795F1-1.jpeg)

In [None]:
# titanic 데이터셋에서 age, sex 등 5개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','sex', 'class', 'fare', 'survived']]

In [None]:
# class 열을 기준으로 분할

# grouped

In [None]:
# 그룹 객체를 iteration으로 출력: head() 메소드로 첫 5행만을 출력
for key, group in grouped:
    print('* key :', key)
    print('* number :', len(group))    
    print(group.head())
    print('\n')
    

In [None]:
# 연산 메소드 적용

# average 

In [None]:
# 개별 그룹 선택하기
# get_group 함수, 인자: class 종류

# group3 

#### 여러 열을 기준으로 그룹화 
![IMG_0DEFBAB5E8FC-1.jpeg](attachment:IMG_0DEFBAB5E8FC-1.jpeg)

In [None]:
# class 열, sex 열을 기준으로 분할
# 인자: ['class', 'sex']

# grouped_two

In [None]:
# grouped_two 그룹 객체를 iteration으로 출력
for key, group in grouped_two:
    print('* key :', key)
    print('* number :', len(group))    
    print(group.head())
    print('\n')
    

In [None]:
# grouped_two 그룹 객체에 연산 메소드 적용

# average_two 

In [None]:
# grouped_two 그룹 객체에서 개별 그룹 선택하기
# get_group 함수, 인자: ('Third','female') #튜플

# group3f 

### 5-2. 그룹 연산 메소드 (적용-결합 단계)

#### 데이터 집계 (Data Aggreagation)
![IMG_A0A5C8B23339-1.jpeg](attachment:IMG_A0A5C8B23339-1.jpeg)
* mean(), max(), min(), sum(), count(), size(), var(), describe(), info(), first(), last() ...

In [None]:
# titanic 데이터셋에서 age, sex 등 5개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','sex', 'class', 'fare', 'survived']]

In [None]:
# class 열을 기준으로 분할

# grouped

In [None]:
# 각 그룹에 대한 모든 열의 표준편차를 집계하여 데이터프레임으로 반환

# std_all

In [None]:
# 각 그룹에 대한 fare 열의 표준편차를 집계하여 시리즈로 반환 
# 객체: grouped.fare

# std_fare 

#### 집계 연산 처리
![IMG_EB4171FA1A3A-1.jpeg](attachment:IMG_EB4171FA1A3A-1.jpeg)

In [None]:
# 그룹 객체에 agg() 메소드 적용 - 사용자 정의 함수를 인수로 전달
def min_max(x):    # 최대값 - 최소값
    return x.max() - x.min()

In [None]:
# 각 그룹의 최대값과 최소값의 차이를 계산하여 그룹별로 집계

# agg_minmax 

#### 여러 함수를 사용하여 각 그룹별 데이터 집계 연산
![IMG_BE87F7A26949-1.jpeg](attachment:IMG_BE87F7A26949-1.jpeg)

In [None]:
# 여러 함수를 각 열에 동일하게 적용하여 집계

# agg_all

In [None]:
# 각 열마다 다른 함수를 적용하여 집계
# {'fare':['min', 'max'], 'age':'mean'}

# agg_sep 

#### 그룹 연산 데이터 변환
![IMG_1A7B2FE8A994-1.jpeg](attachment:IMG_1A7B2FE8A994-1.jpeg)
* 메소드를 그룹별로 구분하여 각 원소에 함수를 적용
* 각 원소의 본래 행 인덱스와 열 이름을 기준으로 연산 결과 반환

##### 집계 연산 메소드를 사용하여 그룹별 표준편차 -> 각 그룹에 대해 반복문 사용하여 z-score 계산

* z-score: 자료가 평균으로부터 표준편차의 몇 배만큼 떨어져 있는지
![%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA%202021-04-10%20%E1%84%8B%E1%85%A9%E1%84%8C%E1%85%A5%E1%86%AB%201.56.36.png](attachment:%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA%202021-04-10%20%E1%84%8B%E1%85%A9%E1%84%8C%E1%85%A5%E1%86%AB%201.56.36.png)

In [None]:
# titanic 데이터셋에서 age, sex 등 5개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','sex', 'class', 'fare', 'survived']]

In [None]:
# class 열을 기준으로 분할
grouped = df.groupby(['class']) 

# 그룹별 age 열의 평균 집계 연산
age_mean = grouped.age.mean()
# 그룹별 age 열의 표준편차 집계 연산
age_std = grouped.age.std()

print(age_mean, "\n")
print(age_std)

In [None]:
# 그룹 객체의 age 열을 iteration으로 z-score를 계산하여 출력
for key, group in grouped.age:
    group_zscore = (group - age_mean.loc[key]) / age_std.loc[key]         
    print('* origin :', key)
    print(group_zscore.head(3))  # 각 그룹의 첫 3개의 행을 출력
    print('\n')

##### transform() 메소드 사용하여 z-score 직접 변환

In [None]:
# z-score를 계산하는 사용자 함수 정의
def z_score(x): 
    return (x - x.mean()) / x.std()   

In [None]:
# transform() 메소드를 이용하여 age 열의 데이터를 z-score로 변환
# 객체: grouped.age 

# age_zscore

In [None]:
print(age_zscore.loc[[1, 9, 0]])     # 1, 2, 3 그룹의 첫 데이터 확인 (변환 결과)
print('\n')
print(len(age_zscore))              # transform 메소드 반환 값의 길이
print('\n')
print(age_zscore.loc[0:9])          # transform 메소드 반환 값 출력 (첫 10개)
print('\n')
print(type(age_zscore))             # transform 메소드 반환 객체의 자료형

#### 그룹 객체 필터링
![IMG_0042AE3777B3-1%202.jpeg](attachment:IMG_0042AE3777B3-1%202.jpeg)
* 조건에 참인 그룹만 남김

In [None]:
# titanic 데이터셋에서 age, sex 등 5개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','sex', 'class', 'fare', 'survived']]

# class 열을 기준으로 분할
grouped = df.groupby(['class']) 

In [None]:
# 데이터 개수가 200개 이상인 그룹만을 필터링하여 데이터프레임으로 반환
# filter 인자: lambda x: len(x) >= 200

# grouped_filter

In [None]:
# age 열의 평균이 30보다 작은 그룹만을 필터링하여 데이터프레임으로 반환
# filter 인자: lambda x: x.age.mean() < 30

# age_filter 

#### 그룹 객체에 함수 매핑
![IMG_BF6AF65A38DC-1.jpeg](attachment:IMG_BF6AF65A38DC-1.jpeg)

In [None]:
# titanic 데이터셋에서 age, sex 등 5개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','sex', 'class', 'fare', 'survived']]

# class 열을 기준으로 분할
grouped = df.groupby(['class']) 

In [None]:
# 집계 : 각 그룹별 요약 통계정보를 집계
# apply 인자: lambda x: x.describe()

# agg_grouped 

In [None]:
# z-score를 계산하는 사용자 함수 정의
def z_score(x):                          
    return (x - x.mean()) / x.std()

In [None]:
# age 그룹에 z_score 함수 적용

# age_zscore 

In [None]:
# 필터링 : age 열의 데이터 평균이 30보다 작은 그룹만을 필터링하여 출력
# apply 인자: lambda x: x.age.mean() < 30

# age_filter 

In [None]:
for x in age_filter.index:
    if age_filter[x]==True:
        age_filter_df = grouped.get_group(x)
        print(age_filter_df.head())
        print('\n')

-------------

## 6. 멀티 인덱스
* 행 인덱스를 여러 레벨로 구현하는 클래스

In [None]:
# titanic 데이터셋에서 age, sex 등 5개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','sex', 'class', 'fare', 'survived']]

# class 열, sex 열을 기준으로 분할
grouped = df.groupby(['class', 'sex'])  

In [None]:
# 그룹 객체에 연산 메서드 적용
# groupby 객체에 mean() 메서드 적용

# 멀티 인덱스를 가진 df
# gdf 

In [None]:
# class 값이 First인 행을 선택하여 출력
# loc 이용



In [None]:
# class 값이 First이고, sex 값이 female인 행을 선택하여 출력
# loc의 인자를 튜플 ('First', 'female') 입력



In [None]:
# sex 값이 male인 행을 선택하여 출력
# xs 이용 인자는 'male', level 옵션은 'sex'



----------

## 7. 피벗
* 4가지 요소 (행 인덱스, 열 인덱스, 데이터 값, 데이터 집계 함수)에 적용할 DF의 열을 각각 지정하여 함수의 인자로 전달


In [None]:
# IPyhton 디스플레이 설정 변경 
pd.set_option('display.max_columns', 10)    # 출력할 최대 열의 개수
pd.set_option('display.max_colwidth', 20)    # 출력할 열의 너비

In [None]:
# titanic 데이터셋에서 age, sex 등 5개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','sex', 'class', 'fare', 'survived']]

In [None]:
# 행, 열, 값, 집계에 사용할 열을 1개씩 지정 - 평균 집계
# pivot_table 메서드 / 데이터는 df / 옵션: index='class', columns='sex', values='age', aggfunc='mean'

# pdf1

In [None]:
pdf1 = pd.pivot_table(df,              # 피벗할 데이터프레임
                     index='class',    # 행 위치에 들어갈 열
                     columns='sex',    # 열 위치에 들어갈 열
                     values='age',     # 데이터로 사용할 열
                     aggfunc='mean')   # 데이터 집계 함수

In [None]:
# 값에 적용하는 집계 함수를 2개 이상 지정 가능 - 생존율, 생존자 수 집계
# pivot_table 메서드 / 데이터는 df / 옵션: index='class', columns='sex', values='survived', aggfunc=['mean', 'sum']

# pdf2 

In [None]:
pd.set_option('display.max_columns', 10)
# 행, 열, 값에 사용할 열을 2개 이상 지정 가능 - 평균 나이, 최대 요금 집계
# pivot_table 메서드 / 데이터는 df / 옵션: index=['class', 'sex'], columns='survived',
#                                     values=['age', 'fare'], aggfunc=['mean', 'max']


# pdf3

In [None]:
# 행, 열 구조 살펴보기
print(pdf3.index)
print(pdf3.columns)
print('\n')

In [None]:
# xs 인덱서 사용 - 행 선택(default: axis=0)
# 행 인덱스가 First인 행을 선택 



In [None]:
# 행 인덱스가 ('First', 'female')인 행을 선택


In [None]:
# 행 인덱스가 male, level이 sex인 행을 선택


In [None]:
# 행 인덱스가 (Second, male), level 이 [0, 'sex'] 행을 선택


In [None]:
# xs 인덱서 사용 - 열 선택(axis=1 설정)
# 열 인덱스가 mean인 데이터를 선택 


In [None]:
# 열 인덱스가 ('mean', 'age')인 데이터 선택


In [None]:
# level 이 survived이고 survived의 값이 1인 데이터 선택
