In [1]:
import numpy as np
import pandas as pd

# cnt1 값의 범위: 사과: 10대, 귤: 20대, 배: 단단위, 딸기 30이상
data = dict(fruits=['사과', '사과','사과', '사과','사과','귤','귤','귤','귤','귤','배','배','배','배','배','딸기','딸기','딸기','딸기','딸기']
            ,cnt1=[10, 12, 13, 11, 12, 21, 22, 27, 24, 26, 7, 7, 8, 3, 2, 30, 35, 37, 41, 28]
            ,cnt2=[100,  103, 107, 107,  101,  51,  57, 58,  57, 51,  9, 9,  5,  7,  7,  208, 217, 213, 206, 204]
           )
df = pd.DataFrame(data)
df

Unnamed: 0,fruits,cnt1,cnt2
0,사과,10,100
1,사과,12,103
2,사과,13,107
3,사과,11,107
4,사과,12,101
5,귤,21,51
6,귤,22,57
7,귤,27,58
8,귤,24,57
9,귤,26,51


In [7]:
# cnt1의 평균이 20이상인 과일의 인덱스만 추출
result = df.groupby('fruits')['cnt1'].mean()
result2 = result[result >= 20]
result2.index

Index(['귤', '딸기'], dtype='object', name='fruits')

In [6]:
# cnt1 컬럼의 평균의 20 이상인 과일들의 데이터만 추출
df[df['fruits'].isin(result2.index)]

Unnamed: 0,fruits,cnt1,cnt2
5,귤,21,51
6,귤,22,57
7,귤,27,58
8,귤,24,57
9,귤,26,51
15,딸기,30,208
16,딸기,35,217
17,딸기,37,213
18,딸기,41,206
19,딸기,28,204


# filter()
- `DataFrameGroupBy.filter(func, dropna=True, *args, **kwargs)`
- 특정 **조건을 만족하는 Group의 데이터(행)들을 조회**할 때 사용한다. 주로 조건은 group별 집계결과를 이용한다.
    1. 함수에 group별 DataFrame을 argument로 전달한다.
    2. 함수는 받은 DataFrame을 이용해 집계한 값의 조건을 비교해서 반환한다.(반환타입: Bool) 
    3. 반환값이 True인 Group들의 모든 행들로 구성된 DataFrame을 반환한다.
- 매개변수
    - **func**: filtering 조건을 구현한 함수 객체
        - 첫번째 매개변수로 Group으로 묶인 DataFrame을 받는다.
        - bool type 값을 반환한다. 매개변수로 받은 DataFrame이 특정 조건을 만족하는지 여부를 반환한다.
    - **dropna=True**
        - 필터를 통과하지 못한 group의 DataFrame의 값들을 drop시킨다(기본값). False로 설정하면 NA 처리해서 반환한다.
    - **\*args, \*\*kwargs**: filter 함수의 두번째부터  선언된 매개변수에 전달할 argument 값들을 가변인자로 전달한다.

In [16]:
# groupby의 filter 메소드 -> dataframe의 filter 메소드와는 다름
r = df.groupby('fruits')
type(r)

pandas.core.groupby.generic.DataFrameGroupBy

In [22]:
# cnt1의 평균이 20이상인 과일의 인덱스만 추출할 커스텀 함수
# filter() 메소드는 커스텀 함수의 리턴값이 True인 데이터만 추출
# filter에 전달될 함수는 데이터프레임을 인자로 받고, True/False를 리턴하는 함수여야 함
def check_mean_over_20(df : pd.DataFrame):
    return df['cnt1'].mean() >= 20

In [23]:
df.groupby('fruits').groups

{'귤': [5, 6, 7, 8, 9], '딸기': [15, 16, 17, 18, 19], '배': [10, 11, 12, 13, 14], '사과': [0, 1, 2, 3, 4]}

In [30]:
# filter 메소드는 커스텀 함수의 리턴값이 True인 데이터만 추출
df.groupby('fruits').filter(check_mean_over_20)

Unnamed: 0,fruits,cnt1,cnt2
5,귤,21,51
6,귤,22,57
7,귤,27,58
8,귤,24,57
9,귤,26,51
15,딸기,30,208
16,딸기,35,217
17,딸기,37,213
18,딸기,41,206
19,딸기,28,204


In [29]:
# dropna=False 옵션을 주면, 커스텀 함수의 리턴값이 False인 데이터도 추출
# 커스텀 함수의 리턴값이 False인 데이터는 NaN으로 채워짐
df.groupby('fruits').filter(check_mean_over_20, dropna=False)

Unnamed: 0,fruits,cnt1,cnt2
0,,,
1,,,
2,,,
3,,,
4,,,
5,귤,21.0,51.0
6,귤,22.0,57.0
7,귤,27.0,58.0
8,귤,24.0,57.0
9,귤,26.0,51.0


In [32]:
# cnt1의 평균이 20이상인 과일의 인덱스만 추출할 커스텀 함수
# filter() 메소드는 커스텀 함수의 리턴값이 True인 데이터만 추출
# filter에 전달될 함수는 데이터프레임을 인자로 받고, True/False를 리턴하는 함수여야 함
# 다른 인자를 추가해서 커스텀 함수를 정의할 수 있음
def check_mean_over_n(df : pd.DataFrame, thresh_h = 20):
    return df['cnt1'].mean() >= thresh_h

In [33]:
# thresh_h 인자를 추가해서 커스텀 함수를 정의할 수 있음
# 인자를 건네어줄땐 filter 메소드의 args 인자에 리스트로 전달
df.groupby('fruits').filter(check_mean_over_n, thresh_h=30)

Unnamed: 0,fruits,cnt1,cnt2
15,딸기,30,208
16,딸기,35,217
17,딸기,37,213
18,딸기,41,206
19,딸기,28,204


In [26]:
# filter 메소드는 커스텀 함수의 리턴값이 True인 데이터만 추출
# 람다식으로 표현도 가능
df.groupby('fruits').filter(lambda dF_ : dF_['cnt1'].mean() >= 20)

Unnamed: 0,fruits,cnt1,cnt2
5,귤,21,51
6,귤,22,57
7,귤,27,58
8,귤,24,57
9,귤,26,51
15,딸기,30,208
16,딸기,35,217
17,딸기,37,213
18,딸기,41,206
19,딸기,28,204


# transform
- `DataFrameGroupBy.transform(func, *args)`, `SeriesGroupBy.transform(func, *args)`
    - 함수(func)에 열(컬럼)의 값들을 group 별로 전달 한다. 함수는 그 값을 받아 통계량을 구해 반환한다. 반환된 통계량으로 원래 값들을 변경한 Series를 반환한다. 여러 컬럼에 대해 처리할 경우 DataFrame을 반환한다.
    - func: 함수객체
        - 매개변수
            - 그룹별 컬럼값들을 받을 변수 선언
        - return
            - 계산한 통계량.
        - DataFrameGroupBy은 모든 컬럼의 값들을 group 별 Series로 전달한다.
    - *args: 함수에 전달할 추가 인자값이 있으면 매개변수 순서에 맞게 값을 전달한다.
- transform() 함수를 groupby() 와 사용하면 컬럼의 각 원소들을 자신이 속한 그룹의 통계량으로 변환된 데이터셋을 생성할 수 있다.
- 컬럼의 값과 통계값을 비교해서 보거나 결측치 처리등에 사용할 수있다.

## 원본에 통계치 붙여서 비교하기

In [48]:
df_ = df.copy()

In [40]:
df_.groupby('fruits')['cnt1'].mean()

fruits
귤     24.0
딸기    34.2
배      5.4
사과    11.6
Name: cnt1, dtype: float64

In [42]:
# SeriesGroupBy 타입
type(df_.groupby('fruits')['cnt1'])

pandas.core.groupby.generic.SeriesGroupBy

In [44]:
# SeriesGroupBy 타입에 transform 메소드를 적용하면, Series 타입이 리턴됨
# transform 메소드는 agg처럼 dataframe의 메소드는 문자열로 전달할 수 있음
# transform 메소드는 연산결과를 데이터프레임의 인덱스 순서대로 리턴
r = df_.groupby('fruits')['cnt1'].transform('mean')
r

0     11.6
1     11.6
2     11.6
3     11.6
4     11.6
5     24.0
6     24.0
7     24.0
8     24.0
9     24.0
10     5.4
11     5.4
12     5.4
13     5.4
14     5.4
15    34.2
16    34.2
17    34.2
18    34.2
19    34.2
Name: cnt1, dtype: float64

In [45]:
# 데이터프레임에 transform으로 만든 Series를 추가
df_.insert(2, 'cnt1_mean', r)

In [46]:
df_

Unnamed: 0,fruits,cnt1,cnt1_mean,cnt2
0,사과,10,11.6,100
1,사과,12,11.6,103
2,사과,13,11.6,107
3,사과,11,11.6,107
4,사과,12,11.6,101
5,귤,21,24.0,51
6,귤,22,24.0,57
7,귤,27,24.0,58
8,귤,24,24.0,57
9,귤,26,24.0,51


In [49]:
df_.groupby('fruits').transform('mean')

Unnamed: 0,cnt1,cnt2
0,11.6,103.6
1,11.6,103.6
2,11.6,103.6
3,11.6,103.6
4,11.6,103.6
5,24.0,54.8
6,24.0,54.8
7,24.0,54.8
8,24.0,54.8
9,24.0,54.8


In [74]:
# df2에 cnt1의 평균을 구해서 cnt1_mean 컬럼에 추가
# df2에 cnt2의 평균을 구해서 cnt2_mean 컬럼에 추가
df2 = pd.DataFrame(data)
result = df2.groupby('fruits')['cnt1'].transform('mean')
df2.insert(2, 'cnt1_mean2', result)
df2['cnt2_mean'] = df_.groupby('fruits')['cnt2'].transform('mean')
df2

Unnamed: 0,fruits,cnt1,cnt1_mean2,cnt2,cnt2_mean
0,사과,10,11.6,100,103.6
1,사과,12,11.6,103,103.6
2,사과,13,11.6,107,103.6
3,사과,11,11.6,107,103.6
4,사과,12,11.6,101,103.6
5,귤,21,24.0,51,54.8
6,귤,22,24.0,57,54.8
7,귤,27,24.0,58,54.8
8,귤,24,24.0,57,54.8
9,귤,26,24.0,51,54.8


In [53]:
# sample 메소드는 데이터프레임에서 임의의 데이터를 추출
# n 인자에 추출할 데이터의 개수를 지정
df3 = pd.DataFrame(data)
df.sample(n=3)

Unnamed: 0,fruits,cnt1,cnt2
14,배,2,7
1,사과,12,103
5,귤,21,51


In [54]:
# sample 메소드는 데이터프레임에서 임의의 데이터를 추출 
# frac 옵션으로 추출할 비율을 지정
df3.sample(frac = 0.4)

Unnamed: 0,fruits,cnt1,cnt2
3,사과,11,107
18,딸기,41,206
8,귤,24,57
17,딸기,37,213
5,귤,21,51
19,딸기,28,204
9,귤,26,51
6,귤,22,57


In [56]:
# frac = 1로 지정하면, 데이터프레임의 모든 데이터를 추출 -> 섞임
df3.sample(frac=1)

Unnamed: 0,fruits,cnt1,cnt2
14,배,2,7
8,귤,24,57
9,귤,26,51
3,사과,11,107
0,사과,10,100
16,딸기,35,217
7,귤,27,58
10,배,7,9
13,배,3,7
15,딸기,30,208


In [59]:
# frac = 1로 지정하면, 데이터프레임의 모든 데이터를 추출 -> 섞임
# reset_index 메소드로 인덱스를 재설정
df3 = df3.sample(frac=1).reset_index(drop=True)

In [75]:
# 섞인 데이터에서 과일별 cnt2 평균값을 구해서 cnt2_mean 컬럼에 추가
df3['cnt2_mean'] = df3.groupby('fruits')['cnt2'].transform('mean')
df3

Unnamed: 0,fruits,cnt1,cnt2,cnt2_mean
0,사과,11,107,103.6
1,사과,12,101,103.6
2,배,7,9,7.4
3,귤,21,51,54.8
4,딸기,41,206,209.6
5,딸기,35,217,209.6
6,사과,13,107,103.6
7,귤,22,57,54.8
8,귤,26,51,54.8
9,배,3,7,7.4


In [78]:
# transform 메소드에 커스텀 함수를 전달할 수 있음
# 람다식으로 표현도 가능
df3.groupby('fruits')['cnt1'].transform(lambda s : s.max() - s.min())

0      3
1      3
2      6
3      6
4     13
5     13
6      3
7      6
8      6
9      6
10     6
11     6
12     3
13     3
14    13
15     6
16     6
17     6
18    13
19    13
Name: cnt1, dtype: int64

## 결측치 처리
- transform이용해서 결측치를 같은 과일별 평균값으로 변환
    - 전체 평균보다 좀더 정확할 수 있다.

In [79]:
import numpy as np

In [80]:
s = pd.Series([10, np.nan, 30, 40, np.nan])
s

0    10.0
1     NaN
2    30.0
3    40.0
4     NaN
dtype: float64

In [81]:
# 결측치를 특정 값으로 채우는 fillna 메소드
s.fillna(20)

0    10.0
1    20.0
2    30.0
3    40.0
4    20.0
dtype: float64

In [82]:
# 결측치를 평균값으로 채우기
s.fillna(s.mean())

0    10.000000
1    26.666667
2    30.000000
3    40.000000
4    26.666667
dtype: float64

In [86]:
# 대상과 동일한 크기의 1차원 시리즈 또는 딕셔너리를 전달하면, 결측치를 대체할 수 있음
# 원래 있던 값은 그대로 유지되고, 결측치만 같은 인덱스에 있는 값으로 대체됨
l = [1,2,3,4,5]
s.fillna(pd.Series(l))

0    10.0
1     2.0
2    30.0
3    40.0
4     5.0
dtype: float64

In [94]:
# 각 과일의 첫번째 cnt2값을 결측치로 변경
df4 = pd.DataFrame(data)
df4.loc[[0,5,10,15], 'cnt2'] = np.nan
df4

Unnamed: 0,fruits,cnt1,cnt2
0,사과,10,
1,사과,12,103.0
2,사과,13,107.0
3,사과,11,107.0
4,사과,12,101.0
5,귤,21,
6,귤,22,57.0
7,귤,27,58.0
8,귤,24,57.0
9,귤,26,51.0


In [97]:
# 과일별 척도차이가 커서 단순 전체평균으로 결측치를 채우면 문제가 생길 수 있음
df4.fillna(df4['cnt2'].mean())

Unnamed: 0,fruits,cnt1,cnt2
0,사과,10,94.3125
1,사과,12,103.0
2,사과,13,107.0
3,사과,11,107.0
4,사과,12,101.0
5,귤,21,94.3125
6,귤,22,57.0
7,귤,27,58.0
8,귤,24,57.0
9,귤,26,51.0


In [101]:
# 각 과일별 평균값으로 결측치를 채우기
df4['cnt2'] = df4['cnt2'].fillna(df4.groupby('fruits')['cnt2'].transform('mean'))
df4

Unnamed: 0,fruits,cnt1,cnt2
0,사과,10,104.5
1,사과,12,103.0
2,사과,13,107.0
3,사과,11,107.0
4,사과,12,101.0
5,귤,21,55.75
6,귤,22,57.0
7,귤,27,58.0
8,귤,24,57.0
9,귤,26,51.0


<b style='font-size:2em'>TODO </b>

In [87]:
# 1.  data/diamonds.csv 조회
dia = pd.read_csv('data/diamonds.csv')
dia.head()

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
3,0.29,Premium,I,VS2,62.4,58.0,334,4.2,4.23,2.63
4,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75


In [90]:
# 2.  cut 별 평균 가격이 4000 이상인 diamond 데이터들 조회 
dia.groupby('cut').filter(lambda s : s['price'].mean() >= 4000)

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
1,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
3,0.29,Premium,I,VS2,62.4,58.0,334,4.20,4.23,2.63
8,0.22,Fair,E,VS2,65.1,61.0,337,3.87,3.78,2.49
12,0.22,Premium,F,SI1,60.4,61.0,342,3.88,3.84,2.33
14,0.20,Premium,E,SI2,60.2,62.0,345,3.79,3.75,2.27
...,...,...,...,...,...,...,...,...,...,...
53928,0.79,Premium,E,SI2,61.4,58.0,2756,6.03,5.96,3.68
53930,0.71,Premium,E,SI1,60.5,55.0,2756,5.79,5.74,3.49
53931,0.71,Premium,F,SI1,59.8,62.0,2756,5.74,5.73,3.43
53934,0.72,Premium,D,SI1,62.7,59.0,2757,5.69,5.73,3.58


In [107]:
# 3. color 별 carat의 최대값과 최소값의 차이가 2이상 3미만인 모든 diamond 데이터들 조회
max_min = lambda s : s.max() - s.min()
func = lambda s : max_min(s['carat']) >= 2 and max_min(s['carat']) < 3
dia.groupby('color').filter(func)

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z,clarity_mean
0,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43,5063.028606
1,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31,3996.001148
2,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31,3839.455391
8,0.22,Fair,E,VS2,65.1,61.0,337,3.87,3.78,2.49,3924.989395
12,0.22,Premium,F,SI1,60.4,61.0,342,3.88,3.84,2.33,3996.001148
...,...,...,...,...,...,...,...,...,...,...,...
53929,0.71,Ideal,G,VS1,61.4,56.0,2756,5.76,5.73,3.53,3839.455391
53930,0.71,Premium,E,SI1,60.5,55.0,2756,5.79,5.74,3.49,3996.001148
53931,0.71,Premium,F,SI1,59.8,62.0,2756,5.74,5.73,3.43,3996.001148
53932,0.70,Very Good,E,VS2,60.5,59.0,2757,5.71,5.76,3.47,3924.989395


In [104]:
# 4. clarity 별 평균 가격 컬럼을 DataFrame에 추가.
dia['clarity_mean'] = dia.groupby('clarity')['price'].transform('mean')
dia

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z,clarity_mean
0,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43,5063.028606
1,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31,3996.001148
2,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31,3839.455391
3,0.29,Premium,I,VS2,62.4,58.0,334,4.20,4.23,2.63,3924.989395
4,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75,5063.028606
...,...,...,...,...,...,...,...,...,...,...,...
53935,0.72,Ideal,D,SI1,60.8,57.0,2757,5.75,5.76,3.50,3996.001148
53936,0.72,Good,D,SI1,63.1,55.0,2757,5.69,5.75,3.61,3996.001148
53937,0.70,Very Good,D,SI1,62.8,60.0,2757,5.66,5.68,3.56,3996.001148
53938,0.86,Premium,H,SI2,61.0,58.0,2757,6.15,6.12,3.74,5063.028606


# pivot_table()
엑셀의 pivot table 기능을 제공하는 메소드.    
분류별 집계(Group으로 묶어 집계)를 처리하는 함수로 group으로 묶고자 하는 컬럼들을 행과 열로 위치시키고 집계값을 값으로 보여준다.    
역할은 `groupby()`를 이용한 집계와 같은데 **여러개 컬럼을 기준으로 groupby 를 할 경우 집계결과를 읽는 것이 더 편하다.(가독성이 좋다)**

> pivot() 함수와 역할이 다르다.   
> pivot() 은 index와 column의 형태를 바꾸는 reshape 함수.

- `DataFrame.pivot_table(values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All')`
- **매개변수**
    - **index**
        - 문자열 또는 리스트. index로 올 컬럼들 => groupby였으면 묶었을 컬럼
    - **columns**
        - 문자열 또는 리스트. column으로 올 컬럼들 => groupby였으면 묶었을 컬럼 (index/columns가 묶여서 groupby에 묶을 컬럼들이 된다.)
    - **values**
        - 문자열 또는 리스트. 집계할 대상 컬럼들
    - **aggfunc**
        - 집계함수 지정. 함수, 함수이름문자열, 함수리스트(함수이름 문자열/함수객체), dict: 집계할 함수
        - 기본(생략시): 평균을 구한다. (mean이 기본값)
    - **fill_value, dropna**
        - fill_value: 집계시 NA가 나올경우 채울 값
        - dropna: boolean. 컬럼의 전체값이 NA인 경우 그 컬럼 제거(기본: True)
    - **margins/margins_name**
        - margin: boolean(기본: False). 총집계결과를 만들지 여부.
        - margin_name: margin의 이름 문자열로 지정 (생략시 All)

In [1]:
import pandas as pd
import numpy as np

In [2]:
flights = pd.read_csv('data/flights.csv')
flights.shape

(58492, 14)

In [5]:
# 각 칼럼별별로 다시 그룹하기 때문에 양이 너무 많아짐
# flights.ORG_AIR.nunique() * flights.DEST_AIR.nunique()의 갯수가 최대치
flights.groupby(['ORG_AIR', 'DEST_AIR'])['DEP_DELAY'].mean()

ORG_AIR  DEST_AIR
ATL      ABE          9.612903
         ABQ          7.062500
         ABY         22.473684
         ACY          7.166667
         AEX         11.000000
                       ...    
SFO      SNA          8.483051
         STL         25.100000
         SUN         17.700000
         TUS         14.200000
         XNA         -3.000000
Name: DEP_DELAY, Length: 1130, dtype: float64

## 두개의 컬럼을 grouping 해서 집계
- 항공사/출발공항코드 별 취소 총수 (1이 취소이므로 합계를 구한다.)
- 사용컬럼
    - grouping할 컬럼
        - AIRLINE: 항공사
        - ORG_AIR: 출발 공항코드
    - 집계대상컬럼
        - CANCELLED: 취소여부 - 1:취소, 0: 취소안됨
- 집계: sum

In [10]:
# 이전에 하던 방식
# 단일 시리즈로 반환되기 때문에 보기 힘듬
flights.groupby(['AIRLINE', 'ORG_AIR'])['CANCELLED'].sum()

AIRLINE  ORG_AIR
AA       ATL         3
         DEN         4
         DFW        86
         IAH         3
         LAS         3
                    ..
WN       LAS         7
         LAX        32
         MSP         1
         PHX         6
         SFO        25
Name: CANCELLED, Length: 114, dtype: int64

In [13]:
# pivot_table 메소드를 사용하면, 위의 결과를 더 보기 쉽게 만들 수 있음
# index와 columns에는 그룹화할 컬럼을 지정
# values에는 값을 계산할 컬럼을 지정
# aggfunc에는 계산할 함수를 지정 -> 커스텀 함수도 가능
flights.pivot_table(index='AIRLINE',    # group화할 컬럼중 행에 위치할 컬럼
                    columns='ORG_AIR',  # group화할 컬럼중 열에 위치할 컬럼
                    values='CANCELLED', # 데이터로 사용할 컬럼
                    aggfunc='sum')      # 데이터로 사용할 컬럼에 적용할 함수

ORG_AIR,ATL,DEN,DFW,IAH,LAS,LAX,MSP,ORD,PHX,SFO
AIRLINE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
AA,3.0,4.0,86.0,3.0,3.0,11.0,3.0,35.0,4.0,2.0
AS,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
B6,,0.0,0.0,,0.0,0.0,,0.0,0.0,1.0
DL,28.0,1.0,0.0,0.0,1.0,1.0,4.0,0.0,1.0,2.0
EV,18.0,6.0,27.0,36.0,,,6.0,53.0,0.0,
F9,0.0,2.0,1.0,0.0,1.0,1.0,1.0,4.0,0.0,0.0
HA,,,,,0.0,0.0,,,0.0,0.0
MQ,5.0,,62.0,0.0,,0.0,0.0,85.0,,
NK,1.0,1.0,6.0,0.0,1.0,1.0,3.0,10.0,2.0,
OO,3.0,25.0,2.0,10.0,0.0,15.0,4.0,41.0,9.0,33.0


In [14]:
# pivot_table 메소드를 사용하면, 위의 결과를 더 보기 쉽게 만들 수 있음
# index와 columns에는 그룹화할 컬럼을 지정
# values에는 값을 계산할 컬럼을 지정
# aggfunc에는 계산할 함수를 지정 -> 커스텀 함수도 가능
flights.pivot_table(index='AIRLINE',    # group화할 컬럼중 행에 위치할 컬럼
                    columns='ORG_AIR',  # group화할 컬럼중 열에 위치할 컬럼
                    values='CANCELLED', # 데이터로 사용할 컬럼
                    aggfunc='sum',      # 데이터로 사용할 컬럼에 적용할 함수
                    margins=True)       # 행, 열별 총계를 나타낼지 여부 - default는 False

ORG_AIR,ATL,DEN,DFW,IAH,LAS,LAX,MSP,ORD,PHX,SFO,All
AIRLINE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
AA,3.0,4.0,86.0,3.0,3.0,11.0,3.0,35.0,4.0,2.0,154
AS,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0
B6,,0.0,0.0,,0.0,0.0,,0.0,0.0,1.0,1
DL,28.0,1.0,0.0,0.0,1.0,1.0,4.0,0.0,1.0,2.0,38
EV,18.0,6.0,27.0,36.0,,,6.0,53.0,0.0,,146
F9,0.0,2.0,1.0,0.0,1.0,1.0,1.0,4.0,0.0,0.0,10
HA,,,,,0.0,0.0,,,0.0,0.0,0
MQ,5.0,,62.0,0.0,,0.0,0.0,85.0,,,152
NK,1.0,1.0,6.0,0.0,1.0,1.0,3.0,10.0,2.0,,25
OO,3.0,25.0,2.0,10.0,0.0,15.0,4.0,41.0,9.0,33.0,142


In [19]:
# pivot_table 메소드를 사용하면, 위의 결과를 더 보기 쉽게 만들 수 있음
# index와 columns에는 그룹화할 컬럼을 지정
# values에는 값을 계산할 컬럼을 지정
# aggfunc에는 계산할 함수를 지정 -> 커스텀 함수도 가능
flights.pivot_table(index='AIRLINE',    # group화할 컬럼중 행에 위치할 컬럼
                    columns='ORG_AIR',  # group화할 컬럼중 열에 위치할 컬럼
                    values='CANCELLED', # 데이터로 사용할 컬럼
                    aggfunc='sum',      # 데이터로 사용할 컬럼에 적용할 함수
                    margins=True,       # 행, 열별 총계를 나타낼지 여부 - default는 False
                    margins_name='Total', # 행, 열별 총계의 이름
                    fill_value=0        # NaN을 대체할 값
                    )

ORG_AIR,ATL,DEN,DFW,IAH,LAS,LAX,MSP,ORD,PHX,SFO,Total
AIRLINE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
AA,3,4,86,3,3,11,3,35,4,2,154
AS,0,0,0,0,0,0,0,0,0,0,0
B6,0,0,0,0,0,0,0,0,0,1,1
DL,28,1,0,0,1,1,4,0,1,2,38
EV,18,6,27,36,0,0,6,53,0,0,146
F9,0,2,1,0,1,1,1,4,0,0,10
HA,0,0,0,0,0,0,0,0,0,0,0
MQ,5,0,62,0,0,0,0,85,0,0,152
NK,1,1,6,0,1,1,3,10,2,0,25
OO,3,25,2,10,0,15,4,41,9,33,142


## 3개 이상의 컬럼을 grouping해서 집계
- 항공사/월/출발공항코드 별 취소 총수 
- grouping할 컬럼
    - AIRLINE:항공사
    - MONTH:월
    - ORG_AIR: 출발지 공항
- 집계 대상컬럼
    - CANCELLED: 취소여부
- 집계 : sum    

In [23]:
flights.pivot_table(index=['AIRLINE', 'MONTH'], # group화할 컬럼중 행에 위치할 컬럼들
                    columns='ORG_AIR',          # group화할 컬럼중 열에 위치할 컬럼
                    values='CANCELLED',         # 데이터로 사용할 컬럼
                    aggfunc='sum',
                    margins=True,
                    margins_name='Total',
                    )  

Unnamed: 0_level_0,ORG_AIR,ATL,DEN,DFW,IAH,LAS,LAX,MSP,ORD,PHX,SFO,Total
AIRLINE,MONTH,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
AA,1,0.0,0.0,8.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,9
AA,2,2.0,1.0,33.0,1.0,2.0,3.0,0.0,7.0,1.0,1.0,51
AA,3,1.0,0.0,13.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,16
AA,4,0.0,0.0,4.0,0.0,0.0,0.0,0.0,5.0,0.0,0.0,9
AA,5,0.0,2.0,8.0,1.0,0.0,0.0,0.0,2.0,0.0,0.0,13
...,...,...,...,...,...,...,...,...,...,...,...,...
WN,8,0.0,0.0,,,1.0,4.0,0.0,,0.0,2.0,7
WN,9,0.0,0.0,,,0.0,3.0,0.0,,0.0,2.0,5
WN,11,1.0,3.0,,,1.0,3.0,0.0,,1.0,2.0,11
WN,12,0.0,1.0,,,1.0,2.0,0.0,,0.0,0.0,4


In [22]:
flights.pivot_table(index='MONTH',                  # group화할 컬럼중 행에 위치할 컬럼들
                    columns=['AIRLINE', 'ORG_AIR'], # group화할 컬럼중 열에 위치할 컬럼
                    values='CANCELLED',             # 데이터로 사용할 컬럼
                    aggfunc='sum',
                    margins=True,
                    margins_name='Total',
                    )  

AIRLINE,AA,AA,AA,AA,AA,AA,AA,AA,AA,AA,...,VX,VX,WN,WN,WN,WN,WN,WN,WN,Total
ORG_AIR,ATL,DEN,DFW,IAH,LAS,LAX,MSP,ORD,PHX,SFO,...,ORD,SFO,ATL,DEN,LAS,LAX,MSP,PHX,SFO,Unnamed: 21_level_1
MONTH,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
1,0.0,0.0,8.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,...,0.0,1.0,3.0,0.0,1.0,3.0,1.0,0.0,4.0,104
2,2.0,1.0,33.0,1.0,2.0,3.0,0.0,7.0,1.0,1.0,...,0.0,1.0,3.0,3.0,1.0,2.0,0.0,2.0,5.0,195
3,1.0,0.0,13.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,...,,0.0,1.0,0.0,1.0,3.0,0.0,1.0,0.0,94
4,0.0,0.0,4.0,0.0,0.0,0.0,0.0,5.0,0.0,0.0,...,0.0,0.0,0.0,4.0,0.0,2.0,0.0,1.0,2.0,58
5,0.0,2.0,8.0,1.0,0.0,0.0,0.0,2.0,0.0,0.0,...,0.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,2.0,81
6,0.0,0.0,7.0,0.0,0.0,0.0,0.0,4.0,0.0,0.0,...,0.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,6.0,100
7,0.0,0.0,1.0,0.0,1.0,0.0,1.0,3.0,2.0,1.0,...,0.0,1.0,0.0,0.0,1.0,9.0,0.0,1.0,0.0,56
8,0.0,0.0,2.0,1.0,0.0,2.0,0.0,3.0,1.0,0.0,...,0.0,0.0,0.0,0.0,1.0,4.0,0.0,0.0,2.0,44
9,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,3.0,0.0,0.0,2.0,17
11,0.0,0.0,3.0,0.0,0.0,1.0,1.0,6.0,0.0,0.0,...,0.0,0.0,1.0,3.0,1.0,3.0,0.0,1.0,2.0,51


## 3개 이상의 컬럼을 grouping해서 집계 2
- 항공사/월/출발공항코드 별 최대/최소 연착시간
- grouping할 컬럼
    - AIRLINE:항공사
    - MONTH:월
    - ORG_AIR: 출발지 공항
- 집계 대상컬럼
    - ARR_DELAY: 연착시간
- 집계 : min, max    

In [28]:
flights.pivot_table(index=['AIRLINE','ORG_AIR'],                 
                    columns='MONTH',
                    values='ARR_DELAY',
                    aggfunc=['min', 'max']
                    )  

Unnamed: 0_level_0,Unnamed: 1_level_0,min,min,min,min,min,min,min,min,min,min,...,max,max,max,max,max,max,max,max,max,max
Unnamed: 0_level_1,MONTH,1,2,3,4,5,6,7,8,9,11,...,2,3,4,5,6,7,8,9,11,12
AIRLINE,ORG_AIR,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2,Unnamed: 22_level_2
AA,ATL,-27.0,-26.0,-32.0,-30.0,-26.0,-23.0,-27.0,-32.0,-33.0,-33.0,...,16.0,25.0,115.0,25.0,159.0,319.0,84.0,196.0,255.0,203.0
AA,DEN,-13.0,-17.0,-19.0,-28.0,-20.0,-13.0,-30.0,-27.0,-27.0,-27.0,...,40.0,53.0,105.0,330.0,10.0,67.0,257.0,152.0,146.0,106.0
AA,DFW,-39.0,-29.0,-29.0,-37.0,-36.0,-33.0,-32.0,-32.0,-33.0,-45.0,...,311.0,234.0,275.0,285.0,602.0,203.0,268.0,241.0,349.0,293.0
AA,IAH,-23.0,-27.0,-13.0,-27.0,-19.0,-13.0,-19.0,-30.0,-31.0,-14.0,...,51.0,97.0,127.0,131.0,456.0,858.0,95.0,73.0,98.0,103.0
AA,LAS,-32.0,-25.0,-24.0,-19.0,-31.0,-27.0,-40.0,-28.0,-32.0,-31.0,...,20.0,111.0,626.0,54.0,206.0,157.0,157.0,36.0,89.0,219.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
WN,LAS,-25.0,-33.0,-28.0,-38.0,-32.0,-31.0,-24.0,-24.0,-33.0,-40.0,...,135.0,261.0,163.0,150.0,193.0,290.0,284.0,284.0,120.0,96.0
WN,LAX,-25.0,-27.0,-25.0,-37.0,-26.0,-30.0,-25.0,-20.0,-30.0,-28.0,...,190.0,104.0,165.0,244.0,244.0,248.0,221.0,157.0,87.0,493.0
WN,MSP,-38.0,-32.0,-30.0,-33.0,-24.0,-24.0,-28.0,-21.0,-23.0,-29.0,...,68.0,43.0,64.0,13.0,88.0,84.0,45.0,23.0,114.0,90.0
WN,PHX,-38.0,-45.0,-24.0,-43.0,-27.0,-25.0,-29.0,-24.0,-25.0,-41.0,...,159.0,78.0,130.0,203.0,168.0,171.0,161.0,131.0,244.0,254.0


In [29]:
# 그룹화할 데이터가 많으면 보기힘드므로,
# 데이터를 엑셀로 저장해서 확인하는 것이 좋음
result = flights.pivot_table(index=['AIRLINE','ORG_AIR'],                 
                            columns='MONTH',
                            values='ARR_DELAY',
                            aggfunc=['min', 'max']
                            ) 
result.to_excel('saved_data/flights1.xlsx')

# apply() - Series, DataFrame의 데이터 일괄 처리

데이터프레임의 행들과 열들 또는 Series의 원소들에 공통된 처리를 할 때 apply 함수를 이용하면 반복문을 사용하지 않고 일괄 처리가 가능하다.

- DataFrame.apply(함수, axis=0, args=(), \*\*kwarg)
    - 인수로 행이나 열을 받는 함수를 apply 메서드의 인수로 넣으면 데이터프레임의 행이나 열들을 하나씩 함수에 전달한다.
    - 매개변수
        - **함수**: DataFrame의 행들 또는 열들을 전달할 함수
        - **axis**: **0-컬럼(열)을 전달, 1-행을 전달 (기본값 0)**
        - **args**: 함수에 행/열 이외에 전달할 매개변수를 위치기반(순서대로) 튜플로 전달
        - **\*\*kwarg**: 함수에 행/열 이외에 전달할 매개변수를 키워드 인자로 전달
- Series.apply(함수, args=(), \*\*kwarg)
    - 인수로 Series의 원소들을 받는 함수를 apply 메소드의 인수로 넣으면  Series의 원소들을 하나씩 함수로 전달한다.
    - 매개변수
        - **함수**: Series의 원소들을 전달할 함수
        - **args**: 함수에 원소 이외에 전달할 매개변수를 위치기반(순서대로) 튜플로 전달
        - **\*\*kwarg**: 함수에 원소 이외에 전달할 매개변수를 키워드 인자로 전달

# cut()/qcut() - 연속형(실수)을 범주형으로 변환
- cut() : 지정한 값을 기준으로 구간을 나눠 그룹으로 묶는다.
    - `pd.cut(x, bins,right=True, labels=None)`
    - 매개변수
        - **x**: 범주형으로 바꿀 대상. 1차원 배열형태(Series, 리스트, ndarray)의 자료구조
        - **bins**: 범주로 나눌때의 기준값(구간경계)들을 리스트로 묶어서 전달한다.
        - **right**: 구간경계의 오른쪽(True-기본)을 포함할지 왼쪽(False)을 포함할지
        - **labels**: 각 구간(범주)의 label을 리스트로 전달
            - 생략하면 범위를 범주명으로 사용한다. (ex: (10, 20], ()-포함안함, []-포함)
- qcut() :  대상배열의 최대값 ~ 최소값을 지정한 개수의 동등한 size(**원소의개수**)가 되도록 나눈다.
    - `pd.qcut(x, q, labels)`
    - 매개변수
        - **x**: 나눌 대상. 1차원 배열형태의 자료구조
        - **q**: 나눌 개수
        - **labels**: 각 구간(범주)의 label을 리스트로 전달

<b style='font-size:2em'>TODO </b>

In [None]:
# 1: data/diamonds.csv 를 읽어 DataFrame으로 만든다.

# 2: price 컬럼을 '고가', '중가', '저가' 세개의 범주값을 가지는 "price_cate" 컬럼을 생성한다.

# 3 가격대(price_cate) 별 carat의 평균을 조회

# 4 가격대(price_cate)와 cut별 평균 가격(price)를 피봇테이블로 조회

# 5 cut, color, price_cate 별 carat의 평균을 피봇테이블로 조회