# filter()
- `DataFrameGroupBy.filter(func, dropna=True, *args, **kwargs)`
- 특정 조건을 만족하는 Group의 데이터(행)들을 조회할 때 사용한다. 주로 조건은 group별 집계결과를 이용한다.
    1. 함수에 group별 DataFrame을 argument로 전달한다.
    2. 함수는 받은 DataFrame을 이용해 집계한 값의 조건을 비교해서 반환한다.(반환타입: Bool) 
    3. 반환값이 True인 Group들의 모든 행들로 구성된 DataFrame을 반환한다.
- 매개변수
    - **func**: filtering 조건을 구현한 함수 객체
        - 첫번째 매개변수로 Group으로 묶인 DataFrame을 받는다.
        - bool type 값을 반환한다. 매개변수로 받은 DataFrame이 특정 조건을 만족하는지 여부를 반환한다.
    - **dropna=True**
        - 필터를 통과하지 못한 group의 DataFrame의 값들을 drop시킨다(기본값). False로 설정하면 NA 처리해서 반환한다.
    - **\*args, \*\*kwargs**: filter 함수의 두번째부터  선언된 매개변수에 전달할 argument 값들을 가변인자로 전달한다.

In [1]:
import numpy as np
import pandas as pd

# cnt1 값의 범위: 사과: 10대, 귤: 20대, 배: 단단위, 딸기 30이상
data = dict(fruits=['사과', '사과','사과', '사과','사과','귤','귤','귤','귤','귤','배','배','배','배','배','딸기','딸기','딸기','딸기','딸기']
            ,cnt1=[10, 12, 13, 11, 12, 21, 22, 27, 24, 26, 7, 7, 8, 3, 2, 30, 35, 37, 41, 28]
            ,cnt2=[100,  103, 107, 107,  101,  51,  57, 58,  57, 51,  9, 9,  5,  7,  7,  208, 217, 213, 206, 204]
           )
df = pd.DataFrame(data)
df

Unnamed: 0,fruits,cnt1,cnt2
0,사과,10,100
1,사과,12,103
2,사과,13,107
3,사과,11,107
4,사과,12,101
5,귤,21,51
6,귤,22,57
7,귤,27,58
8,귤,24,57
9,귤,26,51


In [17]:
# filter함수 - cnt1의 평균이 20 이상인 과일 데이터들을 조회
result = df.groupby('fruits')['cnt1'].mean()
result2 = result[result >= 20]
result2.index
df[df['fruits'].isin(result2.index)]

Unnamed: 0,fruits,cnt1,cnt2
5,귤,21,51
6,귤,22,57
7,귤,27,58
8,귤,24,57
9,귤,26,51
15,딸기,30,208
16,딸기,35,217
17,딸기,37,213
18,딸기,41,206
19,딸기,28,204


In [19]:
def check_mean(df):
    """
    df - DataFrame. filter에 사용하면 Group별 DataFrame이 넘어온다.
    """
    return df['cnt1'].mean() >= 20

In [20]:
df.groupby('fruits').filter(check_mean)

Unnamed: 0,fruits,cnt1,cnt2
5,귤,21,51
6,귤,22,57
7,귤,27,58
8,귤,24,57
9,귤,26,51
15,딸기,30,208
16,딸기,35,217
17,딸기,37,213
18,딸기,41,206
19,딸기,28,204


In [21]:
# lambda 표현식 이용
df.groupby('fruits').filter(lambda df : df['cnt1'].mean() > 20)  # Return 결과가 True인 group의 dataframe이 결과에 추가.

Unnamed: 0,fruits,cnt1,cnt2
5,귤,21,51
6,귤,22,57
7,귤,27,58
8,귤,24,57
9,귤,26,51
15,딸기,30,208
16,딸기,35,217
17,딸기,37,213
18,딸기,41,206
19,딸기,28,204


In [23]:
# Parameter가 있는 fllter처리함수.
# 컬럼명, threshold값을 parameter로 받는다.
def check_mean2(df:pd.DataFrame, column_name:str, threshold:int):
    return df[column_name].mean() >= threshold

In [29]:
# 1번 parameter - group 별 DataFrame이 전달.  2번째 parameter 부터는 넘겨줘야한다.
df.groupby('fruits').filter(check_mean2, column_name='cnt1', threshold=30)
df.groupby('fruits').filter(check_mean2, column_name='cnt2', threshold=100)
df.groupby('fruits').filter(check_mean2, dropna=False, column_name='cnt2', threshold=100)

# df.groupby('fruits').filter(lambda df : df['cnt1'].mean() > 20)

Unnamed: 0,fruits,cnt1,cnt2
0,사과,10.0,100.0
1,사과,12.0,103.0
2,사과,13.0,107.0
3,사과,11.0,107.0
4,사과,12.0,101.0
5,,,
6,,,
7,,,
8,,,
9,,,


# transform
- `DataFrameGroupBy.transform(func, *args)`, `SeriesGroupBy.transform(func, *args)`
    - 함수(func)에 열의 값들을 group 별로 전달 한다. 함수는 그 값을 받아 통계량을 구해 반환한다. 반환된 통계량으로 원래 값들을 변경한 Series를 반환한다. 여러 컬럼에 대해 처리할 경우 DataFrame을 반환한다.
    - func: 함수객체
        - 매개변수
            - 그룹별 컬럼값들을 받을 변수 선언
        - return
            - 계산한 통계량.
        - DataFrameGroupBy은 모든 컬럼의 값들을 group 별 Series로 전달한다.
    - *args: 함수에 전달할 추가 인자값이 있으면 매개변수 순서에 맞게 값을 전달한다.
- transform() 함수를 groupby() 와 사용하면 컬럼의 각 원소들을 자신이 속한 그룹의 통계량으로 변환된 데이터셋을 생성할 수 있다.
- 컬럼의 값과 통계값을 비교해서 보거나 결측치 처리등에 사용할 수있다.

## 원본에 통계치 붙여서 비교하기

In [32]:
# DataFrameGroupy -> group별로 각 컬럼의 값을 함수에 전달.
# 사과 -> cnt1, 귤->cnt1, 사과->cnt2, 귤->cnt2
df.groupby('fruits').transform("mean")

Unnamed: 0,cnt1,cnt2
0,11.6,103.6
1,11.6,103.6
2,11.6,103.6
3,11.6,103.6
4,11.6,103.6
5,24.0,54.8
6,24.0,54.8
7,24.0,54.8
8,24.0,54.8
9,24.0,54.8


In [35]:
df.groupby('fruits')['cnt1'].transform("mean")

0     11.6
1     11.6
2     11.6
3     11.6
4     11.6
5     24.0
6     24.0
7     24.0
8     24.0
9     24.0
10     5.4
11     5.4
12     5.4
13     5.4
14     5.4
15    34.2
16    34.2
17    34.2
18    34.2
19    34.2
Name: cnt1, dtype: float64

In [38]:
result = df.groupby('fruits').transform('mean')
result

Unnamed: 0,cnt1,cnt2
0,11.6,103.6
1,11.6,103.6
2,11.6,103.6
3,11.6,103.6
4,11.6,103.6
5,24.0,54.8
6,24.0,54.8
7,24.0,54.8
8,24.0,54.8
9,24.0,54.8


In [40]:
# 컬럼(열) 삽입 - df.insert(삽입할 컬럼 순번, 컬럼이름, 값들)
df.insert(1, "cnt1평균", result['cnt1'])

In [42]:
df['cnt2평균'] = result['cnt2']
df

Unnamed: 0,fruits,cnt1평균,cnt1,cnt2,cnt2평균
0,사과,11.6,10,100,103.6
1,사과,11.6,12,103,103.6
2,사과,11.6,13,107,103.6
3,사과,11.6,11,107,103.6
4,사과,11.6,12,101,103.6
5,귤,24.0,21,51,54.8
6,귤,24.0,22,57,54.8
7,귤,24.0,27,58,54.8
8,귤,24.0,24,57,54.8
9,귤,24.0,26,51,54.8


In [44]:
df2 = pd.DataFrame(data)

In [54]:
df2.sample(n=3)  # random 하게 행을 추출
df2.sample(frac=0.3) # 비율 (전체중 30%의 행만 추출)

Unnamed: 0,fruits,cnt1,cnt2
2,사과,13,107
12,배,8,5
14,배,2,7
3,사과,11,107
13,배,3,7
17,딸기,37,213


In [59]:
df2 = df2.sample(frac=1)  # frac=1.0 => 섞기만 하겠다.
df2.reset_index(drop=True, inplace=True)

In [63]:
cnt1_avg = df2.groupby('fruits')['cnt1'].transform('mean')
df2.insert(2, "과일별 cnt1평균", cnt1_avg)

In [64]:
df2

Unnamed: 0,fruits,cnt1,과일별 cnt1평균,cnt2
0,딸기,30,34.2,208
1,배,8,5.4,5
2,귤,21,24.0,51
3,배,7,5.4,9
4,귤,22,24.0,57
5,귤,26,24.0,51
6,딸기,41,34.2,206
7,배,3,5.4,7
8,사과,12,11.6,103
9,배,2,5.4,7


## 결측치 처리
- transform이용해서 결측치를 같은 과일별 평균값으로 변환
    - 전체 평균보다 좀더 정확할 수 있다.

In [67]:
import numpy as np
s = pd.Series([1, np.nan, 2, np.nan])
s

0    1.0
1    NaN
2    2.0
3    NaN
dtype: float64

In [68]:
# 결측치(nan)을 다른값을 대체(변경)
s.fillna(20) # 모든 결측치값을 20으로 변경

0     1.0
1    20.0
2     2.0
3    20.0
dtype: float64

In [None]:
# s.fillna(s와 동일한 크기의 Series) -> 결측치는 결측치와 같은 index name의 값으로 변경. 결측치 아닌 것들은 유지.

In [70]:
s.fillna(pd.Series([100,200,300,400]))

0      1.0
1    200.0
2      2.0
3    400.0
dtype: float64

In [90]:
df3 = pd.DataFrame(data)
df3.loc[[0, 1, 5, 6, 10, 11, 15, 16], 'cnt2'] = np.nan
df3

Unnamed: 0,fruits,cnt1,cnt2
0,사과,10,
1,사과,12,
2,사과,13,107.0
3,사과,11,107.0
4,사과,12,101.0
5,귤,21,
6,귤,22,
7,귤,27,58.0
8,귤,24,57.0
9,귤,26,51.0


In [80]:
df3.dropna()
# DataFrame 에서 결측치를 제거 -> 행 제거. axis=1 하면 컬럼(열)을 제거

Unnamed: 0,fruits,cnt1,cnt2
2,사과,13,107.0
3,사과,11,107.0
4,사과,12,101.0
7,귤,27,58.0
8,귤,24,57.0
9,귤,26,51.0
12,배,8,5.0
13,배,3,7.0
14,배,2,7.0
17,딸기,37,213.0


In [84]:
cnt2_mean = df3['cnt2'].mean()
cnt2_mean

93.58333333333333

In [88]:
df3['cnt2'] = df3['cnt2'].fillna(round(cnt2_mean))
df3

Unnamed: 0,fruits,cnt1,cnt2
0,사과,10,94.0
1,사과,12,94.0
2,사과,13,107.0
3,사과,11,107.0
4,사과,12,101.0
5,귤,21,94.0
6,귤,22,94.0
7,귤,27,58.0
8,귤,24,57.0
9,귤,26,51.0


In [98]:
df3['cnt2'] = df3['cnt2'].fillna(round(df3.groupby('fruits')['cnt2'].transform("mean")))
df3

Unnamed: 0,fruits,cnt1,cnt2
0,사과,10,105.0
1,사과,12,105.0
2,사과,13,107.0
3,사과,11,107.0
4,사과,12,101.0
5,귤,21,55.0
6,귤,22,55.0
7,귤,27,58.0
8,귤,24,57.0
9,귤,26,51.0


<b style='font-size:2em'>TODO </b>

In [None]:
# 1.  data/diamonds.csv 조회

# 2.  cut 별 평균 가격이 4000 이상인 diamond 데이터들 조회 

# 3. color 별 carat의 최대값과 최소값의 차이가 2이상 3미만인 모든 diamond 데이터들 조회

# 4. clarity 별 평균 가격 컬럼을 DataFrame에 추가.

# pivot_table()
엑셀의 pivot table 기능을 제공하는 메소드.    
분류별 집계(Group으로 묶어 집계)를 처리하는 함수로 group으로 묶고자 하는 컬럼들을 행과 열로 위치시키고 집계값을 값으로 보여준다.    
역할은 `groupby()`를 이용한 집계와 같은데 **여러개 컬럼을 기준으로 groupby 를 할 경우 집계결과를 읽는 것이 더 편하다.(가독성이 좋다)**

> pivot() 함수와 역할이 다르다.   
> pivot() 은 index와 column의 형태를 바꾸는 reshape 함수.

- `DataFrame.pivot_table(values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All')`
- **매개변수**
    - **index**
        - 문자열 또는 리스트. index로 올 컬럼들 => groupby였으면 묶었을 컬럼
    - **columns**
        - 문자열 또는 리스트. column으로 올 컬럼들 => groupby였으면 묶었을 컬럼 (index/columns가 묶여서 groupby에 묶을 컬럼들이 된다.)
    - **values**
        - 문자열 또는 리스트. 집계할 대상 컬럼들
    - **aggfunc**
        - 집계함수 지정. 함수, 함수이름문자열, 함수리스트(함수이름 문자열/함수객체), dict: 집계할 함수
        - 기본(생략시): 평균을 구한다. (mean이 기본값)
    - **fill_value, dropna**
        - fill_value: 집계시 NA가 나올경우 채울 값
        - dropna: boolean. 컬럼의 전체값이 NA인 경우 그 컬럼 제거(기본: True)
    - **margins/margins_name**
        - margin: boolean(기본: False). 총집계결과를 만들지 여부.
        - margin_name: margin의 이름 문자열로 지정 (생략시 All)

In [99]:
flights = pd.read_csv('data/flights.csv')

In [102]:
flights.groupby(['ORG_AIR', 'AIRLINE'])['DEP_DELAY'].mean()

ORG_AIR  AIRLINE
ATL      AA          7.995652
         AS         15.307692
         DL          7.616505
         EV         10.140896
         F9         21.574324
                      ...    
SFO      OO         11.135827
         UA         13.858655
         US          5.470588
         VX          8.144654
         WN         11.185714
Name: DEP_DELAY, Length: 114, dtype: float64

## 1개의 컬럼을 grouping 해서 집계
- 항공사별 비행시간의 평균 
- 사용컬럼
    - grouping할 컬럼
        - AIRLINE: 항공사
    - 집계대상컬럼
        - AIR_TIME
- 집계: mean

In [110]:
#flights.groupby('AIRLINE')['AIR_TIME'].mean()
flights.pivot_table(index='AIRLINE', values='AIR_TIME', aggfunc='mean') #  반환: DataFrame
flights.pivot_table(columns='AIRLINE', values='AIR_TIME') #aggfunc의 기본: 평균
flights.pivot_table(index='AIRLINE', values='AIR_TIME', aggfunc='mean', margins=True, margins_name='총계')

Unnamed: 0_level_0,AIR_TIME
AIRLINE,Unnamed: 1_level_1
AA,144.259404
AS,147.845052
B6,209.412963
DL,115.334187
EV,68.964016
F9,127.592337
HA,338.288288
MQ,61.318346
NK,135.736878
OO,76.010272


In [112]:
flights.groupby('AIRLINE')['AIR_TIME'].mean().to_frame()  #Series -> DataFrame

Unnamed: 0_level_0,AIR_TIME
AIRLINE,Unnamed: 1_level_1
AA,144.259404
AS,147.845052
B6,209.412963
DL,115.334187
EV,68.964016
F9,127.592337
HA,338.288288
MQ,61.318346
NK,135.736878
OO,76.010272


## 두개의 컬럼을 grouping 해서 집계
- 항공사/출발공항코드 별 취소 총수 (1이 취소이므로 합계를 구한다.)
- 사용컬럼
    - grouping할 컬럼
        - AIRLINE: 항공사
        - ORG_AIR: 출발 공항코드
    - 집계대상컬럼
        - CANCELLED: 취소여부 - 1:취소, 0: 취소안됨
- 집계: sum

In [113]:
flights.groupby(['AIRLINE', 'ORG_AIR'])['CANCELLED'].sum()

AIRLINE  ORG_AIR
AA       ATL         3
         DEN         4
         DFW        86
         IAH         3
         LAS         3
                    ..
WN       LAS         7
         LAX        32
         MSP         1
         PHX         6
         SFO        25
Name: CANCELLED, Length: 114, dtype: int64

In [116]:
flights.pivot_table(index='AIRLINE', columns='ORG_AIR', values='CANCELLED', aggfunc='sum', 
                    fill_value=-9999, # 결측치를 대체할 값. (결측치-그 그룹으로 묶인 행이 없음.)
                    margins=True
                   )

ORG_AIR,ATL,DEN,DFW,IAH,LAS,LAX,MSP,ORD,PHX,SFO,All
AIRLINE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
AA,3,4,86,3,3,11,3,35,4,2,154
AS,0,0,0,0,0,0,0,0,0,0,0
B6,-9999,0,0,-9999,0,0,-9999,0,0,1,1
DL,28,1,0,0,1,1,4,0,1,2,38
EV,18,6,27,36,-9999,-9999,6,53,0,-9999,146
F9,0,2,1,0,1,1,1,4,0,0,10
HA,-9999,-9999,-9999,-9999,0,0,-9999,-9999,0,0,0
MQ,5,-9999,62,0,-9999,0,0,85,-9999,-9999,152
NK,1,1,6,0,1,1,3,10,2,-9999,25
OO,3,25,2,10,0,15,4,41,9,33,142


## 3개 이상의 컬럼을 grouping해서 집계
- 항공사/월/출발공항코드 별 취소 총수 
- grouping할 컬럼
    - AIRLINE:항공사
    - MONTH:월
    - ORG_AIR: 출발지 공항
- 집계 대상컬럼
    - CANCELLED: 취소여부
- 집계 : sum    

In [117]:
flights.groupby(['AIRLINE', 'MONTH', 'ORG_AIR'])['CANCELLED'].sum()

AIRLINE  MONTH  ORG_AIR
AA       1      ATL        0
                DEN        0
                DFW        8
                IAH        0
                LAS        0
                          ..
WN       12     LAS        1
                LAX        2
                MSP        0
                PHX        0
                SFO        0
Name: CANCELLED, Length: 1133, dtype: int64

In [118]:
flights.pivot_table(index=['AIRLINE', 'ORG_AIR'], columns='MONTH', values='CANCELLED', aggfunc='sum')

Unnamed: 0_level_0,MONTH,1,2,3,4,5,6,7,8,9,11,12
AIRLINE,ORG_AIR,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
AA,ATL,0.0,2.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
AA,DEN,0.0,1.0,0.0,0.0,2.0,0.0,0.0,0.0,0.0,0.0,1.0
AA,DFW,8.0,33.0,13.0,4.0,8.0,7.0,1.0,2.0,1.0,3.0,6.0
AA,IAH,0.0,1.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0
AA,LAS,0.0,2.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...
WN,LAS,1.0,1.0,1.0,0.0,0.0,0.0,1.0,1.0,0.0,1.0,1.0
WN,LAX,3.0,2.0,3.0,2.0,1.0,0.0,9.0,4.0,3.0,3.0,2.0
WN,MSP,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
WN,PHX,0.0,2.0,1.0,1.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0


## 3개 이상의 컬럼을 grouping해서 집계 2
- 항공사/월/출발공항코드 별 최대/최소 연착시간
- grouping할 컬럼
    - AIRLINE:항공사
    - MONTH:월
    - ORG_AIR: 출발지 공항
- 집계 대상컬럼
    - ARR_DELAY: 연착시간
- 집계 : min, max    

In [119]:
flights.groupby(['AIRLINE', 'MONTH', 'ORG_AIR'])['ARR_DELAY'].agg(['min', 'max'])

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,min,max
AIRLINE,MONTH,ORG_AIR,Unnamed: 3_level_1,Unnamed: 4_level_1
AA,1,ATL,-27.0,26.0
AA,1,DEN,-13.0,78.0
AA,1,DFW,-39.0,287.0
AA,1,IAH,-23.0,63.0
AA,1,LAS,-32.0,732.0
...,...,...,...,...
WN,12,LAS,-52.0,96.0
WN,12,LAX,-30.0,493.0
WN,12,MSP,-23.0,90.0
WN,12,PHX,-30.0,254.0


In [121]:
result = flights.pivot_table(index='MONTH', columns=['AIRLINE', 'ORG_AIR'], values='ARR_DELAY', 
                            aggfunc=['min', 'max'])
result

Unnamed: 0_level_0,min,min,min,min,min,min,min,min,min,min,...,max,max,max,max,max,max,max,max,max,max
AIRLINE,AA,AA,AA,AA,AA,AA,AA,AA,AA,AA,...,VX,VX,VX,WN,WN,WN,WN,WN,WN,WN
ORG_AIR,ATL,DEN,DFW,IAH,LAS,LAX,MSP,ORD,PHX,SFO,...,LAX,ORD,SFO,ATL,DEN,LAS,LAX,MSP,PHX,SFO
MONTH,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3,Unnamed: 13_level_3,Unnamed: 14_level_3,Unnamed: 15_level_3,Unnamed: 16_level_3,Unnamed: 17_level_3,Unnamed: 18_level_3,Unnamed: 19_level_3,Unnamed: 20_level_3,Unnamed: 21_level_3
1,-27.0,-13.0,-39.0,-23.0,-32.0,-42.0,-34.0,-38.0,-15.0,-20.0,...,105.0,58.0,87.0,126.0,131.0,189.0,179.0,128.0,114.0,25.0
2,-26.0,-17.0,-29.0,-27.0,-25.0,-41.0,-32.0,-34.0,-16.0,-31.0,...,36.0,54.0,54.0,111.0,106.0,135.0,190.0,68.0,159.0,110.0
3,-32.0,-19.0,-29.0,-13.0,-24.0,-31.0,-38.0,-34.0,-24.0,-31.0,...,224.0,,156.0,140.0,375.0,261.0,104.0,43.0,78.0,237.0
4,-30.0,-28.0,-37.0,-27.0,-19.0,-40.0,-10.0,-52.0,-22.0,-33.0,...,23.0,126.0,93.0,175.0,192.0,163.0,165.0,64.0,130.0,72.0
5,-26.0,-20.0,-36.0,-19.0,-31.0,-41.0,-15.0,-32.0,-17.0,-45.0,...,109.0,51.0,99.0,198.0,261.0,150.0,244.0,13.0,203.0,133.0
6,-23.0,-13.0,-33.0,-13.0,-27.0,-39.0,-17.0,-43.0,-26.0,-33.0,...,215.0,8.0,147.0,268.0,152.0,193.0,244.0,88.0,168.0,205.0
7,-27.0,-30.0,-32.0,-19.0,-40.0,-42.0,-26.0,-35.0,-26.0,-46.0,...,44.0,10.0,177.0,184.0,235.0,290.0,248.0,84.0,171.0,51.0
8,-32.0,-27.0,-32.0,-30.0,-28.0,-49.0,-22.0,-36.0,-26.0,-39.0,...,230.0,21.0,165.0,184.0,140.0,284.0,221.0,45.0,161.0,65.0
9,-33.0,-27.0,-33.0,-31.0,-32.0,-38.0,-28.0,-46.0,-27.0,-38.0,...,92.0,6.0,46.0,134.0,125.0,284.0,157.0,23.0,131.0,69.0
11,-33.0,-27.0,-45.0,-14.0,-31.0,-37.0,-33.0,-50.0,-35.0,-29.0,...,53.0,150.0,58.0,79.0,123.0,120.0,87.0,114.0,244.0,143.0


In [123]:
result.to_excel('saved_data/result.xlsx')

# apply() - Series, DataFrame의 데이터 일괄 처리

데이터프레임의 행들과 열들 또는 Series의 원소들에 공통된 처리를 할 때 apply 함수를 이용하면 반복문을 사용하지 않고 일괄 처리가 가능하다.

- DataFrame.apply(함수, axis=0, args=(), \*\*kwarg)
    - 인수로 행이나 열을 받는 함수를 apply 메서드의 인수로 넣으면 데이터프레임의 행이나 열들을 하나씩 함수에 전달한다.
    - 매개변수
        - **함수**: DataFrame의 행들 또는 열들을 전달할 함수
        - **axis**: **0-컬럼(열)을 전달, 1-행을 전달 (기본값 0)**
        - **args**: 함수에 행/열 이외에 전달할 매개변수를 위치기반(순서대로) 튜플로 전달
        - **\*\*kwarg**: 함수에 행/열 이외에 전달할 매개변수를 키워드 인자로 전달
- Series.apply(함수, args=(), \*\*kwarg)
    - 인수로 Series의 원소들을 받는 함수를 apply 메소드의 인수로 넣으면  Series의 원소들을 하나씩 함수로 전달한다.
    - 매개변수
        - **함수**: Series의 원소들을 전달할 함수
        - **args**: 함수에 원소 이외에 전달할 매개변수를 위치기반(순서대로) 튜플로 전달
        - **\*\*kwarg**: 함수에 원소 이외에 전달할 매개변수를 키워드 인자로 전달

# cut()/qcut() - 연속형(실수)을 범주형으로 변환
- cut() : 지정한 값을 기준으로 구간을 나눠 그룹으로 묶는다.
    - `pd.cut(x, bins,right=True, labels=None)`
    - 매개변수
        - **x**: 범주형으로 바꿀 대상. 1차원 배열형태(Series, 리스트, ndarray)의 자료구조
        - **bins**: 범주로 나눌때의 기준값(구간경계)들을 리스트로 묶어서 전달한다.
        - **right**: 구간경계의 오른쪽(True-기본)을 포함할지 왼쪽(False)을 포함할지
        - **labels**: 각 구간(범주)의 label을 리스트로 전달
            - 생략하면 범위를 범주명으로 사용한다. (ex: (10, 20], ()-포함안함, []-포함)
- qcut() :  대상배열의 최대값 ~ 최소값을 지정한 개수의 동등한 size(**원소의개수**)가 되도록 나눈다.
    - `pd.qcut(x, q, labels)`
    - 매개변수
        - **x**: 나눌 대상. 1차원 배열형태의 자료구조
        - **q**: 나눌 개수
        - **labels**: 각 구간(범주)의 label을 리스트로 전달

<b style='font-size:2em'>TODO </b>

In [None]:
# 1: data/diamonds.csv 를 읽어 DataFrame으로 만든다.

# 2: price 컬럼을 '고가', '중가', '저가' 세개의 범주값을 가지는 "price_cate" 컬럼을 생성한다.

# 3 가격대(price_cate) 별 carat의 평균을 조회

# 4 가격대(price_cate)와 cut별 평균 가격(price)를 피봇테이블로 조회

# 5 cut, color, price_cate 별 carat의 평균을 피봇테이블로 조회