# filter(함수, **kwargs)
- 특정 조건을 만족하는 그룹들의 데이터셋(관측치들)을 조회
    - 함수: 매개변수로 Series를 받아 집계 결과의 조건을 체크하는 함수로 boolean값을 반환하도록 한다.
    - kwargs: 함수에 전달할 추가 인자값이 있으면 keyword 인자로 전달한다. 

In [1]:
import pandas as pd
import numpy as np

In [2]:
data = dict(fruits=['사과', '사과','사과', '사과','사과','귤','귤','귤','귤','귤','배','배','배','배','배','딸기','딸기','딸기','딸기','딸기'],
            cnt1=[10, 12, 13, 11, 12, 21, 22, 18, 24, 26, 7, 10, 8, 3, 2, 30, 35, 27, 41, 28],
            cnt2=[12,  8, 19, 14,  6,  5,  2, 16,  4,  3,  9, 19,  7,  2,  2,  8, 17, 13, 16, 14])
df = pd.DataFrame(data)

- cnt의 평균이 20이상인 과일의 데이터를 조회

# transform
원소의 개수는 그대로 유지하며 함수가 처리한 값으로 변경한다.
- `dataframe.transform(func, axis=0, **kwargs)`
    - func: 매개변수로 Series를 받아 Series의 값들을 변환하여 (Series)반환하는 함수객체
        - func에 지정한 축방향(0-행, 1-열)의 Series를 하나씩 전달하여 반환되는 Series로 바꾼다.
    - kwargs: 함수에 전달할 추가 인자값이 있으면 keyword 인자로 전달한다.
- `Series.transform(func, *args)    
    - func: 매개변수로 하나의 scalar 값을 받아 변환하여 반환하는 함수객체
        - func에 Series의 원소 하나씩 전달하여 반환되는 값으로 바꾼다.
        - args: 함수에 전달할 추가 인자값이 있으면 매개변수 순서에 맞게 값을 전달한다. (위치기반 argument)
- **transform() 함수를 groupby() 와 사용하면 컬럼의 각 원소들을 자신이 속한 그룹의 통계값으로 변환된 데이터셋을 생성할 수 있다.**
- 컬럼의 값과 통계값을 비교해서 보거나 결측치 처리등에 사용할 수있다.

# pivot_table()
엑셀의 pivot table 만드는 함수.    
분류별 집계(Group으로 묶어 집계)를 처리하는 함수로 group으로 묶고자 하는 컬럼을 행과 열로 위치시키고 집계값을 값으로 보여준다.
> pivot() 함수와 역할이 다르다.
> pivot() 은 index와 column의 형태를 바꾸는 reshape 함수.

- **매개변수**
    - index
        - 문자열 또는 리스트. index로 올 컬럼들 => groupby였으면 묶었을 컬럼
    - columns
        - 문자열 또는 리스트. column으로 올 컬럼들 => groupby였으면 묶었을 컬럼 (index/columns가 묶여서 groupby에 묶을 컬럼들이 된다.)
    - values
        - 문자열 또는 리스트. 집계할 대상 컬럼들
    - aggfunc
        - 집계함수 지정. 함수, 문자열, 함수리스트(문자열/함수), dict: 집계할 함수
        - 기본(생략시): 평균을 구한다. (mean이 기본값)
    - fill_value, dropna
        - fill_value: 집계시 NA가 나올경우 채울 값
        - dropna: boolean. 컬럼의 전체값이 NA인 경우 그 컬럼 제거(기본: True)
    - margins/margins_name
        - margin: boolean(기본: False). 총집계결과를 만들지 여부.
        - margin_name: margin의 이름 문자열로 지정 (생략시 All)

## 두개의 컬럼을 grouping 해서 집계
- 항공사/출발공항코드 별 취소 총수 (1이 취소이므로 합계를 구한다.)
- 사용컬럼
    - grouping할 컬럼
        - AIRLINE: 항공사
        - ORG_AIR: 출발 공항코드
    - 집계대상컬럼
        - CANCELLED: 취소여부 - 1:취소, 0: 취소안됨
- 집계: sum

## 3개 이상의 컬럼을 grouping해서 집계
- 항공사/월/출발공항코드 별 취소 총수 
- grouping할 컬럼
    - AIRLINE:항공사
    - MONTH:월
    - ORG_AIR: 출발지 공항
- 집계 대상컬럼
    - CANCELLED: 취소여부
- 집계 : sum    

## 3개 이상의 컬럼을 grouping해서 집계 2
- 항공사/월/출발공항코드 별 최대/최소 연착시간
- grouping할 컬럼
    - AIRLINE:항공사
    - MONTH:월
    - ORG_AIR: 출발지 공항
- 집계 대상컬럼
    - ARR_DELAY: 연착시간
- 집계 : min, max    

# apply() Series, DataFrame의 데이터 일괄 처리

데이터프레임의 행들과 열들 또는 Series의 원소들에 공통된 처리를 할 때 apply 함수를 이용하면 반복문을 사용하지 않고 일괄 처리가 가능하다.

- DataFrame.apply(함수, axis=0, args=())
    - 인수로 행이나 열을 받는 함수를 apply 메서드의 인수로 넣으면 데이터프레임의 행이나 열들을 하나씩 함수에 전달한다.
    - 매개변수
        - 함수: DataFrame의 행들 또는 열들을 전달할 함수
        - axis: 0-행을 전달, 1-열을 전달 (기본값 0)
        - args: 행/열 이외에 전달할 매개변수를 위치기반(순서대로) 튜플로 전달
- Series.apply(함수, args=())
    - 인수로 Series의 원소들을 받는 함수를 apply 메소드의 인수로 넣으면  Series의 원소들을 하나씩 함수로 전달한다.
    - 매개변수
        - 함수: Series의 원소들을 전달할 함수
        - args: 원소 이외에 전달할 매개변수를 위치기반(순서대로) 튜플로 전달

In [3]:
import pandas as pd
import numpy as np

In [4]:
a = np.arange(24).reshape(6,4)
df = pd.DataFrame(a, columns=['NO1','NO2','NO3','NO4'])
df

Unnamed: 0,NO1,NO2,NO3,NO4
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15
4,16,17,18,19
5,20,21,22,23


# 연속형(실수)을 범주형으로 변환
- cut() : 지정한 값을 기준으로 구간을 나눠 그룹으로 묶는다.
    - `pd.cut(x, bins,right=True, labels=None)`
    - 매개변수
        - x: 나눌 대상. 1차원 배열형태의 자료구조
        - bins: 나누는 기준값(구간경계)을 리스트로 전달
        - right: 구간경계의 오른쪽(True)을 포함할지 왼쪽(False)을 포함할지
        - labels: 각 구간의 label을 리스트로 전달
- qcut() : 데이터를 오름차순으로 정렬한 뒤 데이터 개수가 같도록 지정한 개수만큼의 구간으로 나눈다.
    - `pd.qcut(x, q, labels)`
    - 매개변수
        - x: 나눌 대상. 1차원 배열형태의 자료구조
        - q: 나눌 개수