# 정렬
## index이름, column 이름을 기준으로 정렬

- <b style='font-size:1.2em'>sort_index(axis=0, ascending=True, inplace=False)</b>
    - axis
        - index 이름 기준 정렬(행) : 'index' 또는 0 (기본값)
        - column 이름 기준 정렬(열) : 'columns' 또는 1
    - ascending
        - 정렬방식
        - True(기본): 오름차순, False: 내림차순
    - inplace
        - 원본에 적용 여부
        - False(기본): 변경한 복사본 반환 
        - True : 원본을 변경

## 특정 컬럼(열)의 값을 기준으로 정렬
- <b style='font-size:1.2em'>sort_values(by, ascending, inplace)</b>
    - by
        - **정렬 기준 컬럼이름**을 문자열로 지정
        - 여러 컬럼에 대해 정렬할 경우 리스트에 담아 전달
    - ascending
        - 정렬방식
        - True(기본): 오름차순, False: 내림차순
        - 여러 컬럼에 대해 정렬할 경우 정렬방식도 리스트에 담아 전달
    - inplace
        - 원본에 적용 여부
        - False(기본): 변경한 복사본 반환 
        - True : 원본을 변경
    - 결측치는 방식과 상관없이 마지막에 나온다.

# flights.csv (항공기 운항 기록 데이터)
- MONTH : 비행 월
- DAY : 비행 일
- WEEKDAY : 비행 요일 - 1(월요일)~7(일요일)
- AIRLINE : 항공사 코드
     - UA:	United Air Lines Inc.
     - AA:	American Airlines Inc.
     - US:	US Airways Inc.
     - F9:	Frontier Airlines Inc.
     - B6:	JetBlue Airways
     - OO:	Skywest Airlines Inc.
     - AS:	Alaska Airlines Inc.
     - NK:	Spirit Air Lines
     - WN:	Southwest Airlines Co.
     - DL:	Delta Air Lines Inc.
     - EV:	Atlantic Southeast Airlines
     - HA:	Hawaiian Airlines Inc.
     - MQ:	American Eagle Airlines Inc.
     - VX:	Virgin America
- ORG_AIR : 출발공항
- DEST_AIR : 도착공항
- SCHED_DEP : 출발예정시각
- DEP_DELAY : 출발지연시간(분)
- AIR_TIME : 비행시간(분)
- DIST : 비행거리(마일)
- SCHED_ARR : 도착예정시각
- ARR_DELAY : 도착지연시간(분)
- DIVERTED : 회항여부(1: True, 0: False)
- CANCELLED : 취소여부(1: True, 0: False)

# 기술통계 메소드들을 이용한 데이터 집계
## 주요 기술통계 메소드

|함수|설명|
|-|-|
|**sum()**|합계|
|**mean()**|평균|
|**median()**|중위수|
|**mode()**|최빈값|
|**quantile()**|분위수|
|**std()**|표준편차|
|**var()**|분산|
|**count()**|결측치를 제외한 원소 개수|
|**min()**|최소값|
|**max()**|최대값|
|**idxmax()**|최대값 index|
|**idxmin()**|최소값 index|
|**unique()**|고유값|
|**nunique()**|고유값의 개수|

<center><b style='font-size:1.2em'>cf) value_counts()는 Series에만 사용할 수 있다.</b></center>

- DataFrame에 위의 기술 통계 메소드들을 적용할 경우 **컬럼별로 계산한다.**
- sum(), mode(), max(), min(), unique(), nunique(), count()는 **문자열에 적용가능하다.**
    - idxmax(), idxmin() 는 문자열 컬럼에 사용할 수 없다. (문자열의 경우 넘파이의 argmax(), argmin() 함수를 사용한다.)

- **공통 매개변수**
    - skipna=True(기본값)
        - 결측치(NA)를 포함해서 계산할지 여부 설정.
        - True가 기본값으로 결측치(NA)를 제외하고 처리한다. 
        - 결측치 제외하지 않으려면 skipna=False로 설정하는데 결측치가 있으면 결과는 결측치가 된다.
    - axis
        - DataFrame에 적용할 때 계산방향을 설정
            - 0 또는 'index' (기본값): 컬럼 방향으로 집계
            - 1 또는 'columns': 행 방향으로 집계

## aggregate(func, axis=0, \*args, \*\*kwargs) 또는 agg(func, axis=0, \*args, \*\*kwargs)
- DataFrame, Series의 메소드로 **집계결과를 다양한 형태로 묶어서 볼 때** 사용한다.
    - **사용자 정의 집계메소드를 사용할 때도 편리하다.**
- **매개변수**
    - func 
        - 집계 함수 지정
            - 함수명/함수리스트 (문자열)
                - 판다스 제공 집계메소드들은 문자열로, 사용자정의 집계함수는 함수 객체로 전달
            - Dictionary : {'집계할컬럼' : 집계함수, ... }
                - 컬럼별로 다른 집계를 할 경우
    - axis
        - DataFrame에 적용할 때 0 방향으로 계산할 지 1 방향으로 계산할지 설정
            - 0 또는 'index' (기본값): 컬럼 방향으로 집계
            - 1 또는 'columns': 행 방향으로 집계
    - \*args, \*\*kwargs 
        - 함수에 전달할 매개변수. 
        - 집계함수는 첫번째 매개변수로 Series를 받는다. 그 이외의 매개변수가 있는 경우. 

# Groupby
- 특정 열을 기준으로 같은 값을 가지는 행끼리 묶어서 group화 한다.
- **~~ 별 집계를 할 때** 사용한다. (성별, 직급별, 등급별 ...)
    - Group으로 묶을 기준 열은 범주형타입(category)을 사용한다.
- **구문**
    - `DF.groupby('그룹으로묶을기준컬럼')`
        - DataFrameGroupby 객체를 반환한다.
        - DataFrameGroupby 객체는 어떤 행끼리 묶여있는지 정보를 가진다. 이 객체의 집계함수를 사용하면 그룹별 집계를 할 수 있다.
            - `DataFrameGroupby객체['집계할 컬럼'].집계함수()`
        - groupby에 여러개의 컬럼을 기준으로 나눌 경우 리스트에 묶어서 전달한다.
        - 집계할 컬럼이 여러개인 경우 리스트로 묶어준다.
    - 집계함수
        - 기술통계 함수들
        - agg()/aggregate()
            - 여러 다른 집계함수 호출시(여러 집계를 같이 볼경우)
            - 사용자정의 집계함수 호출시
            - 컬럼별로 다른 집계함수들을 호출할 경우

##  복수열 기준 그룹핑
- 두개 이상의 열을 그룹으로 묶을 수 있다. 
- groupby의 매개변수에 그룹으로 묶을 컬럼들의 이름을 리스트로 전달한다.

## Group 별 집계결과에서 특정 조건의 항목만 조회
- Groupby 집계 후 boolean indexing 처리한다.


# 사용자 정의 집계함수를 만들어 적용

## 사용자 정의 집계 함수 정의
- 매개변수
    1. Series 또는 DataFrame을 받을 매개변수(필수)
    2. 필요한 값을 받을 매개변수를 선언한다. (선택)

## agg() 를 사용해 사용자 정의 집계 함수 호출
- DataFrame.agg(func=None, axis=0, \*args, \*\*kwargs)
    - axis : 사용자 정의 함수에 전달할 값들(Series)의 축 지정
- Series.agg(func=None, axis=0, \*args, \*\*kwargs)
    - DataFrame의 agg와 매개변수 구조를 맞추기 위해 axis 지정한다. (kwargs를 이용해 매개변수 전달할 경우 axis는 생략해도 된다. - axis기본값 0을 그냥 쓰면 되므로. - keyword 인자 뒤에 position 인자는 안되서 *args로 값 전달시에는 axis를 지정해야 한다.)
- DataFrameGroupBy.agg(func, \*args, \*\*kwargs) : 
    - axis 지정안함.
    - 사용자 함수에 Series를 group 별로 전달한다.
- SeriesGroupBy.agg(func=None,  \*args, \*\*kwargs)  
    - axis 지정안함
    - 사용자 함수에 Series를 group 별로 전달한다.
  
- \*args, \*\*kwargs는 사용자 정의 함수에 선언한 매개변수가 있을 경우 전달할 값을 전달한다.  
    - 키워드 인자를 이용해 가변인자로 전달하는 것이 편하다.

# TODO

In [None]:
# 1. data/diamonds.csv 를 읽어 DataFrame 생성

# 2. 1에서 생성한 DataFrame의 정보 조회
#     - 배열의 shape조회
#     - DataFrame에 대한 정보조회
#     - 상/하위 5개 행 조회
#     - 결측치 확인

# 3. carat, price, depth의 합계, 평균, 최대, 최소 조회

# 4. price는 최대, 최소, color는 고유값의 개수를 조회

# 5. cut의 고유값별 개수를 조회

# 6. cut별 가격 평균 조회

# 7. cut별 가격 평균중 4000이상만 조회

# 8. clarity별 carat 평균과 표준편차 조회

# 9. cut과 color 별로 가격은 평균을 carat은 최대값을 조회 

# 10. 9번 문제의 결과에서 가격의 평균이 5000이상이고 carat의 최대값이 3이상인 결과만 조회

# pivot_table()
엑셀의 pivot table 기능을 제공하는 메소드.    
분류별 집계(Group으로 묶어 집계)를 처리하는 함수로 group으로 묶고자 하는 컬럼들을 행과 열로 위치시키고 집계값을 값으로 보여준다.    
역할은 `groupby()`를 이용한 집계와 같은데 **여러개 컬럼을 기준으로 groupby 를 할 경우 집계결과를 읽는 것이 더 편하다.(가독성이 좋다)**

> pivot() 함수와 역할이 다르다.   
> pivot() 은 index와 column의 형태를 바꾸는 reshape 함수.

- `DataFrame.pivot_table(values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All')`
- **매개변수**
    - **index**
        - 문자열 또는 리스트. index로 올 컬럼들 => groupby였으면 묶었을 컬럼
    - **columns**
        - 문자열 또는 리스트. column으로 올 컬럼들 => groupby였으면 묶었을 컬럼 (index/columns가 묶여서 groupby에 묶을 컬럼들이 된다.)
    - **values**
        - 문자열 또는 리스트. 집계할 대상 컬럼들
    - **aggfunc**
        - 집계함수 지정. 함수, 함수이름문자열, 함수리스트(함수이름 문자열/함수객체), dict: 집계할 함수
        - 기본(생략시): 평균을 구한다. (mean이 기본값)
    - **fill_value, dropna**
        - fill_value: 집계시 NA가 나올경우 채울 값
        - dropna: boolean. 컬럼의 전체값이 NA인 경우 그 컬럼 제거(기본: True)
    - **margins/margins_name**
        - margin: boolean(기본: False). 총집계결과를 만들지 여부.
        - margin_name: margin의 이름 문자열로 지정 (생략시 All)

## 두개의 컬럼을 grouping 해서 집계
- 항공사/출발공항코드 별 취소 총수 (1이 취소이므로 합계를 구한다.)
- 사용컬럼
    - grouping할 컬럼
        - AIRLINE: 항공사
        - ORG_AIR: 출발 공항코드
    - 집계대상컬럼
        - CANCELLED: 취소여부 - 1:취소, 0: 취소안됨
- 집계: sum

## 3개 이상의 컬럼을 grouping해서 집계
- 항공사/월/출발공항코드 별 취소 총수 
- grouping할 컬럼
    - AIRLINE:항공사
    - MONTH:월
    - ORG_AIR: 출발지 공항
- 집계 대상컬럼
    - CANCELLED: 취소여부
- 집계 : sum   

# 기타 메소드

## apply() - Series, DataFrame의 데이터 일괄 처리

데이터프레임의 행들과 열들 또는 Series의 원소들에 공통된 처리를 할 때 apply 함수를 이용하면 반복문을 사용하지 않고 일괄 처리가 가능하다.

- DataFrame.apply(함수, axis=0, args=(), \*\*kwarg)
    - 인수로 행이나 열을 받는 함수를 apply 메서드의 인수로 넣으면 데이터프레임의 행이나 열들을 하나씩 함수에 전달한다.
    - 매개변수
        - **함수**: DataFrame의 행들 또는 열들을 전달할 함수
        - **axis**: **0-컬럼(열)을 전달, 1-행을 전달 (기본값 0)**
        - **args**: 함수에 행/열 이외에 전달할 매개변수를 위치기반(순서대로) 튜플로 전달
        - **\*\*kwarg**: 함수에 행/열 이외에 전달할 매개변수를 키워드 인자로 전달
- Series.apply(함수, args=(), \*\*kwarg)
    - 인수로 Series의 원소들을 받는 함수를 apply 메소드의 인수로 넣으면  Series의 원소들을 하나씩 함수로 전달한다.
    - 매개변수
        - **함수**: Series의 원소들을 전달할 함수
        - **args**: 함수에 원소 이외에 전달할 매개변수를 위치기반(순서대로) 튜플로 전달
        - **\*\*kwarg**: 함수에 원소 이외에 전달할 매개변수를 키워드 인자로 전달

## cut() - 연속형(실수)을 범주형으로 변환
- cut() : 지정한 값을 기준으로 구간을 나눠 그룹으로 묶는다.
    - `pd.cut(x, bins,right=True, labels=None)`
    - 매개변수
        - **x**: 범주형으로 바꿀 대상. 1차원 배열형태(Series, 리스트, ndarray)의 자료구조
        - **bins**: 범주로 나눌때의 기준값(구간경계)들을 리스트로 묶어서 전달한다.
        - **right**: 구간경계의 오른쪽(True-기본)을 포함할지 왼쪽(False)을 포함할지
        - **labels**: 각 구간(범주)의 label을 리스트로 전달
            - 생략하면 범위를 범주명으로 사용한다. (ex: (10, 20], ()-포함안함, []-포함)