## 정렬
### index명/컬럼명을 순 정렬
- #### sort_index(axis, ascending=True)
    - axis
        - index명 기준 정렬(행) : 'index' 또는 0 (기본값)
        - columnm 명 기준 정렬(열) : 'columns' 또는 1
    - ascending
        - 정렬방식
        - True(기본): 오름차순, False: 내림차순
    - inplace
        - 원본에 적용 여부
        - False(기본): 변경한 복사본 반환 
        - True : 원본을 변경

### 컬럼 값 기준 정렬
- #### sort_values(by, ascending, inplace)
    - by
        - 정렬기준 컬럼명
        - 여러 컬럼에 대해 정렬할 경우 리스트에 담아 전달
    - ascending
        - 정렬방식
        - True(기본): 오름차순, False: 내림차순
        - 여러컬럼에 대해 정렬할 경우 정렬방식도 리스트에 담아 전달
    - inplace
        - 원본에 적용 여부
        - False(기본): 변경한 복사본 반환 
        - True : 원본을 변경
    - 결측치는 방식과 상관없이 마지막에 나온다.

## flights.csv (항공기 운항 기록 데이터)
- MONTH : 비행 월
- DAY : 비행 일
- WEEKDAY : 비행 요일 - 1(월요일)~7(일요일)
- AIRLINE : 항공사 코드
     - UA:	United Air Lines Inc.
     - AA:	American Airlines Inc.
     - US:	US Airways Inc.
     - F9:	Frontier Airlines Inc.
     - B6:	JetBlue Airways
     - OO:	Skywest Airlines Inc.
     - AS:	Alaska Airlines Inc.
     - NK:	Spirit Air Lines
     - WN:	Southwest Airlines Co.
     - DL:	Delta Air Lines Inc.
     - EV:	Atlantic Southeast Airlines
     - HA:	Hawaiian Airlines Inc.
     - MQ:	American Eagle Airlines Inc.
     - VX:	Virgin America
- ORG_AIR : 출발공항
- DEST_AIR : 도착공항
- SCHED_DEP : 출발예정시각
- DEP_DELAY : 출발지연시간(분)
- AIR_TIME : 비행시간(분)
- DIST : 비행거리(마일)
- SCHED_ARR : 도착예정시각
- ARR_DELAY : 도착지연시간(분)
- DIVERTED : 회항여부(1: True, 0: False)
- CANCELLED : 취소여부(1: True, 0: False)

## 기술통계메소드들을 이용한 데이터 집계
### 주요 기술통계 메소드

|함수|설명|
|-|-|
|**sum()**|합계|
|**mean()**|평균|
|**median()**|중위수|
|**mode()**|최빈값|
|**quantile()**|분위수|
|**std()**|표준편차|
|**var()**|분산|
|**count()**|결측치를 제외한 원소 개수|
|**min()**|최소값|
|**max()**|최대값|
|**idxmax()**|최대값 index|
|**idxmin()**|최소값 index|
|**unique()**|고유값|
|**nunique()**|고유값의 개수|

<center>cf) value_counts()는 Series에만 사용할 수 있다.</center>

- DataFrame에 위의 기술 통계 메소드들을 적용할 경우 컬럼별로 계산
- sum(), mode(), max(), min(), unique(), nunique(), count()는 문자열에 적용가능
    - idxmax(), idxmin() 는 문자열 컬럼에 사용할 수 없다. np.argmax(), np.argmin()을 사용한다.
- 기본적으로 결측치(NA)는 제외하고 처리한다. 
    - 결측치 제외하지 않으려면 skipna=False로 설정

### aggregate(func, axis=0, \*args, \*\*kwargs) 또는 agg(func, axis=0, *args, \**kwargs)
- DataFrame, Series의 메소드로 집계결과를 다양한 형태로 묶어서 볼때 사용한다.
    - **사용자 정의 집계메소드를 사용할 때도 편리하다.**
- 매개변수
    - func 
        - 집계 함수 지정
            - 함수명/함수리스트 (문자열)
                - 판다스 제공 집계메소드들은 문자열로, 사용자정의 집계함수는 함수 객체로 전달
            - 딕션어리 : {'집계할컬럼' : 집계함수, ... }
                - 컬럼별로 다른 집계를 할 경우
    - axis
        - 0 또는 'index' (기본값): 컬럼 별 집계
        - 1 또는 'columns': 행 별 집계
    - \*args, \**kwargs 
        - 함수에 전달할 매개변수. 
        - 집계함수는 첫번째 매개변수로 Series를 받는다. 그 이외의 매개변수가 있는 경우. 

# Groupby
- 특정 열을 기준으로 데이터셋을 묶는다.
- ~~ 별 집계를 할 때 사용한다.
- 구문
    - DF.groupby('그룹으로묶을기준컬럼')['집계할 컬럼'].집계함수()
        - groupby에 여러개의 컬럼을 기준으로 나눌 경우 리스트에 묶어서 전달한다.
        - 집계할 컬럼이 여러개인 경우 리스트로 묶어준다.
    - 집계함수
        - 기술통계 함수들
        - agg()/aggregate()
            - 여러 다른 집계함수 호출시(여러 집계를 같이 볼경우)
            - 사용자정의 집계함수 호출시
            - 컬럼별로 다른 집계함수들을 호출할 경우

###  복수열 기준 그룹핑
- 두개 이상의 열을 그룹으로 묶을 수 있다. 
- groupby의 매개변수에 그룹으로 묶을 컬럼들의 이름을 리스트로 전달한다.

## SQL having 처럼 집계한 것 중 특정 조건의 항목만 보기
- 집계 후 boolean indexing으로 having절 처리


## 사용자 정의 집계함수를 만들어 적용

### 사용자 정의 집계 함수 정의
- 매개변수
    1. Series 또는 DataFrame을 받을 매개변수(필수)
    2. 필요한 값을 받을 매개변수를 선언한다. (선택)

### agg() 를 사용해 사용자 정의 집계 함수 호출
- DataFrame.agg(func=None, axis=0, \*args, \*\*kwargs)
    - axis : 사용자 정의 함수에 전달할 값들(Series)의 축 지정
- Series.agg(func=None, axis=0, \*args, \*\*kwargs)
    - DataFrame의 agg와 매개변수 구조를 맞추기 위해 axis 지정한다. (kwargs를 이용해 매개변수 전달할 경우 axis는 생략해도 된다. - axis기본값 0을 그냥 쓰면 되므로. - keyword 인자 뒤에 position 인자는 안되서 *args로 값 전달시에는 axis를 지정해야 한다.)
- DataFrameGroupBy.agg(func, \*args, \*\*kwargs) : 
    - axis 지정안함.
    - 사용자 함수에 Series를 group 별로 전달한다.
- SeriesGroupBy.agg(func=None,  \*args, \*\*kwargs)  
    - axis 지정안함
    - 사용자 함수에 Series를 group 별로 전달한다.
  
- \*args, \*\*kwargs는 사용자 정의 함수에 선언한 매개변수가 있을 경우 전달할 값을 전달한다.  
    - 키워드 인자를 이용해 가변인자로 전달하는 것이 편하다.

#### 매개변수 없는 사용자 정의 함수
- 최대 값과 최소값의 차이를 반환

# TODO
1. data/diamonds.csv 를 읽어 DataFrame 생성
2. 1에서 생성한 DataFrame의 정보 조회
    - 배열의 shape조회
    - 컬럼들의 정보조회
    - 상/하위 5개 행 조회
        - csv 파일 읽기
        - shape
        - info()
        - head()
        - tail()
        - isnull().sum() => 컬럼별 null 체크 (sum() 한번더 하면 총개수)
        - describe() : 숫자형-기술통계값, 문자열-총개수, 유니크값, 최빈값
3. carat, price, depth의 합계, 평균, 최대, 최소 조회
4. price는 최대, 최소, color는 고유값의 개수를 조회
5. cut의 고유값별 개수를 조회
6. cut별 가격 평균 조회
7. cut별 가격 평균중 4000이상만 조회
8. clarity별 carat 평균과 표준편차 조회
9. cut과 color 별로 가격은 평균을 carat은 최대값을 조회 
10. 9번 문제의 결과에서 가격의 평균이 5000이상이고 carat의 최대값이 3이상인 결과만 조회