참조:
- https://seong6496.tistory.com/73 (DataFrame 인덱스 설정, 리셋: 직접 배정, .set_index(), .reset_index())
- https://teddylee777.github.io/pandas/pandas-groupby/ (판다스(Pandas) .groupby()로 할 수 있는 거의 모든 것! (통계량, 전처리))

## DataFrame 인덱스 설정, 리셋
### 1) 직접 배정
- 직접 배정 시 data와 객수가 맞아야 됨
- `DataFrame.index = list`
- `DataFrame.columns = list`

In [1]:
import numpy
from pandas import DataFrame

table = DataFrame(numpy.arange(0, 16).reshape(4,4))
print(table)
table.index = ['r0', 'r1', 'r2', 'r3']
table.columns = ['c0', 'c1', 'c2', 'c3']
print('new table:', '\n', table)

    0   1   2   3
0   0   1   2   3
1   4   5   6   7
2   8   9  10  11
3  12  13  14  15
new table: 
     c0  c1  c2  c3
r0   0   1   2   3
r1   4   5   6   7
r2   8   9  10  11
r3  12  13  14  15


### 2) `.set_index()`
- .set_index()로 원래 있던 컬럼은 인덱스로 불러들이는 방법
- DataFrame.set_index(keys, drop=True, append=False, inplace=False, verify_integrity=False)
--------------
- keys: 인덱스로 사용하려는 열의 레이블을 입력; 멀티 인덱스 경우 리스트 형태로 값을 넣어주면 됨
- drop: 인덱스로 쓸 열을 데이터 내에서 지울 여부 결정
- append: 기존의 쓰던 인덱스를 삭제할지 여부 결정
- inplace: 원본 객체를 변경할지 여부 결정
- verify_integrity:인덱스 중복여부를 체크하는 것 - True로 하면 체크하는 시간 때문에 성능이 떨어짐

In [2]:
table.set_index('c0', drop=True)

Unnamed: 0_level_0,c1,c2,c3
c0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,1,2,3
4,5,6,7
8,9,10,11
12,13,14,15


### 3) `.reset_index()`
- 설정했던 인덱스 초기화
- DataFrame.reset_index(level=None, drop=False, inplace=False, col_level=0, col_fill='')
- drop과 inplace 만 주로 사용
--------------
- drop: 인덱스로 쓸 열을 데이터 내에서 지울 여부 결정
- inplace: 원본 객체를 변경할지 여부 결정
- level: 인덱스에서 주어진 단계를 제거 (기본값 = 모든 단계 제거)
- col_level: 멀티인덱스일 경우 어떤 것으로 삽입할 것인지 설정 (기본값 = 0 -> 첫번째 것이 삽입됨)
- col_fill: 멀티인덱스일 경우 어떻게 다른 단계의 이름을 붙일 것인지 설정 (기본값 = '' -> 안 붙여짐)
- 'None'으로 할 시 인덱스 이름이 반복됨

## 데이터 값 변경
- 값바꿀컬럼명 = 값바꿀컬럼명.map({'원래값1': '바꿀값1', '원래값2': '바꿀값2', ...})

In [3]:
from pandas import DataFrame
table['c1'] = table['c1'].map({1:'one', 5:'five', 9:'nine', 13:'thirteen'})
table

Unnamed: 0,c0,c1,c2,c3
r0,0,one,2,3
r1,4,five,6,7
r2,8,nine,10,11
r3,12,thirteen,14,15


- df.loc[행의 인덱스, 열 이름] = 바꿀 값

In [8]:
table.loc['r0', 'c0'] = 'zero'
table

Unnamed: 0,c0,c1,c2,c3
r0,zero,one,2,3
r1,4,five,6,7
r2,8,nine,10,11
r3,12,thirteen,14,15


### pandas.groupby()
- 통계량, 전처리
#### 1) `통계량`
- 데이터츠레임.groupby(컬럼) + 통계함수
    - 통계함수:
        - .mean() -> 평균
        - .var() -> 분산
        - .agg()에 적용 가능한 통계함수 문자열 표
            - count         데이터 개수
            - sum           합계
            - mean	        평균
            - median	    중앙값
            - var, std	    분산, 표준편차
            - min, max	    최소, 최대값
            - unique, nunique	고유값, 고유값 개수
            - prod	        곱
            - first, last	첫째, 마지막값
            - 예) df.groupby('sex').agg(['mean', 'var'])

#### 2) 파라미터
- `df.groupby([컬럼1, 컬럼2, ...], as_index=False)`
    - `as_index=False` -> groupby에 설정된 컬럼들을 인덱스로 설정되게 하지 않고 일반 필드로 만든다