참조:
- https://seong6496.tistory.com/73 (DataFrame 인덱스 설정, 리셋: 직접 배정, .set_index(), .reset_index())
- https://teddylee777.github.io/pandas/pandas-groupby/ (판다스(Pandas) .groupby()로 할 수 있는 거의 모든 것! (통계량, 전처리))

### DataFrame 인덱스 설정, 리셋
#### 1) 직접 배정
- 직접 배정 시 data와 객수가 맞아야 됨
- `DataFrame.index = list`
- `DataFrame.columns = list`

In [14]:
import numpy
from pandas import DataFrame

table = DataFrame(numpy.arange(0, 16).reshape(4,4))
print(table)
table.index = ['r0', 'r1', 'r2', 'r3']
table.columns = ['c0', 'c1', 'c2', 'c3']
print('new table:', '\n', table)

    0   1   2   3
0   0   1   2   3
1   4   5   6   7
2   8   9  10  11
3  12  13  14  15
new table: 
     c0  c1  c2  c3
r0   0   1   2   3
r1   4   5   6   7
r2   8   9  10  11
r3  12  13  14  15


#### 2) `.set_index()`
- .set_index()로 원래 있던 컬럼은 인덱스로 불러들이는 방법
- DataFrame.set_index(keys, drop=True, append=False, inplace=False, verify_integrity=False)
--------------
- keys: 인덱스로 사용하려는 열의 레이블을 입력; 멀티 인덱스 경우 리스트 형태로 값을 넣어주면 됨
- drop: 인덱스로 쓸 열을 데이터 내에서 지울 여부 결정
- append: 기존의 쓰던 인덱스를 삭제할지 여부 결정
- inplace: 원본 객체를 변경할지 여부 결정
- verify_integrity:인덱스 중복여부를 체크하는 것 - True로 하면 체크하는 시간 때문에 성능이 떨어짐

In [6]:
table.set_index('c0', drop=True)

Unnamed: 0_level_0,c1,c2,c3
c0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,1,2,3
4,5,6,7
8,9,10,11
12,13,14,15


#### 2) `.reset_index()`
- 설정했던 인덱스 초기화
- DataFrame.reset_index(level=None, drop=False, inplace=False, col_level=0, col_fill='')
- drop과 inplace 만 주로 사용
--------------
- drop: 인덱스로 쓸 열을 데이터 내에서 지울 여부 결정
- inplace: 원본 객체를 변경할지 여부 결정
- level: 인덱스에서 주어진 단계를 제거 (기본값 = 모든 단계 제거)
- col_level: 멀티인덱스일 경우 어떤 것으로 삽입할 것인지 설정 (기본값 = 0 -> 첫번째 것이 삽입됨)
- col_fill: 멀티인덱스일 경우 어떻게 다른 단계의 이름을 붙일 것인지 설정 (기본값 = '' -> 안 붙여짐)
- 'None'으로 할 시 인덱스 이름이 반복됨

### 데이터 값 변경
- 값바꿀컬럼명 = 값바꿀컬럼명.map({'원래값1': '바꿀값1', '원래값2': '바꿀값2', ...})

In [15]:
from pandas import DataFrame
table['c1'] = table['c1'].map({1:'one', 5:'five', 9:'nine', 13:'thirteen'})
table

Unnamed: 0,c0,c1,c2,c3
r0,0,one,2,3
r1,4,five,6,7
r2,8,nine,10,11
r3,12,thirteen,14,15


### pandas.groupby()
- 통계량, 전처리
#### 1) `통계량`
- 데이터츠레임.groupby(컬럼) + 통계함수
    - 통계함수:
        - .mean() -> 평균
        - .var() -> 분산
        - .agg()에 적용 가능한 통계함수 문자열 표
            - count         데이터 개수
            - sum           합계
            - mean	        평균
            - median	    중앙값
            - var, std	    분산, 표준편차
            - min, max	    최소, 최대값
            - unique, nunique	고유값, 고유값 개수
            - prod	        곱
            - first, last	첫째, 마지막값
            - 예) df.groupby('sex').agg(['mean', 'var'])

#### 2) 파라미터
- `df.groupby([컬럼1, 컬럼2, ...], as_index=False)`
    - `as_index=False` -> groupby에 설정된 컬럼들을 인덱스로 설정되게 하지 않고 일반 필드로 만든다

## Excel에서 파일 불러올 때

### 1) 컬럼 인덱스 설정
```python
origin = read_excel('파일경로/이름', header=[0, 1, 2])
```

In [6]:
from pandas import read_excel
어린이집선택이유_without = read_excel('/Users/dayoonz/Documents/8 데이터분석/프로젝트4_아동학대/데이터/어린이집선택이유_2012-2018_원본.xlsx')
print(어린이집선택이유_without.info())
어린이집선택이유_without.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9 entries, 0 to 8
Data columns (total 64 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   영유아 및 연령별(1)  3 non-null      object
 1   영유아 및 연령별(2)  9 non-null      object
 2   2012          9 non-null      object
 3   2012.1        9 non-null      object
 4   2012.2        9 non-null      object
 5   2012.3        9 non-null      object
 6   2012.4        9 non-null      object
 7   2012.5        9 non-null      object
 8   2012.6        9 non-null      object
 9   2012.7        9 non-null      object
 10  2012.8        9 non-null      object
 11  2012.9        9 non-null      object
 12  2012.10       9 non-null      object
 13  2012.11       9 non-null      object
 14  2012.12       9 non-null      object
 15  2012.13       9 non-null      object
 16  2012.14       9 non-null      object
 17  2012.15       9 non-null      object
 18  2012.16       9 non-null      object
 19  2012.17     

  warn("Workbook contains no default style, apply openpyxl's default")


Unnamed: 0,영유아 및 연령별(1),영유아 및 연령별(2),2012,2012.1,2012.2,2012.3,2012.4,2012.5,2012.6,2012.7,2012.8,2012.9,2012.10,2012.11,2012.12,2012.13,2012.14,2012.15,2012.16,2012.17,2012.18,2012.19,2015,2015.1,2015.2,2015.3,2015.4,2015.5,2015.6,2015.7,2015.8,2015.9,2015.10,2015.11,2015.12,2015.13,2015.14,2015.15,2015.16,2015.17,2015.18,2015.19,2015.20,2018,2018.1,2018.2,2018.3,2018.4,2018.5,2018.6,2018.7,2018.8,2018.9,2018.10,2018.11,2018.12,2018.13,2018.14,2018.15,2018.16,2018.17,2018.18,2018.19,2018.20
0,영유아 및 연령별(1),영유아 및 연령별(2),응답자 수 (명),원장 (%),교사 (%),운영시간 (%),비용 (%),프로그램 (%),건강·영양 (%),기관 학급 규모 (%),내부 분위기 (%),안전한 보호 (%),집과의 거리 (%),기관설비 (%),국공립 여부 (%),주변의 평판 (%),주변입지 (%),평가인증 통과 여부 (%),차량 운행 여부 (%),특별프로그램 (%),형제가 다님 (%),기타 (%),응답자 수 (명),원장 (%),교사 (%),운영시간 (%),비용 (%),프로그램 (%),건강·영양 (%),기관 학급 규모 (%),내부 분위기 (%),안전한 보호 (%),집과의 거리 (%),기관설비 (%),국공립 여부 (%),주변의 평판 (%),주변입지 (%),평가인증 통과 여부 (%),차량 운행 여부 (%),특별프로그램 (%),형제가 다님 (%),공공형어린이집여부 (%),기타 (%),응답자 수 (명),원장 (%),교사 (%),운영시간 (%),비용 (%),프로그램 (%),건강·영양 (%),기관 학급 규모 (%),내부 분위기 (%),안전한 보호 (%),집과의 거리 (%),기관설비 (%),국공립 여부 (%),주변의 평판 (%),주변입지 (%),평가인증 통과 여부 (%),차량 운행 여부 (%),특별프로그램 (%),형제가 다님 (%),공공형어린이집여부 (%),기타 (%)
1,영유아구분,영아,867,11.8,7.9,2.5,1.7,8.7,2.1,0.7,3.3,4.8,36.2,0.9,2.4,9.4,1.1,1.1,1.1,0.1,3.6,0.5,1016,13.4,11.6,3.6,2.2,8.3,2.8,2.4,4.8,2.6,30.2,1,1.7,10.6,1.4,0.5,0.6,0.1,1.1,0.8,0.5,998,9.9,11.7,2.9,1.6,5.8,1.8,1.4,2.8,1.4,32.8,2.4,4.4,13.6,1.3,1,0.6,0,2.9,0.4,1.3
2,,유아,669,7.9,7.9,3.6,4.3,20.3,4,1,2.6,1.7,21.9,1.4,6.6,11.4,0.1,0.6,1.6,0.4,1.6,1.1,729,9.7,9.6,5,2.9,14.2,2.6,2.1,4.1,1.1,23.9,2.5,5.5,10.3,1.7,1.1,0.5,0.1,1.6,0,1.4,755,9.2,9.7,4.9,3.7,10.5,1.8,1.3,2,1.1,26.7,2.4,8.7,11.6,1.7,0.9,0.5,0.2,2.4,0.6,0.3
3,연령,0세,125,17.3,10.6,3.8,0,1.9,3.8,0,1.9,2.9,41.3,1,2.9,6.7,0,0,0,1,4.8,0,121,14.8,11.8,2.5,1.3,5.3,5.5,3.7,3.3,4.3,24.5,0.3,2.2,12.7,2.8,0.4,2.5,-,0.5,-,1.5,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-
4,,1세,345,12.8,8.2,3.6,0.7,5.6,1.6,1,2.6,4.9,40,1,1.3,9.8,1.6,2,1,0,1.6,0.7,370,11.4,9.8,3.2,1.3,8,3.1,1.1,6.5,3.5,32.7,1.5,2.1,12.9,0.4,0.7,-,0.3,1.2,-,0.1,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-


In [7]:
from pandas import read_excel
어린이집선택이유_header = read_excel('/Users/dayoonz/Documents/8 데이터분석/프로젝트4_아동학대/데이터/어린이집선택이유_2012-2018_원본.xlsx',
                              header=[0, 1])
print(어린이집선택이유_header.info())
어린이집선택이유_header.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 64 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   (영유아 및 연령별(1), 영유아 및 연령별(1))  2 non-null      object 
 1   (영유아 및 연령별(2), 영유아 및 연령별(2))  8 non-null      object 
 2   (2012, 응답자 수 (명))             8 non-null      int64  
 3   (2012, 원장 (%))                8 non-null      float64
 4   (2012, 교사 (%))                8 non-null      float64
 5   (2012, 운영시간 (%))              8 non-null      float64
 6   (2012, 비용 (%))                8 non-null      float64
 7   (2012, 프로그램 (%))              8 non-null      float64
 8   (2012, 건강·영양 (%))             8 non-null      float64
 9   (2012, 기관 학급 규모 (%))          8 non-null      float64
 10  (2012, 내부 분위기 (%))            8 non-null      float64
 11  (2012, 안전한 보호 (%))            8 non-null      float64
 12  (2012, 집과의 거리 (%))            8 non-null      float64
 13  (2012, 기관

  warn("Workbook contains no default style, apply openpyxl's default")


Unnamed: 0_level_0,영유아 및 연령별(1),영유아 및 연령별(2),2012,2012,2012,2012,2012,2012,2012,2012,2012,2012,2012,2012,2012,2012,2012,2012,2012,2012,2012,2012,2015,2015,2015,2015,2015,2015,2015,2015,2015,2015,2015,2015,2015,2015,2015,2015,2015,2015,2015,2015,2015,2018,2018,2018,2018,2018,2018,2018,2018,2018,2018,2018,2018,2018,2018,2018,2018,2018,2018,2018,2018,2018
Unnamed: 0_level_1,영유아 및 연령별(1),영유아 및 연령별(2),응답자 수 (명),원장 (%),교사 (%),운영시간 (%),비용 (%),프로그램 (%),건강·영양 (%),기관 학급 규모 (%),내부 분위기 (%),안전한 보호 (%),집과의 거리 (%),기관설비 (%),국공립 여부 (%),주변의 평판 (%),주변입지 (%),평가인증 통과 여부 (%),차량 운행 여부 (%),특별프로그램 (%),형제가 다님 (%),기타 (%),응답자 수 (명),원장 (%),교사 (%),운영시간 (%),비용 (%),프로그램 (%),건강·영양 (%),기관 학급 규모 (%),내부 분위기 (%),안전한 보호 (%),집과의 거리 (%),기관설비 (%),국공립 여부 (%),주변의 평판 (%),주변입지 (%),평가인증 통과 여부 (%),차량 운행 여부 (%),특별프로그램 (%),형제가 다님 (%),공공형어린이집여부 (%),기타 (%),응답자 수 (명),원장 (%),교사 (%),운영시간 (%),비용 (%),프로그램 (%),건강·영양 (%),기관 학급 규모 (%),내부 분위기 (%),안전한 보호 (%),집과의 거리 (%),기관설비 (%),국공립 여부 (%),주변의 평판 (%),주변입지 (%),평가인증 통과 여부 (%),차량 운행 여부 (%),특별프로그램 (%),형제가 다님 (%),공공형어린이집여부 (%),기타 (%)
0,영유아구분,영아,867,11.8,7.9,2.5,1.7,8.7,2.1,0.7,3.3,4.8,36.2,0.9,2.4,9.4,1.1,1.1,1.1,0.1,3.6,0.5,1016,13.4,11.6,3.6,2.2,8.3,2.8,2.4,4.8,2.6,30.2,1.0,1.7,10.6,1.4,0.5,0.6,0.1,1.1,0.8,0.5,998,9.9,11.7,2.9,1.6,5.8,1.8,1.4,2.8,1.4,32.8,2.4,4.4,13.6,1.3,1,0.6,0,2.9,0.4,1.3
1,,유아,669,7.9,7.9,3.6,4.3,20.3,4.0,1.0,2.6,1.7,21.9,1.4,6.6,11.4,0.1,0.6,1.6,0.4,1.6,1.1,729,9.7,9.6,5.0,2.9,14.2,2.6,2.1,4.1,1.1,23.9,2.5,5.5,10.3,1.7,1.1,0.5,0.1,1.6,0,1.4,755,9.2,9.7,4.9,3.7,10.5,1.8,1.3,2,1.1,26.7,2.4,8.7,11.6,1.7,0.9,0.5,0.2,2.4,0.6,0.3
2,연령,0세,125,17.3,10.6,3.8,0.0,1.9,3.8,0.0,1.9,2.9,41.3,1.0,2.9,6.7,0.0,0.0,0.0,1.0,4.8,0.0,121,14.8,11.8,2.5,1.3,5.3,5.5,3.7,3.3,4.3,24.5,0.3,2.2,12.7,2.8,0.4,2.5,-,0.5,-,1.5,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-
3,,1세,345,12.8,8.2,3.6,0.7,5.6,1.6,1.0,2.6,4.9,40.0,1.0,1.3,9.8,1.6,2.0,1.0,0.0,1.6,0.7,370,11.4,9.8,3.2,1.3,8.0,3.1,1.1,6.5,3.5,32.7,1.5,2.1,12.9,0.4,0.7,-,0.3,1.2,-,0.1,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-
4,,2세,397,9.3,6.8,1.5,3.0,12.6,2.3,0.5,4.3,5.1,32.1,0.8,3.0,9.8,1.3,0.8,1.5,0.3,4.5,0.5,525,14.5,12.9,4.1,3.0,9.0,2.1,3.1,3.7,1.7,29.2,0.7,1.3,8.7,1.8,0.5,0.7,-,1.1,1.4,0.5,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-


### 2) 컬럼을 인덱스로 설정
```python
origin = read_excel('파일경로/이름', index_col=[0, 1, 2])
```

In [4]:
from pandas import read_excel
어린이집선택이유_header = read_excel('/Users/dayoonz/Documents/8 데이터분석/프로젝트4_아동학대/데이터/어린이집선택이유_2012-2018_원본.xlsx',
                              index_col=[0, 1]) # 0과 1번째 컬럼을 인덱스로 설정
어린이집선택이유_header

  warn("Workbook contains no default style, apply openpyxl's default")


Unnamed: 0_level_0,Unnamed: 1_level_0,2012,2012.1,2012.2,2012.3,2012.4,2012.5,2012.6,2012.7,2012.8,2012.9,...,2018.11,2018.12,2018.13,2018.14,2018.15,2018.16,2018.17,2018.18,2018.19,2018.20
영유아 및 연령별(1),영유아 및 연령별(2),Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1
영유아 및 연령별(1),영유아 및 연령별(2),응답자 수 (명),원장 (%),교사 (%),운영시간 (%),비용 (%),프로그램 (%),건강·영양 (%),기관 학급 규모 (%),내부 분위기 (%),안전한 보호 (%),...,기관설비 (%),국공립 여부 (%),주변의 평판 (%),주변입지 (%),평가인증 통과 여부 (%),차량 운행 여부 (%),특별프로그램 (%),형제가 다님 (%),공공형어린이집여부 (%),기타 (%)
영유아구분,영아,867,11.8,7.9,2.5,1.7,8.7,2.1,0.7,3.3,4.8,...,2.4,4.4,13.6,1.3,1,0.6,0,2.9,0.4,1.3
영유아구분,유아,669,7.9,7.9,3.6,4.3,20.3,4,1,2.6,1.7,...,2.4,8.7,11.6,1.7,0.9,0.5,0.2,2.4,0.6,0.3
연령,0세,125,17.3,10.6,3.8,0,1.9,3.8,0,1.9,2.9,...,-,-,-,-,-,-,-,-,-,-
연령,1세,345,12.8,8.2,3.6,0.7,5.6,1.6,1,2.6,4.9,...,-,-,-,-,-,-,-,-,-,-
연령,2세,397,9.3,6.8,1.5,3,12.6,2.3,0.5,4.3,5.1,...,-,-,-,-,-,-,-,-,-,-
연령,3세,298,8.1,5.3,4.6,2.5,19.4,7,1.4,2.5,2.8,...,-,-,-,-,-,-,-,-,-,-
연령,4세,227,8.7,10.5,2.7,7.8,12.8,2.7,0.5,2.7,1.8,...,-,-,-,-,-,-,-,-,-,-
연령,5세,144,6.6,9.1,3.6,3,29.9,1,1,2.5,0,...,-,-,-,-,-,-,-,-,-,-
