# 데이터프레임의 요약

이 절에서는 데이터프레임을 이용하여 새로운 정보를 만드는 방법을 배운다. 살펴볼 내용은  다음과 같다.

- 데이터 불러오기
- 열에 대한 요약 통계
- 해당 연도 요약 통계
- 해당 시도 요약 통계
- 데이터 내보내기

## 고용산재보험 데이터

이제 실제 데이터인 고용, 산재의 데이터(`음식_사업장.csv`)을 불러오자.
불러올 데이터는 2017년부터 2021년의 5년간 시도별 고용보험과 산재보험을 가입한 음식 사업장 수 데이터이다.

`pandas`는 지금 다루는 데이터 프레임을 처리하기 위한 라이브러리입니다.
밑에 코드는 함수를 쓸 때 `pandas`를 계속 입력하기 번거로우니 `pd`로 간략하게 지정하면서 불러옵니다.

In [2]:
import pandas as pd

변수를 지정할 땐, 다른 사람이 어떤 것을 의미하는지 쉽게 파악할 수 있도록 변수를 지정하는 것이 좋습니다. 저희가 불러오는 데이터가 음식 사업장 수 이므로 변수 이름은 food data를 지칭하는 `food_dat`으로 설정하겠습니다. 

In [3]:
food_dat = pd.read_csv("https://uos-bigdata.github.io/lab_data/docs/assets/data_lab_bokji/data_food.csv")
food_dat

Unnamed: 0,시도,연도,산재_음식사업장수,고용_음식사업장수
0,광주,2017.0,796,801
1,광주,2018.0,1121,1136
2,광주,2019.0,1674,1679
3,광주,2020.0,1757,1763
4,광주,2021.0,1727,1734
5,대구,2017.0,1367,1375
6,대구,2018.0,1739,1749
7,대구,2019.0,2523,2531
8,대구,2020.0,2428,2434
9,대구,2021.0,2619,2624


### 열의 요약 통계

불러온 데이터를 간략하게 봅니다. 
참고로 연도는 범주형자료이기 때문에 통계량으로써는 의미가 없습니다. 그래서 연도는 지우고 평균을 구해보겠습니다.
이때, `drop` method를 이용하고, `axis` option을 이용하여 "column" 을 지정해줍니다.

In [4]:
food_sum = food_dat.drop(['연도'], axis=1)

`describe` 메소드(method)를 이용해서 기초통계량들을 확인할 수 있습니다.

In [4]:
food_sum.describe()

Unnamed: 0,산재_음식사업장수,고용_음식사업장수
count,35.0,35.0
mean,2890.228571,2901.8
std,2824.305579,2831.802988
min,541.0,541.0
25%,1228.0,1228.0
50%,1757.0,1763.0
75%,2888.5,2895.0
max,10752.0,10796.0


### 해당 연도 요약 통계

2017년 부터 2021년까지 5년간의 자료가 있기 때문에 2017년 자료만 보고 싶은 경우, 이번 예시에서는 `boolean` 이용해서 데이터를 `slice`합니다.

In [5]:
food_2017 = food_dat.loc[food_dat["연도"]==2017]
food_2017

Unnamed: 0,시도,연도,산재_음식사업장수,고용_음식사업장수
0,광주,2017.0,796,801
5,대구,2017.0,1367,1375
10,대전,2017.0,933,927
15,부산,2017.0,1713,1720
20,서울,2017.0,6069,6117
25,울산,2017.0,541,541
30,인천,2017.0,1319,1318


여기에도 `describe` method를 사용해서 기초통계량을 확인합니다.

In [6]:
food_2017.describe()

Unnamed: 0,연도,산재_음식사업장수,고용_음식사업장수
count,7.0,7.0,7.0
mean,2017.0,1819.714286,1828.428571
std,0.0,1914.542827,1931.984805
min,2017.0,541.0,541.0
25%,2017.0,864.5,864.0
50%,2017.0,1319.0,1318.0
75%,2017.0,1540.0,1547.5
max,2017.0,6069.0,6117.0


2017년 중에 산재 보험을 가입한 음식 사업장 수를 많은 지역구대로 정렬 해보려 합니다.

정렬하기 위해선 `sort_values` method 를 사용합니다.
()괄호 안에는 해당 열을 지정하고(`by="산재_음식사업장수"`) 뒤에는 내림차순으로 정렬하는 옵션 `ascending=False`을 넣습니다.

In [10]:
food_2017.sort_values(by="산재_음식사업장수", ascending=False)

Unnamed: 0,시도,연도,산재_음식사업장수,고용_음식사업장수
20,서울,2017.0,6069,6117
15,부산,2017.0,1713,1720
5,대구,2017.0,1367,1375
30,인천,2017.0,1319,1318
10,대전,2017.0,933,927
0,광주,2017.0,796,801
25,울산,2017.0,541,541


반대로 정렬할려면, 즉 오름차순로 정렬 해보려면 `ascending` 에 대한 옵션을 지우거나 `ascending=True`로 지정하면 됩니다.

- `sort_values` 메소드는 `ascending=True` 가 기본적으로 정해진 옵션입니다.

In [11]:
food_2017.sort_values(by="산재_음식사업장수")

Unnamed: 0,시도,연도,산재_음식사업장수,고용_음식사업장수
25,울산,2017.0,541,541
0,광주,2017.0,796,801
10,대전,2017.0,933,927
30,인천,2017.0,1319,1318
5,대구,2017.0,1367,1375
15,부산,2017.0,1713,1720
20,서울,2017.0,6069,6117


문자열 데이터인 `시도`` 를 가지고 정렬해보겠습니다.

In [12]:
food_2017.sort_values(by="시도")

Unnamed: 0,시도,연도,산재_음식사업장수,고용_음식사업장수
0,광주,2017.0,796,801
5,대구,2017.0,1367,1375
10,대전,2017.0,933,927
15,부산,2017.0,1713,1720
20,서울,2017.0,6069,6117
25,울산,2017.0,541,541
30,인천,2017.0,1319,1318


`시도` 열을 보면 가나다 순으로 정렬되는 것을 확인할 수 있습니다. 반대로 내림차순으로 정렬하기 위해서는 `ascending` 선택문을 사용해서 정렬할 수 있습니다.

In [13]:
food_2017.sort_values(by="시도", ascending=False)

Unnamed: 0,시도,연도,산재_음식사업장수,고용_음식사업장수
30,인천,2017.0,1319,1318
25,울산,2017.0,541,541
20,서울,2017.0,6069,6117
15,부산,2017.0,1713,1720
10,대전,2017.0,933,927
5,대구,2017.0,1367,1375
0,광주,2017.0,796,801


### 해당 시도 통계

이번에는 부산에 해당하는 자료만 선택합니다. 

In [14]:
food_busan = food_dat.loc[food_dat["시도"]=="부산"]
food_busan

Unnamed: 0,시도,연도,산재_음식사업장수,고용_음식사업장수
15,부산,2017.0,1713,1720
16,부산,2018.0,2159,2168
17,부산,2019.0,3205,3215
18,부산,2020.0,3508,3508
19,부산,2021.0,3829,3836


5년간 부산의 기초통계량을 보겠습니다. 연도에 대한 기초통계는 필요 없으므로 삭제 후 진행하겠습니다.

In [15]:
food_busan = food_busan.drop("연도", axis = 1)
food_busan.describe()

Unnamed: 0,산재_음식사업장수,고용_음식사업장수
count,5.0,5.0
mean,2882.8,2889.4
std,905.856059,904.522968
min,1713.0,1720.0
25%,2159.0,2168.0
50%,3205.0,3215.0
75%,3508.0,3508.0
max,3829.0,3836.0


5년간의 부산의 산재보험 가입한 음식 사업장 수가 많은 순으로 보려한다.

In [16]:
food_busan.sort_values(by="산재_음식사업장수", ascending=False)

Unnamed: 0,시도,산재_음식사업장수,고용_음식사업장수
19,부산,3829,3836
18,부산,3508,3508
17,부산,3205,3215
16,부산,2159,2168
15,부산,1713,1720


## 새로운 정보

이제 데이터프레임의 열들의 정보를 이용하여 새로운 정보를 가진 열을 생성하는 방법을 알아봅시다. 

먼저 가계금융복지조사 자료를 불러옵니다.

In [17]:
df_fin = pd.read_csv("https://uos-bigdata.github.io/lab_data/docs/assets/data_lab_depart/2016_housemasterdata_part1.csv", encoding='cp949',index_col=False)
df_fin.head(5)

Unnamed: 0,조사연도,가구고유번호,수도권여부,가구주_성별코드,가구원수,노인가구코드,조손가구코드,한부모가구코드,다문화가구코드,장애인가구코드,...,혼인상태코드,입주형태통합코드,전용면적규모코드,주택종류통합코드,부채보유여부,자산금액,부채금액,근로소득,사업소득,재산소득
0,2016,10200111,수도권,남자,4,그 외 가구,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,배우자있음,자기집,49.6㎡ ~ 86.0㎡ 미만,연립 및 다세대,부채 보유,76202,22200,4000,5000,0
1,2016,10200121,수도권,남자,4,그 외 가구,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,미혼,자기집,132.2㎡ 이상,단독주택,부채 보유,116466,45000,3000,0,0
2,2016,10200151,수도권,여자,3,그 외 가구,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,배우자있음,자기집,86.0㎡ ~ 132.2㎡ 미만,아파트,부채 보유,125360,8000,12600,0,0
3,2016,10200161,수도권,남자,5,그 외 가구,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,배우자있음,자기집,49.6㎡ ~ 86.0㎡ 미만,아파트,부채 보유,79406,25500,0,4200,0
4,2016,10200171,수도권,남자,2,그 외 가구,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,배우자있음,자기집,49.6㎡ ~ 86.0㎡ 미만,아파트,부채 보유,45600,27800,12420,0,0


가계금융복지조사 자료에서 3 개의 소득, 즉  `근로소득`, `사업소득`, `재산소득` 을 모두 합친 금액을 `총소득` 이라는 이름을 가진 새로운 얄을 만들려고 합니다.


여 열을 더하면 전체 값이 나온다. 전체 값을 새로운 변수 `total` 로 데이터프레임 `df_year`에 추가하자.


사용한 메소드 `sum(axis=1)` 는 데이터프레임의 모든 열 들을 더해주는 작업을 수행한다.


In [19]:
df_fin["총소득"] = df_fin[['근로소득', '사업소득', '재산소득']].sum(axis=1)
df_fin.head(5)

Unnamed: 0,조사연도,가구고유번호,수도권여부,가구주_성별코드,가구원수,노인가구코드,조손가구코드,한부모가구코드,다문화가구코드,장애인가구코드,...,입주형태통합코드,전용면적규모코드,주택종류통합코드,부채보유여부,자산금액,부채금액,근로소득,사업소득,재산소득,총소득
0,2016,10200111,수도권,남자,4,그 외 가구,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,자기집,49.6㎡ ~ 86.0㎡ 미만,연립 및 다세대,부채 보유,76202,22200,4000,5000,0,9000
1,2016,10200121,수도권,남자,4,그 외 가구,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,자기집,132.2㎡ 이상,단독주택,부채 보유,116466,45000,3000,0,0,3000
2,2016,10200151,수도권,여자,3,그 외 가구,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,자기집,86.0㎡ ~ 132.2㎡ 미만,아파트,부채 보유,125360,8000,12600,0,0,12600
3,2016,10200161,수도권,남자,5,그 외 가구,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,자기집,49.6㎡ ~ 86.0㎡ 미만,아파트,부채 보유,79406,25500,0,4200,0,4200
4,2016,10200171,수도권,남자,2,그 외 가구,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,자기집,49.6㎡ ~ 86.0㎡ 미만,아파트,부채 보유,45600,27800,12420,0,0,12420


이번에는 총소득에서 근로소득이 차지하는 비율을 백분율(percentage)단위로 만들어 열이름 `근로소득비율` 로 저장해 보자.

In [20]:
df_fin['근로소득비율'] = df_fin['근로소득'] / df_fin['총소득'] *100
df_fin.head(5)

Unnamed: 0,조사연도,가구고유번호,수도권여부,가구주_성별코드,가구원수,노인가구코드,조손가구코드,한부모가구코드,다문화가구코드,장애인가구코드,...,전용면적규모코드,주택종류통합코드,부채보유여부,자산금액,부채금액,근로소득,사업소득,재산소득,총소득,근로소득비율
0,2016,10200111,수도권,남자,4,그 외 가구,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,49.6㎡ ~ 86.0㎡ 미만,연립 및 다세대,부채 보유,76202,22200,4000,5000,0,9000,44.444444
1,2016,10200121,수도권,남자,4,그 외 가구,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,132.2㎡ 이상,단독주택,부채 보유,116466,45000,3000,0,0,3000,100.0
2,2016,10200151,수도권,여자,3,그 외 가구,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,86.0㎡ ~ 132.2㎡ 미만,아파트,부채 보유,125360,8000,12600,0,0,12600,100.0
3,2016,10200161,수도권,남자,5,그 외 가구,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,49.6㎡ ~ 86.0㎡ 미만,아파트,부채 보유,79406,25500,0,4200,0,4200,0.0
4,2016,10200171,수도권,남자,2,그 외 가구,그 외 가구,그 외 가구,그 외 가구,그 외 가구,...,49.6㎡ ~ 86.0㎡ 미만,아파트,부채 보유,45600,27800,12420,0,0,12420,100.0


### 데이터 내보내기

처음에 만든 2017년 요약데이터를 csv 내보내려면 to_csv를 입력하고 괄호() 안에는 저장링크를 넣고 마지막 부분에는 저장할 파일 이름을 지정하면 됩니다.


In [23]:
summary2017 = food_2017.describe()

summary2017.to_csv("2017년요약.csv", encoding = 'cp949')

엑셀 .xlsx로 내보낼수도 있습니다. 

In [None]:
summary2017.to_excel("2017년요약.xlsx", encoding = 'cp949')

만약 시트 이름을 바꾸고 싶다면 `sheet_name`을 추가하자.

In [None]:
summary2017.to_excel("2017년요약.xlsx", encoding = 'cp949', sheet_name='Sheet_name_1')

만약 여러 개 시트에 저장하고 싶다면 다음과 같이 지정해주면 됩니다.

In [None]:
with pd.ExcelWriter("요약표 작업.xlsx") as writer:  
    summary2017.to_excel(writer, sheet_name='2017년도 요약표', encoding = 'cp949')
    df_busan.to_excel(writer, sheet_name='부산 요약표', encoding = 'cp949')

저장했던 데이터를 다시 불러와보자. 특정 시트를 지정해주지 않으면 기본적으로 첫 번째 시트를 불러옵니다.

In [None]:
excel1 = pd.read_excel("요약표 작업.xlsx", index_col=0)
excel1

Unnamed: 0,연도,산재_음식사업장수,고용_음식사업장수
count,7,7.0,7.0
mean,2017,1819.714286,1828.428571
std,0,1914.542827,1931.984805
min,2017,541.0,541.0
25%,2017,864.5,864.0
50%,2017,1319.0,1318.0
75%,2017,1540.0,1547.5
max,2017,6069.0,6117.0


특정 시트를 불러오고 싶다면 `sheet_name`로 시트명이나 시트번호를 입력합니다.

In [None]:
excel2 = pd.read_excel("요약표 작업.xlsx", sheet_name = '2017년도 요약표', index_col=0) # 시트명으로 불러오기.
excel2

Unnamed: 0,연도,산재_음식사업장수,고용_음식사업장수
count,7,7.0,7.0
mean,2017,1819.714286,1828.428571
std,0,1914.542827,1931.984805
min,2017,541.0,541.0
25%,2017,864.5,864.0
50%,2017,1319.0,1318.0
75%,2017,1540.0,1547.5
max,2017,6069.0,6117.0
