# 데이터 프레임을 이용한 자료 분석 실습 


## 고용산재보험 가입 현황 자료

- `pandas`패키지의 `DataFrame`구조의 데이터에 대해  데이터를 정리하고 요약하는 법을 배웠다. 
 
- 이번 시간에는 고용산재보험 가입 현황 자료를 이용하여 원하는 목적을 달성하기 위한 프로그래밍 과정을 배우고자 한다.

- 고용산재보험 가입 현황 자료를 이용한 자료분석의 목표는 다음과 같다.

    + **2017년부터 2021년까지 연도별, 시도별 산재 및 고용보험에 가입된 사업장 수와 총 근로자수  계산**


In [1]:
import pandas as pd

### 고용산재보험 데이터 불러오기

아래는 각각 서울, 대구, 부산에 대해여 고용산재보험 데이터를 포함한 csv파일을 모두 읽고 데이터프레임에 저장하는 코드이다.

In [2]:
dg_dat = pd.read_csv("https://uos-bigdata.github.io/lab_data/docs/assets/data_lab_bokji/dat_practice_daegu.csv")
bs_dat = pd.read_csv("https://uos-bigdata.github.io/lab_data/docs/assets/data_lab_bokji/dat_practice_pusan.csv")
sl_dat = pd.read_csv("https://uos-bigdata.github.io/lab_data/docs/assets/data_lab_bokji/dat_practice_seoul.csv")


불러운 자료의 구조와 자료의 수를 살펴보자. 먼저 서울지역의  고용산재보험 데이터를 살펴보자.

In [3]:
sl_dat.head(5)

Unnamed: 0,연번,보험구분,사업장명,우편번호,사업장주소,고용보험업종코드,고용보험업종명,산재보험성립일자,고용보험성립일자,산재보험상시근로자수,고용보험상시근로자수,산재사업구분,고용사업구분,사업자등록번호,시도
0,1,전체,김구동(부동산),7238,서울 영등포구 국회대로72길 11,74100.0,사업시설 유지관리 서비스업,2010-07-01,2010-07-01,1,1,계속,계속,1071384000.0,서울
1,2,전체,바우피엔피,4546,서울 중구 을지로33길 16,20202.0,합성수지 및 기타 플라스틱 물질 제조업,2014-01-01,2014-01-01,2,2,계속,계속,1010109000.0,서울
2,3,전체,토탈사인대광부식,7291,서울특별시 영등포구 영등포로18길 2-3,18119.0,기타 인쇄업,2008-04-01,2008-04-01,3,3,계속,계속,1010113000.0,서울
3,5,전체,한서전자,4545,서울 중구 청계천로 160,46521.0,가전제품 및 부품 도매업,2000-07-01,1998-10-01,5,5,계속,계속,1010113000.0,서울
4,6,전체,삼진상사,8217,서울 구로구 경인로53길 15,46595.0,전기용 기계장비 및 관련 기자재 도매업,2000-07-01,1998-10-01,1,1,계속,계속,1010113000.0,서울


In [4]:
sl_dat.shape # 데이터프레임의 행과 열의 수를 출력

(505438, 15)

각각 `DataFrame`으로 저장되어 있는 자료를 `pd.concat`함수를 이용해서 합치는 작업을 진행한다.

`pandas` 패키지 내에 `concat`함수를 이용하면 된다. 이는 `merge`랑 다른 의미의 함수이다.

In [5]:
tmp_dat = pd.concat([dg_dat, bs_dat, sl_dat])

In [6]:
tmp_dat.head(5)

Unnamed: 0,연번,보험구분,사업장명,우편번호,사업장주소,고용보험업종코드,고용보험업종명,산재보험성립일자,고용보험성립일자,산재보험상시근로자수,고용보험상시근로자수,산재사업구분,고용사업구분,사업자등록번호,시도
0,967,전체,탐앤탐스,42203,대구 수성구 용학로 45,56229.0,기타 비알코올 음료점업,2012-05-21,2012-05-21,5,5,계속,계속,1010481000.0,대구
1,1685,전체,박창우의소백산왕소금구이,41151,대구광역시 동구 범안로 823,56111.0,한식 일반 음식점업,2014-11-26,2014-11-26,1,1,계속,계속,1010737000.0,대구
2,2422,전체,배스킨라빈스동대구역사점,41229,대구광역시 동구 동대구로 550,56229.0,기타 비알코올 음료점업,2015-02-01,2015-02-01,5,5,계속,계속,1010946000.0,대구
3,2443,전체,명성（明成）,48097,부산광역시 해운대구 좌동순환로 473,46492.0,시계 및 귀금속제품 도매업,2009-03-01,2009-03-01,1,1,계속,계속,1010952000.0,대구
4,4076,전체,문성직물,41708,대구광역시 서구 염색공단로 67,13213.0,화학섬유직물 직조업,2018-03-02,2018-03-02,7,7,계속,계속,1011279000.0,대구


In [7]:
tmp_dat.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 760752 entries, 0 to 505437
Data columns (total 15 columns):
 #   Column      Non-Null Count   Dtype  
---  ------      --------------   -----  
 0   연번          760752 non-null  int64  
 1   보험구분        760752 non-null  object 
 2   사업장명        760751 non-null  object 
 3   우편번호        760752 non-null  int64  
 4   사업장주소       760752 non-null  object 
 5   고용보험업종코드    738087 non-null  float64
 6   고용보험업종명     738087 non-null  object 
 7   산재보험성립일자    756382 non-null  object 
 8   고용보험성립일자    738084 non-null  object 
 9   산재보험상시근로자수  760752 non-null  int64  
 10  고용보험상시근로자수  760752 non-null  int64  
 11  산재사업구분      756382 non-null  object 
 12  고용사업구분      738091 non-null  object 
 13  사업자등록번호     760614 non-null  float64
 14  시도          760752 non-null  object 
dtypes: float64(2), int64(4), object(9)
memory usage: 92.9+ MB


In [8]:
tmp_dat.shape

(760752, 15)

전체 자료의 수는 760,752 개로 각 사업장의 정보와 고용보험, 산재보험에 대한 가입정보가 포함되어 있다.

## 자료의 정리 및 요약

산재 및 고용보험 성립 연도별, 시도별 전체 사업장 수, 총 근로자의 수와 두 보험의 가입현황의 차이를 파악하기 위하여 2가지 작업을  먼저 진행해야 한다.


1. 산재보험 가입 정보를 이용한 자료의 정리 및 요약
2. 고용보험 가입 정보를 이용한 자료의 정리 및 요약
3. 위에서 생성한 두 데이터의 결합

산재보험 가입 정보와 고용보험 가입 정보를 구분하는 이유는 산재보험성립일자 및 고용보험성립일자의 연도가 반드시 같다는 보장이 없으며, 동시에 가입되지 않는 사업체들도 있기 때문이다. 

### 연도 변수의 생성

먼저 데이터에 연도(year)에 관련 변수가 없으므로, 먼저 연도를 생성하자.

산재보험성립일자에서 연도를 생성하는 방법은 2가지이다. 
- 앞에서 4자리를 자르는것
- 변수를 날짜형으로 저장하고, 연도만 추출하는것

우리는 두번째 방법을 이용하여 연도를 생성한다. 날짜형으로 저장하기 위해 `pandas`패키지안에 `to_datetime` method를 이용한다.

###

먼저 데이터에 연도(year)에 관련 변수가 없으므로, 먼저 연도를 생성하자.

산재보험성립일자에서 연도를 생성하는 방법은 2가지이다. 
- 앞에서 4자리를 자르는것
- 변수를 날짜형으로 저장하고, 연도만 추출하는것

우리는 두번째 방법을 이용하여 연도를 생성한다. 날짜형으로 저장하기 위해 `pandas`패키지안에 `to_datetime` method를 이용한다.

In [9]:
tmp_dat['산재보험성립일자'] = pd.to_datetime(tmp_dat['산재보험성립일자'])

In [10]:
tmp_dat.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 760752 entries, 0 to 505437
Data columns (total 15 columns):
 #   Column      Non-Null Count   Dtype         
---  ------      --------------   -----         
 0   연번          760752 non-null  int64         
 1   보험구분        760752 non-null  object        
 2   사업장명        760751 non-null  object        
 3   우편번호        760752 non-null  int64         
 4   사업장주소       760752 non-null  object        
 5   고용보험업종코드    738087 non-null  float64       
 6   고용보험업종명     738087 non-null  object        
 7   산재보험성립일자    756382 non-null  datetime64[ns]
 8   고용보험성립일자    738084 non-null  object        
 9   산재보험상시근로자수  760752 non-null  int64         
 10  고용보험상시근로자수  760752 non-null  int64         
 11  산재사업구분      756382 non-null  object        
 12  고용사업구분      738091 non-null  object        
 13  사업자등록번호     760614 non-null  float64       
 14  시도          760752 non-null  object        
dtypes: datetime64[ns](1), float64(2), int64(4), object(

`산재보험성립일자`의 자료의 형식(`Dtype`)을 보면 처음 불러왔던 자료와 다르게 시간의 형식을 나타내는 `datetime64`로 변경된 것을 확인 할 수 있다.

시간의 형식을 나타내는 `datetime64`은 날짜를 나타내는 자료의 형식으로서 날짜를 이용한 다양한 계산을 쉽게 할 수 있다. 

다음으로 `산재보험성립일자`의 연도를 추출하기 위해 `dt` method의 `year`함수를 이용한다.

In [11]:
tmp_dat["산재_year"] = tmp_dat["산재보험성립일자"].dt.year

tmp_dat.head(5)

Unnamed: 0,연번,보험구분,사업장명,우편번호,사업장주소,고용보험업종코드,고용보험업종명,산재보험성립일자,고용보험성립일자,산재보험상시근로자수,고용보험상시근로자수,산재사업구분,고용사업구분,사업자등록번호,시도,산재_year
0,967,전체,탐앤탐스,42203,대구 수성구 용학로 45,56229.0,기타 비알코올 음료점업,2012-05-21,2012-05-21,5,5,계속,계속,1010481000.0,대구,2012.0
1,1685,전체,박창우의소백산왕소금구이,41151,대구광역시 동구 범안로 823,56111.0,한식 일반 음식점업,2014-11-26,2014-11-26,1,1,계속,계속,1010737000.0,대구,2014.0
2,2422,전체,배스킨라빈스동대구역사점,41229,대구광역시 동구 동대구로 550,56229.0,기타 비알코올 음료점업,2015-02-01,2015-02-01,5,5,계속,계속,1010946000.0,대구,2015.0
3,2443,전체,명성（明成）,48097,부산광역시 해운대구 좌동순환로 473,46492.0,시계 및 귀금속제품 도매업,2009-03-01,2009-03-01,1,1,계속,계속,1010952000.0,대구,2009.0
4,4076,전체,문성직물,41708,대구광역시 서구 염색공단로 67,13213.0,화학섬유직물 직조업,2018-03-02,2018-03-02,7,7,계속,계속,1011279000.0,대구,2018.0


같은 방법으로 `고용보험성립일자`의 연도를 생성한다.

In [12]:
tmp_dat['고용보험성립일자'] = pd.to_datetime(tmp_dat['고용보험성립일자'])
tmp_dat["고용_year"] = tmp_dat["고용보험성립일자"].dt.year

tmp_dat.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 760752 entries, 0 to 505437
Data columns (total 17 columns):
 #   Column      Non-Null Count   Dtype         
---  ------      --------------   -----         
 0   연번          760752 non-null  int64         
 1   보험구분        760752 non-null  object        
 2   사업장명        760751 non-null  object        
 3   우편번호        760752 non-null  int64         
 4   사업장주소       760752 non-null  object        
 5   고용보험업종코드    738087 non-null  float64       
 6   고용보험업종명     738087 non-null  object        
 7   산재보험성립일자    756382 non-null  datetime64[ns]
 8   고용보험성립일자    738084 non-null  datetime64[ns]
 9   산재보험상시근로자수  760752 non-null  int64         
 10  고용보험상시근로자수  760752 non-null  int64         
 11  산재사업구분      756382 non-null  object        
 12  고용사업구분      738091 non-null  object        
 13  사업자등록번호     760614 non-null  float64       
 14  시도          760752 non-null  object        
 15  산재_year     756382 non-null  float64       
 16  고용

In [13]:
tmp_dat.head(5)

Unnamed: 0,연번,보험구분,사업장명,우편번호,사업장주소,고용보험업종코드,고용보험업종명,산재보험성립일자,고용보험성립일자,산재보험상시근로자수,고용보험상시근로자수,산재사업구분,고용사업구분,사업자등록번호,시도,산재_year,고용_year
0,967,전체,탐앤탐스,42203,대구 수성구 용학로 45,56229.0,기타 비알코올 음료점업,2012-05-21,2012-05-21,5,5,계속,계속,1010481000.0,대구,2012.0,2012.0
1,1685,전체,박창우의소백산왕소금구이,41151,대구광역시 동구 범안로 823,56111.0,한식 일반 음식점업,2014-11-26,2014-11-26,1,1,계속,계속,1010737000.0,대구,2014.0,2014.0
2,2422,전체,배스킨라빈스동대구역사점,41229,대구광역시 동구 동대구로 550,56229.0,기타 비알코올 음료점업,2015-02-01,2015-02-01,5,5,계속,계속,1010946000.0,대구,2015.0,2015.0
3,2443,전체,명성（明成）,48097,부산광역시 해운대구 좌동순환로 473,46492.0,시계 및 귀금속제품 도매업,2009-03-01,2009-03-01,1,1,계속,계속,1010952000.0,대구,2009.0,2009.0
4,4076,전체,문성직물,41708,대구광역시 서구 염색공단로 67,13213.0,화학섬유직물 직조업,2018-03-02,2018-03-02,7,7,계속,계속,1011279000.0,대구,2018.0,2018.0


### 결측치의 현황

대부분의 자료에는 **결측치(missing data)** 가 존재한다. 결측의 원인은 무응답, 누락, 정보의 부재 등 다양한 이유가 있으며 결측치가 존재하면 자료의 분석할 때 어려움이 많다.   

산재보험성립일자 및 고용보험성립일자의 결측치의 갯수는 다음과 같다.

함수 `isna()` 는 자료에 결측값이 있으면 참, 없으면 거짓의 결과를 준다. 

In [14]:
tmp_dat["산재보험성립일자"].isna().sum()

4370

In [15]:
tmp_dat["고용보험성립일자"].isna().sum()

22668

`산재보험성립일자` 와 `"고용보험성립일자` 는 각각 4370개, 22668개의 결측값을 포함하고 있다. 

성립일자가 결측값이면  가입연도 또한 결측값이기 때문에 연도별로 자료를 정리할 때 문제가 발생한다. 

다음은 성립일자가 결측값인 자료의 일부분이다.

In [16]:
tmp_dat.loc[tmp_dat["산재보험성립일자"].isna()].head(5)

Unnamed: 0,연번,보험구분,사업장명,우편번호,사업장주소,고용보험업종코드,고용보험업종명,산재보험성립일자,고용보험성립일자,산재보험상시근로자수,고용보험상시근로자수,산재사업구분,고용사업구분,사업자등록번호,시도,산재_year,고용_year
466,32472,고용,신용보증기금,41068,대구광역시 동구 첨단로 7,65122.0,보증 보험업,NaT,1995-07-01,0,2845,,계속,1058206000.0,대구,,1995.0
1669,138225,고용,신보성건설,41016,대구 동구 팔공로 1385,41999.0,건설업본사,NaT,2019-07-01,0,1,,계속,1184801000.0,대구,,2019.0
1686,139060,고용,한국산업단지공단,41068,대구광역시 동구 첨단로 39,75919.0,기타 사무지원 서비스업,NaT,1997-01-10,0,664,,계속,1188202000.0,대구,,1997.0
2159,235497,고용,태창건설(주),41900,대구 중구 태평로 17,42132.0,콘크리트 및 철근 공사업,NaT,2021-10-18,0,1,,일괄유기,1258633000.0,대구,,2021.0
2789,387808,고용,케이(K)하우즈/사무실,41830,대구 서구 국채보상로50길 62-12,41999.0,건설업본사,NaT,2020-03-01,0,2,,계속,1361370000.0,대구,,2020.0


In [17]:
tmp_dat.loc[tmp_dat["고용보험성립일자"].isna()].head(5)

Unnamed: 0,연번,보험구분,사업장명,우편번호,사업장주소,고용보험업종코드,고용보험업종명,산재보험성립일자,고용보험성립일자,산재보험상시근로자수,고용보험상시근로자수,산재사업구분,고용사업구분,사업자등록번호,시도,산재_year,고용_year
6,4281,산재,마음사회서비스센터,41838,대구 서구 평리로 235,,,2019-01-01,NaT,0,0,계속,,1011366000.0,대구,2019.0,
77,6213,산재,세븐,41461,대구 북구 태암로4길 3,,,2021-05-30,NaT,1,0,계속,,1016900000.0,대구,2021.0,
95,8748,산재,주식회사부림씨앤에프대구점,42714,대구 달서구 달서대로 411,,,2017-04-01,NaT,1,0,계속,,1018547000.0,대구,2017.0,
172,13638,산재,폴스디자인,48115,부산 해운대구 달맞이길117번가길 195,,,2019-11-18,NaT,1,0,일괄유기,,1022061000.0,대구,2019.0,
219,14778,산재,(주)샤프에비에이션케이대구공항,41052,대구 동구 지저동,,,2014-05-12,NaT,63,0,계속,,1028121000.0,대구,2014.0,


### 2017-2021년 자료의 선택

이제 사업체의 가입연도가 2007년과 2021년 사이인 자료만 선택하여 새로운 자료를 만든다.

이 경우  `산재보험성립일자` 를 기준으로 한 자료와 `고용보험성립일자`를 기준으로 한 자료가 다르기 때문에 아래와 같이 2개의 데이터프레임(`san_data_01`, `emp_data_01`)으로 다르게 추출한다.

가입일자가 결측이면 가입연도도 결측치가 되어 2017-2021년을 학인하는 조건문에 거짓(`False`)으로 나타난다. 따라서 `보험성립일자`가 결측이먄 자료에 포함되지 않는다.

In [18]:
san_data_01 = tmp_dat.loc[(tmp_dat["산재_year"] >= 2017) & (tmp_dat["산재_year"] <= 2021)]

In [19]:
san_data_01.shape

(370495, 17)

In [20]:
emp_data_01 = tmp_dat.loc[(tmp_dat["고용_year"] >= 2017) & (tmp_dat["고용_year"] <= 2021)]

In [21]:
emp_data_01.shape

(362492, 17)

### 연도별, 시도별 보험가입 사업장 수 

이제 2017년부터 2021년까지 연도별, 시도별로 산재보험과 고용보험에 가입한 사업장의 수를 가진 데이터프레임을 만들어 보자. 

아래 코드에서 함수 `agg` 는 요약 통계을 지정하는 함수로서 2개 이상의 함수(예를 들어 `count`, `sum`, `mean`...)를 지정할 수 있다. 또한 요약 통계를 나타내는 새로운 열의 이름도 함께 지정한다.  


아래 코드는 `산재보험상시근로자수` 에 대하여 빈도(`count`) 와 합계(`sum`)을 요약통계량으로 구하여 각각 `사업장개수_산재` 와 `총근로자수_산재` 의 이름으로 열을 생성하라는 문장이다.
```
agg(사업장개수_산재=( "산재보험상시근로자수",'count'), 총근로자수_산재=("산재보험상시근로자수",'sum'))
```

In [22]:
san_summary = san_data_01[["산재_year", "시도","산재보험상시근로자수"]].groupby(["산재_year", "시도"]).agg(사업장개수_산재=( "산재보험상시근로자수",'count'), 총근로자수_산재=("산재보험상시근로자수",'sum')).reset_index()
san_summary

Unnamed: 0,산재_year,시도,사업장개수_산재,총근로자수_산재
0,2017.0,대구,7952,32189
1,2017.0,부산,9748,38383
2,2017.0,서울,34718,189090
3,2018.0,대구,10031,34904
4,2018.0,부산,12433,45396
5,2018.0,서울,45766,213741
6,2019.0,대구,11761,41807
7,2019.0,부산,14870,49662
8,2019.0,서울,52320,227480
9,2020.0,대구,11705,34189


### 연도별, 시도별 보험가입 총 근로자수 수 

이제 2017년부터 2021년까지 연도별, 시도별로 산재보험과 고용보험에 가입한 총 근로자수를 가진 데이터프레임을 만들어 보자. 

In [23]:
emp_summary = emp_data_01[["고용_year", "시도","고용보험상시근로자수"]].groupby(["고용_year", "시도"]).agg(사업장개수_고용=( "고용보험상시근로자수",'count'), 총근로자수_고용=("고용보험상시근로자수",'sum')).reset_index()
emp_summary

Unnamed: 0,고용_year,시도,사업장개수_고용,총근로자수_고용
0,2017.0,대구,7729,30424
1,2017.0,부산,9543,36068
2,2017.0,서울,34114,166712
3,2018.0,대구,9439,32731
4,2018.0,부산,11640,40598
5,2018.0,서울,43654,191923
6,2019.0,대구,11461,40293
7,2019.0,부산,14472,48084
8,2019.0,서울,51637,188849
9,2020.0,대구,11325,33211


### 산재보험과 고용보험의 요약 통계량 결합

위에서 생성한 산재보험과 고용보험의 요약 통계량을 결합해보자.

먼저 데이터프레임의 연도에 대한 열이름을 모두 `연도` 로 변경하고 결합한다.

In [24]:
san_summary = san_summary.rename(columns={"산재_year": "연도"})
san_summary

Unnamed: 0,연도,시도,사업장개수_산재,총근로자수_산재
0,2017.0,대구,7952,32189
1,2017.0,부산,9748,38383
2,2017.0,서울,34718,189090
3,2018.0,대구,10031,34904
4,2018.0,부산,12433,45396
5,2018.0,서울,45766,213741
6,2019.0,대구,11761,41807
7,2019.0,부산,14870,49662
8,2019.0,서울,52320,227480
9,2020.0,대구,11705,34189


In [25]:
emp_summary = emp_summary.rename(columns={"고용_year": "연도"})
emp_summary

Unnamed: 0,연도,시도,사업장개수_고용,총근로자수_고용
0,2017.0,대구,7729,30424
1,2017.0,부산,9543,36068
2,2017.0,서울,34114,166712
3,2018.0,대구,9439,32731
4,2018.0,부산,11640,40598
5,2018.0,서울,43654,191923
6,2019.0,대구,11461,40293
7,2019.0,부산,14472,48084
8,2019.0,서울,51637,188849
9,2020.0,대구,11325,33211


이제 두 요약 정보를 결합해 보자.

In [26]:
all_summary = pd.merge(san_summary, emp_summary, on=['연도', '시도'], how='inner')
all_summary

Unnamed: 0,연도,시도,사업장개수_산재,총근로자수_산재,사업장개수_고용,총근로자수_고용
0,2017.0,대구,7952,32189,7729,30424
1,2017.0,부산,9748,38383,9543,36068
2,2017.0,서울,34718,189090,34114,166712
3,2018.0,대구,10031,34904,9439,32731
4,2018.0,부산,12433,45396,11640,40598
5,2018.0,서울,45766,213741,43654,191923
6,2019.0,대구,11761,41807,11461,40293
7,2019.0,부산,14870,49662,14472,48084
8,2019.0,서울,52320,227480,51637,188849
9,2020.0,대구,11705,34189,11325,33211


### 산재보험와 고용보험의 차이

이제 연도별, 시도별로 산재보험과 고용보험의 가입 사업장 개수와 총 근로자 수의 차이를 계산하자.

In [27]:
all_summary['사업장개수_차이'] = all_summary['사업장개수_산재'] - all_summary['사업장개수_고용']
all_summary['총근로자수_차이'] = all_summary['총근로자수_산재'] - all_summary['총근로자수_고용']
all_summary

Unnamed: 0,연도,시도,사업장개수_산재,총근로자수_산재,사업장개수_고용,총근로자수_고용,사업장개수_차이,총근로자수_차이
0,2017.0,대구,7952,32189,7729,30424,223,1765
1,2017.0,부산,9748,38383,9543,36068,205,2315
2,2017.0,서울,34718,189090,34114,166712,604,22378
3,2018.0,대구,10031,34904,9439,32731,592,2173
4,2018.0,부산,12433,45396,11640,40598,793,4798
5,2018.0,서울,45766,213741,43654,191923,2112,21818
6,2019.0,대구,11761,41807,11461,40293,300,1514
7,2019.0,부산,14870,49662,14472,48084,398,1578
8,2019.0,서울,52320,227480,51637,188849,683,38631
9,2020.0,대구,11705,34189,11325,33211,380,978


In [28]:
all_summary.columns

Index(['연도', '시도', '사업장개수_산재', '총근로자수_산재', '사업장개수_고용', '총근로자수_고용', '사업장개수_차이',
       '총근로자수_차이'],
      dtype='object')

마지막으로 열의 순서를 바꾸어 좀 더 보기 편한 형태로 바꾸어 보자.

In [29]:
all_summary = all_summary[['연도', '시도', '사업장개수_산재', '사업장개수_고용', '사업장개수_차이','총근로자수_산재', '총근로자수_고용', '총근로자수_차이']]
all_summary

Unnamed: 0,연도,시도,사업장개수_산재,사업장개수_고용,사업장개수_차이,총근로자수_산재,총근로자수_고용,총근로자수_차이
0,2017.0,대구,7952,7729,223,32189,30424,1765
1,2017.0,부산,9748,9543,205,38383,36068,2315
2,2017.0,서울,34718,34114,604,189090,166712,22378
3,2018.0,대구,10031,9439,592,34904,32731,2173
4,2018.0,부산,12433,11640,793,45396,40598,4798
5,2018.0,서울,45766,43654,2112,213741,191923,21818
6,2019.0,대구,11761,11461,300,41807,40293,1514
7,2019.0,부산,14870,14472,398,49662,48084,1578
8,2019.0,서울,52320,51637,683,227480,188849,38631
9,2020.0,대구,11705,11325,380,34189,33211,978
