### 의료종사자 데이터 전처리

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns

import matplotlib.pyplot as plt
from IPython.display import set_matplotlib_formats

plt.rc('font', family='AppleGothic') 
plt.rc('axes', unicode_minus=False)

# 폰트가 선명하게 보이기 위해
set_matplotlib_formats('retina')

# 그래프가 노트북 안에 보이게 하기 위해
%matplotlib inline

  set_matplotlib_formats('retina')


In [28]:
df1 = pd.read_csv("type.csv", encoding='euc-kr')
df1 = df1.set_index('구분별')
df1 = df1[['2019']].reset_index()
df1

Unnamed: 0,구분별,2019
0,상급종합병원,45081
1,종합병원,107896
2,병원,162547
3,요양병원,302840
4,의원,57325
5,치과병원,452
6,치과의원,103
7,조산원,30
8,보건의료원,341
9,한방병원,22734


In [30]:
df1.to_csv('요양기관별병상수.csv', index=False)

In [24]:
df2 = pd.read_csv("천명당.csv", encoding='euc-kr', header=1)
df2.columns

Index(['행정구역별', '인구 천명당 의료기관병상수<br>(A÷B×1000) (개)', '총병상수<br>(A) (개)',
       '주민등록인구<br>(B) (명)'],
      dtype='object')

In [26]:
df2.columns = ['행정구역별', '인구 천명당 의료기관병상수', '총병상수', '주민등록인구']
df2

Unnamed: 0,행정구역별,인구 천명당 의료기관병상수,총병상수,주민등록인구
0,전국,13.6,703468,51849861
1,서울특별시,9.1,88059,9729107
2,부산광역시,20.5,69862,3413841
3,대구광역시,15.6,38132,2438031
4,인천광역시,11.6,34176,2957026
5,광주광역시,27.6,40206,1456468
6,대전광역시,15.9,23417,1474870
7,울산광역시,13.3,15284,1148019
8,세종특별자치시,4.2,1440,340575
9,경기도,10.1,133118,13239666


In [42]:
df2.to_csv('지역별병상수.csv', index=False)

In [149]:
df7 = pd.read_csv("의료인력.csv", encoding='euc-kr', header=1)
df7 = df7[['시도별(1)', '계', '의사', '한의사','간호사']]
df7.head()

Unnamed: 0,시도별(1),계,의사,한의사,간호사
0,시도별(1),소계,소계,소계,소계
1,계,460995,105628,21630,215293
2,서울,114861,30359,5018,52727
3,부산,37028,8008,1691,18514
4,대구,26087,5908,1146,12557


In [97]:
df3 = pd.read_csv("의료인력.csv", encoding='euc-kr', header=1)
df3 = df3[['시도별(1)', '계', '의사','간호사']]
df3

Unnamed: 0,시도별(1),계,의사,간호사
0,시도별(1),소계,소계,소계
1,계,460995,105628,215293
2,서울,114861,30359,52727
3,부산,37028,8008,18514
4,대구,26087,5908,12557
5,인천,24081,5071,11639
6,광주,17835,3658,8949
7,대전,15746,3726,7153
8,울산,8950,1754,4612
9,세종,1109,302,220


In [98]:
df3 = df3.drop(0, axis=0)

In [99]:
df3.reset_index(inplace=True)

In [None]:
df3 = df3.drop('index', axis=1)

In [109]:
df3.rename(columns={'시도별(1)':'행정구역별'}, inplace=True)

In [113]:
df3.tail()

Unnamed: 0,행정구역별,계,의사,간호사
13,전북,16821,3689,7652
14,전남,16775,3128,8539
15,경북,19165,3662,9577
16,경남,27744,5532,13972
17,제주,5575,1175,2738


In [64]:
df3.to_csv('의료종사자수.csv', index=False)

### 데이터 합치기

In [72]:
df2[['주민등록인구']].head()

Unnamed: 0,주민등록인구
0,51849861
1,9729107
2,3413841
3,2438031
4,2957026


In [159]:
# 2019년도 데이터 (index 기준)
df5 = df3.join(df2[['주민등록인구']], how='left')
df5 

Unnamed: 0,행정구역별,계,의사,간호사,주민등록인구
0,계,460995,105628,215293,51849861
1,서울,114861,30359,52727,9729107
2,부산,37028,8008,18514,3413841
3,대구,26087,5908,12557,2438031
4,인천,24081,5071,11639,2957026
5,광주,17835,3658,8949,1456468
6,대전,15746,3726,7153,1474870
7,울산,8950,1754,4612,1148019
8,세종,1109,302,220,340575
9,경기,91723,21210,39694,13239666


In [160]:
df5.dtypes

행정구역별     object
계         object
의사        object
간호사       object
주민등록인구     int64
dtype: object

In [161]:
# 데이터 타입 종류 변경 
df5[['계', '의사', '간호사']] = df5[['계', '의사', '간호사']].astype(int)

* 인구 천명당 의사, 간호사, 의료인수(전체)데이터 

In [162]:
df5['인구 천명당 의사수'] = df5['의사'] / df5['주민등록인구'] * 1000

In [163]:
df5['인구 천명당 간호사수'] = df5['간호사'] / df5['주민등록인구'] * 1000

In [164]:
df5['인구 천명당 의료인수'] = df5['계'] /df5['주민등록인구'] *1000

In [170]:
# 소수점 첫째자리 숫자까지 표기 
df5= df5.round(1)

In [171]:
df5.to_csv("의료종사자수_통합.csv", index=False)