# 의약품처방정보
* https://www.data.go.kr/dataset/15007117/fileData.do
* 의약품처방정보는 2002년부터 2013년까지의 국민건강보험 가입자 중 의약품처방이력이 있는 각 연도별 수진자 100만 명에 대한 기본정보(성, 연령대, 시도코드 등)와 의약품처방전별 개별 의약품에 대한 처방내역(요양개시일자, 1회투약량, 1일투약량, 총투여일수 등)으로 구성된 개방데이터이다.

In [1]:
%ls data/NHIS_OPEN_T60_2016

[1m[31mNHIS_OPEN_T60_2016_PART1.csv[m[m* [1m[31mNHIS_OPEN_T60_2016_PART2.csv[m[m*


In [2]:
import pandas as pd
import numpy as np

In [3]:
nhis = pd.read_csv('data/NHIS_OPEN_T60_2016/NHIS_OPEN_T60_2016_PART1.csv', encoding='euc-kr')
nhis.shape

(20000000, 15)

In [4]:
nhis.columns

Index(['기준년도', '가입자일련번호', '처방내역일련번호', '일련번호', '성별코드', '연령대코드(5세단위)', '시도코드',
       '요양개시일자', '약품일반성분명코드', '1회 투약량', '1일 투약량', '총투여일수', '단가', '금액',
       '데이터공개일자'],
      dtype='object')

In [5]:
nhis.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20000000 entries, 0 to 19999999
Data columns (total 15 columns):
기준년도           int64
가입자일련번호        int64
처방내역일련번호       int64
일련번호           int64
성별코드           int64
연령대코드(5세단위)    int64
시도코드           int64
요양개시일자         int64
약품일반성분명코드      object
1회 투약량         float64
1일 투약량         int64
총투여일수          int64
단가             float64
금액             int64
데이터공개일자        int64
dtypes: float64(2), int64(12), object(1)
memory usage: 2.2+ GB


In [6]:
nhis['기준년도'] = nhis['기준년도'].astype(str)
nhis['성별코드'] = nhis['성별코드'].astype(str)
nhis['연령대코드(5세단위)'] = nhis['연령대코드(5세단위)'].astype(str)
nhis['시도코드'] = nhis['시도코드'].astype(str)
nhis['요양개시일자'] = nhis['요양개시일자'].astype(str)
nhis['데이터공개일자'] = nhis['데이터공개일자'].astype(str)

In [7]:
nhis.isnull().sum()

기준년도              0
가입자일련번호           0
처방내역일련번호          0
일련번호              0
성별코드              0
연령대코드(5세단위)       0
시도코드              0
요양개시일자            0
약품일반성분명코드      1661
1회 투약량            0
1일 투약량            0
총투여일수             0
단가                0
금액                0
데이터공개일자           0
dtype: int64

In [8]:
pd.options.display.float_format = '{:,.0f}'.format
nhis.describe()

Unnamed: 0,가입자일련번호,처방내역일련번호,일련번호,1회 투약량,1일 투약량,총투여일수,단가,금액
count,20000000,20000000,20000000,20000000,20000000,20000000,20000000,20000000
mean,251892,31346455,3,2,2,11,397,5651
std,145518,18109616,2,8,1,19,2228,83428
min,1,19,1,0,0,0,0,0
25%,125750,15655799,2,1,2,3,53,564
50%,252444,31319294,3,1,3,3,116,1266
75%,377747,47046749,4,1,3,7,261,3654
max,503691,62705118,56,20120,80,840,357142,270000000


In [9]:
nhis.head()

Unnamed: 0,기준년도,가입자일련번호,처방내역일련번호,일련번호,성별코드,연령대코드(5세단위),시도코드,요양개시일자,약품일반성분명코드,1회 투약량,1일 투약량,총투여일수,단가,금액,데이터공개일자
0,2016,1,258969,1,2,11,28,20160219,100901ATB,1,2,3,188,1128,20171218
1,2016,1,258969,2,2,11,28,20160219,152301ATB,1,2,3,115,690,20171218
2,2016,1,258969,3,2,11,28,20160219,222901ATB,1,2,3,63,378,20171218
3,2016,1,18744123,3,2,11,28,20161220,421001ATB,1,3,5,103,1545,20171218
4,2016,1,18744123,2,2,11,28,20161220,101804ACH,1,3,5,81,1215,20171218


In [10]:
#2016년 데이터만 있다.
nhis['기준년도'].value_counts()

2016    20000000
Name: 기준년도, dtype: int64

In [11]:
total_dose_day = nhis['총투여일수'].value_counts()
print(np.max(total_dose_day))
print(np.min(total_dose_day))
print(np.mean(total_dose_day))

7316870
1
76045.62737642585
