## 의약품 처방정보
* https://www.data.go.kr/data/15007117/fileData.do

* 의약품처방정보는 국민건강보험 가입자 중 의약품처방이력이 있는 각 연도별 수진자 100만 명에 대한 기본정보(성, 연령대, 시도코드 등)와 의약품처방전별 개별 의약품에 대한 처방내역(요양개시일자, 1회투약량, 1일투약량, 총투여일수 등)으로 구성된 개방데이터입니다.

* <img src="https://i.imgur.com/hsrpJp4.png">

* 약품일반성분명코드
* http://www.hira.or.kr/rf/medicine/getHistoryList.do?pgmid=HIRAA030035020000

* 주성분코드부여방법
* https://www.health.kr/drug_info/basedrug/main_ingredient.html


## 데이터 샘플링
* 원본 데이터는 매우 큽니다.
* 컴퓨터 개인 사양에 따라 데이터 불러오기가 되지 않을 수 있습니다. 
* 보통 메모리 8기가 정도를 사용하고 있다면 다른 프로그램에서 4G를 사용하고 있다고 가정할 때 2~3G의 데이터를 불러와서 분석할 수 있습니다.

In [3]:
(100 / 5000) * 100

2.0

In [4]:
import numpy as np
import pandas as pd

In [6]:
raw = pd.read_csv("data/HP_T60_2020_3.CSV", encoding="cp949")
raw

Unnamed: 0,기준년도,가입자 일련번호,처방내역일련번호,일련번호,성별코드,연령대코드(5세단위),시도코드,요양개시일자,약품일반성분명코드,1회 투약량,1일투약량,총투여일수,단가,금액,데이터 공개일자
0,2020,666668,5260626,2,1,11,43,2020-04-15,134103ATB,2.00,2,4,476.0,7616,2021-12-29
1,2020,666668,6859861,1,1,11,43,2020-04-03,146432ASS,20.00,2,3,14.0,1680,2021-12-29
2,2020,666668,769595,1,1,11,43,2020-11-25,451302ATB,0.25,2,7,53.0,186,2021-12-29
3,2020,666668,6859861,4,1,11,43,2020-04-03,185102ACH,1.00,1,3,30.0,90,2021-12-29
4,2020,666668,9307313,2,1,11,43,2020-01-30,260100ACR,1.00,1,3,302.0,906,2021-12-29
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
10923220,2020,1000000,143885,4,1,7,36,2020-11-07,532500ASY,1.00,4,5,200.0,4000,2021-12-29
10923221,2020,1000000,143885,5,1,7,36,2020-11-07,222901ATB,1.00,3,5,103.0,1545,2021-12-29
10923222,2020,1000000,143885,3,1,7,36,2020-11-07,458402ATB,1.00,3,5,163.0,2445,2021-12-29
10923223,2020,1000000,143885,2,1,7,36,2020-11-07,296900ATB,1.00,3,5,24.0,360,2021-12-29


In [8]:
raw.dtypes

기준년도             int64
가입자 일련번호         int64
처방내역일련번호         int64
일련번호             int64
성별코드             int64
연령대코드(5세단위)      int64
시도코드             int64
요양개시일자          object
약품일반성분명코드       object
1회 투약량         float64
1일투약량            int64
총투여일수            int64
단가             float64
금액               int64
데이터 공개일자        object
dtype: object

In [18]:
# 가입자 일련번호 의 unique 값 구하기

user_list = raw['가입자 일련번호'].unique()
user_list

array([ 666668,  666669,  666670, ...,  999998,  999999, 1000000])

In [11]:
raw['가입자 일련번호'].nunique()

333333

In [32]:
# np.random.choice 를 통해 10000 명 샘플링
# 넘파로 샘플링 하는 방법
user_sample = np.random.choice(user_list, 10000)
user_sample[:5]

array([739447, 744489, 717900, 719900, 888073])

In [62]:
# 판다스로 샘플링 하는 방법
user_sample = raw['가입자 일련번호'].sample(4000, random_state=42).tolist()

In [63]:
len(user_sample)

4000

In [64]:
len(set(user_sample))

3939

In [65]:
aa_milne_arr = ['pooh', 'rabbit', 'piglet', 'Christopher']
np.random.choice(aa_milne_arr, 3)

array(['pooh', 'Christopher', 'rabbit'], dtype='<U11')

In [68]:
raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10923225 entries, 0 to 10923224
Data columns (total 15 columns):
 #   Column       Dtype  
---  ------       -----  
 0   기준년도         int64  
 1   가입자 일련번호     int64  
 2   처방내역일련번호     int64  
 3   일련번호         int64  
 4   성별코드         int64  
 5   연령대코드(5세단위)  int64  
 6   시도코드         int64  
 7   요양개시일자       object 
 8   약품일반성분명코드    object 
 9   1회 투약량       float64
 10  1일투약량        int64  
 11  총투여일수        int64  
 12  단가           float64
 13  금액           int64  
 14  데이터 공개일자     object 
dtypes: float64(2), int64(10), object(3)
memory usage: 1.2+ GB


In [67]:
# isin으로 샘플링한 가입자 일련번호 데이터만 추출하기
df_temp = raw[raw["가입자 일련번호"].isin(user_sample)].copy()
df_temp

Unnamed: 0,기준년도,가입자 일련번호,처방내역일련번호,일련번호,성별코드,연령대코드(5세단위),시도코드,요양개시일자,약품일반성분명코드,1회 투약량,1일투약량,총투여일수,단가,금액,데이터 공개일자
817,2020,666699,1188743,2,2,11,48,2020-08-31,109931ALQ,1.0,2,30,220.0,13200,2021-12-29
818,2020,666699,1188743,5,2,11,48,2020-08-31,146602ACH,1.0,2,30,184.0,11040,2021-12-29
819,2020,666699,1188743,3,2,11,48,2020-08-31,367202ATB,1.0,1,30,1078.0,32340,2021-12-29
820,2020,666699,1188743,1,2,11,48,2020-08-31,222901ATB,1.0,2,30,103.0,6180,2021-12-29
821,2020,666699,1188743,4,2,11,48,2020-08-31,244301ATB,1.0,2,30,81.0,4860,2021-12-29
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
10923002,2020,999989,1296609,6,2,16,44,2020-09-08,163801ATB,1.0,1,60,30.0,1800,2021-12-29
10923003,2020,999989,1296609,5,2,16,44,2020-09-08,454001ATB,1.0,1,60,612.0,36720,2021-12-29
10923004,2020,999989,1296609,4,2,16,44,2020-09-08,513000ATB,1.0,1,60,190.0,11400,2021-12-29
10923005,2020,999989,1296609,3,2,16,44,2020-09-08,614901ATB,1.0,2,60,152.0,18240,2021-12-29


## 샘플링한 데이터 저장

In [70]:
df_temp.to_csv("data/nhis_drug_sample_2020_3.csv", index=False)

In [71]:
pd.read_csv("data/nhis_drug_sample_2020_3.csv")

Unnamed: 0,기준년도,가입자 일련번호,처방내역일련번호,일련번호,성별코드,연령대코드(5세단위),시도코드,요양개시일자,약품일반성분명코드,1회 투약량,1일투약량,총투여일수,단가,금액,데이터 공개일자
0,2020,666699,1188743,2,2,11,48,2020-08-31,109931ALQ,1.0,2,30,220.0,13200,2021-12-29
1,2020,666699,1188743,5,2,11,48,2020-08-31,146602ACH,1.0,2,30,184.0,11040,2021-12-29
2,2020,666699,1188743,3,2,11,48,2020-08-31,367202ATB,1.0,1,30,1078.0,32340,2021-12-29
3,2020,666699,1188743,1,2,11,48,2020-08-31,222901ATB,1.0,2,30,103.0,6180,2021-12-29
4,2020,666699,1188743,4,2,11,48,2020-08-31,244301ATB,1.0,2,30,81.0,4860,2021-12-29
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
317672,2020,999989,1296609,6,2,16,44,2020-09-08,163801ATB,1.0,1,60,30.0,1800,2021-12-29
317673,2020,999989,1296609,5,2,16,44,2020-09-08,454001ATB,1.0,1,60,612.0,36720,2021-12-29
317674,2020,999989,1296609,4,2,16,44,2020-09-08,513000ATB,1.0,1,60,190.0,11400,2021-12-29
317675,2020,999989,1296609,3,2,16,44,2020-09-08,614901ATB,1.0,2,60,152.0,18240,2021-12-29
