## 의약품 처방정보
* https://www.data.go.kr/data/15007117/fileData.do

* 의약품처방정보는 국민건강보험 가입자 중 의약품처방이력이 있는 각 연도별 수진자 100만 명에 대한 기본정보(성, 연령대, 시도코드 등)와 의약품처방전별 개별 의약품에 대한 처방내역(요양개시일자, 1회투약량, 1일투약량, 총투여일수 등)으로 구성된 개방데이터입니다.

* <img src="https://i.imgur.com/hsrpJp4.png">

* 약품일반성분명코드
* http://www.hira.or.kr/rf/medicine/getHistoryList.do?pgmid=HIRAA030035020000

* 주성분코드부여방법
* https://www.health.kr/drug_info/basedrug/main_ingredient.html


## 데이터 샘플링
* 원본 데이터는 매우 큽니다.
* 컴퓨터 개인 사양에 따라 데이터 불러오기가 되지 않을 수 있습니다. 
* 보통 메모리 8기가 정도를 사용하고 있다면 다른 프로그램에서 4G를 사용하고 있다고 가정할 때 2~3G의 데이터를 불러와서 분석할 수 있습니다.

In [7]:
(100 / 5000) * 100

2.0

In [1]:
import numpy as np
import pandas as pd

In [5]:
import os

print("현재 작업 경로:", os.getcwd())
os.listdir("data")

현재 작업 경로: /Users/corazzon/codes/snu-python


['.DS_Store',
 'HP_T60_2020_1.CSV',
 'HP_T60_2020_2.CSV',
 'HP_T60_2020_3.CSV',
 'kosis-cancer-raw.csv',
 'kosis-cancer.csv']

In [9]:
# cp949 : 한글 윈도우에서 사용하는 인코딩 방식
raw = pd.read_csv("data/HP_T60_2020_3.CSV", encoding="cp949")
raw.shape

(10923225, 15)

In [10]:
raw.head(2)

Unnamed: 0,기준년도,가입자 일련번호,처방내역일련번호,일련번호,성별코드,연령대코드(5세단위),시도코드,요양개시일자,약품일반성분명코드,1회 투약량,1일투약량,총투여일수,단가,금액,데이터 공개일자
0,2020,666668,5260626,2,1,11,43,2020-04-15,134103ATB,2.0,2,4,476.0,7616,2021-12-29
1,2020,666668,6859861,1,1,11,43,2020-04-03,146432ASS,20.0,2,3,14.0,1680,2021-12-29


In [11]:
raw.tail()

Unnamed: 0,기준년도,가입자 일련번호,처방내역일련번호,일련번호,성별코드,연령대코드(5세단위),시도코드,요양개시일자,약품일반성분명코드,1회 투약량,1일투약량,총투여일수,단가,금액,데이터 공개일자
10923220,2020,1000000,143885,4,1,7,36,2020-11-07,532500ASY,1.0,4,5,200.0,4000,2021-12-29
10923221,2020,1000000,143885,5,1,7,36,2020-11-07,222901ATB,1.0,3,5,103.0,1545,2021-12-29
10923222,2020,1000000,143885,3,1,7,36,2020-11-07,458402ATB,1.0,3,5,163.0,2445,2021-12-29
10923223,2020,1000000,143885,2,1,7,36,2020-11-07,296900ATB,1.0,3,5,24.0,360,2021-12-29
10923224,2020,1000000,143885,1,1,7,36,2020-11-07,153101ATB,1.0,3,5,192.0,2880,2021-12-29


In [13]:
raw["약품일반성분명코드"].unique()[:10]

array(['134103ATB', '146432ASS', '451302ATB', '185102ACH', '260100ACR',
       '503301ACH', '438901ATB', '125201ACH', '186101ATB', '203802ATB'],
      dtype=object)

In [12]:
raw['가입자 일련번호'].nunique()

333333

In [25]:
# 판다스로 샘플링 하는 방법
user_sample = raw["가입자 일련번호"].sample(1000, random_state=42).tolist()
user_sample[:5]

[720717, 776285, 864183, 828872, 886495]

In [33]:
# isin으로 샘플링한 가입자 일련번호 데이터만 추출하기
df_temp = raw[raw["가입자 일련번호"].isin(user_sample)]
df_temp.shape

(79751, 15)

## 샘플링한 데이터 저장

In [34]:
df_temp.to_csv("data/nhis_drug_sample_2020_3.csv", index=False)

In [35]:
pd.read_csv("data/nhis_drug_sample_2020_3.csv")

Unnamed: 0,기준년도,가입자 일련번호,처방내역일련번호,일련번호,성별코드,연령대코드(5세단위),시도코드,요양개시일자,약품일반성분명코드,1회 투약량,1일투약량,총투여일수,단가,금액,데이터 공개일자
0,2020,666699,1188743,2,2,11,48,2020-08-31,109931ALQ,1.0,2,30,220.0,13200,2021-12-29
1,2020,666699,1188743,5,2,11,48,2020-08-31,146602ACH,1.0,2,30,184.0,11040,2021-12-29
2,2020,666699,1188743,3,2,11,48,2020-08-31,367202ATB,1.0,1,30,1078.0,32340,2021-12-29
3,2020,666699,1188743,1,2,11,48,2020-08-31,222901ATB,1.0,2,30,103.0,6180,2021-12-29
4,2020,666699,1188743,4,2,11,48,2020-08-31,244301ATB,1.0,2,30,81.0,4860,2021-12-29
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
79746,2020,999867,830095,2,1,15,26,2020-11-20,183231COS,1.0,1,2,4044.0,8088,2021-12-29
79747,2020,999867,830095,1,1,15,26,2020-11-20,180138COS,1.0,1,2,3882.0,7764,2021-12-29
79748,2020,999867,12770105,3,1,15,26,2020-09-11,530029COS,1.0,1,1,4440.0,4440,2021-12-29
79749,2020,999867,12770105,2,1,15,26,2020-09-11,183231COS,1.0,1,1,4044.0,4044,2021-12-29
