# 의약품처방정보
* https://www.data.go.kr/dataset/15007117/fileData.do
* 의약품처방정보는 2002년부터 국민건강보험 가입자 중 의약품처방이력이 있는 각 연도별 수진자 100만 명에 대한 기본정보(성, 연령대, 시도코드 등)와 의약품처방전별 개별 의약품에 대한 처방내역(요양개시일자, 1회투약량, 1일투약량, 총투여일수 등)으로 구성된 개방데이터이다.
* <img src="https://i.imgur.com/hsrpJp4.png">

* 약품일반성분명코드 : http://www.hira.or.kr/rf/medicine/getHistoryList.do?pgmid=HIRAA030035020000

```
우루사정100밀리그램 246501ATB
우루사정200밀리그램 246502ATB
우루사정300밀리그램 246506ATB
우루사100mg연질캅셀 246501ACS
우루사캅셀200mg 246502ACH
우루사캡슐250밀리그램 246503ACH
고덱스캡슐 427800ACH
```


<img src="https://i.imgur.com/4dEl5Dl.jpg">

출처 : http://www.docdocdoc.co.kr/news/articleView.html?idxno=1053667

## 라이브러리 로드

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns

## 데이터 로드

In [2]:
import os
# os.walk 를 통해 특정 폴더 안의 파일을 읽어옵니다.
for root, dirs, files in os.walk("data/ursa"):
    print(files)

['ursa_2011_1.csv', 'ursa_2011_2.csv', 'ursa_2012_1.csv', 'ursa_2012_2.csv', 'ursa_2013_1.csv', 'ursa_2013_2.csv', 'ursa_2014_1.csv', 'ursa_2014_2.csv', 'ursa_2015_1.csv', 'ursa_2015_2.csv', 'ursa_2016_1.csv', 'ursa_2016_2.csv', 'ursa_2017_1.csv', 'ursa_2017_2.csv', 'ursa_2017_3.csv', 'ursa_2018_1.csv', 'ursa_2018_2.csv', 'ursa_2018_3.csv', 'ursa_2019_1.csv', 'ursa_2019_2.csv', 'ursa_2019_3.csv']


In [8]:
year = 2019
part = 3

# 파일 확장자가 소문자, 대문자로 
# file_name = f"open_drug/NHIS_OPEN_T60_{year}_part{part}.csv"
file_name = f"data/open_drug/T60_{year}_1백만_{part}.csv"
file_name 

'data/open_drug/T60_2019_1백만_3.csv'

In [9]:
# 위에서 만든 file_name 변수에 있는 "경로/파일명" 정보로 파일을 읽어옵니다.
nhis = pd.read_csv(file_name, encoding="cp949")
nhis.shape

(11936757, 15)

## 특정약품코드로 데이터 추출하기
* 2019년 PART3 데이터만 봤을때도 전체 갯수가 약 12백만건으로 너무 많기 때문에 일부 데이터를 추출해서 사용합니다.

In [11]:
nhis.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11936757 entries, 0 to 11936756
Data columns (total 15 columns):
 #   Column       Dtype  
---  ------       -----  
 0   기준년도         int64  
 1   가입자 일련번호     int64  
 2   처방내역일련번호     int64  
 3   일련번호         int64  
 4   성별코드         int64  
 5   연령대코드(5세단위)  int64  
 6   시도코드         int64  
 7   요양개시일자       int64  
 8   약품일반성분명코드    object 
 9   1회 투약량       float64
 10  1일투약량        int64  
 11  총투여일수        int64  
 12  단가           float64
 13  금액           int64  
 14  데이터 공개일자     int64  
dtypes: float64(2), int64(12), object(1)
memory usage: 1.3+ GB


In [12]:
temp = nhis[nhis["약품일반성분명코드"].isin(["172835ASY", "211401ATB", "347701ACH"])]
temp

Unnamed: 0,기준년도,가입자 일련번호,처방내역일련번호,일련번호,성별코드,연령대코드(5세단위),시도코드,요양개시일자,약품일반성분명코드,1회 투약량,1일투약량,총투여일수,단가,금액,데이터 공개일자
973,2019,700025,100940669,2,1,13,27,20190422,347701ACH,1.0,1,7,521.0,3647,20201222
995,2019,700025,106372352,2,1,13,27,20191021,347701ACH,1.0,1,28,521.0,14588,20201222
1003,2019,700025,101504749,2,1,13,27,20190528,347701ACH,1.0,1,28,521.0,14588,20201222
5227,2019,700146,105552723,3,1,8,41,20190403,211401ATB,1.0,1,14,38.0,532,20201222
5242,2019,700146,103025798,3,1,8,41,20190313,211401ATB,1.0,1,14,38.0,532,20201222
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
11935868,2019,999981,105475675,1,2,16,11,20190531,347701ACH,1.0,1,28,507.0,14196,20201222
11935869,2019,999981,106149960,1,2,16,11,20190826,347701ACH,1.0,1,28,507.0,14196,20201222
11935875,2019,999981,107831105,1,2,16,11,20191114,347701ACH,1.0,1,28,507.0,14196,20201222
11935889,2019,999981,107773074,1,2,16,11,20190826,347701ACH,1.0,1,28,507.0,14196,20201222


### 추출한 데이터 파일로 저장하기

In [14]:
# 엑셀에서 열어보기 위해서는 인코딩을 cp949 로 설정해 주세요. 
# cp949가 깨진다면 ms949로 지정해 주세요.
# 이렇게 저장한 파일은 읽어올 때도 인코딩을 꼭 지정해 주어야 합니다.
temp.to_csv("data/open_drug/temp.csv", encoding="cp949", index=False)

In [16]:
pd.read_csv("data/open_drug/temp.csv", encoding="cp949")

Unnamed: 0,기준년도,가입자 일련번호,처방내역일련번호,일련번호,성별코드,연령대코드(5세단위),시도코드,요양개시일자,약품일반성분명코드,1회 투약량,1일투약량,총투여일수,단가,금액,데이터 공개일자
0,2019,700025,100940669,2,1,13,27,20190422,347701ACH,1.0,1,7,521.0,3647,20201222
1,2019,700025,106372352,2,1,13,27,20191021,347701ACH,1.0,1,28,521.0,14588,20201222
2,2019,700025,101504749,2,1,13,27,20190528,347701ACH,1.0,1,28,521.0,14588,20201222
3,2019,700146,105552723,3,1,8,41,20190403,211401ATB,1.0,1,14,38.0,532,20201222
4,2019,700146,103025798,3,1,8,41,20190313,211401ATB,1.0,1,14,38.0,532,20201222
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
34958,2019,999981,105475675,1,2,16,11,20190531,347701ACH,1.0,1,28,507.0,14196,20201222
34959,2019,999981,106149960,1,2,16,11,20190826,347701ACH,1.0,1,28,507.0,14196,20201222
34960,2019,999981,107831105,1,2,16,11,20191114,347701ACH,1.0,1,28,507.0,14196,20201222
34961,2019,999981,107773074,1,2,16,11,20190826,347701ACH,1.0,1,28,507.0,14196,20201222


## 우루사 추출하기

In [17]:
# 우루사정100밀리그램 246501ATB
# 우루사정200밀리그램 246502ATB
# 우루사정300밀리그램 246506ATB
# 우루사100mg연질캅셀 246501ACS
# 우루사캅셀200mg 246502ACH
# 우루사캡슐250밀리그램 246503ACH
# 고덱스캡슐 427800ACH
# ["246501ATB", "246502ATB", "246506ATB", 
# "246501ACS", "246502ACH", "246503ACH", "427800ACH"]

ursa = nhis[
    nhis["약품일반성분명코드"].isin(["246501ATB", "246502ATB", "246506ATB", 
     "246501ACS", "246502ACH", "246503ACH", "427800ACH"]
    )]
ursa

Unnamed: 0,기준년도,가입자 일련번호,처방내역일련번호,일련번호,성별코드,연령대코드(5세단위),시도코드,요양개시일자,약품일반성분명코드,1회 투약량,1일투약량,총투여일수,단가,금액,데이터 공개일자
1263,2019,700038,107449377,9,1,13,41,20191203,427800ACH,1.0,1,30,388.0,11640,20201222
1344,2019,700039,107900133,1,2,16,41,20190422,246506ATB,1.0,2,14,274.0,7672,20201222
1354,2019,700039,104154400,1,2,16,41,20191011,246506ATB,1.0,2,180,274.0,98640,20201222
1373,2019,700039,105247892,1,2,16,41,20190510,246506ATB,1.0,2,150,274.0,82200,20201222
2538,2019,700067,103002211,1,1,9,28,20190822,246501ATB,1.0,3,14,90.0,3780,20201222
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
11931268,2019,999868,108936966,3,2,12,41,20190725,427800ACH,1.0,1,60,402.0,24120,20201222
11931271,2019,999868,106182011,3,2,12,41,20190916,427800ACH,1.0,1,50,388.0,19400,20201222
11931274,2019,999868,108375768,3,2,12,41,20190408,427800ACH,1.0,1,50,402.0,20100,20201222
11931277,2019,999868,100117993,3,2,12,41,20191115,427800ACH,1.0,1,60,388.0,23280,20201222


In [18]:
# 고덱스인 427800ACH 만 가져와서 데이터의 갯수가 몇개인지 shape 로 봅니다.
ursa[ursa["약품일반성분명코드"] == "427800ACH"].shape

(9714, 15)

In [19]:
ursa.shape

(29350, 15)

In [20]:
# "약품일반성분명코드"로 value_counts 를 구합니다.
ursa["약품일반성분명코드"].value_counts()

246501ATB    12064
427800ACH     9714
246502ATB     7327
246506ATB      245
Name: 약품일반성분명코드, dtype: int64

In [21]:
# 저장한 파일명
save_file_name = f"data/ursa_{year}_{part}.csv"
save_file_name

'data/ursa_2019_3.csv'

In [22]:
# csv 파일로 저장합니다
ursa.to_csv(save_file_name, index=False)

In [23]:
# 제대로 저장되었는지 확인합니다.
pd.read_csv(save_file_name)

Unnamed: 0,기준년도,가입자 일련번호,처방내역일련번호,일련번호,성별코드,연령대코드(5세단위),시도코드,요양개시일자,약품일반성분명코드,1회 투약량,1일투약량,총투여일수,단가,금액,데이터 공개일자
0,2019,700038,107449377,9,1,13,41,20191203,427800ACH,1.0,1,30,388.0,11640,20201222
1,2019,700039,107900133,1,2,16,41,20190422,246506ATB,1.0,2,14,274.0,7672,20201222
2,2019,700039,104154400,1,2,16,41,20191011,246506ATB,1.0,2,180,274.0,98640,20201222
3,2019,700039,105247892,1,2,16,41,20190510,246506ATB,1.0,2,150,274.0,82200,20201222
4,2019,700067,103002211,1,1,9,28,20190822,246501ATB,1.0,3,14,90.0,3780,20201222
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
29345,2019,999868,108936966,3,2,12,41,20190725,427800ACH,1.0,1,60,402.0,24120,20201222
29346,2019,999868,106182011,3,2,12,41,20190916,427800ACH,1.0,1,50,388.0,19400,20201222
29347,2019,999868,108375768,3,2,12,41,20190408,427800ACH,1.0,1,50,402.0,20100,20201222
29348,2019,999868,100117993,3,2,12,41,20191115,427800ACH,1.0,1,60,388.0,23280,20201222


In [14]:
# 전처리한 데이터를 가져옵니다.
# # 블록 선택 후 ctrl + /
# df1 = pd.read_csv(f"data/mydrug_2018_1.csv")
# df2 = pd.read_csv(f"data/mydrug_2018_2.csv")
# df3 = pd.read_csv(f"data/mydrug_2018_3.csv")
# df1.shape, df2.shape, df3.shape

In [15]:
# concat 으로 병합합니다.
# df_all = pd.concat([df1, df2, df3])
# df_all.shape

In [16]:
# df_all.to_csv("my_drug_2018.csv", index=False)

## 전처리 과정을 함수로 만들기

In [2]:
def find_drug(year, part):
    if year > 2015:
        file_name = f"data/open_drug/T60_{year}_1백만_{part}.csv"
    else:
        file_name = f"open_drug/NHIS_OPEN_T60_{year}_part{part}.csv"
    
    nhis = pd.read_csv(file_name, encoding='cp949')
    ursa = nhis[
        nhis["약품일반성분명코드"].isin(["246501ATB", "246502ATB", "246506ATB", 
         "246501ACS", "246502ACH", "246503ACH", "427800ACH"]
        )]
    
    ursa.to_csv(f"data/ursa_{year}_{part}.csv", index=False)
    return file_name, ursa.shape

In [5]:
find_drug(year=2019, part=1)

('data/open_drug/T60_2019_1백만_1.csv', (33611, 15))