## 라이브러리 로드

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns

import os

## 파일목록에서 ursa가 들어가는 파일만 보기

In [2]:
# os.walk 를 통해 특정 폴더 안의 파일을 읽어옵니다.
for root, dirs, files in os.walk("data/ursa/"):
    print(files)

['ursa_2011_1.csv', 'ursa_2011_2.csv', 'ursa_2012_1.csv', 'ursa_2012_2.csv', 'ursa_2013_1.csv', 'ursa_2013_2.csv', 'ursa_2014_1.csv', 'ursa_2014_2.csv', 'ursa_2015_1.csv', 'ursa_2015_2.csv', 'ursa_2016_1.csv', 'ursa_2016_2.csv', 'ursa_2017_1.csv', 'ursa_2017_2.csv', 'ursa_2017_3.csv', 'ursa_2018_1.csv', 'ursa_2018_2.csv', 'ursa_2018_3.csv', 'ursa_2019_1.csv', 'ursa_2019_2.csv', 'ursa_2019_3.csv']


## 하나만 읽어오기

In [3]:
pd.read_csv("data/ursa/ursa_2011_1.csv").columns

Index(['기준년도', '가입자일련번호', '처방내역일련번호', '일련번호', '성별코드', '연령대코드(5세단위)', '시도코드',
       '요양개시일자', '약품일반성분명코드', '1회 투약량', '1일투약량', '총투여일수', '단가', '금액',
       '데이터 공개일자'],
      dtype='object')

In [4]:
# 최근 컬럼명을 가져옵니다.
df_last_columns = pd.read_csv("data/ursa/ursa_2019_3.csv")
cols_last = df_last_columns.columns
print(len(cols_last))
cols_last

15


Index(['기준년도', '가입자 일련번호', '처방내역일련번호', '일련번호', '성별코드', '연령대코드(5세단위)', '시도코드',
       '요양개시일자', '약품일반성분명코드', '1회 투약량', '1일투약량', '총투여일수', '단가', '금액',
       '데이터 공개일자'],
      dtype='object')

In [5]:
# 최근 컬럼명을 가져옵니다.
df_first_columns = pd.read_csv("data/ursa/ursa_2011_2.csv")
cols_first = df_first_columns.columns
print(len(cols_first))
cols_first

15


Index(['기준년도', '가입자일련번호', '처방내역일련번호', '일련번호', '성별코드', '연령대코드(5세단위)', '시도코드',
       '요양개시일자', '약품일반성분명코드', '1회 투약량', '1일투약량', '총투여일수', '단가', '금액',
       '데이터 공개일자'],
      dtype='object')

### 다른 컬럼명이 있는지 확인하기
* 다른 컬럼명이 있기 때문에 최근 컬럼명으로 통일합니다.

In [7]:
# set 을 통해 다른 컬럼이 있는지 비교하기
set(cols_last) - set(cols_first)

{'가입자 일련번호'}

In [8]:
# 최근 컬럼명을 컬럼명으로 사용하기
cols = cols_last
cols

Index(['기준년도', '가입자 일련번호', '처방내역일련번호', '일련번호', '성별코드', '연령대코드(5세단위)', '시도코드',
       '요양개시일자', '약품일반성분명코드', '1회 투약량', '1일투약량', '총투여일수', '단가', '금액',
       '데이터 공개일자'],
      dtype='object')

## 연도별 파일목록 가져오기

In [9]:
for root, dirs, files in os.walk("data/ursa/"):
        for filename in files:
            print(filename)

ursa_2011_1.csv
ursa_2011_2.csv
ursa_2012_1.csv
ursa_2012_2.csv
ursa_2013_1.csv
ursa_2013_2.csv
ursa_2014_1.csv
ursa_2014_2.csv
ursa_2015_1.csv
ursa_2015_2.csv
ursa_2016_1.csv
ursa_2016_2.csv
ursa_2017_1.csv
ursa_2017_2.csv
ursa_2017_3.csv
ursa_2018_1.csv
ursa_2018_2.csv
ursa_2018_3.csv
ursa_2019_1.csv
ursa_2019_2.csv
ursa_2019_3.csv


In [11]:
def get_file_list_by_year(year):
    file_list = []
    for root, dirs, files in os.walk("data/ursa/"):
        for filename in files:
            # 파일명이 "ursa" 로 시작하는 것만 가져오기
            if filename.startswith(f'ursa_{year}'):
                file_list.append(filename)
    return sorted(file_list)

get_file_list_by_year(2011)

['ursa_2011_1.csv', 'ursa_2011_2.csv']

## 특정 연도가 들어가는 파일 읽어오기

In [14]:
# 파일을 읽어오는 함수를 만듭니다.
# 특정 글자로 시작하는 파일을 읽어와서 데이터프레임 형태로 반환합니다.
# 데이터가 없다면 비어있는 데이터프레임을 반환합니다.
def read_file(filename, year):
    folder_path = 'data/ursa/'
    # 파일명이 ursa 로 시작하고 csv 로 끝나는 파일만 가져오기
    if filename.startswith(f'ursa_{year}') and filename.endswith(f'csv'):
        df_temp = pd.read_csv(f"{folder_path}{filename}")
        df_temp.columns = cols
    else:
        df_temp = pd.DataFrame([])
    return  df_temp

In [15]:
read_file("ursa_2011_1.csv", 2011)

Unnamed: 0,기준년도,가입자 일련번호,처방내역일련번호,일련번호,성별코드,연령대코드(5세단위),시도코드,요양개시일자,약품일반성분명코드,1회 투약량,1일투약량,총투여일수,단가,금액,데이터 공개일자
0,2011,263152,301,3,1,12,41,20111109,246501ATB,1.0,3,3,111,999,20151220
1,2011,142227,310,4,1,14,41,20111125,246501ATB,1.0,3,7,111,2331,20151220
2,2011,253952,1013,1,2,9,46,20111203,246502ATB,1.0,3,14,165,6930,20151220
3,2011,253952,1014,3,2,9,46,20111219,246502ATB,1.0,3,14,165,6930,20151220
4,2011,703334,2563,2,1,10,48,20111205,246501ATB,1.0,1,30,111,3330,20151220
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
19522,2011,800942,3956010,2,1,13,42,20110215,246502ATB,1.0,2,30,264,15840,20151220
19523,2011,676116,3956589,1,2,10,48,20110829,246502ATB,1.0,3,30,246,22140,20151220
19524,2011,420833,3956594,5,2,15,48,20110806,246502ATB,1.0,2,15,246,7380,20151220
19525,2011,692899,3957147,7,2,13,48,20110827,246501ATB,1.0,3,15,111,4995,20151220


## 여러 연도의 파일 하나로 합치기

In [22]:
def concat_data(year):
    df_lists = []
    # 파일별로 데이터를 가져옵니다.
    files = get_file_list_by_year(year)
    for filename in sorted(files):
        # 파일을 읽어옵니다.
        df_temp = read_file(filename, year)
        # 해당 데이터프레임이 비어있지 않다면 병합하기 위해 리스트에 담습니다.
        if not df_temp.empty :
            print(filename, df_temp.shape)
            df_lists.append(df_temp)
    # 리스트가 비어있지 않다면 데이터프레임을 합쳐줍니다.
    if df_lists :    
        df = pd.concat(df_lists)
    return df        

## 일부 데이터를 연도별로 합쳐봅니다.

In [23]:
df_2011 = concat_data(2011)
df_2011.shape

ursa_2011_1.csv (19527, 15)
ursa_2011_2.csv (16185, 15)


(35712, 15)

In [24]:
df_2019 = concat_data(2019)
df_2019.shape

ursa_2019_1.csv (33611, 15)
ursa_2019_2.csv (33093, 15)
ursa_2019_3.csv (29350, 15)


(96054, 15)

## 전체 데이터를 반복문으로 합칩니다.

In [25]:
# concat은 합칠 데이터를 리스트형태로 담아주면 하나의 데이터프레임으로 합쳐줍니다.
# 하나의 데이터프레임으로 합치기 위한 리스트를 만듭니다.
# for문을 통해 읽어온 연도별 데이터프레임을 리스트에 담습니다.
# for문 종료 후 리스트 파일을 판다스의 concat을 사용해서 합칩니다.
df_temp_list = []
for year in range(2011, 2020):
    df_temp = concat_data(year)
    df_temp_list.append(df_temp)

df_concat = pd.concat(df_temp_list)
print(df_concat.shape)

ursa_2011_1.csv (19527, 15)
ursa_2011_2.csv (16185, 15)
ursa_2012_1.csv (20595, 15)
ursa_2012_2.csv (18657, 15)
ursa_2013_1.csv (22908, 15)
ursa_2013_2.csv (19752, 15)
ursa_2014_1.csv (21008, 15)
ursa_2014_2.csv (20595, 15)
ursa_2015_1.csv (23844, 15)
ursa_2015_2.csv (22167, 15)
ursa_2016_1.csv (32800, 15)
ursa_2016_2.csv (30889, 15)
ursa_2017_1.csv (27648, 15)
ursa_2017_2.csv (28461, 15)
ursa_2017_3.csv (17042, 15)
ursa_2018_1.csv (28280, 15)
ursa_2018_2.csv (28506, 15)
ursa_2018_3.csv (24607, 15)
ursa_2019_1.csv (33611, 15)
ursa_2019_2.csv (33093, 15)
ursa_2019_3.csv (29350, 15)
(519525, 15)


## 합친파일을 별도의 파일로 저장합니다.

In [26]:
file_name = "data/medicine_ursa_godex_2011_2019.csv"
df_concat.to_csv(file_name, index=False)

## 제대로 저장되었는지 읽어옵니다.

In [27]:
# file_name 의 변수에 있는 파일명을 통해 csv 파일을 읽어옵니다.
df = pd.read_csv(file_name)
df.shape

(519525, 15)

In [28]:
# 중복된 데이터가 있다면 drop_duplicates()를 통해 제거할 수 있습니다.
df = df.drop_duplicates()
df.shape

(519525, 15)

In [29]:
# 연도별 빈도수를 세어봅니다.
df["기준년도"].value_counts()

2019    96054
2018    81393
2017    73151
2016    63689
2015    46011
2013    42660
2014    41603
2012    39252
2011    35712
Name: 기준년도, dtype: int64

In [30]:
df.head()

Unnamed: 0,기준년도,가입자 일련번호,처방내역일련번호,일련번호,성별코드,연령대코드(5세단위),시도코드,요양개시일자,약품일반성분명코드,1회 투약량,1일투약량,총투여일수,단가,금액,데이터 공개일자
0,2011,263152,301,3,1,12,41,20111109,246501ATB,1.0,3,3,111.0,999,20151220
1,2011,142227,310,4,1,14,41,20111125,246501ATB,1.0,3,7,111.0,2331,20151220
2,2011,253952,1013,1,2,9,46,20111203,246502ATB,1.0,3,14,165.0,6930,20151220
3,2011,253952,1014,3,2,9,46,20111219,246502ATB,1.0,3,14,165.0,6930,20151220
4,2011,703334,2563,2,1,10,48,20111205,246501ATB,1.0,1,30,111.0,3330,20151220


In [31]:
df.tail()

Unnamed: 0,기준년도,가입자 일련번호,처방내역일련번호,일련번호,성별코드,연령대코드(5세단위),시도코드,요양개시일자,약품일반성분명코드,1회 투약량,1일투약량,총투여일수,단가,금액,데이터 공개일자
519520,2019,999868,108936966,3,2,12,41,20190725,427800ACH,1.0,1,60,402.0,24120,20201222
519521,2019,999868,106182011,3,2,12,41,20190916,427800ACH,1.0,1,50,388.0,19400,20201222
519522,2019,999868,108375768,3,2,12,41,20190408,427800ACH,1.0,1,50,402.0,20100,20201222
519523,2019,999868,100117993,3,2,12,41,20191115,427800ACH,1.0,1,60,388.0,23280,20201222
519524,2019,999868,104284780,3,2,12,41,20190530,427800ACH,1.0,1,60,402.0,24120,20201222
