## 라이브러리 로드

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns

import os

%matplotlib inline

## 파일목록에서 ursa가 들어가는 파일만 보기

In [None]:
# 윈도우에서 아래 코드가 동작하지 않는다면 %ls 대신 %dir 
%ls data/medicine/ursa*

## 하나만 읽어오기

In [5]:
df_2011_1 = pd.read_csv("ursa_2011_1.csv")
df_2011_1.head(1)

Unnamed: 0,기준년도,가입자일련번호,처방내역일련번호,일련번호,성별코드,연령대코드(5세단위),시도코드,요양개시일자,약품일반성분명코드,1회 투약량,1일투약량,총투여일수,단가,금액,데이터 공개일자
0,2011,263152,301,3,1,12,41,20111109,246501ATB,1.0,3,3,111,999,20151220


In [6]:
df_2018_3 = pd.read_csv("ursa_2018_3.csv")
df_2018_3.head(1)

Unnamed: 0,기준년도,가입자일련번호,처방내역일련번호,일련번호,성별코드,연령대코드(5세단위),시도코드,요양개시일자,약품일반성분명코드,1회투약량,1일투약량,총투여일수,단가,금액,데이터공개일자
0,2018,700001,34955806,3,1,8,45,20180327,246501ATB,1.0,2,30,90.0,5400,20191217


In [7]:
# 최근 컬럼명을 가져옵니다.
cols_last = df_2011_1.columns
cols_last

Index(['기준년도', '가입자일련번호', '처방내역일련번호', '일련번호', '성별코드', '연령대코드(5세단위)', '시도코드',
       '요양개시일자', '약품일반성분명코드', '1회 투약량', '1일투약량', '총투여일수', '단가', '금액',
       '데이터 공개일자'],
      dtype='object')

In [8]:
# 과거 컬럼명을 가져옵니다.
cols_first = df_2018_3.columns
cols_first

Index(['기준년도', '가입자일련번호', '처방내역일련번호', '일련번호', '성별코드', '연령대코드(5세단위)', '시도코드',
       '요양개시일자', '약품일반성분명코드', '1회투약량', '1일투약량', '총투여일수', '단가', '금액',
       '데이터공개일자'],
      dtype='object')

### 다른 컬럼명이 있는지 확인하기
* 다른 컬럼명이 있기 때문에 최근 컬럼명으로 통일합니다.

In [9]:
# 최근컬럼명으로 cols 지정

cols = cols_first
cols

Index(['기준년도', '가입자일련번호', '처방내역일련번호', '일련번호', '성별코드', '연령대코드(5세단위)', '시도코드',
       '요양개시일자', '약품일반성분명코드', '1회투약량', '1일투약량', '총투여일수', '단가', '금액',
       '데이터공개일자'],
      dtype='object')

## 연도별 파일목록 가져오기

In [12]:
import os
os.walk()

<generator object walk at 0x7fab856951d0>

In [17]:
def get_file_list_by_year(year):
    file_list = []
    for root, dirs, files in os.walk("./"):
        for filename in files:
            if filename.startswith(f'ursa_{year}'):
                file_list.append(filename)
    return sorted(file_list)

get_file_list_by_year(2018)

['ursa_2018_1.csv', 'ursa_2018_2.csv', 'ursa_2018_3.csv']

## 파일 읽어오기

In [16]:
# data 폴더에서 ursa 로 시작하고 .csv로 끝나는 파일명만 읽어옵니다.
def read_file(filename, year):
    folder_path = "./"
    if filename.startswith(f'ursa_{year}') and filename.endswith(f'csv'):
        df_temp = pd.read_csv(folder_path+filename)
        df_temp.columns = cols
    else:
        df_temp = pd.DataFrame([])
    return  df_temp

In [18]:
read_file('ursa_2018_1.csv', 2018)

Unnamed: 0,기준년도,가입자일련번호,처방내역일련번호,일련번호,성별코드,연령대코드(5세단위),시도코드,요양개시일자,약품일반성분명코드,1회투약량,1일투약량,총투여일수,단가,금액,데이터공개일자
0,2018,18,665575,2,1,14,41,20180219,246501ATB,1.0,3,30,90.0,8100,20191217
1,2018,18,1830851,2,1,14,41,20180518,246501ATB,1.0,3,30,90.0,8100,20191217
2,2018,18,62347206,2,1,14,41,20180618,246501ATB,1.0,3,30,90.0,8100,20191217
3,2018,18,43511858,2,1,14,41,20181217,246501ATB,1.0,3,30,90.0,8100,20191217
4,2018,18,2355283,2,1,14,41,20180716,246501ATB,1.0,3,30,90.0,8100,20191217
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
28275,2018,349883,55569342,5,1,13,28,20180813,427800ACH,1.0,3,60,413.0,74340,20191217
28276,2018,349883,56156020,5,1,13,28,20180416,427800ACH,1.0,3,60,413.0,74340,20191217
28277,2018,349884,55295130,3,1,8,48,20181102,427800ACH,2.0,2,14,402.0,22512,20191217
28278,2018,349901,39133922,1,1,14,43,20181228,246501ATB,1.0,2,15,90.0,2700,20191217


## 파일 합치기

In [31]:
def concat_data(year):
    df_lists = []
    # 파일별로 데이터를 가져옵니다.
    files = get_file_list_by_year(year)
    for filename in sorted(files):
        # 파일을 읽어옵니다.
        df_temp = read_file(filename, year)
        # 해당 데이터프레임이 비어있지 않다면 병합하기 위해 리스트에 담습니다.
        if not df_temp.empty :
            df_lists.append(df_temp)

    # 리스트가 비어있지 않다면 데이터프레임을 합쳐줍니다.
    if df_lists :    
        # 파일 합치기
        df = pd.concat(df_lists)
    return df

## 일부 데이터를 연도별로 합쳐봅니다.

In [20]:
year = 2018
get_file_list_by_year(year)

['ursa_2018_1.csv', 'ursa_2018_2.csv', 'ursa_2018_3.csv']

In [34]:
concat_data(2018).shape

(81393, 15)

## 전체 데이터를 반복문으로 합칩니다.

In [36]:
# concat은 합칠 데이터를 리스트형태로 담아주면 하나의 데이터프레임으로 합쳐줍니다.
# 하나의 데이터프레임으로 합치기 위한 리스트를 만듭니다.
# for문을 통해 읽어온 연도별 데이터프레임을 리스트에 담습니다.
# for문 종료 후 리스트 파일을 판다스의 concat을 사용해서 합칩니다.
# 결과를 df_concat 에 할당합니다.
df_temp_list = []
start_year = 2011
end_year = 2018
for year in range(start_year, end_year+1) :
    df_year = concat_data(year)
    # 리스트로 
    df_temp_list.append(df_year)
    # 딕셔너리로
    # df_dict[year] = df_year

In [41]:
df = pd.concat(df_temp_list)
df.head()

Unnamed: 0,기준년도,가입자일련번호,처방내역일련번호,일련번호,성별코드,연령대코드(5세단위),시도코드,요양개시일자,약품일반성분명코드,1회투약량,1일투약량,총투여일수,단가,금액,데이터공개일자
0,2011,263152,301,3,1,12,41,20111109,246501ATB,1.0,3,3,111.0,999,20151220
1,2011,142227,310,4,1,14,41,20111125,246501ATB,1.0,3,7,111.0,2331,20151220
2,2011,253952,1013,1,2,9,46,20111203,246502ATB,1.0,3,14,165.0,6930,20151220
3,2011,253952,1014,3,2,9,46,20111219,246502ATB,1.0,3,14,165.0,6930,20151220
4,2011,703334,2563,2,1,10,48,20111205,246501ATB,1.0,1,30,111.0,3330,20151220


## 합친파일을 별도의 파일로 저장합니다.

In [42]:
file_name = "./medicine_2011_2018.csv"
df.to_csv(file_name, index = False)

## 제대로 저장되었는지 읽어옵니다.

In [43]:
pd.read_csv(file_name)

Unnamed: 0,기준년도,가입자일련번호,처방내역일련번호,일련번호,성별코드,연령대코드(5세단위),시도코드,요양개시일자,약품일반성분명코드,1회투약량,1일투약량,총투여일수,단가,금액,데이터공개일자
0,2011,263152,301,3,1,12,41,20111109,246501ATB,1.0,3,3,111.0,999,20151220
1,2011,142227,310,4,1,14,41,20111125,246501ATB,1.0,3,7,111.0,2331,20151220
2,2011,253952,1013,1,2,9,46,20111203,246502ATB,1.0,3,14,165.0,6930,20151220
3,2011,253952,1014,3,2,9,46,20111219,246502ATB,1.0,3,14,165.0,6930,20151220
4,2011,703334,2563,2,1,10,48,20111205,246501ATB,1.0,1,30,111.0,3330,20151220
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
423466,2018,999972,55455187,2,1,16,41,20180501,246501ATB,1.0,2,30,90.0,5400,20191217
423467,2018,999972,59907349,2,1,16,41,20180605,246501ATB,1.0,2,30,90.0,5400,20191217
423468,2018,999972,7455821,2,1,16,41,20180102,246501ATB,1.0,2,30,90.0,5400,20191217
423469,2018,999972,60550989,3,1,16,41,20180123,246501ATB,1.0,2,30,90.0,5400,20191217
