# 변수
- 데이터가 저장되는 공간의 이름 (접근성이 좋아짐)
    - 데이터 종류
        - 단일 데이터
            - 문자(str)
            - 숫자(int / float)
            - bool(참/거짓)
        - 다차원 데이터
            - tuple
            - list
            - dict
    
    - 변수의 종류
        - 전역 변수
            - 어디서든 사용이 가능한 변수
            - globals()를 이용하여 확인
        - 지역 변수
            - 특정한 영역에서만 사용이 가능
            - 함수 내에서 생성된 변수나 매개변수 등이 지역변수의 대표적인 예
        - 매개 변수
            - 함수가 호출될때 입력 값(인자)을 받아오기 위한 공간의 이름
            - 기본 값을 지정하여 인자가 없더라도 기본값을 이용하여 함수가 실행
            - 인자의 개수가 가변인 경우 변수명 앞에 *붙여서 변수를 생성
        - 객체 변수
            - class 내부에서 사용을 하는 데이터들을 저장하는 공간의 이름
            - self.변수명을 이용하여 데이터들을 저장
            - 생성이 되는 class마다 독립적인 데이터를 저장
        - 클래스 변수
            - class 내부에서 사용하는 데이터들을 저장하는 공간의 이름
            - 클래스 선언 시 함수와 같은 영역에 변수를 생성
            - 같은 class가 생성이 될때 서로 공유할 수 있는 변수
            

In [2]:
# python에서는 변수를 생성할때 데이터가 같이 대입
vari_1 = "hello"
print(vari_1)

hello


In [3]:
def func_1():
    result=1111
    return result

func_1()

1111

In [4]:
# result는 함수 내부에서 생성된 지역 변수임으로 외부에서는 사용이 불가능
# print(result)

In [5]:
def func_2():
    result = 1111
    print(result)
func_2()

1111


In [6]:
# bool -> True / False 2가지의 타입을 가진 데이터
# 조건식에서 사용 -> if문, while문
# 조건식이 들어가는 부분에서 변수를 사용하는 경우가 종종 발생
# 변수를 강제적으로 bool형태로 변환
# 문자 타입의 강제 bool 변환
print(bool('a'))    # True
print(bool(' '))    # True
print(bool(''))     # False


True
True
False


# 경로
- 절대 경로
    - 절대적인 주소 값
    - 어떤 환경에서도 같은 위치를 나타낸다.
        - 환경 -> 컴퓨터
    - ex
        - c:/users/admin/document/a.txt
            - 컴퓨터 안에 파일들을 불러오는 경우에는 절대 경로보다는 상대 경로를 사용이 유리
        - https://www.google.com
            - url 이용시에는 절대 경로로 사용
        - Database server의 주소를 이용하는 경우 절대 경로 사용
- 상대 경로
    - 상대적인 주소 값
    - 환경이 변경되었을 때 위치도 변화한다.
        - ./ : 현재 작업중인 디렉토리(경로)
        - ../ : 현재 디렉토리 상위 디렉토리로 이동
        - 디렉토리명(폴더명)/ : 하위 디렉토리 이동

In [7]:
import pandas as pd

In [8]:
# 절대 경로를 이용하여 csv 파일 불러오기
df = pd.read_csv(r"C:\python\csv\AAPL.csv")

In [9]:
# 상대 경로를 이용하여 csv 파일 불러오기
df2 = pd.read_csv("../csv/AAPL.csv")

# 함수
- 특정 행동(기능)을 특정 공간에 저장하여 함수의 이름을 호출하여 반복적으로 사용
- 사용하는 이유? -> 같은 행동을 여러 곳에서 사용하는 경우 함수를 이용한다면 코드의 라인이 줄어들고 가독성이 올라가고 오류가 날 확률이 줄어든다. -> 클린코드
- def 키워드를 이용해서 함수를 생성
- 이름없는 함수 : lambda 함수
    - 간단한 작업을 특정 영역에서 반복적으로 실행을 할때 사용
    - map()함수나 apply()함수에서 자주 사용
- 재귀함수
    - 내가 나 자신을 호출하는 함수를 의미
    - 루프를 돌려서 반복 실행하고 특정 결과가 완성되었을때 출력을 돌려주는 함수
    - 일관적인 반복문을 이용하는 것보다 가독성이 올라간다.

In [10]:
# 매개변수가 존재하지 않는 함수 생성
def func_3():
    # 함수가 호출될때 일반적으로 동일한 데이터를 되돌려준다.
    result = 'Hello'
    return result

In [11]:
func_3()

'Hello'

In [12]:
# 매개변수가 존재하는 함수
def func_4(x, y):
    # x, y는 함수가 호출될 때 입력 값들이 대입이 되는 공간
    # 매개변수가 2개인 함수가 호출시 인자도 2개
    result = x + y
    return result

In [13]:
func_4(10, 2)

12

In [14]:
# # 매개변수가 2개 인데 호출이 인자의 개수가 다르다면?
# # 에러 발생
# func_4(10)

In [15]:
# 매개변수에 기본값을 설정되 함수
def load_data(servicekey, cnt=10):
    # servicekey 매개변수는 입력이 필수 항목
    # cnt 매개변수는 기본값이 설정되어 있으므로 선택 항목
    # servicekey 확인
    if servicekey == 'abcd':
        df = pd.read_csv("../csv/boston.csv")
        result = df.head(cnt).to_dict(orient='records')
    else:
        result = "등록된 servicekey가 아닙니다."
    return result

In [16]:
load_data('abcd')

[{'CRIM': 0.00632,
  'ZN': 18.0,
  'INDUS': 2.31,
  'CHAS': 0.0,
  'NOX': 0.538,
  'RM': 6.575,
  'AGE': 65.2,
  'DIS': 4.09,
  'RAD': 1.0,
  'TAX': 296.0,
  'PTRATIO': 15.3,
  'B': 396.9,
  'LSTAT': 4.98,
  'Price': 24.0},
 {'CRIM': 0.02731,
  'ZN': 0.0,
  'INDUS': 7.07,
  'CHAS': 0.0,
  'NOX': 0.469,
  'RM': 6.421,
  'AGE': 78.9,
  'DIS': 4.9671,
  'RAD': 2.0,
  'TAX': 242.0,
  'PTRATIO': 17.8,
  'B': 396.9,
  'LSTAT': 9.14,
  'Price': 21.6},
 {'CRIM': 0.02729,
  'ZN': 0.0,
  'INDUS': 7.07,
  'CHAS': 0.0,
  'NOX': 0.469,
  'RM': 7.185,
  'AGE': 61.1,
  'DIS': 4.9671,
  'RAD': 2.0,
  'TAX': 242.0,
  'PTRATIO': 17.8,
  'B': 392.83,
  'LSTAT': 4.03,
  'Price': 34.7},
 {'CRIM': 0.03237,
  'ZN': 0.0,
  'INDUS': 2.18,
  'CHAS': 0.0,
  'NOX': 0.458,
  'RM': 6.998,
  'AGE': 45.8,
  'DIS': 6.0622,
  'RAD': 3.0,
  'TAX': 222.0,
  'PTRATIO': 18.7,
  'B': 394.63,
  'LSTAT': 2.94,
  'Price': 33.4},
 {'CRIM': 0.06905,
  'ZN': 0.0,
  'INDUS': 2.18,
  'CHAS': 0.0,
  'NOX': 0.458,
  'RM': 7.147,
  'A

In [17]:
load_data('aaaa')

'등록된 servicekey가 아닙니다.'

In [18]:
len(load_data('adcd', cnt=20))

21

In [19]:
# 인자의 개수가 가변인 경우 매개변수 생성하는 함수
def func_5(x, *y):
    print(type(x))
    print(type(y))


In [20]:
func_5('a', 'b', 'c', 'd')

<class 'str'>
<class 'tuple'>


In [21]:
func_5(1, 2, 3, 4)

<class 'int'>
<class 'tuple'>


In [22]:
def func_6(*_numbers, _type):
    if _type == 'sum':
        result = 0
        for num in _numbers:
            result += num
    else:
        result = 1
        for num in _numbers:
            result *= num
            
    return result

In [23]:
input_type = 'sum'
input_number = [1, 2, 3, 4, 5]

In [24]:
func_6(*input_number, _type = input_type)

15

# class
- 변수, 함수들의 모음
- 특징
    - 동일한 class가 여러 곳에서 생성(사용)이 가능
    - 여러 곳에서 같은 기능을 사용이 가능
- python에서 클래스를 사용하는 이유?
    - python의 모든 데이터의 타입은 class 구성
    - 같은 class를 생성하여도 독립적인 데이터를 이용해서 함수를 사용이 가능
- 상속
    - 부모 클래스에 있는 변수, 함수들을 자식 클래스가 사용하도록 몰려받는 기능
    - 부모 클래스에서의 기능은 그대로 유지한 채로 자식 클래스에서는 그 외의 기능들을 추가해서 사용
    - 파일을 분할 관리 하듯이 클래스도 기능별 각각 분할하여 관리 가능

In [25]:
# 특정 경로에 있는 파일의 목록을 불러와서 파일들을 모두 로드하는 방법
import os
from glob import glob

In [26]:
# 특정 경로에 있는 파일의 목록을 불러온다.
# 목록(list) + 디렉토리(dir)
os.listdir("../csv/")

['2014.csv',
 '2017',
 '2017_expense_list.csv',
 '2017_expense_list.xlsx',
 '2018',
 '2019',
 '2020',
 '2021',
 '2022',
 '2022년 06월 교통카드통계자료.xls',
 'AAPL.csv',
 'AMZN.csv',
 'boston.csv',
 'campaign_master.csv',
 'card',
 'class_master.csv',
 'corona.csv',
 'csv_exam.csv',
 'customer_master.csv',
 'dept.csv',
 'drinks.csv',
 'emp.csv',
 'example.csv',
 'GM.csv',
 'item_master.csv',
 'Koweps_Codebook.xlsx',
 'MSFT.csv',
 'num_1',
 'num_2',
 'num_3',
 'Sales Records.csv',
 'Superstore KR - VizLab 2022.xlsx',
 'tran_1.csv',
 'tran_2.csv',
 'tran_d_1.csv',
 'tran_d_2.csv',
 'uriage.csv',
 'use_log.csv',
 'USM.csv',
 '주민등록.csv',
 '태블로']

In [27]:
glob("../csv/*.csv")

['../csv\\2014.csv',
 '../csv\\2017_expense_list.csv',
 '../csv\\AAPL.csv',
 '../csv\\AMZN.csv',
 '../csv\\boston.csv',
 '../csv\\campaign_master.csv',
 '../csv\\class_master.csv',
 '../csv\\corona.csv',
 '../csv\\csv_exam.csv',
 '../csv\\customer_master.csv',
 '../csv\\dept.csv',
 '../csv\\drinks.csv',
 '../csv\\emp.csv',
 '../csv\\example.csv',
 '../csv\\GM.csv',
 '../csv\\item_master.csv',
 '../csv\\MSFT.csv',
 '../csv\\Sales Records.csv',
 '../csv\\tran_1.csv',
 '../csv\\tran_2.csv',
 '../csv\\tran_d_1.csv',
 '../csv\\tran_d_2.csv',
 '../csv\\uriage.csv',
 '../csv\\use_log.csv',
 '../csv\\USM.csv',
 '../csv\\주민등록.csv']

## 특정 경로에 있는 데이터 파일을 모두 로드
- 파일 로드의 방식
    1. os 라이브러리 안에 있는 listdir()
    2. glob 라이브러리 안에 있는 glob()
- 파일의 저장 방식
    1. 각각의 전역 변수에 저장
    2. 하나의 []에 저장
    3. 하나의 데이터프레임으로 결합(단순한 행 결합 UNION)

In [28]:
# 파일의 목록
file_path = "../csv/2017/"
file_list = os.listdir(file_path)
file_list

['201701_expense_list.csv',
 '201702_expense_list.csv',
 '201703_expense_list.csv',
 '201704_expense_list.csv',
 '201705_expense_list.csv',
 '201706_expense_list.csv',
 '201707_expense_list.csv',
 '201708_expense_list.csv',
 '201709_expense_list.csv',
 '201710_expense_list.csv',
 '201711_expense_list.csv',
 '201712_expense_list.csv']

In [29]:
# 반복문을 이용하여 file_list의 목록 하나씩 대입하여 file_path와 결합 후 read_csv()함수를 이용한다.
for file in file_list:
    # print(file_path+file)
    # df에 1월부터 12월까지 데이터가 로드될때마다 대입
    # 결과적으로는 12월 데이터만 df에 남는다.
    df= pd.read_csv(file_path+file)
    
df.head()

Unnamed: 0,nid,title,url,dept_nm_lvl_1,dept_nm_lvl_2,dept_nm_lvl_3,dept_nm_lvl_4,dept_nm_lvl_5,exec_yr,exec_month,expense_budget,expense_execution,category,dept_nm_full,exec_dt,exec_loc,exec_purpose,target_nm,payment_method,exec_amount
0,14356805,2017년 12월 서울시본청_행정국_인사과 업무추진비 내역,http://opengov.seoul.go.kr/public/14356805,서울시본청,행정국,인사과,,,2017,12,,,,행정국 인사과,2017-12-28 22:44,김앤장 (중구 무교로 6),정년명예퇴임식 개선사항 검토를 위한 간담회비 지급,인사기획팀장 등 12명,카드,300000
1,14356805,2017년 12월 서울시본청_행정국_인사과 업무추진비 내역,http://opengov.seoul.go.kr/public/14356805,서울시본청,행정국,인사과,,,2017,12,,,,행정국 인사과,2017-12-28 15:48,황금정 (종로구 당주동1),퇴임식 행사 진행순서 논의 등을 위한 간담회비 지급,성과관리팀장 등 13명,카드,380000
2,14356805,2017년 12월 서울시본청_행정국_인사과 업무추진비 내역,http://opengov.seoul.go.kr/public/14356805,서울시본청,행정국,인사과,,,2017,12,,,,행정국 인사과,2017-12-27 20:45,CJ푸드빌 (중구 을지로3길),퇴임식 행사용역 중간 점검 등을 위한 간담회비 지급,인사기획팀장 등 15명,카드,425000
3,14356805,2017년 12월 서울시본청_행정국_인사과 업무추진비 내역,http://opengov.seoul.go.kr/public/14356805,서울시본청,행정국,인사과,,,2017,12,,,,행정국 인사과,2017-12-26 21:28,우리집순두부 (중구 을지로3길),직원 인사교류 관련 검토를 위한 간담회비 지급,인사기획팀장 등 5명,카드,117000
4,14356805,2017년 12월 서울시본청_행정국_인사과 업무추진비 내역,http://opengov.seoul.go.kr/public/14356805,서울시본청,행정국,인사과,,,2017,12,,,,행정국 인사과,2017-12-26 19:36,소호정 (중구 태평로1가),공무직 인사제도 개선논의를 위한 간담회비 지급,공무공공안전팀장 등 6명,카드,170000


In [30]:
# 수정1 -> 빈 리스트에 반복 실행될 때마다 데이터프레임을 추가
dfs = []
for file in file_list:
    df = pd.read_csv(file_path + file)
    # 리스트에 추가
    dfs.append(df)
    
len(dfs)

12

In [31]:
# 수정2 -> 반복 실행할때 마다 각각의 전역 변수에 데이터프레임을 대입
for file in file_list:
    # file의 이름으로 변수를 생성
    # file에서 2017xx로 되어있는 문자만 출력
    # 처음부터 7번째 문자 전에서 자른다.
    # print(file[:6])
    # '_'를 기준으로 문자를 나눠주고 첫번째를 출력
    # print(file.split('_')[0])
    var_name = file.split('_')[0]
    globals()[f"df_{var_name}"] = pd.read_csv(file_path + file)
    

In [32]:
df_201701

Unnamed: 0,nid,title,url,dept_nm_lvl_1,dept_nm_lvl_2,dept_nm_lvl_3,dept_nm_lvl_4,dept_nm_lvl_5,exec_yr,exec_month,expense_budget,expense_execution,category,dept_nm_full,exec_dt,exec_loc,exec_purpose,target_nm,payment_method,exec_amount
0,11430252,2017년 1월 장애인복지정책과 업무추진비 집행내역,http://opengov.seoul.go.kr/public/11430252,서울시본청,복지본부,장애인복지정책과,,,2017,1,,,,복지본부 장애인복지정책과,2017-01-26 13:10,동해일식 (중구 무교동),기본소득과 장애인복지 논의간담회,장애인복지정책팀장 외 2명,카드,76000
1,11430252,2017년 1월 장애인복지정책과 업무추진비 집행내역,http://opengov.seoul.go.kr/public/11430252,서울시본청,복지본부,장애인복지정책과,,,2017,1,,,,복지본부 장애인복지정책과,2017-01-25 22:41,김앤장 (중구 무교로),장애인단체 활동지원 논의간담회,장애인복지정책과장 외 3명,카드,102000
2,11430252,2017년 1월 장애인복지정책과 업무추진비 집행내역,http://opengov.seoul.go.kr/public/11430252,서울시본청,복지본부,장애인복지정책과,,,2017,1,,,,복지본부 장애인복지정책과,2017-01-24 12:35,왕왕생고기 (중구 을지로),장애인 기본돌봄 복지시책 논의간담회,장애인복지정책팀장외7명,카드,80000
3,11430252,2017년 1월 장애인복지정책과 업무추진비 집행내역,http://opengov.seoul.go.kr/public/11430252,서울시본청,복지본부,장애인복지정책과,,,2017,1,,,,복지본부 장애인복지정책과,2017-01-24 12:23,서울불고기 (중구 남대문로),서울시일자리통합지원센터 운영개선 논의간담회,장애인복지정책과장외5명,카드,112000
4,11430252,2017년 1월 장애인복지정책과 업무추진비 집행내역,http://opengov.seoul.go.kr/public/11430252,서울시본청,복지본부,장애인복지정책과,,,2017,1,,,,복지본부 장애인복지정책과,2017-01-23 15:10,서울시청신매점,부서운영에 필요한 음료수 구매,장애인복지정책과직원,카드,16000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5512,15513286,2017년 1월 서울시본청_경제진흥본부_경제기획관_투자유치과 업무추진비 내역,http://opengov.seoul.go.kr/public/15513286,서울시본청,경제진흥본부,경제기획관,투자유치과,,2017,1,,,,경제진흥본부 투자유치과,2017-01-11 13:01,차이79 종로구 새문안로5길,금융기관 보조금 지원계획수립관련 간담회 개최 비용지출,투자유치과장외5명,카드,27000
5513,15513286,2017년 1월 서울시본청_경제진흥본부_경제기획관_투자유치과 업무추진비 내역,http://opengov.seoul.go.kr/public/15513286,서울시본청,경제진흥본부,경제기획관,투자유치과,,2017,1,,,,경제진흥본부 투자유치과,2017-01-06 12:58,강가 서울 중구 세종대로136,핀테크 산업지원시설 입주 관련 간담회 개최비용지출,금융협력관외6명,카드,70000
5514,15513286,2017년 1월 서울시본청_경제진흥본부_경제기획관_투자유치과 업무추진비 내역,http://opengov.seoul.go.kr/public/15513286,서울시본청,경제진흥본부,경제기획관,투자유치과,,2017,1,,,,경제진흥본부 투자유치과,2017-01-04 12:47,이복만두 중구 무교동 27,F사 투자유치 협의를 위한 간담회 개최 비용지출,투자유치과장외4명,카드,57000
5515,15513286,2017년 1월 서울시본청_경제진흥본부_경제기획관_투자유치과 업무추진비 내역,http://opengov.seoul.go.kr/public/15513286,서울시본청,경제진흥본부,경제기획관,투자유치과,,2017,1,,,,경제진흥본부 투자유치과,2017-01-03 12:42,불고기브라더스 중구 태평로 1가,핀테크사업 전략수립을 위한 간담회 개최비용지출,경제진흥본부장외10명,카드,152400


In [33]:
# 해당하는 경로의 모든 데이터들이 같은 구조의 데이터프레임이라면
# 데이터프레임을 반복적으로 로드하고 유니언 결합(concat())을 한다.

# 비어있는 리스트에 반복 실행할때 마다 append로 추가하는 것과 같다.
# 비어있는 데이터프레임에 반복 실행할대 마다 concat()
df2017 = pd.DataFrame()

for file in file_list:
    df = pd.read_csv(file_path + file)
    # df를 df2017에 추가
    df2017 = pd.concat([df2017, df], axis=0)
    


In [34]:
# 2019년도의 데이터를 하나의 데이터프레임으로 생성

file_path2 = "../csv/2019/"
file_list2 = os.listdir(file_path2)
df2019 = pd.DataFrame()

for file in file_list2:
    df = pd.read_json(file_path2 + file)
    # df를 df2017에 추가
    df2019 = pd.concat([df2019, df], axis=0)
    

In [35]:
len(df2019)

74207

In [40]:
# 특정 경로에 파일의 확장자가 같은 확장자라면 위의 방식을 그대로 유지
# 2019년도 폴더에는 여러 확장자 존재 -> 위의 방법으로는 불가능
# 전체 목록을 로드 -> 원하는 확장자 파일의 목록을 새로 생성

file_path = "../csv/2019/201901_expense_list.csv"
# path에서 제공하는 함수 path.spilt() -> 경로와 파일을 나눠주는 함수
file_dir, file_name = os.path.split(file_path)
# path.splitext -> 파일명과 확장자로 나눠주는 함수
os.path.splitext(file_name)

('201901_expense_list', '.csv')

In [41]:
file_list = os.listdir("../csv/2021/")
file_list

['202101_expense_list.csv',
 '202101_expense_list.json',
 '202101_expense_list.xlsx',
 '202101_expense_list.xml',
 '202102_expense_list.csv',
 '202102_expense_list.json',
 '202102_expense_list.xlsx',
 '202102_expense_list.xml',
 '202103_expense_list.csv',
 '202103_expense_list.json',
 '202103_expense_list.xlsx',
 '202103_expense_list.xml',
 '202104_expense_list.csv',
 '202104_expense_list.json',
 '202104_expense_list.xlsx',
 '202104_expense_list.xml',
 '202105_expense_list.csv',
 '202105_expense_list.json',
 '202105_expense_list.xlsx',
 '202105_expense_list.xml',
 '202106_expense_list.csv',
 '202106_expense_list.json',
 '202106_expense_list.xlsx',
 '202106_expense_list.xml',
 '202107_expense_list.csv',
 '202107_expense_list.json',
 '202107_expense_list.xlsx',
 '202107_expense_list.xml',
 '202108_expense_list.csv',
 '202108_expense_list.json',
 '202108_expense_list.xlsx',
 '202108_expense_list.xml',
 '202109_expense_list.csv',
 '202109_expense_list.json',
 '202109_expense_list.xlsx',
 '

In [47]:
new_list = []

for file in file_list:
    # file의 확장자가 csv라면
    # if file.split('.')[-1] == 'csv':
    # if file.endswith('.csv'):
    name, ext = os.path.splitext(file)
    if ext == '.csv':
        new_list.append(file)
        
new_list

['202101_expense_list.csv',
 '202102_expense_list.csv',
 '202103_expense_list.csv',
 '202104_expense_list.csv',
 '202105_expense_list.csv',
 '202106_expense_list.csv',
 '202107_expense_list.csv',
 '202108_expense_list.csv',
 '202109_expense_list.csv',
 '202110_expense_list.csv',
 '202111_expense_list.csv',
 '202112_expense_list.csv']

In [45]:
glob("../csv/2021/*.csv")


['../csv/2021\\202101_expense_list.csv',
 '../csv/2021\\202102_expense_list.csv',
 '../csv/2021\\202103_expense_list.csv',
 '../csv/2021\\202104_expense_list.csv',
 '../csv/2021\\202105_expense_list.csv',
 '../csv/2021\\202106_expense_list.csv',
 '../csv/2021\\202107_expense_list.csv',
 '../csv/2021\\202108_expense_list.csv',
 '../csv/2021\\202109_expense_list.csv',
 '../csv/2021\\202110_expense_list.csv',
 '../csv/2021\\202111_expense_list.csv',
 '../csv/2021\\202112_expense_list.csv']

### 특정 경로의 파일을 모두 로드하는 함수 생성
- 매개변수 3개
    - file_path -> 파일의 경로 : str
    - ext -> 확장자 : str -> .csv
    - _concat -> 결합방식 : bool -> False
- file_path를 이용해서 파일의 목록을 생성
- file_path에 '/' 더해준다. -> 없다면 /, 있다면 // ==> 어차피 경로로 인식
- 확장자에 따라서 새로운 목록을 생성
- concat이 True라면
    - 빈 데이터프레임 생성
- False 라면
    - 빈 리스트 생성
- 새로운 목록을 이용하여 반복문을 생성
    - 확장자에 따라서 read함수를 지정하고 파일을 로드
    - concat에 따라 concat(), append()를 사용할지 지정
- 결과물을 되돌려준다.

In [57]:
def data_load_os(file_path, ext = '.csv', concat = False):
    # file_path에 '/' 더해준다.
    file_path = file_path + '/'
    # file_path의 파일 목록을 로드
    file_list = os.listdir(file_path)
    # ext에 맞는 확장자 파일만 존재하는 새로운 리스트를 생성
    new_list = []
    for name in file_list:
        if name.endswith(ext):
            new_list.append(name)
    
    # concat에 따라서 빈 데이터프레임을 생성할 것인가? 빈 리스트를 생성할 것인가?
    if concat:
        result = pd.DataFrame()
    else:
        result = []
    
    # 새로운 리스트로 반복실행
    for name in new_list:
        if ext == '.csv':
            try:
                df = pd.read_csv(file_path+name)
            except:
                df = pd.read_csv(file_path+name, encoding='cp949')
        elif ext == '.json':
            try:
                df = pd.read_json(file_path+name)
            except:
                df = pd.read_json(file_path+name, encoding='cp949')
        elif ext == '.xml':
            try:
                df = pd.read_xml(file_path+name)
            except:
                df = pd.read_xml(file_path+name, encoding='cp949')
        elif ext in ['.xlsx', '.xls']:
            df = pd.read_excel(file_path+name)
        else:
            return "사용 가능 확장자가 아님 돌아가셈"
        
        if concat:
            result = pd.concat([result, df], axis=0)
        else:
            result.append(df)
        
    # 결과를 되돌려준다.
    return result

In [60]:
df2, df3, df4, df5 = data_load_os(
    '../csv/2022'
)

In [61]:
df2

Unnamed: 0,nid,title,url,dept_nm_lvl_1,dept_nm_lvl_2,dept_nm_lvl_3,dept_nm_lvl_4,dept_nm_lvl_5,exec_yr,exec_month,expense_budget,expense_execution,category,dept_nm_full,exec_dt,exec_loc,exec_purpose,target_nm,payment_method,exec_amount
0,25844143,2022년 2월 사업소 도로사업소 서부도로사업소 업무추진비 - 기관운영 시책추진 부서운영,http://opengov.seoul.go.kr/expense/25844143,사업소,도로사업소,서부도로사업소,,,2022,2,0,0,,서부도로사업소 기전과,2022-02-11 14:52,다농마트(마포구 월드컵로 235),부서운영 물품구입,기전과장 외 48명,제로페이,230630
1,25844143,2022년 2월 사업소 도로사업소 서부도로사업소 업무추진비 - 기관운영 시책추진 부서운영,http://opengov.seoul.go.kr/expense/25844143,사업소,도로사업소,서부도로사업소,,,2022,2,0,0,,서부도로사업소 시설보수과,2022-02-14 09:58,다농마트(마포구 월드컵로),부서운영물품 구입(공무직),김민철 등 3명,카드,120600
2,25844143,2022년 2월 사업소 도로사업소 서부도로사업소 업무추진비 - 기관운영 시책추진 부서운영,http://opengov.seoul.go.kr/expense/25844143,사업소,도로사업소,서부도로사업소,,,2022,2,0,0,,서부도로사업소 도로보수과,2022-02-22 14:53,다농마트(마포구 월드컵로),도로보수과 직원 물품구매,윤옥광외 9명,제로페이,112350
3,25844143,2022년 2월 사업소 도로사업소 서부도로사업소 업무추진비 - 기관운영 시책추진 부서운영,http://opengov.seoul.go.kr/expense/25844143,사업소,도로사업소,서부도로사업소,,,2022,2,0,0,,서부도로사업소 도로보수과,2022-02-21 14:33,에이스문구센터(서대문구 연희로),도로보수과 직원 물품구매,윤옥광외 9명,제로페이,12120
4,25844143,2022년 2월 사업소 도로사업소 서부도로사업소 업무추진비 - 기관운영 시책추진 부서운영,http://opengov.seoul.go.kr/expense/25844143,사업소,도로사업소,서부도로사업소,,,2022,2,0,0,,서부도로사업소,2022-02-28 12:21,시골보쌈&감자옹심이(마포구 월드컵북로),과적단속 현장근무자 격려 간담회,김영철 등 5명,제로페이,68000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5835,25468599,2022년 2월 서울시본청 자치경찰위원회 사무국 자치경찰총괄과 업무추진비 - 기관운...,http://opengov.seoul.go.kr/expense/25468599,서울시본청,자치경찰위원회,사무국,자치경찰총괄과,,2022,2,0,0,,자치경찰위원회 자치경찰총괄과,2022-02-04 20:54,행복한하루소바(중구 무교로 16),자치경찰사무 수행 관련 시-경 협업체계 구축 검토 간담회,위원장 외 4명,제로페이,68500
5836,25468599,2022년 2월 서울시본청 자치경찰위원회 사무국 자치경찰총괄과 업무추진비 - 기관운...,http://opengov.seoul.go.kr/expense/25468599,서울시본청,자치경찰위원회,사무국,자치경찰총괄과,,2022,2,0,0,,자치경찰위원회 자치경찰총괄과,2022-02-04 12:45,금성관나주곰탕(서울시 중구 남대문로 29),제29차 자치경찰위원회 회의 후속조치 검토 간담회,총괄과장 외 3명,제로페이,30000
5837,25468599,2022년 2월 서울시본청 자치경찰위원회 사무국 자치경찰총괄과 업무추진비 - 기관운...,http://opengov.seoul.go.kr/expense/25468599,서울시본청,자치경찰위원회,사무국,자치경찰총괄과,,2022,2,0,0,,자치경찰위원회 자치경찰총괄과,2022-02-04 12:45,진동횟집(서울 중구 세종대로14길 18),제30차 자치경찰위원회 회의 안건 검토 간담회,사무국장 외 3명,카드,50000
5838,25468599,2022년 2월 서울시본청 자치경찰위원회 사무국 자치경찰총괄과 업무추진비 - 기관운...,http://opengov.seoul.go.kr/expense/25468599,서울시본청,자치경찰위원회,사무국,자치경찰총괄과,,2022,2,0,0,,자치경찰위원회 자치경찰총괄과,2022-02-03 12:39,동해수산(서울 중구 무교로 16),자치경찰사업예산 집행 검토 간담회,위원장 외 5명,카드,180000


In [63]:
data_load_os("../csv/2022", concat=True)

Unnamed: 0,nid,title,url,dept_nm_lvl_1,dept_nm_lvl_2,dept_nm_lvl_3,dept_nm_lvl_4,dept_nm_lvl_5,exec_yr,exec_month,expense_budget,expense_execution,category,dept_nm_full,exec_dt,exec_loc,exec_purpose,target_nm,payment_method,exec_amount
0,25844143,2022년 2월 사업소 도로사업소 서부도로사업소 업무추진비 - 기관운영 시책추진 부서운영,http://opengov.seoul.go.kr/expense/25844143,사업소,도로사업소,서부도로사업소,,,2022,2,0,0,,서부도로사업소 기전과,2022-02-11 14:52,다농마트(마포구 월드컵로 235),부서운영 물품구입,기전과장 외 48명,제로페이,230630
1,25844143,2022년 2월 사업소 도로사업소 서부도로사업소 업무추진비 - 기관운영 시책추진 부서운영,http://opengov.seoul.go.kr/expense/25844143,사업소,도로사업소,서부도로사업소,,,2022,2,0,0,,서부도로사업소 시설보수과,2022-02-14 09:58,다농마트(마포구 월드컵로),부서운영물품 구입(공무직),김민철 등 3명,카드,120600
2,25844143,2022년 2월 사업소 도로사업소 서부도로사업소 업무추진비 - 기관운영 시책추진 부서운영,http://opengov.seoul.go.kr/expense/25844143,사업소,도로사업소,서부도로사업소,,,2022,2,0,0,,서부도로사업소 도로보수과,2022-02-22 14:53,다농마트(마포구 월드컵로),도로보수과 직원 물품구매,윤옥광외 9명,제로페이,112350
3,25844143,2022년 2월 사업소 도로사업소 서부도로사업소 업무추진비 - 기관운영 시책추진 부서운영,http://opengov.seoul.go.kr/expense/25844143,사업소,도로사업소,서부도로사업소,,,2022,2,0,0,,서부도로사업소 도로보수과,2022-02-21 14:33,에이스문구센터(서대문구 연희로),도로보수과 직원 물품구매,윤옥광외 9명,제로페이,12120
4,25844143,2022년 2월 사업소 도로사업소 서부도로사업소 업무추진비 - 기관운영 시책추진 부서운영,http://opengov.seoul.go.kr/expense/25844143,사업소,도로사업소,서부도로사업소,,,2022,2,0,0,,서부도로사업소,2022-02-28 12:21,시골보쌈&감자옹심이(마포구 월드컵북로),과적단속 현장근무자 격려 간담회,김영철 등 5명,제로페이,68000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
51,26047684,2022년 5월 사업소 중부공원녹지사업소 시설과 업무추진비 - 부서운영,http://opengov.seoul.go.kr/expense/26047684,사업소,중부공원녹지사업소,시설과,,,2022,5,0,0,,시설과,2022-05-25 11:00,㈜그린주의(중량구 봉화산로123),부서운영 및 민원접대 물품구입(커피 및 다과),시설과장외 14명,카드,355600
52,25993976,2022년 5월 사업소 서울역사박물관 학예연구부 유물관리과 업무추진비 - 부서운영,http://opengov.seoul.go.kr/expense/25993976,사업소,서울역사박물관,학예연구부,유물관리과,,2022,5,0,0,,유물관리과,2022-05-17 15:41,광화문홈플러스(종로구 새문안로 91),부서운영에 필요한 물품구입(차종류 등),유물관리과장 강성희 등 9명,카드,175000
53,25974709,2022년 5월 사업소 도시기반시설본부 시설국 안전관리과 업무추진비 - 부서운영,http://opengov.seoul.go.kr/expense/25974709,사업소,도시기반시설본부,시설국,안전관리과,,2022,5,0,0,,도시기반시설본부 안전관리과,2022-05-12 12:30,손가명가,안전관리방안 모색을 위한 간담회 개최,안전관리과장 외 8명,제로페이,250000
54,25947326,2022년 5월 사업소 서울역사박물관 학예연구부 교육대외협력과 업무추진비 - 부서운영,http://opengov.seoul.go.kr/expense/25947326,사업소,서울역사박물관,학예연구부,교육대외협력과,,2022,5,0,0,,서울역사박물관 교육대외협력과,2022-05-10 15:29,홈플러스 익스프레스 광화문점 (서울시 종로구 새문안로 91),교육대외협력과 부서운영물품 구매비,교육대외협력과장 등 7명,카드,175000


### 특정 경로의 파일 목록을 불러와서 확장자에게 따라 read함수를 지정하는 함수
- 매개변수 1개
    - 파일의 경로
- 파일의 경로를 이용하여 파일 전체 목록 로드
- 로드한 데이터들이 저장될 빈 리스트 생성
- 목록을 이용하여 반복문은 실행
- 파일의 확장자를 따로 추출하여 확장자에 따라 read_함수를 지정
- 예외처리로 encoding 변환
- 로드가 된 데이터프레임을 빈 리스트에 추가
- 결과를 되돌려준다.

In [None]:
def data_load_glob(file_path):
    # file_path + /* --> 폴더를 포함한 리스트 생성
    # file_path + /*.* --> 폴더를 제외한 리스트 생성
    file_list = glob(file_path + '/*.*')
    # 결과값인 빈 리스트 생성
    result = []
    for name in file_list:
        file_ext = os.path.splitext(name)[-1]
        if file_ext == '.csv':
            try:
                df - pd.read_csv(name)
            except:
                df = pd.read_csv(name, encoding='cp949')
        elif file_ext == '.json':
            try:
                df = pd.read_json(name)
            except:
                df = pd.read_json(name, encoding='cp949')
        elif file_ext in ['.xlsx', '.xls']:
            df = pd.read_excel(name)
        elif file_ext == '.xml':
            try:
                df = pd.read_xml(name)
            except:
                df = pd.read_xml(name, encoding='cp949')
        result.append(df)
    return result

In [73]:
os.path.splitext(glob("../csv/*.*")[1])[-1]

'.csv'

In [74]:
data_load_glob("../csv/test/")

[           nid                                              title  \
 0     25844143  2022년 2월 사업소 도로사업소 서부도로사업소 업무추진비 - 기관운영 시책추진 부서운영   
 1     25844143  2022년 2월 사업소 도로사업소 서부도로사업소 업무추진비 - 기관운영 시책추진 부서운영   
 2     25844143  2022년 2월 사업소 도로사업소 서부도로사업소 업무추진비 - 기관운영 시책추진 부서운영   
 3     25844143  2022년 2월 사업소 도로사업소 서부도로사업소 업무추진비 - 기관운영 시책추진 부서운영   
 4     25844143  2022년 2월 사업소 도로사업소 서부도로사업소 업무추진비 - 기관운영 시책추진 부서운영   
 ...        ...                                                ...   
 5835  25468599  2022년 2월 서울시본청 자치경찰위원회 사무국 자치경찰총괄과 업무추진비 - 기관운...   
 5836  25468599  2022년 2월 서울시본청 자치경찰위원회 사무국 자치경찰총괄과 업무추진비 - 기관운...   
 5837  25468599  2022년 2월 서울시본청 자치경찰위원회 사무국 자치경찰총괄과 업무추진비 - 기관운...   
 5838  25468599  2022년 2월 서울시본청 자치경찰위원회 사무국 자치경찰총괄과 업무추진비 - 기관운...   
 5839  25468599  2022년 2월 서울시본청 자치경찰위원회 사무국 자치경찰총괄과 업무추진비 - 기관운...   
 
                                               url dept_nm_lvl_1 dept_nm_lvl_2  \
 0     http://opengov.seoul.go.kr/expense/25844143           사업소         도로사

In [77]:
test1, test2, test3 = data_load_glob("../csv/test")

In [78]:
test1.head(1)

Unnamed: 0,nid,title,url,dept_nm_lvl_1,dept_nm_lvl_2,dept_nm_lvl_3,dept_nm_lvl_4,dept_nm_lvl_5,exec_yr,exec_month,expense_budget,expense_execution,category,dept_nm_full,exec_dt,exec_loc,exec_purpose,target_nm,payment_method,exec_amount
0,25844143,2022년 2월 사업소 도로사업소 서부도로사업소 업무추진비 - 기관운영 시책추진 부서운영,http://opengov.seoul.go.kr/expense/25844143,사업소,도로사업소,서부도로사업소,,,2022,2,0,0,,서부도로사업소 기전과,2022-02-11 14:52,다농마트(마포구 월드컵로 235),부서운영 물품구입,기전과장 외 48명,제로페이,230630


In [80]:
test2.head(1)

Unnamed: 0,nid,title,url,dept_nm_lvl_1,dept_nm_lvl_2,dept_nm_lvl_3,dept_nm_lvl_4,dept_nm_lvl_5,exec_yr,exec_month,expense_budget,expense_execution,category,dept_nm_full,exec_dt,exec_loc,exec_purpose,target_nm,payment_method,exec_amount
0,25844143,2022년 2월 사업소 도로사업소 서부도로사업소 업무추진비 - 기관운영 시책추진 부서운영,http://opengov.seoul.go.kr/expense/25844143,사업소,도로사업소,서부도로사업소,,,2022,2,0,0,,서부도로사업소 기전과,2022-02-11 14:52,다농마트(마포구 월드컵로 235),부서운영 물품구입,기전과장 외 48명,제로페이,230630
