# 변수
- 데이터가 저장되는 공간의 이름 (접근성 좋아짐) 
    - 데이터 종류
        - 단일 데이터
            - 문자 (str)
            - 숫자 (int, float)
            - bool(참/거짓)
        - 다차원 데이터
            - tuple
            - list
            - dict
    - 변수의 종류
        - 전역 변수
            - 어디서든 사용이 가능한 변수
            - glabals()를 이용하여 확인
        - 지역 변수
            - 특정한 영역에서만 사용이 가능
            - 함수 내에서 생성된 변수나 매개변수 등
        - 매개 변수(지역 변수에 포함)
            - 함수가 호출될 때 입력 값(인자)을 받아오기 위한 공간의 이름
            - 기본 값을 지정하여 인자가 없더라도 기본값을 이용하여 함수가 실행
            - 인자의 개수가 가변인 경우 변수명 앞에 * 붙여서 변수를 생성
        - 객체 변수(지역 변수에 포함)
            - class 내부에서 사용을 하는 데이터들을 저장하는 공간의 이름
            - self.변수명을 이용하여 데이터들을 저장
            - 생성이 되는 class마다 독립적인 데이터를 저장
        - 클래스 변수
            - class 내부에서 사용하는 데이터들을 저장하는 공간의 이름
            - 클래스 선언 시 함수와 같은 영역에 변수를 생성
            - 같은 class가 생성이 될 때 서로 공유할 수 있는 변수

In [174]:
# python에서는 변수를 생성할 때 데이터가 같이 대입
vari_1 = "hello"
print(vari_1)

hello


In [175]:
def func_1():
    result = 1111
    return result

a = func_1()
print(a)

1111


In [176]:
# result는 함수 내부에서 생성된 지역 변수이므로 외부에서는 사용이 불가능
# print(result)

# return은 1) 값을 반환, 2) 함수 종료. return밑에 아무리 써도 실행 안 됨
# print와 return 차이점: return은 다른 곳에 값을 저장가능. 반환이 있기 때문

In [177]:
def func_2():
    result = 1111
    print(result)
    
b = func_2()
print(b)

1111
None


In [178]:
# bool-> True/False 2가지의 타입을 가진 데이터
# 조건식에서 사용 -> if문, while문
# 조건식이 들어가는 부분에서 변수를 사용하는 경우가 종종 발생
# 변수를 강제적으로 bool 형태로 변환
# 문자 타입의 강제 bool로 변환
print(bool('a'))    # True
print(bool(' '))    # True
print(bool(''))     # False

True
True
False


# 경로
- 절대 경로
    - 절대적인 주소 값
    - 어떤 환경에서도 같은 위치를 나타냄
        - 환경 -> 컴퓨터
    - ex
        - c:/users/admin/document/a.txt
            - 컴퓨터 안의 파일들을 불러오는 경우에는 절대 경로보다는 상대 경로 사용이 유리
        - https://www.google.com
            - url 이용시에는 절대 경로로 사용
        - Database server의 주소
- 상대 경로
    - 상대적인 주소 값
    - 환경이 변하면 위치도 변한다.
        - ./ : 현재 디렉토리(경로)
        - ../ : 현재 디렉토리의 상위 디렉토리로 이동
        - 디렉토리명(폴더명)/ : 하위 디렉토리로 이동

In [179]:
import pandas as pd

In [180]:
# 절대 경로를 이용하여 csv파일 불러오기
df = pd.read_csv('/Users/eunseo/Documents/data_boot/lecture/code/data_git/csv/2014.csv', encoding = 'CP949')

In [181]:
# 상대 경로를 이용하여 csv 파일 불러오기
import pandas as pd
df2 = pd.read_csv('../data_git/csv/2014.csv', encoding = 'CP949')

# 함수
- 특정 행동(기능)을 특정 공간에 저장하고 함수의 이름을 호출하여 반복적으로 사용
- 사용하는 이유? -> 같은 행동을 여러 곳에서 사용하는 경우 함수를 이용한다면 코드의 라인이 줄어들고 가독성이 올라가고 오류가 날 확률이 줄어든다.
- def 키워드를 이용해서 함수를 생성
- 이름없는 함수 : lambda 함수
    - 간단한 작업을 특정 영역에서 반복적으로 실행을 할 때 사용
    - map()함수나 apply()함수에서 자주 사용
- 재귀함수
    - 내가 나 자신을 호출하는 함수
    - 루프를 돌려서 반복 실행하고 특정 결과가 완성되었을 때 출력을 돌려주는 함수
    - 일반적인 반복문을 이용하는 것보다 가독성이 올라간다.

In [182]:
# 매개변수가 존재하지 않는 함수 생성
def func_3():
    # 함수가 호출될 때 일반적으로 동일한 데이터를 되돌려준다.
    result = "Hello"
    return result

In [183]:
func_3()

'Hello'

In [184]:
# 매개변수가 존재하는 함수
def func_4(x, y):
    # x, y는 함수가 호출될 때 입력 값들이 대입되는 공간
    # 매개변수가 2개인 함수는 호출 시 인자도 2개
    result = x + y
    return result

In [185]:
func_4(10, 2)

12

In [186]:
# 매개변수가 2개인데 호출 시 인자의 개수가 다르다면?
# func_4(9)
# func_4(9, 10, 11)
# 에러 발생

In [187]:
# 매개변수에 기본값을 설정한 함수
def load_data(servicekey, cnt = 10):
    # servicekey 매개변수는 입력이 필수 항목
    # cnt 매개변수는 기본값이 설정되어있으므로 선택 항목
    # servicekey 확인
    if servicekey == 'abcd' :
        df = pd.read_csv('../data_git/csv/boston.csv')
        result = df.head(cnt).to_dict
    else:
        result = "등록된 servicekey가 아닙니다."
    return result

In [188]:
load_data('abca')

'등록된 servicekey가 아닙니다.'

In [189]:
load_data('abcd', cnt = 12)

<bound method DataFrame.to_dict of        CRIM    ZN  INDUS  CHAS    NOX     RM    AGE     DIS  RAD    TAX  \
0   0.00632  18.0   2.31   0.0  0.538  6.575   65.2  4.0900  1.0  296.0   
1   0.02731   0.0   7.07   0.0  0.469  6.421   78.9  4.9671  2.0  242.0   
2   0.02729   0.0   7.07   0.0  0.469  7.185   61.1  4.9671  2.0  242.0   
3   0.03237   0.0   2.18   0.0  0.458  6.998   45.8  6.0622  3.0  222.0   
4   0.06905   0.0   2.18   0.0  0.458  7.147   54.2  6.0622  3.0  222.0   
5   0.02985   0.0   2.18   0.0  0.458  6.430   58.7  6.0622  3.0  222.0   
6   0.08829  12.5   7.87   0.0  0.524  6.012   66.6  5.5605  5.0  311.0   
7   0.14455  12.5   7.87   0.0  0.524  6.172   96.1  5.9505  5.0  311.0   
8   0.21124  12.5   7.87   0.0  0.524  5.631  100.0  6.0821  5.0  311.0   
9   0.17004  12.5   7.87   0.0  0.524  6.004   85.9  6.5921  5.0  311.0   
10  0.22489  12.5   7.87   0.0  0.524  6.377   94.3  6.3467  5.0  311.0   
11  0.11747  12.5   7.87   0.0  0.524  6.009   82.9  6.2267  5.0 

In [190]:
# 인지의 개수가 가변인 경우 매개변수 생성하는 함수
# 가변 인자는 무조건 tuple로 묶어준다
def func_5(x, *y):
    print(type(x))
    print(type(y))
    print(y)

In [191]:
func_5('a', 'b', 'c', 'd')

<class 'str'>
<class 'tuple'>
('b', 'c', 'd')


In [192]:
func_5(1, 2, 3, 4)

<class 'int'>
<class 'tuple'>
(2, 3, 4)


In [193]:
def func_6(*_numbers, _type):
    if _type == 'sum':
        result = 0
        for num in _numbers:
            result += num
    else:
        result = 1
        for num in _numbers:
            result *= num
    return result

In [194]:
input_type = 'sum'
input_numbers = [1, 2, 3, 4, 5]

# 가변인자에 다차원 데이터 넣을 떄 * 붙이기
func_6(*input_numbers, _type = input_type)

15

# class
- 변수, 함수들의 모음
- 특징
    - 동일한 class를 여러 곳에서 생성(사용) 가능
    - 여러 곳에서 같은 기능 사용 가능
- python에서 클래스를 사용하는 이유?
    - python의 모든 데이터의 타입은 class로 구성
    - 같은 class를 생성하여도 독립적인 데이터를 이용해서 함수 사용 가능
    - 클래스에 이미 데이터가 저장되어있으므로 클래스 내부 함수를 사용할 때 어떤 데이터를 사용할 지 새로 넣어주지 않아도 됨
- 상속
    - 부모 클래스에 있는 변수와 함수들을 자식 클래스가 사용하도록 물려받는 기능
    - 부모 클래스에서의 기능은 그대로 유지한 채로 자식 클래스에서는 그 외의 기능들을 추가해서 사용
    - 파일을 분할 관리하듯이 클래스도 기능별 각각 분할하여 관리 가능


In [195]:
# 특정 경로에 있는 파일의 목록을 불러와서 파일들을 모두 로드하는 방법
import os
from glob import glob

In [196]:
# 특정 경로에 있는 파일의 목록을 불러온다.
# 목록(list) + 디렉토리(dir)
os.listdir( '../data_git/csv' )

['2022년 06월 교통카드통계자료.xls',
 '2022',
 'customer_master.csv',
 'corona.csv',
 '태블로',
 'example.csv',
 'card',
 '2017_expense_list.csv',
 '주민등록.csv',
 'Koweps_Codebook.xlsx',
 'drinks.csv',
 'emp.csv',
 'AMZN.csv',
 'GM.csv',
 'class_master.csv',
 'boston.csv',
 'MSFT.csv',
 'tran_1.csv',
 'uriage.csv',
 'USM.csv',
 '2017_expense_list.xlsx',
 'tran_2.csv',
 'num_1',
 '2017',
 '2019',
 '2021',
 '2014.csv',
 '2020',
 '2018',
 'Superstore KR - VizLab 2022.xlsx',
 'use_log.csv',
 'Sales Records.csv',
 'csv_exam.csv',
 'dept.csv',
 'tran_d_2.csv',
 'tran_d_1.csv',
 'item_master.csv',
 'num_3',
 'AAPL.csv',
 'campaign_master.csv',
 'num_2']

In [197]:
glob("../data_git/csv/*.xls")

['../data_git/csv/2022년 06월 교통카드통계자료.xls']

## 특정 경로에 있는 데이터 파일을 모두 로드
- 파일 로드 방식
    1. os 라이브러리 안에 있는 listdir()
    2. glob 라이브러리 안에 있는 glob()
- 파일 저장 방식
    1. 각각의 전역 변수에 저장
    2. 하나의 리스트에 저장
    3. 하나의 데이터프레임으로 결합(단순한 행 결합 union)

In [198]:
# 파일의 목록
file_path = "../data_git/csv/2017/"
file_list = os.listdir(file_path)
file_list

['201702_expense_list.csv',
 '201709_expense_list.csv',
 '201712_expense_list.csv',
 '201706_expense_list.csv',
 '201703_expense_list.csv',
 '201708_expense_list.csv',
 '201707_expense_list.csv',
 '201704_expense_list.csv',
 '201710_expense_list.csv',
 '201701_expense_list.csv',
 '201705_expense_list.csv',
 '201711_expense_list.csv']

In [199]:
for file in file_list:
    # df에 1월부터 12월까지 데이터가 로드될 때마다 대입하기 때문에 결과적으로는 12월 데이터만 df에 남는다.
    df = pd.read_csv(file_path+file)
df.head(5)

Unnamed: 0,nid,title,url,dept_nm_lvl_1,dept_nm_lvl_2,dept_nm_lvl_3,dept_nm_lvl_4,dept_nm_lvl_5,exec_yr,exec_month,expense_budget,expense_execution,category,dept_nm_full,exec_dt,exec_loc,exec_purpose,target_nm,payment_method,exec_amount
0,14038792,2017년 11월 서울시본청_기획조정실_정책기획관_평가담당관 업무추진비 내역,http://opengov.seoul.go.kr/public/14038792,서울시본청,기획조정실,정책기획관,,,2017,11,,,,평가담당관,2017-11-30 12:52,한라담(중구 무교동 45),종로BRT 점검관련 간담회 개최,"평가담당관, 평가4팀장 외 4",카드,108000
1,14038792,2017년 11월 서울시본청_기획조정실_정책기획관_평가담당관 업무추진비 내역,http://opengov.seoul.go.kr/public/14038792,서울시본청,기획조정실,정책기획관,,,2017,11,,,,평가담당관,2017-11-29 13:01,메드포갈릭(종로구 종로3길 17),서울하수도과학관 평가관련 간담회 개최,"평가담당관, 지속가능평가팀장 외 3명",카드,112400
2,14038792,2017년 11월 서울시본청_기획조정실_정책기획관_평가담당관 업무추진비 내역,http://opengov.seoul.go.kr/public/14038792,서울시본청,기획조정실,정책기획관,,,2017,11,,,,평가담당관,2017-11-28 21:27,만복림(중구 무교로 17-17),마스터플랜 후속조치 관련 간담회 개최,"평가담당관, 평가총괄팀장 외 3명",카드,109000
3,14038792,2017년 11월 서울시본청_기획조정실_정책기획관_평가담당관 업무추진비 내역,http://opengov.seoul.go.kr/public/14038792,서울시본청,기획조정실,정책기획관,,,2017,11,,,,평가담당관,2017-11-27 18:48,동원참치(중구 세종대로22길 16),제3차 대중교통계획 지속가능성 평가관련 간담회 개최,지속가능평가팀장 외 5명,카드,160000
4,14038792,2017년 11월 서울시본청_기획조정실_정책기획관_평가담당관 업무추진비 내역,http://opengov.seoul.go.kr/public/14038792,서울시본청,기획조정실,정책기획관,,,2017,11,,,,평가담당관,2017-11-27 12:22,충무집(중구 다동140),서울혁신파크 1단계 준공예정시설 점검관련 간담회 개최,"평가담당관, 평가총괄팀장 외 4명",카드,80000


In [200]:
# 수정1 -> 빈 리스트에 반복 실행할 때마다 데이터프레임을 추가
dfs = []
for file in file_list:
    df = pd.read_csv(file_path+file)
    dfs.append(df)
len(dfs)

12

In [201]:
# 수정2 -> 반복 실행할 때마다 각각의 전역 변수에 데이터프레임을 대입
for file in file_list:
    # file의 이름으로 변수를 생성
    # file에서 2017xx로 되어있는 문자만 출력
    # 방법1
    # print(file[:6])
    # 방법2
    var_name = file.split('_')[0]
    globals()[f"df_{var_name}"] = pd.read_csv(file_path+file)

    # globals()[f"file"] = pd.read_csv(file_path + file)

In [202]:
df_201701.head(1)

Unnamed: 0,nid,title,url,dept_nm_lvl_1,dept_nm_lvl_2,dept_nm_lvl_3,dept_nm_lvl_4,dept_nm_lvl_5,exec_yr,exec_month,expense_budget,expense_execution,category,dept_nm_full,exec_dt,exec_loc,exec_purpose,target_nm,payment_method,exec_amount
0,11430252,2017년 1월 장애인복지정책과 업무추진비 집행내역,http://opengov.seoul.go.kr/public/11430252,서울시본청,복지본부,장애인복지정책과,,,2017,1,,,,복지본부 장애인복지정책과,2017-01-26 13:10,동해일식 (중구 무교동),기본소득과 장애인복지 논의간담회,장애인복지정책팀장 외 2명,카드,76000


In [203]:
# globals()
for i in range(3):
    globals()[f"a{i}"] = i

In [204]:
a2

2

In [205]:
# 해당하는 경로의 모든 데이터들이 같은 구조의 데이터프레임이라면
# 데이터프레임으로 반복적으로 로드하고 유니언 결합(concat())
df2017 = pd.DataFrame()

for file in file_list:
    df = pd.read_csv(file_path + file)
    df2017 = pd.concat([df2017, df], axis = 0)

len(df2017)

70132

In [206]:
file_path = "../data_git/csv/2019/"
file_list = os.listdir(file_path)
file_list

['201912_expense_list.json',
 '201909_expense_list.json',
 '201910_expense_list.json',
 '201908_expense_list.json',
 '201911_expense_list.json',
 '201904_expense_list.json',
 '201901_expense_list.json',
 '201905_expense_list.json',
 '201906_expense_list.json',
 '201903_expense_list.json',
 '201907_expense_list.json',
 '201902_expense_list.json']

In [207]:
df2019 = pd.DataFrame()

for file in file_list:
    df = pd.read_json(file_path + file)
    df2019 = pd.concat([df2019, df], axis = 0)

len(df2019)

74207

In [208]:
# 특정 경로에 파일의 확장자가 같은 확장자라면 위의 방식으로 그대로 유지
# 2021년도 폴더에는 여러 확장자 존재 -> 위의 방법으로는 불가능
# 전체의 목록을 로드 -> 원하는 확장자 파일의 목록을 새로 생성

# file_path = "../csv/2019/201901_expense_list.csv"
# os에서 제공하는 함수 path.split()-> 경로와 파일을 나눠주는 함수
file_dir, file_name = os.path.split(file_path)
# path.splitext() -> 파일명과 확장자로 나눠주는 함수
os.path.splitext(file_name)

('', '')

In [215]:
file_path = "../data_git/csv/2017/"
file_list = os.listdir(file_path)

In [216]:
new_list = []
for file in file_list:
    # if file.split('.')[-1] == 'csv':
    # if file.endswith('.csv):
    name, ext = os.path.splitext(file)
    if ext == '.csv':
        new_list.append(file)

new_list

['201702_expense_list.csv',
 '201709_expense_list.csv',
 '201712_expense_list.csv',
 '201706_expense_list.csv',
 '201703_expense_list.csv',
 '201708_expense_list.csv',
 '201707_expense_list.csv',
 '201704_expense_list.csv',
 '201710_expense_list.csv',
 '201701_expense_list.csv',
 '201705_expense_list.csv',
 '201711_expense_list.csv']

# 특정 경로의 파일을 모두 로드하는 함수 생성
- 매개변수 3개
    - file_path : str
    - ext : str -> .csv
    - concat : bool -> False
- file_path를 이용해서 파일의 목록을 생성
- 확장자에 따라서 새로운 목록을 생성
- concat이 True라면 
    - 빈 데이터프레임
- False라면
    - 빈 리스트 생성
- 새로운 목록을 이용하여 반복문 생성
    - 확장자에 따라서 read함수를 지정하고 파일을 로드
    - concat에 따라 concat(), append() 지정
- 결과물을 되돌려준다



In [217]:
def data_load_os(file_path, ext = '.csv', concat = False):
    # 파일 경로에 / 더해준다
    file_path += '/'
    # 파일 목록 로드
    file_list = os.listdir(file_path)
    new_list = []

    for name in file_list:
        if name.endswith(ext):
            new_list.append(name)
    if concat:
        result = pd.DataFrame()
    else:
        result = []
    
    for name in new_list:
        if ext == '.csv':
            try:
                df = pd.read_csv(file_path + name)
            except:
                df = pd.read_csv(file_path + name, encoding= 'cp949')
        elif ext == '.json':
            try:
                df = pd.read_json(file_path + name)
            except:
                df = pd.read_json(file_path + name, encoding= 'cp949')
        elif ext == '.xml':
            try:
                df = pd.read_xml(file_path + name)
            except:
                df = pd.read_xml(file_path + name, encoding = 'cp949')
        elif ext in ['.xlsx', '.xls']:
            df = pd.read_excel(file_path + name)
        else: 
            return " 사용 가능 확장자가 아닙니다."
        
        if concat:
            result  = pd.concat([result, df], axis = 0)
        else:
            result.append(df)
    return result


In [218]:
df2, df3, df4, df5 = data_load_os(
    '../data_git/csv/2022'
)

In [None]:
data_load_os("../data_git/csv/2022", concat = True)

### 특정 경로의 파일 목록을 불러와서 확장자에 따라 read 함수를 지정하는 함수
- 매개변수 1개
    - 파일의 경로
- 파일의 경로를 이용하여 파일 전체 목록 로드
- 로드한 데이터들이 저장될 빈 리스트 생성
- 목록을 이용하여 반복문 실행
- 파일의 확장자를 따로 추출하여 확장자에 따라 read_함수를 지정
- 예외처리로 encoding 변환
- 로드가 된 데이터프레임을 빈 리스트에 추가
- 결과를 되돌려준다.

In [229]:
def data_load_glob(file_path):
    # file_path + /* --> 폴더를 포함한 리스트 생성
    # file_path + /*.* --> 폴더를 제외한 리스트 생성
    file_list = glob(file_path+'/*.*')
    # 결과값이 빈 리스트 생성
    result = []
    for name in file_list:
        file_ext = os.path.splitext(name)[-1]
        if file_ext == '.csv':
            try:
                df = pd.read_csv(name)
            except: 
                df = pd.read_csv(name, encoding = 'cp949')
        elif file_ext == '.json':
            try:
                df = pd.read_json(name) 
            except:
                df = pd.read_json(name, encoding = 'cp949')
        elif file_ext == '.xml':
            try: 
                df = pd.read_xml(name)
            except:
                df = pd.read_xml(name, encoding = 'cp949')
        elif file_ext in ['.xlsx', '.xls']:
            df = pd.read_excel(name)
        result.append(df)
    return result

In [230]:
test1, test2, test3 = data_load_glob('../data_git/csv/test')

In [232]:
test1.head(3)

Unnamed: 0,nid,title,url,dept_nm_lvl_1,dept_nm_lvl_2,dept_nm_lvl_3,dept_nm_lvl_4,dept_nm_lvl_5,exec_yr,exec_month,expense_budget,expense_execution,category,dept_nm_full,exec_dt,exec_loc,exec_purpose,target_nm,payment_method,exec_amount
0,25844143,2022년 2월 사업소 도로사업소 서부도로사업소 업무추진비 - 기관운영 시책추진 부서운영,http://opengov.seoul.go.kr/expense/25844143,사업소,도로사업소,서부도로사업소,,,2022,2,0,0,,서부도로사업소 기전과,2022-02-11 14:52,다농마트(마포구 월드컵로 235),부서운영 물품구입,기전과장 외 48명,제로페이,230630
1,25844143,2022년 2월 사업소 도로사업소 서부도로사업소 업무추진비 - 기관운영 시책추진 부서운영,http://opengov.seoul.go.kr/expense/25844143,사업소,도로사업소,서부도로사업소,,,2022,2,0,0,,서부도로사업소 시설보수과,2022-02-14 09:58,다농마트(마포구 월드컵로),부서운영물품 구입(공무직),김민철 등 3명,카드,120600
2,25844143,2022년 2월 사업소 도로사업소 서부도로사업소 업무추진비 - 기관운영 시책추진 부서운영,http://opengov.seoul.go.kr/expense/25844143,사업소,도로사업소,서부도로사업소,,,2022,2,0,0,,서부도로사업소 도로보수과,2022-02-22 14:53,다농마트(마포구 월드컵로),도로보수과 직원 물품구매,윤옥광외 9명,제로페이,112350
