# 변수 
- 데이터가 저장되는 공간의 이름 (접근성 좋아짐)
    - 데이터 종류
        - 단일 데이터 
            - 문자(str) 
            - 숫자(int / float)
            - bool(참/거짓)
        - 다차원 데이터 
            - tuple
            - list
            - dict
    - 변수의 종류
        - 전역 변수 
            - 어디서든 사용이 가능한 변수 
            - globals()를 이용하여 확인 
        - 지역 변수 
            - 특정한 영역에서만 사용이 가능
            - 함수 내에서 생성된 변수나 매개변수등이 지역변수의 대표적인 예
        - 매개 변수
            - 함수가 호출될때 입력 값(인자)을 받아오기 위한 공간의 이름
            - 기본 값을 지정하여 인자가 없더라도 기본값을 이용하여 함수가 실행
            - 인자의 개수가 가변인 경우 변수명 앞에 *붙여서 변수를 생성
        - 객체 변수
            - class 내부에서 사용을 하는 데이터들을 저장하는 공간의 이름 
            - self.변수명을 이용하여 데이터들을 저장 
            - 생성이 되는 class마다 독립적인 데이터를 저장
        - 클래스 변수 
            - class 내부에서 사용하는 데이터들을 저장하는 공간의 이름
            - 클래스 선언시 함수와 같은 영역에 변수를 생성 
            - 같은 class가 생성이 될때 서로 공유할 수 있는 변수

In [None]:
# python에서는 변수를 생성할때 데이터가 같이 대입 
vari_1 = "hello"
print(vari_1)

In [None]:
def func_1():
    result = 1111
    return result
a = func_1()
print(a)

In [None]:
# result는 함수 내부에서 생성된 지역 변수임으로 외부에서는 사용이 불가능
# print(result)

In [None]:
def func_2():
    result = 1111
    print(result)

In [None]:
b = func_2()
print(b)

In [None]:
# bool -> True / False 2가지의 타입을 가진 데이터 
# 조건식에서 사용 -> if문, while문
# 조건식이 들어가는 부분에서 변수를 사용을 하는 경우가 종종 발생
# 변수를 강제적으로 bool형태로 변환
# 문자 타입의 강제 bool 변환 
print(bool('a'))    # True
print(bool(' '))    # True
print(bool(''))     # False

# 경로 
- 절대 경로
    - 절대적인 주소 값
    - 어떤 환경에서도 같은 위치를 나타낸다. 
        - 환경 -> 컴퓨터 
    - ex
        - c:/users/admin/document/a.txt
            - 컴퓨터 안에 파일들을 불러오는 경우에는 절대 경로보다는 상대 경로를 사용이 유리 
        - https://www.google.com
            - url 이용시에는 절대 경로로 사용
        - Database server의 주소를 이용하는 경우 절대 경로 사용
- 상대 경로
    - 상대적인 주소 값
    - 환경이 변경되었을 때 위치도 변화한다. 
        - ./ : 현재 작업중인 디렉토리(경로)
        - ../ : 현재 디렉토리 상위 디렉토리로 이동
        - 디렉토리명(폴더명)/ : 하위 디렉토리 이동

In [None]:
import pandas as pd 

In [None]:
# 절대 경로를 이용하여 csv 파일 불러오기 
df = pd.read_csv(r"C:\Users\ekfla\Documents\GitHub\multicam_2025\csv\AAPL.csv")

In [None]:
# 상대 경로를 이용하여 csv 파일 불러오기 
df2 = pd.read_csv("../csv/AAPL.csv")

# 함수  
- 특정 행동(기능)을 특정 공간에 저장하여 함수의 이름을 호출하여 반복적으로 사용
- 사용하는 이유? -> 같은 행동을 여러 곳에서 사용하는 경우 함수를 이용한다면 코드의 라인이 줄어들고 가독성이 올라가고 오류가 날 확률이 줄어든다. 
- def 키워드를 이용해서 함수를 생성 
- 이름없는 함수 :  lambda 함수
    - 간단한 작업을 특정 영역에서 반복적으로 실행을 할때 사용
    - map()함수나 apply()함수에서 자주 사용
- 재귀함수
    - 내가 나 자신을 호출 하는 함수 
    - 루프를 돌려서 반복 실행하고 특정 결과가 완성되었을때 출력을 돌려주는 함수
    - 일반적인 반복문을 이용하는 것보다 가독성이 올라간다. 

In [None]:
# 매개변수가 존재하지 않는 함수 생성 
def func_3():
    # 함수가 호출될때 일반적으로 동일한 데이터를 되돌려준다. 
    result = "Hello"
    return result

In [None]:
func_3()

In [None]:
# 매개변수가 존재하는 함수 
def func_4(x, y):
    # x, y는 함수가 호출될때 입력 값들이 대입이 되는 공간
    # 매개변수가 2개인 함수는 호출시 인자도 2개 
    result = x + y 
    return result

In [None]:
func_4(10, 2)

In [None]:
# 매개변수가 2개 인데 호출이 인자의 개수가 다르다면?
# 에러 발생 
# func_4(10, 3, 2)

In [None]:
# 매개변수에 기본값을 설정한 함수 
def load_data( servicekey, cnt = 10 ):
    # servicekey 매개변수는 입력이 필수 항목
    # cnt 매개변수는 기본값이 설정되어있으므로 선택 항목
    # servicekey 확인 
    if servicekey == 'abcd':
        df = pd.read_csv("../csv/boston.csv")
        result = df.head(cnt).to_dict(orient='records')
    else:
        result = "등록된 servicekey가 아닙니다."
    return result
    

In [None]:
len(load_data('abcd'))

In [None]:
load_data('aaaa')

In [None]:
len(load_data( 'abcd', cnt = 20 ))

In [None]:
# 인자의 개수가 가변인 경우 매개변수 생성하는 함수 
def func_5( x, *y ):
    print(type(x))
    print(type(y))

In [None]:
func_5('a', 'b', 'c', 'd')

In [None]:
func_5(1, 2, 3, 4)

In [None]:
def func_6(*_numbers, _type):
    
    if _type == 'sum':
        result = 0
        for num in _numbers:
            result += num
    else:
        result = 1
        for num in _numbers:
            result *= num
    return result 

In [None]:
input_type = 'sum'
input_numbers = [1,2,3,4,5]

In [None]:
func_6(*input_numbers, _type = input_type)

# class 
- 변수, 함수들의 모음 
- 특징
    - 동일한 class가 여러 곳(변수)에서 생성(사용)이 가능
    - 여러 곳에서 같은 기능을 사용이 가능
- python에서 클래스를 사용하는 이유?
    - python의 모든 데이터의 타입은 class 구성
    - 같은 class를 생성하여도 독립적인 데이터를 이용해서 함수를 사용이 가능
- 상속
    - 부모 클래스에 있는 변수, 함수들을 자식 클래스가 사용하도록 물려받는 기능
    - 부모 클래스에서의 기능은 그대로 유지한 채로 자식 클래스에서는 그 외의 기능들을 추가해서 사용
    - 파일을 분할 관리 하듯이 클래스도 기능별 각각 분할하여 관리 가능

In [None]:
# 특정 경로에 있는 파일의 목록을 불러와서 
# 파일들을 모두 로드 하는 방법 
import os 
from glob import glob

In [None]:
# 특정 경로에 있는 파일의 목록을 불러온다. 
# 목록(list) + 디렉토리(dir)
os.listdir( "../csv" )

In [None]:
glob("../csv/*.csv")

## 특정 경로에 있는 데이터 파일을 모두 로드 
- 파일 로드의 방식
    1. os 라이브러리 안에 있는 listdir() 
    2. glob 라이브러리 안에 있는 glob()
- 파일의 저장 방식
    1. 각각의 전역 변수에 저장 
    2. 하나의 []에 저장
    3. 하나의 데이터프레임으로 결합(단순한 행 결합 UNION)


In [None]:
# 파일의 목록 
file_path = "../csv/2017/"
file_list = os.listdir(file_path)
file_list

In [None]:
# 반복문을 이용하여 file_list의 목록 하나씩 대입하여 file_path와 결합후 
# read_csv()함수를 이용한다. 
for file in file_list:
    print(file_path+file)
    # df에 1월부터 12월까지 데이터가 로드될때마다 대입 
    # 결과적으로는 12월 데이터만 df에 남는다.  
    df = pd.read_csv(file_path + file)


In [None]:
# 수정1 -> 빈 리스트에 반복 실행할 때마다 데이터프레임을 추가 
dfs = []
for file in file_list:
    df = pd.read_csv(file_path + file)
    # 리스트에 추가 
    dfs.append(df)

len(dfs)

In [None]:
for i in range(3):
    globals()[f"a{i}"] = i

In [None]:
# 수정2 -> 반복 실행할때 마다 각각의 전역 변수에 데이터프레임을 대입 
for file in file_list:
    # file의 이름으로 변수를 생성 
    # file에서 2017xx로 되어있는 문자만 출력 
    # 처음부터 7번째 문자 전에서 자른다
    # print(file[:6])
    # '_'를 기준으로 문자를 나눠주고 첫번째를 출력 
    # print(file.split('_')[0])
    var_name = file.split('_')[0]
    globals()[f"df_{var_name}"] = pd.read_csv(file_path + file)

In [None]:
df_201701

In [None]:
# 해당하는 경로의 모든 데이터들이 같은 구조의 데이터프레임이라면 
# 데이터프레임으로 반복적으로 로드하고 유니언 결합(concat())

# 비어있는 리스트에 반복 실행할때 마다 append로 추가하는것과 같다. 
# 비어있는 데이터프레임에 반복 실행할때 마다 concat()

# 빈 데이터프레임 생성 
df2017 = pd.DataFrame()

for file in file_list:
    df = pd.read_csv(file_path + file)
    # df를 df2017에 추가 
    df2017 = pd.concat( [df2017, df], axis=0 )


In [None]:
len(df2017)

In [None]:
# 2019년도의 데이터를 하나의 데이터프레임으로 생성

file_path = "../csv/2019/"
file_list = os.listdir(file_path)

df2019 = pd.DataFrame()

for file in file_list:
    df = pd.read_json( file_path + file )
    df2019 = pd.concat( [df2019, df], axis = 0 )

In [None]:
len(df2019)

In [None]:
# 특정 경로에 파일의 확장자가 같은 확장자라면 위의 방식으로 그대로 유지 
# 2021년도 폴더에는 여러 확장자 존재 -> 위의 방법으로는 불가능
# 전체의 목록을 로드 -> 원하는 확장자 파일의 목록을 새로 생성

file_path = "../csv/2019/201901_expense_list.csv"
# os에서 제공하는 함수 path.split() -> 경로와 파일을 나눠주는 함수
file_dir, file_name = os.path.split(file_path)
# path.splitext() -> 파일명과 확장자로 나눠주는 함수
os.path.splitext(file_name)

In [None]:
file_list = os.listdir("../csv/2021/")
file_list

In [None]:
new_list = []

for file in file_list:
    # file의 확장자가 csv 라면 
    # if file.split('.')[-1] == 'csv':
    # if file.endswith('.csv'):
    name, ext = os.path.splitext(file)
    if ext == '.csv':
        new_list.append(file)

new_list

In [None]:
glob("../csv/2021/*.csv")

### 특정 경로의 파일을 모두 로드 하는 함수 생성 
- 매개변수 3개
    - file_path -> 파일의 경로 : str
    - ext -> 확장자 : str -> .csv
    - concat -> 결합방식 : bool -> False
- file_path를 이용해서 파일의 목록을 생성 
- file_path에 '/' 더해준다.
- 확장자에 따라서 새로운 목록을 생성
- concat이 True라면 
    - 빈 데이터프레임 생성
- False라면 
    - 빈 리스트 생성
- 새로운 목록을 이용하여 반복문 생성 
    - 확장자에 따라서 read함수를 지정하고 파일을 로드 
    - concat에 따라 concat(), append() 지정
- 결과물을 되돌려준다. 

In [99]:
def data_load_os( file_path, ext = '.csv', concat = False ):
    # file_path에 '/' 더해준다. 
    file_path = file_path + '/'
    # file_path의 파일 목록을 로드 
    file_list = os.listdir(file_path)
    # ext에 맞는 확장자 파일만 존재하는 새로운 리스트를 생성 
    new_list = []
    for name in file_list:
        if name.endswith(ext):
            new_list.append(name)
    
    # concat에 따라서 빈 데이터프레임을 생성할것인가? 빈 리스트를 생성할것인가?
    if concat:
        result = pd.DataFrame()
    else:
        result = []
    
    # 새로운 리스트로 반복 실행 
    for name in new_list:
        if ext == '.csv':
            try:
                df = pd.read_csv(file_path + name)
            except:
                df = pd.read_csv(file_path + name, encoding='cp949')
        elif ext == '.json':
            try:
                df = pd.read_json(file_path + name)
            except:
                df = pd.read_json(file_path + name, encoding='cp949')
        elif ext == '.xml':
            try:
                df = pd.read_xml(file_path + name)
            except:
                df = pd.read_xml(file_path + name, encoding='cp949')
        elif ext in ['.xlsx', 'xls']:
            df = pd.read_excel(file_path + name)
        else:
            return "사용 가능 확장자가 아닙니다."
        
        if concat:
            result = pd.concat( [result, df], axis=0 )
        else:
            result.append(df)
    # 결과를 되돌려준다. 
    return result


In [101]:
df2, df3, df4, df5 = data_load_os(
    '../csv/2022'
)

In [None]:
data_load_os("../csv/2022", concat=True)

### 특정 경로의 파일 목록을 불러와서 확장자에게 따라 read함수를 지정하는 함수 
- 매개변수 1개 
    - 파일의 경로 
- 파일의 경로를 이용하여 파일 전체 목록 로드 
- 로드한 데이터들이 저장될 빈 리스트 생성 
- 목록을 이용하여 반복문은 실행
- 파일의 확장자를 따로 추출하여 확장자에 따라 read_함수를 지정 
- 예외처리로 encoding 변환 
- 로드가 된 데이터프레임을 빈 리스트에 추가 
- 결과를 되돌려준다. 

In [None]:
def data_load_glob(file_path):
    # file_path + /* --> 폴더를 포함한 리스트 생성 
    # file_path + /*.* --> 폴더를 제외한 리스트 생성
    file_list = glob(file_path + '/*.*')
    # 결과값인 빈 리스트 생성 
    result = []
    for name in file_list:
        file_ext = os.path.splitext(name)[-1]
        if file_ext == '.csv':
            try:
                df = pd.read_csv(name)
            except:
                df = pd.read_csv(name, encoding='cp949')
        elif file_ext == '.json':
            try:
                df = pd.read_json(name)
            except:
                df = pd.read_json(name, encoding='cp949')
        elif file_ext in ['.xlsx', '.xls']:
            df = pd.read_excel(name)
        elif file_ext == '.xml':
            try:
                df = pd.read_xml(name)
            except:
                df = pd.read_xml(name, encoding='cp949')
        result.append(df)
    return result


In [None]:
os.path.splitext(glob("../csv/*.*")[1])[-1]

'.csv'

In [131]:
len(data_load_glob("../csv/test"))

3

In [None]:
test1.head(1)

In [123]:
test2.head(1)

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,1980-12-12,0.513393,0.515625,0.513393,0.513393,0.410525,117258400.0


In [124]:
test3.head(1)

Unnamed: 0,Row ID,Order ID,Order Date,Delivery Date,Delivery Mode,Customer ID,Customer Name,Customer Segment,Country,Address Region,Address SD,Address SGG,Product ID,Product Name,Product Category,Product Sub-Category,Sales,Quantity,Discount,Profit
0,1,CA-2020-152156,2020-11-08,2020-11-11,빠른배송,CG-12520,류미령,개인고객,대한민국,호남,광주광역시,북구,FUR-BO-10001798,Bush Somerset Collection Bookcase,가구,책장,317364.54,2,0.0,50778.3264
