### 데이터프레임의 결합
- 유니언 결합 
    - 단순하게 행을 결합하거나 열을 결합
- 조인 결합
    - 특정한 조건에 맞춰서 데이터의 열을 추가하는 결합 방식
    - 데이터프레임 + 데이터프레임 -> 특정 컬럼의 데이터들이 같은 값들로 이루어져있을대 열을 추가 

In [None]:
import pandas as pd

In [None]:
data = {
    'name' : ['test', 'test2', 'test3'], 
    'age' : [20, 30, 40]
}
df1 = pd.DataFrame(data)

In [None]:
data = {
    'name' : ['test4', 'test5'], 
    'loc' : ['seoul', 'busan']
}
df2 = pd.DataFrame(data)

In [None]:
df1

In [None]:
df2

In [None]:
## 2개의 데이터프레임을 단순한 결합 
# concat( {데이터프레임명 1차원 리스트의 형태} , axis = {0 | 1}, ignore_index = {bool})
# axis 행으로 결합을 할지 열로 결합을 할지 지정
# ignore_index 기본값은 False, True로 변경하면 인덱스나 컬럼이 초기화
# concat함수는 pandas에 내장된 함수 
pd.concat(
    [df1, df2], 
    axis=0, 
    ignore_index=True
)

In [None]:
pd.concat(
    [df1, df2], 
    axis=1, 
    ignore_index=True
)

In [None]:
data = {
    "name" : ['test6', 'test7'], 
    "age" : [25, 35], 
    "loc" : ['ulsan', 'mokpo']
}
df3 = pd.DataFrame(data)

In [None]:
pd.concat(
    [df1, df2, df3], 
    axis=0
)

In [None]:
## 조인 결합 
## merge( {데이터프레임명1}, {데이터프레임명2}, 
## on = {조건식}, how = {left | right | inner | outer} )
## on 매개변수 : 2개의 데이터프레임에 컬럼의 이름이 같은 경우
## left_on , right_on 매개변수 : 2개의 데이터프레임에 조건 컬럼의 이름이 다른 경우

data = {
    'id' : ['test', 'test2', 'test3', 'test4'], 
    'item' : ['A', 'A', 'B', 'D']
}

df1 = pd.DataFrame(data)

In [None]:
data = {
    'item' : ['A', 'B', 'C'], 
    'price' : [100, 200, 300]
}
df2 = pd.DataFrame(data)

In [None]:
# 조인 결합 
pd.merge(
    df1, df2, on='item', how='left'
)

In [None]:
pd.merge(
    df1, df2, on='item', how = 'right'
)

In [None]:
pd.merge(
    df1, df2, on='item', how = 'inner'
)

In [None]:
pd.merge(
    df1, df2, on='item', how='outer'
)

In [20]:
df2.columns = ["item_name", 'price']

In [23]:
pd.merge(
    df1, df2, left_on='item', right_on='item_name', how='left'
)

Unnamed: 0,id,item,item_name,price
0,test,A,A,100.0
1,test2,A,A,100.0
2,test3,B,B,200.0
3,test4,D,,


In [1]:
import pandas as pd
import os

In [2]:
# _path의 파일 목록을 불러와서 
# _end 확장자로 이루어진 파일들을 모두 결합하여 
# 데이터프레임을 생성하고 해당하는 데이터프레임을 리턴
def data_load(_path, _end):
    # _path의 마지막 문자열이 '/'가 아니라면 
    # if not(_path.endswith('/')):
    #     # _path = _path + '/'
    #     _path += '/'
    _path += '/'

    # _path의 파일 리스트를 로드 
    file_list = os.listdir(_path)
    # 비어있는 데이터프레임을 생성
    result = pd.DataFrame()
    # file_list를 이용하여 반복문을 생성 
    for file in file_list:
        # file의 확장자가 _end와 같은가?
        if file.endswith(_end):
            # _end가 csv라면 -> pd.read_csv()
            # _end가 json이라면 -> pd.read_json()
            if _end == 'csv':
                df = pd.read_csv(_path+file)
            elif _end == 'json':
                df = pd.read_json(_path+file)
            elif _end == 'xml':
                df = pd.read_xml(_path+file)
            elif (_end == 'xlsx') | (_end == 'xls'):
                df = pd.read_excel(_path+file)
            else:
                return "지원하지 않는 확장자입니다."
            # df를 확인 
            print(file , len(df))
            # 데이터프레임의 결합
            result = pd.concat([result, df], axis=0)
    return result

In [None]:
df2019 = data_load('../../csv/2019', 'json')

In [6]:
df2021 = data_load("../../csv/2021", 'csv')

202101_expense_list.csv 4878
202102_expense_list.csv 5325
202103_expense_list.csv 6903
202104_expense_list.csv 6189
202105_expense_list.csv 6197
202106_expense_list.csv 7511
202107_expense_list.csv 6382
202108_expense_list.csv 6330
202109_expense_list.csv 6842
202110_expense_list.csv 7617
202111_expense_list.csv 9301
202112_expense_list.csv 10344
