#### 데이터프레임 결합
- 유니언 결합
    - 단순하게 행을 결합하거나 열을 결합하는 방식
    - pandas에 내장된 concat() 함수 이용
        - axis 매개변수
            - 0 (rows): 행을 결합 (기본값)
            - 1 (columns): 열을 결합
        - ignore_index 매개변수
            - False: 결합한 인덱스를 그대로 보존 (기본값)
            - True: 결합 후 인덱스 초기화
    - 다수의 데이터프레임을 한번에 결합 가능
- 조인 결합
    - 특정한 조건에 맞게 열을 결합
    - 두 개의 데이터프레임만 결합 가능
    - pandas에 내장된 merge() 함수 이용
        - merge(데이터프레임명, 데이터프레임명)
        - on 매개변수
            - 조건식: 두 개의 데이터프레임이 공통적으로 가지고 있는 컬럼의 이름
            - 컬럼의 이름이 다른 경우
                - left_on, right_on 매개변수를 이용하여 결합 가능
        - how 매개변수
            - 두 개의 데이터프레임을 어떠한 방식으로 결합
            - left: 왼쪽의 데이터프레임을 기준으로 열 결합
            - right: 오른쪽의 데이터프레임을 기준으로 열 결합
            - inner: 두 개의 데이터프레임이 공통적으로 가지고 있는 데이터들을 기준으로 결합
            - outer: 두 개의 데이터프레임을 합집합 형태로 결합

In [3]:
import pandas as pd

In [2]:
data={
    "name":["test", "test2", "test3"],
    "age":[20,30,40]
}
df=pd.DataFrame(data)
df

Unnamed: 0,name,age
0,test,20
1,test2,30
2,test3,40


In [3]:
data2={
    "name":["test4","test5"],
    "loc":["seoul","busan"]
}
df2=pd.DataFrame(data2)
df2

Unnamed: 0,name,loc
0,test4,seoul
1,test5,busan


In [8]:
# 단순한 행 결합
pd.concat([df,df2]) # ,axis=0 기본값

Unnamed: 0,name,age,loc
0,test,20.0,
1,test2,30.0,
2,test3,40.0,
0,test4,,seoul
1,test5,,busan


In [7]:
pd.concat([df,df2], ignore_index=True)
# pd.cconcat([df,df2]).reset_index(drop=True)

Unnamed: 0,name,age,loc
0,test,20.0,
1,test2,30.0,
2,test3,40.0,
3,test4,,seoul
4,test5,,busan


In [9]:
# 단순한 열 결합
pd.concat([df,df2], axis=1)

Unnamed: 0,name,age,name.1,loc
0,test,20,test4,seoul
1,test2,30,test5,busan
2,test3,40,,


In [10]:
pd.concat([df,df2], axis=1, ignore_index=True)

Unnamed: 0,0,1,2,3
0,test,20,test4,seoul
1,test2,30,test5,busan
2,test3,40,,


In [12]:
data3={
    "loc":["seoul","busan"],
    "code":["11","51"]
}
df3=pd.DataFrame(data3)
df3

Unnamed: 0,loc,code
0,seoul,11
1,busan,51


In [13]:
pd.concat([df,df2,df3])

Unnamed: 0,name,age,loc,code
0,test,20.0,,
1,test2,30.0,,
2,test3,40.0,,
0,test4,,seoul,
1,test5,,busan,
0,,,seoul,11.0
1,,,busan,51.0


In [14]:
pd.concat([df,df2,df3], axis=1)

Unnamed: 0,name,age,name.1,loc,loc.1,code
0,test,20,test4,seoul,seoul,11.0
1,test2,30,test5,busan,busan,51.0
2,test3,40,,,,


In [16]:
data4={
    "id":["test", "test2", "test3"],
    "pass":["1234","1111","0000"]
}
id_table=pd.DataFrame(data4)
id_table

Unnamed: 0,id,pass
0,test,1234
1,test2,1111
2,test3,0


In [23]:
data5={
    "id":["test","test3"],
    "item":["A","C"]
}
id_item=pd.DataFrame(data5)
id_item

Unnamed: 0,id,item
0,test,A
1,test3,C


In [24]:
pd.merge(
    id_table, id_item,
    on="id",
    how="left"
)

Unnamed: 0,id,pass,item
0,test,1234,A
1,test2,1111,
2,test3,0,C


In [25]:
pd.merge(
    id_table, id_item,
    on="id",
    how="right"
)

Unnamed: 0,id,pass,item
0,test,1234,A
1,test3,0,C


In [26]:
pd.merge(
    id_table, id_item,
    on="id",
    how="inner"
)

Unnamed: 0,id,pass,item
0,test,1234,A
1,test3,0,C


In [27]:
pd.merge(
    id_table, id_item,
    on="id",
    how="outer"
)

Unnamed: 0,id,pass,item
0,test,1234,A
1,test2,1111,
2,test3,0,C


In [29]:
merge_data=pd.merge(
    id_table, id_item,
    on="id",
    how="outer"
)

In [28]:
data6={
    "item_name":["A","B"],
    "price":["100","200"]
}
item_table=pd.DataFrame(data6)
item_table

Unnamed: 0,item_name,price
0,A,100
1,B,200


In [32]:
pd.merge(
    merge_data, item_table,
    left_on="item",
    right_on="item_name",
    how="inner"
)

Unnamed: 0,id,pass,item,item_name,price
0,test,1234,A,A,100


In [33]:
pd.merge(
    merge_data, item_table,
    left_on="item",
    right_on="item_name",
    how="left"
)

Unnamed: 0,id,pass,item,item_name,price
0,test,1234,A,A,100.0
1,test2,1111,,,
2,test3,0,C,,


In [34]:
pd.merge(
    merge_data, item_table,
    left_on="item",
    right_on="item_name",
    how="right"
)

Unnamed: 0,id,pass,item,item_name,price
0,test,1234.0,A,A,100
1,,,,B,200


In [35]:
pd.merge(
    merge_data, item_table,
    left_on="item",
    right_on="item_name",
    how="outer"
)

Unnamed: 0,id,pass,item,item_name,price
0,test,1234.0,A,A,100.0
1,,,,B,200.0
2,test3,0.0,C,,
3,test2,1111.0,,,


In [36]:
merge_data

Unnamed: 0,id,pass,item
0,test,1234,A
1,test2,1111,
2,test3,0,C


In [38]:
merge_data.loc[1,"item"]

nan

In [39]:
merge_data.loc[1,"item"] ="B"
merge_data

Unnamed: 0,id,pass,item
0,test,1234,A
1,test2,1111,B
2,test3,0,C


In [41]:
# item_table의 item_name 컬럼의 이름을 item으로 변경
item_table.rename(
    columns={
        "item_name":"item"
    }, inplace=True
)

In [42]:
pd.merge(
    merge_data, item_table,
    on="item",
    how="inner"
)

Unnamed: 0,id,pass,item,price
0,test,1234,A,100
1,test2,1111,B,200


- 특정 경로에 있는 파일의 목록을 불러와서 반복문을 이용하여 모든 데이터를 하나의 데이터프레임으로 결합
    1. 특정 경로에 있는 파일 목록 로드
    2. 반복문을 이용하여 데이터를 하나씩 로드
    3. 단순한 행 결합으로 데이터프레임 결합

In [2]:
import os
from glob import glob

In [47]:
# os 라이브러리를 이용한 파일 목록 불러오기
os.listdir("csv/2017")

['201701_expense_list.csv',
 '201702_expense_list.csv',
 '201703_expense_list.csv',
 '201704_expense_list.csv',
 '201705_expense_list.csv',
 '201706_expense_list.csv',
 '201707_expense_list.csv',
 '201708_expense_list.csv',
 '201709_expense_list.csv',
 '201710_expense_list.csv',
 '201711_expense_list.csv',
 '201712_expense_list.csv']

In [49]:
# 특정 경로를 변수에 저장
file_path="csv/2017/"
file_list=os.listdir(file_path)

In [50]:
file_list

['201701_expense_list.csv',
 '201702_expense_list.csv',
 '201703_expense_list.csv',
 '201704_expense_list.csv',
 '201705_expense_list.csv',
 '201706_expense_list.csv',
 '201707_expense_list.csv',
 '201708_expense_list.csv',
 '201709_expense_list.csv',
 '201710_expense_list.csv',
 '201711_expense_list.csv',
 '201712_expense_list.csv']

In [52]:
file_path+file_list[0]

'csv/2017/201701_expense_list.csv'

In [None]:
pd.read_csv(file_path+file_list[0])

In [62]:
# 2017년 1~12월 데이터를 하나의 데이터프레임으로 생성

# 빈 데이터프레임을 생성
df_2017=pd.DataFrame()

# file_list를 기준으로 반복분 생성
for i in file_list:
    df = pd.read_csv(file_path + i)
    # i 변수에 대입하는 값은 file_list의 각각의 파일 이름
    df_2017=pd.concat([df_2017, df])
    # df_2017에 df 대입 (단순한 행 결합으로 df_2017에 넣어준다.)

In [58]:
df_2017.info()

<class 'pandas.core.frame.DataFrame'>
Index: 70132 entries, 0 to 7285
Data columns (total 20 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   nid                70132 non-null  int64  
 1   title              70132 non-null  object 
 2   url                70132 non-null  object 
 3   dept_nm_lvl_1      70132 non-null  object 
 4   dept_nm_lvl_2      70074 non-null  object 
 5   dept_nm_lvl_3      61262 non-null  object 
 6   dept_nm_lvl_4      17939 non-null  object 
 7   dept_nm_lvl_5      3474 non-null   object 
 8   exec_yr            70132 non-null  int64  
 9   exec_month         70132 non-null  int64  
 10  expense_budget     3108 non-null   float64
 11  expense_execution  2805 non-null   float64
 12  category           1259 non-null   object 
 13  dept_nm_full       70053 non-null  object 
 14  exec_dt            70132 non-null  object 
 15  exec_loc           69360 non-null  object 
 16  exec_purpose       70110 non

In [None]:
df_2017.tail() # head(), tail()로 1월부터 12월 확인 가능

In [63]:
# glob 라이브러리
glob("csv/2021/*.csv") # 전체를 의미하는 *

['csv/2021\\202101_expense_list.csv',
 'csv/2021\\202102_expense_list.csv',
 'csv/2021\\202103_expense_list.csv',
 'csv/2021\\202104_expense_list.csv',
 'csv/2021\\202105_expense_list.csv',
 'csv/2021\\202106_expense_list.csv',
 'csv/2021\\202107_expense_list.csv',
 'csv/2021\\202108_expense_list.csv',
 'csv/2021\\202109_expense_list.csv',
 'csv/2021\\202110_expense_list.csv',
 'csv/2021\\202111_expense_list.csv',
 'csv/2021\\202112_expense_list.csv']

In [None]:
glob("csv/2021/*.*") # 파일명 전체, 확장자 전체

In [9]:
# 지정된 경로의 파일들을 하나의 데이터프레임으로 결합하는 함수
def load (_path, _end="csv"):
    # load 라는 함수를 만든다
    # _path: 파일의 경로
    # _end: 확장자는 csv를 기본으로 설정

    # 유저가 입력한 경로를 이용하여 파일의 목록을 로드
    file_list=os.listdir(_path)
    # 간혹 유저가 경로의 마지막에 '/'를 표기하지 않는 실수를 대비하여 '/' 추가
    file_path=_path+"/"

    # 비어있는 데이터프레임 생성
    result=pd.DataFrame()

    for i in file_list:
        # i -> 유저가 경로의 파일 이름이 각각 대입
        # _end의 값에 따라 다른 함수를 이용
        if _end=="csv":
            df=pd.read_csv(file_path+i)
        elif _end=="json":
            df=pd.read_json(file_path+i)
        elif (_end=='xlsx') or (_end=='xls'):
            df=pd.read_excel(file_path+i) # 오류 ??
        elif _end=="xml":
            df=pd.read_xml(file_path+i)
        else:
            return "지원하지 않는 확장자 입니다."
        
        # 비어있는 데이터프레임에 단순 행 결합
        result=pd.concat([result, df])
    print("데이터프레임 결합 완료, 크기는", len(result))
    return result

In [None]:
load("csv/2017")

In [None]:
load("csv/2019", "json")

In [12]:
load("csv/2020", 'xlsx') 

ImportError: Missing optional dependency 'openpyxl'.  Use pip or conda to install openpyxl.

In [13]:
# 엑셀 로드시 오류 해결
!pip install openpyxl

Collecting openpyxl
  Downloading openpyxl-3.1.5-py2.py3-none-any.whl.metadata (2.5 kB)
Collecting et-xmlfile (from openpyxl)
  Downloading et_xmlfile-1.1.0-py3-none-any.whl.metadata (1.8 kB)
Downloading openpyxl-3.1.5-py2.py3-none-any.whl (250 kB)
   ---------------------------------------- 0.0/250.9 kB ? eta -:--:--
   - -------------------------------------- 10.2/250.9 kB ? eta -:--:--
   -------------- ------------------------- 92.2/250.9 kB 1.7 MB/s eta 0:00:01
   ----------------------------------- ---- 225.3/250.9 kB 2.8 MB/s eta 0:00:01
   ---------------------------------------- 250.9/250.9 kB 1.7 MB/s eta 0:00:00
Downloading et_xmlfile-1.1.0-py3-none-any.whl (4.7 kB)
Installing collected packages: et-xmlfile, openpyxl
Successfully installed et-xmlfile-1.1.0 openpyxl-3.1.5



[notice] A new release of pip is available: 24.0 -> 24.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [None]:
load("csv/2020", 'xlsx') 
# 완료!