# Ch4 - 2. concat

## concat이 필요한 상황  
센서, 로그, 거래 데이터 등과 같이 크기가 매우 큰 데이터는 시간과 ID 등에 따라 분할되어 저장된다.  
pandas.concat 함수를 사용하면 손쉽게 병합할 수 있다.  
merge는 두 개의 데이터프레임만 입력을 받지만, 이는 리스트로 여러 개를 받을 수 있다.  

통합해야 하는 데이터가 많은 경우에는, 빈 데이터프레임을생성한 뒤, 이 데이터프레임과 반복문을 사용하여 불러온 데이터를 concat 함수를 이용하면 효율적으로 통합할 수 있다.  

##  concat 함수
```
pd.concat([df1, df2])
```  
둘 이상의 데이터 프레임을 이어 붙이는데 사용하는 함수.  

> 주요 입력  
> `objs`: DataFrame을 요소로 하는 리스트, (입력 예시: `[df1, df2]`)로 입력 순서대로 병합됨.  
`ignore_index` : True면 기존 인덱스를 무시하고 새로운 인덱스를 부여하며, False면 기존 인덱스를 사용한다. 만약 병합될 데이터프레임의 인덱스가 서로 겹칠 경우를 대비하여 사용한다. 보통 True는 행 단위의 결합, False는 열 단위의 결합을 할 때 사용하는 것이 일반적이다.  
`axis` : 0이면 행 단위로 병합을 수행하며, 1이면 열 단위로 병합을 수행한다.  


## 유용한 함수
#### os.listdir(path) 
함께 사용하기 좋은 함수. path 상의 모든 파일명을 리스트 형태로 반환한다.  
concat을 하려는 여러 파일명을 받아올 때 유용한다.  
#### xlrd
엑셀 데이터를 다루기 위한 모듈로, 엑셀 내의 반복 작업을 하기 위해 주로 사용한다.  
```
wb = xlrd.openworkbook(file, on_demand = True) # 엑셀 파일을 불러와 wb에 저장
wb.sheet_names()  # wb에 있는 시트 목록을 리스트 형태로 반환
```
파일을 불러와서 워크북이라는 이름으로 저장하고, 그는 시트 목록을 리스트 형태로 반환하는 sheet_names()라는 어트리뷰트를 사용할 수 있게 된다. 


## library 불러오기

In [1]:
import os
import pandas as pd
os.chdir(r"/Users/Angela/Desktop/과속대학쿠쿠루/1. 데이터 핸들링/데이터")

## concat 

In [2]:
df1 = pd.DataFrame({"A":[1,2,3,4], "B":[1,2,3,4]})
df2 = pd.DataFrame({"A":[5,6,7,8], "B":[5,6,7,8]})

merged_df = pd.concat([df1, df2], axis = 0, ignore_index = True)
merged_df

Unnamed: 0,A,B
0,1,1
1,2,2
2,3,3
3,4,4
4,5,5
5,6,6
6,7,7
7,8,8


In [3]:
df1 = pd.DataFrame({"A":[1,2,3,4], "B":[5,6,7,8]})
df2 = pd.DataFrame({"C":[1,2,3,4], "D":[5,6,7,8]})

merged_df = pd.concat([df1, df2], axis = 1, ignore_index = False)
merged_df

Unnamed: 0,A,B,C,D
0,1,5,1,5
1,2,6,2,6
2,3,7,3,7
3,4,8,4,8


#### concat을 이용한 여러 csv 파일 합치기

In [4]:
df1 = pd.read_csv("일별 오염 데이터/2004-03-14_오염_수준.txt", sep = "\t", engine = "python")
df2 = pd.read_csv("일별 오염 데이터/2004-03-20_오염_수준.txt", sep = "\t", engine = "python")

In [5]:
df1.head() # 합쳐야 하는 데이터 구조

Unnamed: 0,Date,Time,CO(GT),PT08.S1(CO),NMHC(GT),C6H6(GT),PT08.S2(NMHC),NOx(GT),PT08.S3(NOx),NO2(GT),PT08.S4(NO2),PT08.S5(O3),T,RH,AH
0,2004-03-14,00:00:00,2.9,1533.5,93.0,10.963458,1013.0,190.0,888.5,129.0,1610.75,1534.75,13.95,53.6,0.849772
1,2004-03-14,01:00:00,2.8,1483.5,131.0,11.860179,1044.75,174.0,879.75,119.0,1624.25,1529.75,14.65,51.5,0.853623
2,2004-03-14,02:00:00,2.5,1366.75,92.0,8.624679,924.5,128.0,952.5,104.0,1543.0,1337.0,12.55,58.900001,0.85374
3,2004-03-14,03:00:00,2.4,1344.0,132.0,9.737786,967.75,-200.0,920.5,-200.0,1619.75,1278.25,11.65,63.425,0.867449
4,2004-03-14,04:00:00,-200.0,1129.5,56.0,5.191654,773.0,70.0,1130.25,82.0,1451.75,1050.5,12.1,61.100001,0.860316


In [6]:
df2.head() # 합쳐야 하는 데이터 구조

Unnamed: 0,Date,Time,CO(GT),PT08.S1(CO),NMHC(GT),C6H6(GT),PT08.S2(NMHC),NOx(GT),PT08.S3(NOx),NO2(GT),PT08.S4(NO2),PT08.S5(O3),T,RH,AH
0,2004-03-20,00:00:00,1.7,1126.75,-200.0,5.791192,802.0,104.0,1064.0,92.0,1446.5,837.0,13.775,57.95,0.908544
1,2004-03-20,01:00:00,1.6,1090.25,-200.0,5.191654,773.0,,1105.25,83.0,1428.5,761.0,13.9,55.95,0.884207
2,2004-03-20,02:00:00,1.3,1017.0,-200.0,4.123187,717.5,74.0,1181.75,81.0,1382.25,650.25,13.875,55.55,0.876488
3,2004-03-20,03:00:00,1.3,997.25,-200.0,3.410629,677.0,-200.0,1252.25,-200.0,1358.5,590.75,13.825,55.1,0.86662
4,2004-03-20,04:00:00,-200.0,944.75,-200.0,2.908548,646.25,44.0,1308.0,55.0,1331.5,505.0,13.8,54.6,0.857388


In [7]:
df1.shape

(24, 15)

In [8]:
df2.shape

(24, 15)

In [9]:
os.listdir("일별 오염 데이터")

['2004-03-11_오염_수준.txt',
 '2004-03-12_오염_수준.txt',
 '2004-03-13_오염_수준.txt',
 '2004-03-14_오염_수준.txt',
 '2004-03-15_오염_수준.txt',
 '2004-03-16_오염_수준.txt',
 '2004-03-17_오염_수준.txt',
 '2004-03-18_오염_수준.txt',
 '2004-03-19_오염_수준.txt',
 '2004-03-20_오염_수준.txt',
 '2004-03-21_오염_수준.txt',
 '2004-03-22_오염_수준.txt',
 '2004-03-23_오염_수준.txt',
 '2004-03-24_오염_수준.txt',
 '2004-03-25_오염_수준.txt',
 '2004-03-26_오염_수준.txt',
 '2004-03-27_오염_수준.txt',
 '2004-03-28_오염_수준.txt',
 '2004-03-29_오염_수준.txt',
 '2004-03-30_오염_수준.txt',
 '2004-03-31_오염_수준.txt',
 'desktop.ini']

In [10]:
# for문을 이용한 데이터 병합 
# (코드가 김, 상대적으로 비효율적임, 메모리 문제가 생길 가능성이 적음)
merged_df = pd.DataFrame() # 빈 데이터 프레임 생성

for file in os.listdir("일별 오염 데이터"):
    if '오염_수준.txt' in file:
        df = pd.read_csv("일별 오염 데이터/" + file, sep = "\t", engine = "python")
        merged_df = pd.concat([merged_df, df], axis = 0, ignore_index = True)

merged_df.head()

Unnamed: 0,Date,Time,CO(GT),PT08.S1(CO),NMHC(GT),C6H6(GT),PT08.S2(NMHC),NOx(GT),PT08.S3(NOx),NO2(GT),PT08.S4(NO2),PT08.S5(O3),T,RH,AH
0,2004-03-11,00:00:00,1.2,1185.0,31.0,3.624399,689.5,62.0,1461.75,77.0,1332.75,732.5,11.325,56.775,0.760312
1,2004-03-11,01:00:00,1.0,1136.25,31.0,3.326677,672.0,62.0,1453.25,76.0,1332.75,729.5,10.675,60.0,0.770238
2,2004-03-11,02:00:00,0.9,1094.0,24.0,2.339416,608.5,45.0,1579.0,60.0,1276.0,619.5,10.65,59.674999,0.764819
3,2004-03-11,03:00:00,0.6,1009.75,19.0,1.696658,560.75,-200.0,1705.0,-200.0,1234.75,501.25,10.25,60.200001,0.751657
4,2004-03-11,04:00:00,-200.0,1011.0,14.0,1.29362,526.75,21.0,1817.5,34.0,1196.75,445.25,10.075,60.474999,0.746495


In [11]:
merged_df.shape

(504, 15)

In [12]:
# list comprehension을 이용한 데이터 통합
# (코드가 짧음, 효율적임, 메모리 문제가 생길 수 있음)
merged_df = pd.concat([pd.read_csv("일별 오염 데이터/" + file, sep = "\t", engine = "python")
                       for file in os.listdir("일별 오염 데이터") if '오염_수준.txt' in file])

In [13]:
merged_df.shape

(504, 15)

#### concat을 이용한 엑셀 시트 통합

In [14]:
import xlrd
wb = xlrd.open_workbook("월별매출데이터.xlsx", on_demand = True)
sheetnames = wb.sheet_names()
sheetnames

['1월', '2월', '3월', '4월', '5월', '6월', '7월', '8월', '9월', '10월', '11월', '12월']

In [15]:
merged_df = pd.DataFrame()
for sn in sheetnames:
    df = pd.read_excel("월별매출데이터.xlsx", sheet_name = sn, skiprows = range(6))
    df = df.iloc[:, 1:] # 첫 번째 컬럼이 불필요하므로 제거
    merged_df = pd.concat([merged_df, df], axis = 0, ignore_index = True)
merged_df

Unnamed: 0,일자,지점,품명,수량,주문인 ID,수령 주소,주문 상태,결제 수단
0,2018.1.1,지점1,제품B,3,C-168,서울특별시 동작구 흑석동,주문완료,인터넷뱅킹
1,2018.1.1,지점2,제품F,8,C-87,서울특별시 서대문구 신촌동,배송완료,신용카드
2,2018.1.1,지점4,제품B,2,C-158,서울특별시 종로구 종로5가,배송완료,휴대폰결제
3,2018.1.1,지점3,제품D,7,C-307,서울특별시 서대문구 냉천동,주문완료,휴대폰결제
4,2018.1.1,지점2,제품E,9,C-342,서울특별시 종로구 묘동,배송완료,인터넷뱅킹
...,...,...,...,...,...,...,...,...
18224,2018-12-31,지점1,제품F,6,C-59,서울특별시 성북구 보문동3가,배송중,신용카드
18225,2018-12-31,지점2,제품D,9,C-287,서울특별시 중구 의주로1가,배송중,인터넷뱅킹
18226,2018-12-31,지점4,제품D,5,C-175,서울특별시 종로구 명륜1가,주문완료,인터넷뱅킹
18227,2018-12-31,지점1,제품B,4,C-17,서울특별시 영등포구 양평동3가,주문완료,인터넷뱅킹


In [None]:
df.shape

In [None]:
merged_df.shape

In [None]:
# list comprehension을 이용한 데이터 통합
merged_df = pd.concat([pd.read_excel("월별매출데이터.xlsx", sheet_name = sn, skiprows = range(6)).iloc[:, 1:] for sn in sheetnames])
merged_df.shape