# Ch4 - 2. concat

## concat이 필요한 상황  
센서, 로그, 거래 데이터 등과 같이 크기가 매우 큰 데이터는 시간과 ID 등에 따라 분할되어 저장된다.  
pandas.concat 함수를 사용하면 손쉽게 병합할 수 있다.  
merge는 두 개의 데이터프레임만 입력을 받지만, 이는 리스트로 여러 개를 받을 수 있다.  

통합해야 하는 데이터가 많은 경우에는, 빈 데이터프레임을생성한 뒤, 이 데이터프레임과 반복문을 사용하여 불러온 데이터를 concat 함수를 이용하면 효율적으로 통합할 수 있다.  

##  concat 함수
```
pd.concat([df1, df2])
```  
둘 이상의 데이터 프레임을 이어 붙이는데 사용하는 함수.  

> 주요 입력  
> `objs`: DataFrame을 요소로 하는 리스트, (입력 예시: `[df1, df2]`)로 입력 순서대로 병합됨.  
`ignore_index` : True면 기존 인덱스를 무시하고 새로운 인덱스를 부여하며, False면 기존 인덱스를 사용한다. 만약 병합될 데이터프레임의 인덱스가 서로 겹칠 경우를 대비하여 사용한다. **보통 True는 행 단위의 결합, False는 열 단위의 결합을 할 때 사용하는 것이 일반적이다.**  
`axis` : 0이면 행 단위로 병합을 수행하며, 1이면 열 단위로 병합을 수행한다.  


## 유용한 함수
#### os.listdir(path) 
함께 사용하기 좋은 함수. path 상의 모든 파일명을 리스트 형태로 반환한다.  
concat을 하려는 여러 파일명을 받아올 때 유용한다.  
#### xlrd
엑셀 데이터를 다루기 위한 모듈로, 엑셀 내의 반복 작업을 하기 위해 주로 사용한다.  
```
wb = xlrd.openworkbook(file, on_demand = True) # 엑셀 파일을 불러와 wb에 저장
wb.sheet_names()  # wb에 있는 시트 목록을 리스트 형태로 반환
```
파일을 불러와서 워크북이라는 이름으로 저장하고, 그는 시트 목록을 리스트 형태로 반환하는 sheet_names()라는 어트리뷰트를 사용할 수 있게 된다. 

> python 3.8.5에서는 xlrd로 xlsx 파일을 불러오는 것이 불가능  
xlrd의 대용으로 openpyxl사용  
    ```
    wb = openpyxl.load_workbook(file) # 엑셀 파일을 불러와 wb에 저장  
    wb.sheetnames #wb에 있는 시트 목록을 리스트 형태로 반환
    ```  
참고: https://datanavigator.tistory.com/m/42   


## library 불러오기

In [1]:
import os
import pandas as pd
os.chdir(r"/Users/Angela/Desktop/과속대학쿠쿠루/1. 데이터 핸들링/데이터")

## concat 

### 행으로 붙일 때, `ignore_index = True`

인덱스를 새로 정의되도록 한다. 

In [2]:
df1 = pd.DataFrame({"A":[1,2,3,4], "B":[1,2,3,4]})
df2 = pd.DataFrame({"A":[5,6,7,8], "B":[5,6,7,8]})

merged_df = pd.concat([df1, df2], axis = 0, ignore_index = True)
merged_df

Unnamed: 0,A,B
0,1,1
1,2,2
2,3,3
3,4,4
4,5,5
5,6,6
6,7,7
7,8,8


### 열 방향으로 붙일 때, `ignore_index = False`

**열 단위로 이어붙이는 것이기 때문에, ignore_index = True를 하게 되면 열 단위의 이름을 삭제하고 새로 붙이게 된다.**  

In [3]:
df1 = pd.DataFrame({"A":[1,2,3,4], "B":[5,6,7,8]})
df2 = pd.DataFrame({"C":[1,2,3,4], "D":[5,6,7,8]})

merged_df = pd.concat([df1, df2], axis = 1, ignore_index = False)
merged_df

Unnamed: 0,A,B,C,D
0,1,5,1,5
1,2,6,2,6
2,3,7,3,7
3,4,8,4,8


In [4]:
df1 = pd.DataFrame({"A":[1,2,3,4], "B":[5,6,7,8]})
df2 = pd.DataFrame({"C":[1,2,3,4], "D":[5,6,7,8]})

merged_df = pd.concat([df1, df2], axis = 1, ignore_index = True)
merged_df

Unnamed: 0,0,1,2,3
0,1,5,1,5
1,2,6,2,6
2,3,7,3,7
3,4,8,4,8


## concat을 이용한 여러 csv 파일 합치기

In [5]:
os.listdir(r"/Users/Angela/Desktop/과속대학쿠쿠루/1. 데이터 핸들링/데이터/일별 오염 데이터")

['2004-03-22_오염_수준.txt',
 '2004-03-17_오염_수준.txt',
 '2004-03-25_오염_수준.txt',
 '2004-03-18_오염_수준.txt',
 '2004-03-16_오염_수준.txt',
 '2004-03-24_오염_수준.txt',
 '2004-03-19_오염_수준.txt',
 '2004-03-23_오염_수준.txt',
 '2004-03-11_오염_수준.txt',
 '2004-03-30_오염_수준.txt',
 '2004-03-29_오염_수준.txt',
 '2004-03-14_오염_수준.txt',
 '2004-03-26_오염_수준.txt',
 '2004-03-21_오염_수준.txt',
 '2004-03-13_오염_수준.txt',
 'desktop.ini',
 '2004-03-20_오염_수준.txt',
 '2004-03-12_오염_수준.txt',
 '2004-03-31_오염_수준.txt',
 '2004-03-28_오염_수준.txt',
 '2004-03-15_오염_수준.txt',
 '2004-03-27_오염_수준.txt']

In [6]:
# 탭으로 구분된 txt파일 불러옴
df1 = pd.read_csv("일별 오염 데이터/2004-03-14_오염_수준.txt", sep = "\t")
df2 = pd.read_csv("일별 오염 데이터/2004-03-20_오염_수준.txt", sep = "\t")

In [7]:
df1.head() # 합쳐야 하는 데이터 구조

Unnamed: 0,Date,Time,CO(GT),PT08.S1(CO),NMHC(GT),C6H6(GT),PT08.S2(NMHC),NOx(GT),PT08.S3(NOx),NO2(GT),PT08.S4(NO2),PT08.S5(O3),T,RH,AH
0,2004-03-14,00:00:00,2.9,1533.5,93.0,10.963458,1013.0,190.0,888.5,129.0,1610.75,1534.75,13.95,53.6,0.849772
1,2004-03-14,01:00:00,2.8,1483.5,131.0,11.860179,1044.75,174.0,879.75,119.0,1624.25,1529.75,14.65,51.5,0.853623
2,2004-03-14,02:00:00,2.5,1366.75,92.0,8.624679,924.5,128.0,952.5,104.0,1543.0,1337.0,12.55,58.900001,0.85374
3,2004-03-14,03:00:00,2.4,1344.0,132.0,9.737786,967.75,-200.0,920.5,-200.0,1619.75,1278.25,11.65,63.425,0.867449
4,2004-03-14,04:00:00,-200.0,1129.5,56.0,5.191654,773.0,70.0,1130.25,82.0,1451.75,1050.5,12.1,61.100001,0.860316


In [8]:
df2.head() # 합쳐야 하는 데이터 구조

Unnamed: 0,Date,Time,CO(GT),PT08.S1(CO),NMHC(GT),C6H6(GT),PT08.S2(NMHC),NOx(GT),PT08.S3(NOx),NO2(GT),PT08.S4(NO2),PT08.S5(O3),T,RH,AH
0,2004-03-20,00:00:00,1.7,1126.75,-200.0,5.791192,802.0,104.0,1064.0,92.0,1446.5,837.0,13.775,57.95,0.908544
1,2004-03-20,01:00:00,1.6,1090.25,-200.0,5.191654,773.0,,1105.25,83.0,1428.5,761.0,13.9,55.95,0.884207
2,2004-03-20,02:00:00,1.3,1017.0,-200.0,4.123187,717.5,74.0,1181.75,81.0,1382.25,650.25,13.875,55.55,0.876488
3,2004-03-20,03:00:00,1.3,997.25,-200.0,3.410629,677.0,-200.0,1252.25,-200.0,1358.5,590.75,13.825,55.1,0.86662
4,2004-03-20,04:00:00,-200.0,944.75,-200.0,2.908548,646.25,44.0,1308.0,55.0,1331.5,505.0,13.8,54.6,0.857388


In [9]:
df1.shape

(24, 15)

In [10]:
df2.shape

(24, 15)

In [11]:
os.listdir("일별 오염 데이터")

['2004-03-22_오염_수준.txt',
 '2004-03-17_오염_수준.txt',
 '2004-03-25_오염_수준.txt',
 '2004-03-18_오염_수준.txt',
 '2004-03-16_오염_수준.txt',
 '2004-03-24_오염_수준.txt',
 '2004-03-19_오염_수준.txt',
 '2004-03-23_오염_수준.txt',
 '2004-03-11_오염_수준.txt',
 '2004-03-30_오염_수준.txt',
 '2004-03-29_오염_수준.txt',
 '2004-03-14_오염_수준.txt',
 '2004-03-26_오염_수준.txt',
 '2004-03-21_오염_수준.txt',
 '2004-03-13_오염_수준.txt',
 'desktop.ini',
 '2004-03-20_오염_수준.txt',
 '2004-03-12_오염_수준.txt',
 '2004-03-31_오염_수준.txt',
 '2004-03-28_오염_수준.txt',
 '2004-03-15_오염_수준.txt',
 '2004-03-27_오염_수준.txt']

합쳐야 하는 데이터들의 구조는 같지만 날짜만 다른 것으로 나타난다.  

폴더 상의 여러개 파일을 하나하나 불러와 붙이기에 어렵기 때문에, 다음과 같은 방법을 사용한다. 

### for문을 활용한 방법

쉽지만 코드가 길고, 상대적으로 비효율 적이며, 메모리 문제가 생길 가능성이 적다.

오염_수준.txt라는 이름에 속해있는 파일을 불러온다.  일별 오염 데이터 폴더를 포함해서 불러오도록 한다. 그리고 빈 데이터프레임에 행 단위로 붙이도록 한다. 

##### 큰 주의사항 하나!

텍스트를 검색할 때에는 내가 직접 쓰는 것 보다, 출력물에서 해당 부분을 복사 붙여넣기 하는 것이 바르다.  
실제로 내가 '오염_수준.txt'를 백날 쳐도 해당 코드는 문자를 찾을 수 없는 것으로 나왔으나, 출력물에서 붙여넣기를 하자 알아듣기 시작했다. 약간 허무하기도 하다.  


In [12]:
merged_df = pd.DataFrame()

for file in os.listdir('일별 오염 데이터'):
    if '오염_수준.txt' in file:
        df = pd.read_csv('일별 오염 데이터/' + file, sep = '\t')
        merged_df = pd.concat([merged_df, df], axis = 0, ignore_index = True)

merged_df.head()

Unnamed: 0,Date,Time,CO(GT),PT08.S1(CO),NMHC(GT),C6H6(GT),PT08.S2(NMHC),NOx(GT),PT08.S3(NOx),NO2(GT),PT08.S4(NO2),PT08.S5(O3),T,RH,AH
0,2004-03-22,00:00:00,1.7,1161.25,-200.0,6.074366,815.25,93.0,995.25,86.0,1582.25,909.0,16.125,60.025001,1.091938
1,2004-03-22,01:00:00,1.5,1095.25,-200.0,5.071112,767.0,74.0,1050.25,76.0,1547.0,818.25,15.825,60.525,1.080477
2,2004-03-22,02:00:00,0.6,897.0,-200.0,1.718653,562.5,23.0,1416.5,33.0,1355.0,472.25,16.325001,56.950001,1.049075
3,2004-03-22,03:00:00,0.4,842.0,-200.0,0.710518,468.0,-200.0,1812.75,-200.0,1274.25,393.5,16.925,53.900001,1.030856
4,2004-03-22,04:00:00,-200.0,853.75,-200.0,0.829014,481.25,17.0,1755.5,27.0,1304.0,396.25,16.1,55.900001,1.015304


In [13]:
merged_df.shape

(504, 15)

### list comprehension을 이용한 데이터 통합

코드가 짧고, 효율적이지만 메모리 문제가 생길 수 있다.

[] 안에서 반복문이 돌도록 되어있는데, 한 리스트 안에 concat할 내용을 전부 넣은 다음 합치는 방식이다.  
한 줄로 정의되는 것이기에 효율적이지만, 리스트 상에 모든 데이터 프레임이 저장되어있어야 하기 때문에 붙여야할 데이터프레임이 메모리 상 존재하고 있어야 하게 된다.  

반면 for문은 하나를 넣고 하나를 지우기 떄문에 메모리를 적게 먹는다.  

센서 데이터처럼 데이터가 하나하나 클 경우에는 메모리 에러가 뜰 수 있기 떄문에 for문이 더 적합하다.  


In [14]:
merged_df = pd.concat([pd.read_csv('일별 오염 데이터/'+ file, sep = '\t') 
                       for file in os.listdir('일별 오염 데이터') if '오염_수준.txt' in file])

In [15]:
merged_df.shape

(504, 15)

# concat을 이용한 엑셀 시트 통합


python 3.8.5에서는 xlrd로 xlsx 파일을 불러오는 것이 불가능
xlrd의 대용으로 openpyxl사용해야 한다.
```
wb = openpyxl.load_workbook(file) # 엑셀 파일을 불러와 wb에 저장  
wb.sheetnames #wb에 있는 시트 목록을 리스트 형태로 반환
```

불려오려는 매출 데이터는 12개의 월별 시트가 있다. @월이라는 규칙을 바탕으로 직접 데려올 수도 있지만, 규칙을 모르는 상황을 가정하고 진행한다.  

In [None]:
# python 버전에 의해 불가한 부분

# import xlrd
# wb = xlrd.open_workbook("월별매출데이터.xlsx", on_demand = True)
# sheetnames = wb.sheet_names()
# sheetnames

In [17]:
# openpyxl 사용

import openpyxl
wb = openpyxl.load_workbook('월별매출데이터.xlsx')
sheetnames = wb.sheetnames
sheetnames

['1월', '2월', '3월', '4월', '5월', '6월', '7월', '8월', '9월', '10월', '11월', '12월']

### 반복문을 통한 엑셀 시트 로드 및 병합

In [18]:
# 행 단위로 월별 매출 이어붙이기

merged_df = pd.DataFrame()

for sn in sheetnames:
    df = pd.read_excel('월별매출데이터.xlsx', sheet_name = sn, skiprows = range(6))
    df = df.iloc[:, 1:]  # 첫째 열이 빈 줄이므로 제거
    merged_df = pd.concat([merged_df, df], axis = 0, ignore_index = True)
merged_df

Unnamed: 0,일자,지점,품명,수량,주문인 ID,수령 주소,주문 상태,결제 수단
0,2018.1.1,지점1,제품B,3,C-168,서울특별시 동작구 흑석동,주문완료,인터넷뱅킹
1,2018.1.1,지점2,제품F,8,C-87,서울특별시 서대문구 신촌동,배송완료,신용카드
2,2018.1.1,지점4,제품B,2,C-158,서울특별시 종로구 종로5가,배송완료,휴대폰결제
3,2018.1.1,지점3,제품D,7,C-307,서울특별시 서대문구 냉천동,주문완료,휴대폰결제
4,2018.1.1,지점2,제품E,9,C-342,서울특별시 종로구 묘동,배송완료,인터넷뱅킹
...,...,...,...,...,...,...,...,...
18224,2018-12-31,지점1,제품F,6,C-59,서울특별시 성북구 보문동3가,배송중,신용카드
18225,2018-12-31,지점2,제품D,9,C-287,서울특별시 중구 의주로1가,배송중,인터넷뱅킹
18226,2018-12-31,지점4,제품D,5,C-175,서울특별시 종로구 명륜1가,주문완료,인터넷뱅킹
18227,2018-12-31,지점1,제품B,4,C-17,서울특별시 영등포구 양평동3가,주문완료,인터넷뱅킹


In [19]:
df.shape

(1509, 8)

In [20]:
merged_df.shape

(18229, 8)

### list comprehension을 이용한 엑셀 시트 로드 및 병합

In [21]:
merged_df = pd.concat([pd.read_excel('월별매출데이터.xlsx', sheet_name = sn, skiprows = range(6)).iloc[:,1:] 
                       for sn in sheetnames])
merged_df

Unnamed: 0,일자,지점,품명,수량,주문인 ID,수령 주소,주문 상태,결제 수단
0,2018.1.1,지점1,제품B,3,C-168,서울특별시 동작구 흑석동,주문완료,인터넷뱅킹
1,2018.1.1,지점2,제품F,8,C-87,서울특별시 서대문구 신촌동,배송완료,신용카드
2,2018.1.1,지점4,제품B,2,C-158,서울특별시 종로구 종로5가,배송완료,휴대폰결제
3,2018.1.1,지점3,제품D,7,C-307,서울특별시 서대문구 냉천동,주문완료,휴대폰결제
4,2018.1.1,지점2,제품E,9,C-342,서울특별시 종로구 묘동,배송완료,인터넷뱅킹
...,...,...,...,...,...,...,...,...
1504,2018-12-31,지점1,제품F,6,C-59,서울특별시 성북구 보문동3가,배송중,신용카드
1505,2018-12-31,지점2,제품D,9,C-287,서울특별시 중구 의주로1가,배송중,인터넷뱅킹
1506,2018-12-31,지점4,제품D,5,C-175,서울특별시 종로구 명륜1가,주문완료,인터넷뱅킹
1507,2018-12-31,지점1,제품B,4,C-17,서울특별시 영등포구 양평동3가,주문완료,인터넷뱅킹
