## **Pandas 데이터 결합과 분해하기** 
 - 보통 데이터의 중복을 방지하고자 데이터를 여러개의 표로 나누어 저장
 - 하나의 데이터 셋을 여러부분으로 분할하여 관리할 때도 있음
 - 데이터를 결합하는 가장 쉬운 방법은 데이터를 연결하는 것 : 데이터에 행이나 열 추가

In [37]:
import pandas as pd

In [41]:
df1= pd.read_csv("./codes/data/concat_1.csv")
df2= pd.read_csv("./codes/data/concat_2.csv")
df3= pd.read_csv("./codes/data/concat_3.csv")
print(df1)
print("-" *100)
print(df2)
print("-" *100)
print(df3)

    A   B   C   D
0  a0  b0  c0  d0
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3
----------------------------------------------------------------------------------------------------
    A   B   C   D
0  a4  b4  c4  d4
1  a5  b5  c5  d5
2  a6  b6  c6  d6
3  a7  b7  c7  d7
----------------------------------------------------------------------------------------------------
     A    B    C    D
0   a8   b8   c8   d8
1   a9   b9   c9   d9
2  a10  b10  c10  d10
3  a11  b11  c11  d11


In [45]:
print(df1.index) #인덱스의 구성 확인

RangeIndex(start=0, stop=4, step=1)


In [48]:
print(df1.columns) #열 : 인덱스와 다른 축

Index(['A', 'B', 'C', 'D'], dtype='object')


In [49]:
print(df1.values)  #값으로 구성된 넘파이 배열 리턴

[['a0' 'b0' 'c0' 'd0']
 ['a1' 'b1' 'c1' 'd1']
 ['a2' 'b2' 'c2' 'd2']
 ['a3' 'b3' 'c3' 'd3']]


---
### **데이터 연결하기**
- 판다스의 concat() 함수를 사용하여 데이터프레임 연
- concat은 단순히 데이터를 이어붙임 -> 인덱스가 연속되지 않고 반복됨


- 행방향 연결하기
    

In [20]:
row_concat = pd.concat([df1,df2,df3])  #행방향으로 데이터 합치기
#연결할 모든 데이터 프레임을 리스트로 전달

print(row_concat)

     A    B    C    D
0   a0   b0   c0   d0
1   a1   b1   c1   d1
2   a2   b2   c2   d2
3   a3   b3   c3   d3
0   a4   b4   c4   d4
1   a5   b5   c5   d5
2   a6   b6   c6   d6
3   a7   b7   c7   d7
0   a8   b8   c8   d8
1   a9   b9   c9   d9
2  a10  b10  c10  d10
3  a11  b11  c11  d11


In [9]:
print(row_concat.iloc[3, :]) #4번째 행 추출

A    a3
B    b3
C    c3
D    d3
Name: 3, dtype: object


In [53]:
#시리즈 하나 생성하여 데이터프레임에 연결하기
new_row_series =  pd.Series(["n1","n2","n3","n4"])
print(pd.concat([df1, new_row_series]))

#outer join으로 연결됨 -> NaN이 너무 많음

     A    B    C    D    0
0   a0   b0   c0   d0  NaN
1   a1   b1   c1   d1  NaN
2   a2   b2   c2   d2  NaN
3   a3   b3   c3   d3  NaN
0  NaN  NaN  NaN  NaN   n1
1  NaN  NaN  NaN  NaN   n2
2  NaN  NaN  NaN  NaN   n3
3  NaN  NaN  NaN  NaN   n4


In [54]:
#해당 문제를 해결하기 위해 시리즈를 데이터 프레임으로 변환
 #하나의 데이터 행을 가지고 열이름을 가진 데이터프레임으로!
new_row_df = pd.DataFrame(
    data = [["n1","n2","n3","n4"]], #데이터 행 생성시 [[]] 양식 사용 주의!
    columns = [ "A","B","C","D"  ]
)
new_row_df

Unnamed: 0,A,B,C,D
0,n1,n2,n3,n4


In [55]:
print(pd.concat([df1, new_row_df])) #생성한 데이터 프레임연결

    A   B   C   D
0  a0  b0  c0  d0
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3
0  n1  n2  n3  n4


--- 
- 새로운 인덱스 설정하기
   - axis = 0 또는 인덱스, 또는 row (기본값)

In [56]:
row_concat_i = pd.concat([df1,df2,df3], ignore_index=True)
row_concat_i

#기존의 인덱스는 무시하고 인덱스가 새롭게 지정됨

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,a4,b4,c4,d4
5,a5,b5,c5,d5
6,a6,b6,c6,d6
7,a7,b7,c7,d7
8,a8,b8,c8,d8
9,a9,b9,c9,d9


---
 - 열방향 연결하기
   - axis = 1  또는 columns로 설정

In [57]:
col_concat = pd.concat([df1,df2,df3], axis = "columns")
col_concat

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,a0,b0,c0,d0,a4,b4,c4,d4,a8,b8,c8,d8
1,a1,b1,c1,d1,a5,b5,c5,d5,a9,b9,c9,d9
2,a2,b2,c2,d2,a6,b6,c6,d6,a10,b10,c10,d10
3,a3,b3,c3,d3,a7,b7,c7,d7,a11,b11,c11,d11


In [59]:
print(col_concat["A"])
#3개의 데이타프레임 모두 열 이름이 같기 때문에 중복으로 추출됨
#각 d1에 해당하는 A열, d2에 해당하는 A열, d3에 해당하는 A열임 

    A   A    A
0  a0  a4   a8
1  a1  a5   a9
2  a2  a6  a10
3  a3  a7  a11


In [60]:
 #열 새로 추가하기 : 리스트 형식
col_concat["new_col_list"] = ['n1','n2','n3','n4']
col_concat

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2,new_col_list
0,a0,b0,c0,d0,a4,b4,c4,d4,a8,b8,c8,d8,n1
1,a1,b1,c1,d1,a5,b5,c5,d5,a9,b9,c9,d9,n2
2,a2,b2,c2,d2,a6,b6,c6,d6,a10,b10,c10,d10,n3
3,a3,b3,c3,d3,a7,b7,c7,d7,a11,b11,c11,d11,n4


In [62]:
 #열 새로 추가하기 : 시리즈 형식
col_concat["new_col_series"] = pd.Series(['n1','n2','n3','n4'])
col_concat

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2,new_col_list,new_col_series
0,a0,b0,c0,d0,a4,b4,c4,d4,a8,b8,c8,d8,n1,n1
1,a1,b1,c1,d1,a5,b5,c5,d5,a9,b9,c9,d9,n2,n2
2,a2,b2,c2,d2,a6,b6,c6,d6,a10,b10,c10,d10,n3,n3
3,a3,b3,c3,d3,a7,b7,c7,d7,a11,b11,c11,d11,n4,n4


In [64]:
print(pd.concat([df1,df2,df3], axis="columns", ignore_index=True))

#컬럼 정보 무시하고 열 이름을 인덱스로 재설정 -> 중복 삭제

   0   1   2   3   4   5   6   7    8    9    10   11
0  a0  b0  c0  d0  a4  b4  c4  d4   a8   b8   c8   d8
1  a1  b1  c1  d1  a5  b5  c5  d5   a9   b9   c9   d9
2  a2  b2  c2  d2  a6  b6  c6  d6  a10  b10  c10  d10
3  a3  b3  c3  d3  a7  b7  c7  d7  a11  b11  c11  d11


---
- 인덱스나 열 이름이 다른 데이터 연결하기

In [70]:
df1.columns = ["A", "B", "C", "D"]
df2.columns = ["E", "F", "G", "H"]
df3.columns = ["A", "C", "F", "H"]
print(df1)
print(df2)
print(df3)

    A   B   C   D
0  a0  b0  c0  d0
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3
    E   F   G   H
0  a4  b4  c4  d4
1  a5  b5  c5  d5
2  a6  b6  c6  d6
3  a7  b7  c7  d7
     A    C    F    H
0   a8   b8   c8   d8
1   a9   b9   c9   d9
2  a10  b10  c10  d10
3  a11  b11  c11  d11


In [72]:
row_concat = pd.concat([df1,df2,df3])
print(row_concat)

# 열을 자동으로 정렬하고 결측값은 NaN으로 채움

     A    B    C    D    E    F    G    H
0   a0   b0   c0   d0  NaN  NaN  NaN  NaN
1   a1   b1   c1   d1  NaN  NaN  NaN  NaN
2   a2   b2   c2   d2  NaN  NaN  NaN  NaN
3   a3   b3   c3   d3  NaN  NaN  NaN  NaN
0  NaN  NaN  NaN  NaN   a4   b4   c4   d4
1  NaN  NaN  NaN  NaN   a5   b5   c5   d5
2  NaN  NaN  NaN  NaN   a6   b6   c6   d6
3  NaN  NaN  NaN  NaN   a7   b7   c7   d7
0   a8  NaN   b8  NaN  NaN   c8  NaN   d8
1   a9  NaN   b9  NaN  NaN   c9  NaN   d9
2  a10  NaN  b10  NaN  NaN  c10  NaN  d10
3  a11  NaN  b11  NaN  NaN  c11  NaN  d11


In [75]:
# join : NaN값을 포함하지 않는 방법 : 객체 사이 공통된 열만 유지 
print(pd.concat([df1,df2,df3], join= "inner"))
 #3개 모두 공통인 열은 없으므로 형식만 남음

Empty DataFrame
Columns: []
Index: [0, 1, 2, 3, 0, 1, 2, 3, 0, 1, 2, 3]


In [76]:
print(pd.concat([df1,df3], ignore_index=False, join= "inner"))

     A    C
0   a0   c0
1   a1   c1
2   a2   c2
3   a3   c3
0   a8   b8
1   a9   b9
2  a10  b10
3  a11  b11


---
 - 인덱스가 다른 데이터 열 방향 연결

In [79]:
df1.index = [0,1,2,3]
df2.index = [4,5,6,7]
df3.index = [0,2,5,7]
print(df1)
print(df2)
print(df3)

    A   B   C   D
0  a0  b0  c0  d0
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3
    E   F   G   H
4  a4  b4  c4  d4
5  a5  b5  c5  d5
6  a6  b6  c6  d6
7  a7  b7  c7  d7
     A    C    F    H
0   a8   b8   c8   d8
2   a9   b9   c9   d9
5  a10  b10  c10  d10
7  a11  b11  c11  d11


In [81]:
col_concat = pd.concat([df1,df2,df3], axis="columns")
print(col_concat)

#새로운 데이터프레임을 열 방향으로 연결하고 인덱스가 같은 행끼리 연결

     A    B    C    D    E    F    G    H    A    C    F    H
0   a0   b0   c0   d0  NaN  NaN  NaN  NaN   a8   b8   c8   d8
1   a1   b1   c1   d1  NaN  NaN  NaN  NaN  NaN  NaN  NaN  NaN
2   a2   b2   c2   d2  NaN  NaN  NaN  NaN   a9   b9   c9   d9
3   a3   b3   c3   d3  NaN  NaN  NaN  NaN  NaN  NaN  NaN  NaN
4  NaN  NaN  NaN  NaN   a4   b4   c4   d4  NaN  NaN  NaN  NaN
5  NaN  NaN  NaN  NaN   a5   b5   c5   d5  a10  b10  c10  d10
6  NaN  NaN  NaN  NaN   a6   b6   c6   d6  NaN  NaN  NaN  NaN
7  NaN  NaN  NaN  NaN   a7   b7   c7   d7  a11  b11  c11  d11


In [83]:
print(pd.concat([df1,df3], axis = "columns", join= "inner"))

#인덱스 공통인 데이터만 연결

    A   B   C   D   A   C   F   H
0  a0  b0  c0  d0  a8  b8  c8  d8
2  a2  b2  c2  d2  a9  b9  c9  d9


---
## **분할된 데이터 연결하기**
 - 파일 크기 상의 이유로 데이터를 분할하여 저장하는 경우가 흔함

In [85]:
from pathlib import Path

In [97]:
# 같은 컬럼에 대한 병합

billboard_data_files = (
    Path(".")
    .glob("./codes/data/billboard-by_week/billboard-*.csv")
)

billboard_data_files = sorted(list(billboard_data_files))
    #한개의 파일명을 리스트의 요소 하나로 저장
print(billboard_data_files)

[WindowsPath('codes/data/billboard-by_week/billboard-01.csv'), WindowsPath('codes/data/billboard-by_week/billboard-02.csv'), WindowsPath('codes/data/billboard-by_week/billboard-03.csv'), WindowsPath('codes/data/billboard-by_week/billboard-04.csv'), WindowsPath('codes/data/billboard-by_week/billboard-05.csv'), WindowsPath('codes/data/billboard-by_week/billboard-06.csv'), WindowsPath('codes/data/billboard-by_week/billboard-07.csv'), WindowsPath('codes/data/billboard-by_week/billboard-08.csv'), WindowsPath('codes/data/billboard-by_week/billboard-09.csv'), WindowsPath('codes/data/billboard-by_week/billboard-10.csv'), WindowsPath('codes/data/billboard-by_week/billboard-11.csv'), WindowsPath('codes/data/billboard-by_week/billboard-12.csv'), WindowsPath('codes/data/billboard-by_week/billboard-13.csv'), WindowsPath('codes/data/billboard-by_week/billboard-14.csv'), WindowsPath('codes/data/billboard-by_week/billboard-15.csv'), WindowsPath('codes/data/billboard-by_week/billboard-16.csv'), Windows

In [98]:
print(type(billborad_data_files))

#billborad_data_files의 데이터 타입은 제너레이터임 : 한번 사용시 내용이 삭제됨
billborad_data_files = list(billboard_data_files)

<class 'list'>
