## Pandas_Data Processing 

### 데이터 연결 : concat() 함수
- concat() : 특정 axis에 따라 판다스 개체를 연결
    - 연결 axis에 계층적 인덱싱 레이어를 추가할 수 있다.
    - 레이블이 전달된 axis 번호에서 동일하거나 겹치는 경우 유용
    - axis=0 : 행 방향으로 연결
    - axis=1 : 열 방향으로 연결
    - keys : 멀티 인덱스를 사용하려면 keys 튜플입력
    - names : index의 이름을 부여하려면 names 튜플입력

In [1]:
import numpy as np
import pandas as pd

In [3]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']})
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [4]:
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']})
df2

Unnamed: 0,A,B,C,D
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7


In [5]:
result = pd.concat([df1, df2])
result

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7


- `ignore_index` : bool, default False
    - True이면, index를 무시하고 새로운 index를 생성
    - False이면, index를 유지

In [6]:
result = pd.concat([df1, df2], ignore_index= True)
result

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


- axis : {0/'index,/'columns'}, default 0
    - 0 : index를 따라 연결
    - 1 : column을 따라 연결

In [7]:
df3 = pd.DataFrame({'E': ['E0', 'E1', 'E2', 'E3'],
                    'F': ['F0', 'F1', 'F2', 'F3']})
df3

Unnamed: 0,E,F
0,E0,F0
1,E1,F1
2,E2,F2
3,E3,F3


In [8]:
result = pd.concat([df1, df3], axis=0)
result

Unnamed: 0,A,B,C,D,E,F
0,A0,B0,C0,D0,,
1,A1,B1,C1,D1,,
2,A2,B2,C2,D2,,
3,A3,B3,C3,D3,,
0,,,,,E0,F0
1,,,,,E1,F1
2,,,,,E2,F2
3,,,,,E3,F3


In [9]:
# NaN값을 뺀 교집합?
result = pd.concat([df1, df2], axis=1)
result

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1
0,A0,B0,C0,D0,A4,B4,C4,D4
1,A1,B1,C1,D1,A5,B5,C5,D5
2,A2,B2,C2,D2,A6,B6,C6,D6
3,A3,B3,C3,D3,A7,B7,C7,D7


- join : {'inner', 'outer'}, default 'outer'
    - 'outer' : 데이터 손실이 없는 결합연결(합집합)

In [10]:
df4 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7']})
df4

Unnamed: 0,A,B,C
0,A4,B4,C4
1,A5,B5,C5
2,A6,B6,C6
3,A7,B7,C7


In [11]:
result1 = pd.concat([df1, df4], ignore_index=True)
result1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,
5,A5,B5,C5,
6,A6,B6,C6,
7,A7,B7,C7,


In [13]:
result1 = pd.concat([df1, df4], join='outer', ignore_index=True)
result1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,
5,A5,B5,C5,
6,A6,B6,C6,
7,A7,B7,C7,


- inner : 공통된 부분만 교차연결(intersection)

In [14]:
df4

Unnamed: 0,A,B,C
0,A4,B4,C4
1,A5,B5,C5
2,A6,B6,C6
3,A7,B7,C7


In [15]:
result = pd.concat([df1, df4])
result

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
0,A4,B4,C4,
1,A5,B5,C5,
2,A6,B6,C6,
3,A7,B7,C7,


In [16]:
result1 = pd.concat([df1, df4], join='inner', ignore_index=True)
result1

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2
3,A3,B3,C3
4,A4,B4,C4
5,A5,B5,C5
6,A6,B6,C6
7,A7,B7,C7


In [17]:
result1 = pd.concat([df1, df4], join='inner', ignore_index=False)
result1

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2
3,A3,B3,C3
0,A4,B4,C4
1,A5,B5,C5
2,A6,B6,C6
3,A7,B7,C7


In [22]:
result1 = pd.concat([df1,df4], join='inner', axis=1, ignore_index=True)
result1

Unnamed: 0,0,1,2,3,4,5,6
0,A0,B0,C0,D0,A4,B4,C4
1,A1,B1,C1,D1,A5,B5,C5
2,A2,B2,C2,D2,A6,B6,C6
3,A3,B3,C3,D3,A7,B7,C7


### 계층적 인덱싱
- 행이나 열에 여러 계층을 가지는 인덱스
    - index, columns 같은 인수 다음에 리스트의 리스트 형태로 작성
- concat() : keys : squence, default None
    - 전달된 keys값들을 이용해 가장 바깥쪽 레벨의 계층적 index 생성

In [23]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [24]:
df2

Unnamed: 0,A,B,C,D
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7


In [26]:
result = pd.concat([df1, df2], keys=['x','y'])
result

Unnamed: 0,Unnamed: 1,A,B,C,D
x,0,A0,B0,C0,D0
x,1,A1,B1,C1,D1
x,2,A2,B2,C2,D2
x,3,A3,B3,C3,D3
y,0,A4,B4,C4,D4
y,1,A5,B5,C5,D5
y,2,A6,B6,C6,D6
y,3,A7,B7,C7,D7


In [27]:
result.loc['x']

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [33]:
result.loc['x', 2]

A    A2
B    B2
C    C2
D    D2
Name: (x, 2), dtype: object

In [47]:
result.loc[('x', 2),'C'] # 딕셔너리에서 키값은 튜플로 묶어야한다.

'C2'

In [60]:
result.iloc[6, 3]

'D6'

- 인덱스 (row)의 멀티인덱스

In [48]:
# 멀티 인덱스 시리즈 생성
data = pd.Series(np.random.randn(9),
                 index=[['a', 'a', 'a', 'b', 'b', 'c', 'c', 'd', 'd'],
                        [1, 2, 3, 1, 3, 1, 2, 2, 3]])
data

a  1   -0.356783
   2    0.307477
   3   -0.772679
b  1   -0.038593
   3   -0.583830
c  1   -1.267785
   2   -1.305093
d  2   -0.670091
   3    0.782233
dtype: float64

In [49]:
data.index

MultiIndex([('a', 1),
            ('a', 2),
            ('a', 3),
            ('b', 1),
            ('b', 3),
            ('c', 1),
            ('c', 2),
            ('d', 2),
            ('d', 3)],
           )

In [50]:
data[['b','d']]

b  1   -0.038593
   3   -0.583830
d  2   -0.670091
   3    0.782233
dtype: float64

In [51]:
data['a',1]

np.float64(-0.3567831460533454)

In [52]:
print(data['a'])
print(data['b':'c'])
print(data[['b','d']])

1   -0.356783
2    0.307477
3   -0.772679
dtype: float64
b  1   -0.038593
   3   -0.583830
c  1   -1.267785
   2   -1.305093
dtype: float64
b  1   -0.038593
   3   -0.583830
d  2   -0.670091
   3    0.782233
dtype: float64


In [53]:
# 계층 구분하여 여러 데이터 선택
# data[['a','d'],2] #error
# data.iloc[[0,3], 1]
data.loc[['a','d'], 2]

a  2    0.307477
d  2   -0.670091
dtype: float64

In [54]:
# data.iloc[[0,3],1]
# data.iloc[0,3]
data.iloc[0]

np.float64(-0.3567831460533454)

In [55]:
data.iloc[0:3]

a  1   -0.356783
   2    0.307477
   3   -0.772679
dtype: float64

In [56]:
data.iloc[[0]]

a  1   -0.356783
dtype: float64

- 컬럼의 멀티인덱스

In [61]:
frame = pd.DataFrame(np.arange(12).reshape((4, 3)),
                     index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
                     columns=[["Ohio", "Ohio", "Colorado"],
                              ["Green", "Red", "Green"]])
frame

Unnamed: 0_level_0,Unnamed: 1_level_0,Ohio,Ohio,Colorado
Unnamed: 0_level_1,Unnamed: 1_level_1,Green,Red,Green
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [62]:
# 계층별로 인덱스의 이름을 지정할 수 있다.
frame.index.names = ['key1', 'key2']
frame.columns.names = ['state', 'color']
frame

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [63]:
# 인덱스 확인
frame.index

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           names=['key1', 'key2'])

In [64]:
frame.columns

MultiIndex([(    'Ohio', 'Green'),
            (    'Ohio',   'Red'),
            ('Colorado', 'Green')],
           names=['state', 'color'])

In [65]:
# 부분적 인덱싱 및 하위 계층 선택
print(frame['Ohio'])
print('---------')
print(frame['Ohio', 'Green'])

color      Green  Red
key1 key2            
a    1         0    1
     2         3    4
b    1         6    7
     2         9   10
---------
key1  key2
a     1       0
      2       3
b     1       6
      2       9
Name: (Ohio, Green), dtype: int64


In [66]:
print(frame.loc['b', 'Ohio'])
print('------------------')
print(frame.loc['b','Ohio'].loc[1, 'Red'])

color  Green  Red
key2             
1          6    7
2          9   10
------------------
7


In [67]:
frame.iloc[2, 1]

np.int64(7)

In [68]:
frame.iloc[1]

state     color
Ohio      Green    3
          Red      4
Colorado  Green    5
Name: (a, 2), dtype: int64

In [69]:
frame.iloc[[1,2]]

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,2,3,4,5
b,1,6,7,8


In [70]:
# 0~3행까지 모든 데이터  추출
frame.iloc[0:4]

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [71]:
frame.iloc[[2,3], [0,1]]

Unnamed: 0_level_0,state,Ohio,Ohio
Unnamed: 0_level_1,color,Green,Red
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2
b,1,6,7
b,2,9,10


In [73]:
# 0~3행까지 1열 데이터 추출
frame.iloc[0:4, 1]

key1  key2
a     1        1
      2        4
b     1        7
      2       10
Name: (Ohio, Red), dtype: int64

In [74]:
# 0~3행까지 1, 2 열 데이터 추출
frame.iloc[0:4, 1:3]

Unnamed: 0_level_0,state,Ohio,Colorado
Unnamed: 0_level_1,color,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2
a,1,1,2
a,2,4,5
b,1,7,8
b,2,10,11
