# 데이터 관리

## 학습목표
    - Python 데이터 처리 방법 이해 
    - 데이터 선택, 결합 및 변환 방법과 결과 확인 
    - Python을 이용한 실습

## 공통 모듈

In [2]:
# pandas : 데이터 프레임 연산용
import pandas as pd
# numpy : 숫자 연산용
import numpy as np
# random 함수
from numpy.random import rand

## 1. 데이터 선택(연습)

    정규분포에서 추출한 10개의 무작위 데이터로 slice, loc, iloc, query 등을 이용하여 데이터를 선택하라.
    데이터: 정규분포에서 추출한 10개의 무작위 데이터. (변수: 2개, 자료 수: 10개, random seed = 1234)
    
### 절차
    1. 연습 데이터 생성
    2. slice를 이용한 데이터 선택
    3. loc, iloc를 이용한 데이터 선택
    4. query를 이용한 데이터 선택

### 1.1. 연습 데이터 생성

In [3]:
# 샘플 데이터 통일을 위해 seed 고정: 1234
np.random.seed(1234)

# 랜덤 함수를 이용해 df데이터 생성 
df = pd.DataFrame(rand(10,2), columns=['A','B']) 

# df 데이터 출력
df

Unnamed: 0,A,B
0,0.191519,0.622109
1,0.437728,0.785359
2,0.779976,0.272593
3,0.276464,0.801872
4,0.958139,0.875933
5,0.357817,0.500995
6,0.683463,0.712702
7,0.370251,0.561196
8,0.503083,0.013768
9,0.772827,0.882641


### 1.2. slice를 이용한 데이터 선택

#### 1.2.1. 열 선택: Series 반환

In [5]:
# 열 선택: Series 반환
df['A']

0    0.471435
1    1.432707
2   -0.720589
3    0.859588
4    0.015696
5    1.150036
6    0.953324
7   -0.334077
8    0.405453
9    1.321158
Name: A, dtype: float64

#### 1.2.2. 열 선택: DataFrame 반환  

In [6]:
# 열 선택: DataFrame 반환  
df[['A']]

Unnamed: 0,A
0,0.471435
1,1.432707
2,-0.720589
3,0.859588
4,0.015696
5,1.150036
6,0.953324
7,-0.334077
8,0.405453
9,1.321158


#### 1.2.3. 행 선택

In [7]:
# 행 선택
df[0:5]

Unnamed: 0,A,B
0,0.471435,-1.190976
1,1.432707,-0.312652
2,-0.720589,0.887163
3,0.859588,-0.636524
4,0.015696,-2.242685


### 1.3.1. loc를 이용한 데이터 선택

#### 1.3.1.1. loc: 열과 행을 이름으로 지정 가능

In [4]:
# loc: 열과 행을 이름으로 지정 가능
df.loc[0:7,['A']]

Unnamed: 0,A
0,0.191519
1,0.437728
2,0.779976
3,0.276464
4,0.958139
5,0.357817
6,0.683463
7,0.370251


#### 1.3.1.2. 열 선택: DataFrame 반환  

In [9]:
# 열 선택: DataFrame 반환  
df.loc[:, ['A']]

Unnamed: 0,A
0,0.471435
1,1.432707
2,-0.720589
3,0.859588
4,0.015696
5,1.150036
6,0.953324
7,-0.334077
8,0.405453
9,1.321158


#### 1.3.1.3. 행 선택

In [10]:
# 행 선택
df.loc[3:8]

Unnamed: 0,A,B
3,0.859588,-0.636524
4,0.015696,-2.242685
5,1.150036,0.991946
6,0.953324,-2.021255
7,-0.334077,0.002118
8,0.405453,0.289092


#### 1.3.1.4. 단일 행 선택

In [11]:
# 단일 행 선택
df.loc[3:3]

Unnamed: 0,A,B
3,0.859588,-0.636524


### 1.3.2. iloc를 이용한 데이터 선택

![image.png](attachment:image.png)

#### 1.3.2.1. loc: 열과 행을 index번호로 지정 가능

In [12]:
# loc: 열과 행을 index번호로 지정 가능
df.iloc[0:7, [0]] 

Unnamed: 0,A
0,0.471435
1,1.432707
2,-0.720589
3,0.859588
4,0.015696
5,1.150036
6,0.953324


#### 1.3.2.2. 열 선택: DataFrame 반환  

In [13]:
# 열 선택: DataFrame 반환  
df.iloc[:, [0]]

Unnamed: 0,A
0,0.471435
1,1.432707
2,-0.720589
3,0.859588
4,0.015696
5,1.150036
6,0.953324
7,-0.334077
8,0.405453
9,1.321158


#### 1.3.2.3. 행 선택

In [14]:
# 행 선택
df.iloc[3:8]

Unnamed: 0,A,B
3,0.859588,-0.636524
4,0.015696,-2.242685
5,1.150036,0.991946
6,0.953324,-2.021255
7,-0.334077,0.002118


#### 1.3.2.4. 단일 행 선택

In [15]:
# 단일 행 선택
df.iloc[3:4]

Unnamed: 0,A,B
3,0.859588,-0.636524


### 1.4.1. query를 이용한 데이터 선택 - 단일 조건

#### 1.4.1.1. 조건을 이용한 데이터 선택

In [5]:
# 조건을 이용한 데이터 선택
df.query('A > 0.5')

Unnamed: 0,A,B
0,0.191519,0.622109
1,0.437728,0.785359
3,0.276464,0.801872
5,0.357817,0.500995
7,0.370251,0.561196


#### 1.4.1.2. query 와 동일한 slice 표현

In [17]:
# query 와 동일한 slice 표현
df.query('A > B') 

Unnamed: 0,A,B
0,0.471435,-1.190976
1,1.432707,-0.312652
3,0.859588,-0.636524
4,0.015696,-2.242685
5,1.150036,0.991946
6,0.953324,-2.021255
8,0.405453,0.289092
9,1.321158,-1.546906


In [18]:
df[df.A > df.B] 

Unnamed: 0,A,B
0,0.471435,-1.190976
1,1.432707,-0.312652
3,0.859588,-0.636524
4,0.015696,-2.242685
5,1.150036,0.991946
6,0.953324,-2.021255
8,0.405453,0.289092
9,1.321158,-1.546906


### 1.4.2. query를 이용한 데이터 선택 - 복수 조건

#### 1.4.2.1. AND 조건

In [22]:
# 복수 조건을 이용한 데이터 선택
# AND 조건( & 또는 and 가능, AND(대문자)는 불가 )
df.query( 'A > 0.5 and B < 0.0' )

Unnamed: 0,A,B
1,1.432707,-0.312652
3,0.859588,-0.636524
6,0.953324,-2.021255
9,1.321158,-1.546906


#### 1.4.1.2. OR 조건

In [25]:
# OR 조건( | 또는 or 가능, OR(대문자)는 불가 )
df.query( 'A > 0.5 or B < 0.0' )

Unnamed: 0,A,B
0,0.471435,-1.190976
1,1.432707,-0.312652
3,0.859588,-0.636524
4,0.015696,-2.242685
5,1.150036,0.991946
6,0.953324,-2.021255
9,1.321158,-1.546906


## 1. 데이터 선택(실습)

    정규분포에서 추출한 10개의 무작위 데이터로 slice, loc, iloc, query 등을 이용하여 데이터를 선택하라.
    데이터: 정규분포에서 추출한 10개의 무작위 데이터.(변수: 4개, 자료 수: 10개, random seed = 1234)
    
### 절차
    1. 데이터 생성
    2. slice를 이용한 데이터 선택
    3. loc, iloc를 이용한 데이터 선택
    4. query를 이용한 데이터 선택

### 1.1. 데이터 생성

In [14]:
# 샘플 데이터 통일을 위해 seed 고정: 1234
np.random.seed(1234)

# 랜덤 함수를 이용해 df데이터 생성 
df = pd.DataFrame(rand(10,4), columns=['A','B', 'C', 'D']) 

# df 데이터 출력
df

Unnamed: 0,A,B,C,D
0,0.191519,0.622109,0.437728,0.785359
1,0.779976,0.272593,0.276464,0.801872
2,0.958139,0.875933,0.357817,0.500995
3,0.683463,0.712702,0.370251,0.561196
4,0.503083,0.013768,0.772827,0.882641
5,0.364886,0.615396,0.075381,0.368824
6,0.93314,0.651378,0.397203,0.78873
7,0.316836,0.568099,0.869127,0.436173
8,0.802148,0.143767,0.704261,0.704581
9,0.218792,0.924868,0.442141,0.909316


### 1.2. slice를 이용한 데이터 선택

#### 1.2.1. 열 선택: Series 반환

In [21]:
# 열 선택: Series 반환
df['B']

0   -1.190976
1    0.887163
2   -2.242685
3   -2.021255
4    0.289092
5   -0.655969
6   -0.469305
7    1.058969
8    1.045938
9   -0.322795
Name: B, dtype: float64

#### 1.2.2. 열 선택: DataFrame 반환  

In [10]:
# 열 선택: DataFrame 반환  
df[['B','D']]

Unnamed: 0,B,D
0,-1.190976,-0.312652
1,0.887163,-0.636524
2,-2.242685,0.991946
3,-2.021255,0.002118
4,0.289092,-1.546906
5,-0.655969,0.553439
6,-0.469305,-1.817027
7,1.058969,0.337438
8,1.045938,-0.122092
9,-0.322795,2.390961


#### 1.2.3. 행 선택

In [24]:
# 행 선택
df[4:9]

Unnamed: 0,A,B,C,D
4,0.405453,0.289092,1.321158,-1.546906
5,-0.202646,-0.655969,0.193421,0.553439
6,1.318152,-0.469305,0.675554,-1.817027
7,-0.183109,1.058969,-0.39784,0.337438
8,1.047579,1.045938,0.863717,-0.122092


### 1.3.1. loc를 이용한 데이터 선택

#### 1.3.1.1. loc: 열과 행을 이름으로 지정 가능

In [25]:
# loc: 열과 행을 이름으로 지정 가능
df.loc[2:8,['A', 'C']]

Unnamed: 0,A,C
2,0.015696,1.150036
3,0.953324,-0.334077
4,0.405453,1.321158
5,-0.202646,0.193421
6,1.318152,0.675554
7,-0.183109,-0.39784
8,1.047579,0.863717


#### 1.3.1.2. 열 선택: DataFrame 반환  

In [26]:
# 열 선택: DataFrame 반환  
df.loc[:, ['A', 'C']]

Unnamed: 0,A,C
0,0.471435,1.432707
1,-0.720589,0.859588
2,0.015696,1.150036
3,0.953324,-0.334077
4,0.405453,1.321158
5,-0.202646,0.193421
6,1.318152,0.675554
7,-0.183109,-0.39784
8,1.047579,0.863717
9,0.124713,0.841675


#### 1.3.1.3. 행 선택

In [27]:
# 행 선택
df.loc[3:8]

Unnamed: 0,A,B,C,D
3,0.953324,-2.021255,-0.334077,0.002118
4,0.405453,0.289092,1.321158,-1.546906
5,-0.202646,-0.655969,0.193421,0.553439
6,1.318152,-0.469305,0.675554,-1.817027
7,-0.183109,1.058969,-0.39784,0.337438
8,1.047579,1.045938,0.863717,-0.122092


#### 1.3.1.4. 단일 행 선택

In [28]:
# 단일 행 선택
df.loc[3:3]

Unnamed: 0,A,B,C,D
3,0.953324,-2.021255,-0.334077,0.002118


### 1.3.2. iloc를 이용한 데이터 선택

#### 1.3.2.1. loc: 열과 행을 index번호로 지정 가능

In [29]:
# loc: 열과 행을 index번호로 지정 가능
df.iloc[0:7, [0]] 

Unnamed: 0,A
0,0.471435
1,-0.720589
2,0.015696
3,0.953324
4,0.405453
5,-0.202646
6,1.318152


#### 1.3.2.2. 열 선택: DataFrame 반환  

In [30]:
# 열 선택: DataFrame 반환  
df.iloc[:, [0]]

Unnamed: 0,A
0,0.471435
1,-0.720589
2,0.015696
3,0.953324
4,0.405453
5,-0.202646
6,1.318152
7,-0.183109
8,1.047579
9,0.124713


#### 1.3.2.3. 행 선택

In [32]:
# 행 선택
df.iloc[2:7]

Unnamed: 0,A,B,C,D
2,0.015696,-2.242685,1.150036,0.991946
3,0.953324,-2.021255,-0.334077,0.002118
4,0.405453,0.289092,1.321158,-1.546906
5,-0.202646,-0.655969,0.193421,0.553439
6,1.318152,-0.469305,0.675554,-1.817027


#### 1.3.2.4. 단일 행 선택

In [33]:
# 단일 행 선택
df.iloc[5:6]

Unnamed: 0,A,B,C,D
5,-0.202646,-0.655969,0.193421,0.553439


### 1.4.1. query를 이용한 데이터 선택 - 단일 조건

#### 1.4.1.1. 조건을 이용한 데이터 선택

In [34]:
# 조건을 이용한 데이터 선택
df.query('D > 0.5')

Unnamed: 0,A,B,C,D
2,0.015696,-2.242685,1.150036,0.991946
5,-0.202646,-0.655969,0.193421,0.553439
9,0.124713,-0.322795,0.841675,2.390961


#### 1.4.1.2. query 와 동일한 slice 표현

In [35]:
# query 와 동일한 slice 표현
df.query('B > D') 

Unnamed: 0,A,B,C,D
1,-0.720589,0.887163,0.859588,-0.636524
4,0.405453,0.289092,1.321158,-1.546906
6,1.318152,-0.469305,0.675554,-1.817027
7,-0.183109,1.058969,-0.39784,0.337438
8,1.047579,1.045938,0.863717,-0.122092


In [36]:
df[df.B > df.D] 

Unnamed: 0,A,B,C,D
1,-0.720589,0.887163,0.859588,-0.636524
4,0.405453,0.289092,1.321158,-1.546906
6,1.318152,-0.469305,0.675554,-1.817027
7,-0.183109,1.058969,-0.39784,0.337438
8,1.047579,1.045938,0.863717,-0.122092


### 1.4.2. query를 이용한 데이터 선택 - 복수 조건

#### 1.4.2.1. AND 조건

In [15]:
# 복수 조건을 이용한 데이터 선택
# AND 조건( & 대신 AND 사용 불가 )
df.query( 'A > 0.5 and D < 0.0' )

Unnamed: 0,A,B,C,D


#### 1.4.2.2. OR 조건

In [21]:
# OR 조건( | 대신 OR 사용 불가 )
df.query( 'A > 0.5 or D < 0.0' )

Unnamed: 0,A,B,C,D
1,0.779976,0.272593,0.276464,0.801872
2,0.958139,0.875933,0.357817,0.500995
3,0.683463,0.712702,0.370251,0.561196
4,0.503083,0.013768,0.772827,0.882641
6,0.93314,0.651378,0.397203,0.78873
8,0.802148,0.143767,0.704261,0.704581


## 2. 데이터 선택(연습)

    아래와 같은 샘플 데이터 df를 이용해 filter를 실행하라.
    데이터 : 직접 생성한 아래와 같은 df 데이터 (변수 4개, 자료 수 4개)
![image.png](attachment:image.png)
### 절차
    1. 연습 데이터 생성
    2. filter를 이용한 데이터 선택
    3. mask를 이용한 데이터 선택

### 2.1. 연습 데이터 생성

In [22]:
df = pd.DataFrame({'ABC': ['A','B','C','A'], 
    'abc':['a','b','c','c'],
    'group1':['G1','G2','G3','G4'],
    'value1':[11,13,12,14],
    'val1_mod':[0.231,0.197,0.213, 0.199] })

df

Unnamed: 0,ABC,abc,group1,value1,val1_mod
0,A,a,G1,11,0.231
1,B,b,G2,13,0.197
2,C,c,G3,12,0.213
3,A,c,G4,14,0.199


### 2.2. filter를 이용한 컬럼 선택

#### 2.2.1. 컬럼이름 직접 입력

In [41]:
# 컬럼이름 직접 입력
df.filter(items=['group1','value1'])

Unnamed: 0,group1,value1
0,G1,11
1,G2,13
2,G3,12
3,G4,14


#### 2.2.2. regex(regular express) 이용. 변수명이 '1'을 포함 

In [42]:
# regex(regular express) 이용. 변수명이 '1'을 포함 
df.filter(regex='1', axis=1)

Unnamed: 0,group1,value1,val1_mod
0,G1,11,0.231
1,G2,13,0.197
2,G3,12,0.213
3,G4,14,0.199


#### 2.2.3. regex이용. 변수명들 중 변수명이 '1'로 끝나는 컬럼

In [43]:
# regex이용. 변수명들 중 변수명이 '1'로 끝나는 컬럼
df.filter(regex='1$', axis=1)

Unnamed: 0,group1,value1
0,G1,11
1,G2,13
2,G3,12
3,G4,14


#### 2.2.4. 'a' 포함된 컬럼. regex='a'와 동일

In [24]:
# 'a' 포함된 컬럼. regex='a'와 동일
df.filter(like='a', axis=1)

Unnamed: 0,abc,value1,val1_mod
0,a,11,0.231
1,b,13,0.197
2,c,12,0.213
3,c,14,0.199


#### 2.2.5. 'A' 또는 'a' 포함된 컬럼([ ] 이용)

In [45]:
# 'A' 또는 'a' 포함된 컬럼([ ] 이용)
df.filter(regex='[Aa]', axis=1)

Unnamed: 0,ABC,abc,value1,val1_mod
0,A,a,11,0.231
1,B,b,13,0.197
2,C,c,12,0.213
3,A,c,14,0.199


### 2.3. mask를 이용한 데이터 선택

#### 2.3.1. mask

In [48]:
# mask
df.value1 > 12

0    False
1     True
2    False
3     True
Name: value1, dtype: bool

#### 2.3.2. 조건 입력 및 mask 적용

In [46]:
# 조건 입력 및 mask 적용
df.mask(df.value1 > 12 )

Unnamed: 0,ABC,abc,group1,value1,val1_mod
0,A,a,G1,11.0,0.231
1,,,,,
2,C,c,G3,12.0,0.213
3,,,,,


In [47]:
df.mask(df.abc == 'a')

Unnamed: 0,ABC,abc,group1,value1,val1_mod
0,,,,,
1,B,b,G2,13.0,0.197
2,C,c,G3,12.0,0.213
3,A,c,G4,14.0,0.199


#### 2.3.3. 조건 입력 및 mask 적용, 값 변경

In [51]:
# 조건 입력 및 mask 적용, 값 변경
df.mask(cond = df.value1 > 12, other = 999)

Unnamed: 0,ABC,abc,group1,value1,val1_mod
0,A,a,G1,11,0.231
1,999,999,999,999,999.0
2,C,c,G3,12,0.213
3,999,999,999,999,999.0


## 3. 데이터 결합(연습)

    아래와 같은 샘플 데이터 df1, df2, df3을 이용해 concat(세로 결합)을 실행하라.
    데이터 : 직접 생성한 아래와 같은 df1, df2, df3 데이터 (변수 4개, 자료 수 4개)
![image.png](attachment:image.png)
### 절차
    1. 연습 데이터 생성
    2. concat을 이용한 데이터 결합
    3. concat의 parameter 변경

### 3.1. 연습 데이터 생성

In [53]:
# df1, df2, df3 데이터 생성
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
        'B': ['B0', 'B1', 'B2', 'B3'],
        'C': ['C0', 'C1', 'C2', 'C3'],
        'D': ['D0', 'D1', 'D2', 'D3']},
        index=[0, 1, 2, 3])
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
        'B': ['B4', 'B5', 'B6', 'B7'],
        'C': ['C4', 'C5', 'C6', 'C7'],
        'D': ['D4', 'D5', 'D6', 'D7']},
        index=[4, 5, 6, 7])
df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
        'B': ['B8', 'B9', 'B10', 'B11'],
        'C': ['C8', 'C9', 'C10', 'C11'],
        'D': ['D8', 'D9', 'D10', 'D11']},
        index=[8, 9, 10, 11])

In [54]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [55]:
df2

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [56]:
df3

Unnamed: 0,A,B,C,D
8,A8,B8,C8,D8
9,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


### 3.2. concat을 이용한 데이터 결합

In [57]:
# concat을 이용한 df1,df2,df3 결합
result = pd.concat([df1, df2, df3])
# concat 결과 데이터 result 확인
result

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


### 3.3. concat의 parameter 변경

In [58]:
# axis = 1: 세로 결합이 아닌 가로 결합
result = pd.concat([df1, df2, df3], axis = 1)
# concat 결과 데이터 result 확인
result

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,A0,B0,C0,D0,,,,,,,,
1,A1,B1,C1,D1,,,,,,,,
2,A2,B2,C2,D2,,,,,,,,
3,A3,B3,C3,D3,,,,,,,,
4,,,,,A4,B4,C4,D4,,,,
5,,,,,A5,B5,C5,D5,,,,
6,,,,,A6,B6,C6,D6,,,,
7,,,,,A7,B7,C7,D7,,,,
8,,,,,,,,,A8,B8,C8,D8
9,,,,,,,,,A9,B9,C9,D9


In [59]:
# ignore_index = True: 기존 index가 아닌 새로운 index로 재생성
result = pd.concat([df1, df2, df3], axis = 1, ignore_index=True)
# concat 결과 데이터의 변수명 생성
result.columns = ["col_" + str(i) for i in range(12)]
# concat 결과 데이터 result 확인
result

Unnamed: 0,col_0,col_1,col_2,col_3,col_4,col_5,col_6,col_7,col_8,col_9,col_10,col_11
0,A0,B0,C0,D0,,,,,,,,
1,A1,B1,C1,D1,,,,,,,,
2,A2,B2,C2,D2,,,,,,,,
3,A3,B3,C3,D3,,,,,,,,
4,,,,,A4,B4,C4,D4,,,,
5,,,,,A5,B5,C5,D5,,,,
6,,,,,A6,B6,C6,D6,,,,
7,,,,,A7,B7,C7,D7,,,,
8,,,,,,,,,A8,B8,C8,D8
9,,,,,,,,,A9,B9,C9,D9


## 3. 데이터 결합(실습)

    아래와 같은 샘플 데이터 df4, df5, df6을 이용해 concat(세로 결합)을 실행하라.
    데이터 : 직접 생성한 아래와 같은 df4, df5, df6 데이터 (변수 4개, 자료 수 4개)
![image.png](attachment:image.png)
### 절차
    1. 데이터 구성하기
    2. concat을 이용한 데이터 결합
    3. concat의 parameter 변경

### 3.1. 데이터 구성하기

In [81]:
# df1, df2, df3 데이터 생성
df4 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
        'B': ['B0', 'B1', 'B2', 'B3'],
        'C': ['C0', 'C1', 'C2', 'C3'],
        'D': ['D0', 'D1', 'D2', 'D3']})
df5 = pd.DataFrame({'E': ['E4', 'E5', 'E6', 'E7'],
        'F': ['F4', 'F5', 'F6', 'F7'],
        'G': ['G4', 'G5', 'G6', 'G7'],
        'H': ['H4', 'H5', 'H6', 'H7']})
df6 = pd.DataFrame({'I': ['I8', 'I9', 'I10', 'I11'],
        'J': ['J8', 'J9', 'J10', 'J11'],
        'K': ['K8', 'K9', 'K10', 'K11'],
        'L': ['L8', 'L9', 'L10', 'L11']})

In [82]:
df4

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [83]:
df5

Unnamed: 0,E,F,G,H
0,E4,F4,G4,H4
1,E5,F5,G5,H5
2,E6,F6,G6,H6
3,E7,F7,G7,H7


In [84]:
df6

Unnamed: 0,I,J,K,L
0,I8,J8,K8,L8
1,I9,J9,K9,L9
2,I10,J10,K10,L10
3,I11,J11,K11,L11


### 3.2. concat을 이용한 데이터 결합

In [87]:
# concat을 이용한 df4,df5,df6 결합
result = pd.concat([df4, df5, df6])
# concat 결과 데이터 result 확인
result

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  


Unnamed: 0,A,B,C,D,E,F,G,H,I,J,K,L
0,A0,B0,C0,D0,,,,,,,,
1,A1,B1,C1,D1,,,,,,,,
2,A2,B2,C2,D2,,,,,,,,
3,A3,B3,C3,D3,,,,,,,,
0,,,,,E4,F4,G4,H4,,,,
1,,,,,E5,F5,G5,H5,,,,
2,,,,,E6,F6,G6,H6,,,,
3,,,,,E7,F7,G7,H7,,,,
0,,,,,,,,,I8,J8,K8,L8
1,,,,,,,,,I9,J9,K9,L9


### 3.3. concat의 parameter 변경

In [86]:
# axis = 1 (좌+우 결합)
result = pd.concat([df4, df5, df6], axis = 1)
# concat 결과 데이터 result 확인
result

Unnamed: 0,A,B,C,D,E,F,G,H,I,J,K,L
0,A0,B0,C0,D0,E4,F4,G4,H4,I8,J8,K8,L8
1,A1,B1,C1,D1,E5,F5,G5,H5,I9,J9,K9,L9
2,A2,B2,C2,D2,E6,F6,G6,H6,I10,J10,K10,L10
3,A3,B3,C3,D3,E7,F7,G7,H7,I11,J11,K11,L11


## 4. 데이터 결합(연습)

    아래와 같은 샘플 데이터 left, right을 이용해 merge를 실행하라.
    데이터 : 직접 생성한 아래와 같은 left, right 데이터 (변수 4개, 자료 수 4개)
![image.png](attachment:image.png)
### 절차
    1. 연습 데이터 생성
    2. merge를 이용한 결합
    3. parameter 변경(how)

### 4.1. 연습 데이터 생성

In [88]:
# left, right 데이터 생성
left = pd.DataFrame({'key1': ['K0', 'K1', 'K2', 'K3'],
        'key2': ['K0', 'K1', 'K0', 'K1'],
        'A': ['A0', 'A1', 'A2', 'A3'],
        'B': ['B0', 'B1', 'B2', 'B3']})
right = pd.DataFrame({'key1': ['K0', 'K1', 'K2', 'K3'],
        'key2': ['K0', 'K0', 'K0', 'K0'],
        'C': ['C0', 'C1', 'C2', 'C3'],
        'D': ['D0', 'D1', 'D2', 'D3']})

In [89]:
left

Unnamed: 0,key1,key2,A,B
0,K0,K0,A0,B0
1,K1,K1,A1,B1
2,K2,K0,A2,B2
3,K3,K1,A3,B3


In [90]:
right

Unnamed: 0,key1,key2,C,D
0,K0,K0,C0,D0
1,K1,K0,C1,D1
2,K2,K0,C2,D2
3,K3,K0,C3,D3


### 4.2. merge를 이용한 결합

In [91]:
# merge 결과 result 생성
result = pd.merge(left, right, on=['key1','key2'])
result

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K2,K0,A2,B2,C2,D2


* how : (default)inner

### 4.3. parameter 변경

#### 4.3.1. left

In [92]:
# how = left
result = pd.merge(left, right, on=['key1','key2'], how='left')
result

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K1,A1,B1,,
2,K2,K0,A2,B2,C2,D2
3,K3,K1,A3,B3,,


#### 4.3.2. right

In [93]:
# how = right
result = pd.merge(left, right, on=['key1','key2'], how='right')
result

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K2,K0,A2,B2,C2,D2
2,K1,K0,,,C1,D1
3,K3,K0,,,C3,D3


#### 4.3.3. outer

In [95]:
# how = outer
result = pd.merge(left, right, on=['key1','key2'], how='outer')
result

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K1,A1,B1,,
2,K2,K0,A2,B2,C2,D2
3,K3,K1,A3,B3,,
4,K1,K0,,,C1,D1
5,K3,K0,,,C3,D3


#### 4.3.4. indicator

In [97]:
# indicator
result = pd.merge(left, right, on=['key1','key2'], how='outer', indicator=True)
result

Unnamed: 0,key1,key2,A,B,C,D,_merge
0,K0,K0,A0,B0,C0,D0,both
1,K1,K1,A1,B1,,,left_only
2,K2,K0,A2,B2,C2,D2,both
3,K3,K1,A3,B3,,,left_only
4,K1,K0,,,C1,D1,right_only
5,K3,K0,,,C3,D3,right_only


## 5. 데이터 결합(연습)

    아래와 같은 샘플 데이터 left, right를 이용해 join을 실행하라.
    데이터: 직접 생성한 아래와 같은 left, right 데이터
    (left: 변수 3개, 자료 수 4개, right: 변수 2개, 자료 수 3개)
![image.png](attachment:image.png)
### 절차
    1. 데이터 구성하기
    2. join을 이용한 결합
    3. parameter 변경(how, on)
    4. merge와의 비교

### 5.1. 데이터 구성하기

In [98]:
# left, right 데이터 생성
left = pd.DataFrame({'key1': [1, 2, 3, 4],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})

right = pd.DataFrame({'C': ['C1', 'C2', 'C5'],
                      'D': ['D1', 'D2', 'D5']},
                      index=[1, 2, 5])

In [99]:
left

Unnamed: 0,key1,A,B
0,1,A0,B0
1,2,A1,B1
2,3,A2,B2
3,4,A3,B3


In [100]:
right

Unnamed: 0,C,D
1,C1,D1
2,C2,D2
5,C5,D5


### 5.2. join을 이용한 결합

In [101]:
# join 결과 result 생성
result = left.join(right)
result

Unnamed: 0,key1,A,B,C,D
0,1,A0,B0,,
1,2,A1,B1,C1,D1
2,3,A2,B2,C2,D2
3,4,A3,B3,,


* key를 주지 않으면 index끼리 join

### 5.3. parameter 변경(how)

#### 5.3.1. right

In [102]:
# how = right
result = left.join(right, how='right')
result

Unnamed: 0,key1,A,B,C,D
1,2.0,A1,B1,C1,D1
2,3.0,A2,B2,C2,D2
5,,,,C5,D5


#### 5.3.2. inner

In [103]:
# how = inner
result = left.join(right, how='inner')
result

Unnamed: 0,key1,A,B,C,D
1,2,A1,B1,C1,D1
2,3,A2,B2,C2,D2


#### 5.3.3. outer

In [104]:
# how = outer
result = left.join(right, how='outer')
result

Unnamed: 0,key1,A,B,C,D
0,1.0,A0,B0,,
1,2.0,A1,B1,C1,D1
2,3.0,A2,B2,C2,D2
3,4.0,A3,B3,,
5,,,,C5,D5


#### 5.3.4. on

In [105]:
# on: join의 key를 지정(left의 column명)
result = left.join(right, on='key1')
result

Unnamed: 0,key1,A,B,C,D
0,1,A0,B0,C1,D1
1,2,A1,B1,C2,D2
2,3,A2,B2,,
3,4,A3,B3,,


### 5.4. merge와의 비교

#### 5.4.1. join으로 결합

In [106]:
# join으로 결합
result = left.join(right, on='key1')
result

Unnamed: 0,key1,A,B,C,D
0,1,A0,B0,C1,D1
1,2,A1,B1,C2,D2
2,3,A2,B2,,
3,4,A3,B3,,


#### 5.4.2. merge로 결합

In [107]:
# merge로 결합
result2 = pd.merge(left, right, left_on='key1', right_index=True, how='left');
result2

Unnamed: 0,key1,A,B,C,D
0,1,A0,B0,C1,D1
1,2,A1,B1,C2,D2
2,3,A2,B2,,
3,4,A3,B3,,


## 5. 데이터 결합(실습)

    아래는 나이와 몸무게 데이터, 운동에 따른 혈당 산소 요구량 데이터이다.
    아래의 두 데이터를 merge를 이용해 FITNESS 데이터로 만들어라.
    데이터1: FITNESS_1.CSV(변수: 5개, 자료 수: 31개)
    데이터2: FITNESS_2.CSV(변수: 8개, 자료 수: 31개)
![image.png](attachment:image.png)
### 절차
    1. 데이터 구성하기
    2. merge를 이용한 결합
    3. 원본 fitness 데이터와 비교

### 5.1. 데이터 구성하기

In [108]:
filepath = "D:/WORK/DATA/"
df_fitness_1 = pd.read_csv("".join([filepath, "FITNESS_1.csv"]))
df_fitness_2 = pd.read_csv("".join([filepath, "FITNESS_2.csv"]))
df_fitness = pd.read_csv("".join([filepath, "FITNESS_RAW.csv"]))

print("FITNESS_1 데이터 크기: ", df_fitness_1.shape)
print("FITNESS_2 데이터 크기: ", df_fitness_2.shape)
print("FITNESS 데이터 크기: ", df_fitness.shape)

FITNESS_1 데이터 크기:  (31, 8)
FITNESS_2 데이터 크기:  (31, 5)
FITNESS 데이터 크기:  (31, 10)


In [109]:
df_fitness_1.head()

Unnamed: 0,NAME,GENDER,AGE,OXY,RUNTIME,RUNPULSE,RSTPULSE,MAXPULSE
0,Donna,여성,42,59.571,8.17,166,40,172
1,Gracie,여성,38,60.055,8.63,170,48,186
2,Luanne,여성,43,54.297,8.65,156,45,168
3,Mimi,여성,50,54.625,8.92,146,48,155
4,Chris,남성,49,49.156,8.95,180,44,185


In [110]:
df_fitness_2.head()

Unnamed: 0,NAME,GENDER,AGE,AGEGROUP,WEIGHT
0,Donna,여성,42,40대,68.15
1,Gracie,여성,38,30대,81.87
2,Luanne,여성,43,40대,85.84
3,Mimi,여성,50,50대,70.87
4,Chris,남성,49,40대,81.42


In [111]:
df_fitness.head()

Unnamed: 0,NAME,GENDER,AGE,AGEGROUP,WEIGHT,OXY,RUNTIME,RUNPULSE,RSTPULSE,MAXPULSE
0,Donna,여성,42,40대,68.15,59.571,8.17,166,40,172
1,Gracie,여성,38,30대,81.87,60.055,8.63,170,48,186
2,Luanne,여성,43,40대,85.84,54.297,8.65,156,45,168
3,Mimi,여성,50,50대,70.87,54.625,8.92,146,48,155
4,Chris,남성,49,40대,81.42,49.156,8.95,180,44,185


### 5.2. merge를 이용한 결합

In [112]:
df_fitness_merge = pd.merge(df_fitness_1, df_fitness_2, how = 'inner')
print("merge 데이터 크기: ", df_fitness_merge.shape)
df_fitness_merge.head()

merge 데이터 크기:  (31, 10)


Unnamed: 0,NAME,GENDER,AGE,OXY,RUNTIME,RUNPULSE,RSTPULSE,MAXPULSE,AGEGROUP,WEIGHT
0,Donna,여성,42,59.571,8.17,166,40,172,40대,68.15
1,Gracie,여성,38,60.055,8.63,170,48,186,30대,81.87
2,Luanne,여성,43,54.297,8.65,156,45,168,40대,85.84
3,Mimi,여성,50,54.625,8.92,146,48,155,50대,70.87
4,Chris,남성,49,49.156,8.95,180,44,185,40대,81.42


### 5.3. 원본 FITNESS 데이터와 비교

#### 5.3.1. equals method를 이용하여 두 데이터 비교

In [113]:
df_fitness_merge.equals(df_fitness)

False

In [118]:
print("merge 데이터의 열 목록: ", df_fitness_merge.columns.tolist())
print("원본 데이터의 열 목록: ", df_fitness.columns.tolist())

merge 데이터의 열 목록:  ['NAME', 'GENDER', 'AGE', 'OXY', 'RUNTIME', 'RUNPULSE', 'RSTPULSE', 'MAXPULSE', 'AGEGROUP', 'WEIGHT']
원본 데이터의 열 목록:  ['NAME', 'GENDER', 'AGE', 'AGEGROUP', 'WEIGHT', 'OXY', 'RUNTIME', 'RUNPULSE', 'RSTPULSE', 'MAXPULSE']


#### 5.3.1. 변수들의 순서를 동일하게 배열 후 비교

In [119]:
df_fitness_merge[df_fitness.columns].equals(df_fitness)

True

* merge를 이용하여 원본과 동일한 데이터를 얻음
* equals method로 두 데이터 비교 가능(순서까지 동일해야 함)

## 6. 데이터 변환(연습)

    아래와 같은 샘플 데이터 df을 이용해 pivot과 melt를 실행하라.
    데이터: 직접 생성한 아래와 같은 df 데이터 (변수 4개, 자료 수 6개)
![image.png](attachment:image.png)
### 절차
    1. 연습 데이터 생성
    2. pivot을 이용한 변환
    3. melt를 이용한 변환

### 6.1. 연습 데이터 생성

In [120]:
# df 데이터 생성
df = pd.DataFrame({'index': [1,1,1,2,2,2],
                    'column': ['col_1', 'col_2', 'col_3', 'col_1', 'col_2', 'col_3'],
                    'value_1': [1, 2, 3, 4, 5, 6],
                    'value_2': ['x', 'y', 'z', 'q', 'w', 't']})
df

Unnamed: 0,index,column,value_1,value_2
0,1,col_1,1,x
1,1,col_2,2,y
2,1,col_3,3,z
3,2,col_1,4,q
4,2,col_2,5,w
5,2,col_3,6,t


### 6.2. pivot을 이용한 변환

#### 6.2.1. pivot: index, column, values를 지정하여 pivot

In [121]:
# pivot: index, column, values를 지정하여 pivot
df.pivot(index='index', columns='column', values='value_1')

column,col_1,col_2,col_3
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,1,2,3
2,4,5,6


#### 6.2.2. 동일한 기능 다른 표현

In [122]:
# 동일한 기능 다른 표현
df.pivot(index='index', columns='column')['value_1']

column,col_1,col_2,col_3
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,1,2,3
2,4,5,6


#### 6.2.3. 복수의 pivot column 지정

In [123]:
# 복수의 pivot column 지정
df.pivot(index='index', columns='column', values=['value_1','value_2'])

Unnamed: 0_level_0,value_1,value_1,value_1,value_2,value_2,value_2
column,col_1,col_2,col_3,col_1,col_2,col_3
index,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
1,1,2,3,x,y,z
2,4,5,6,q,w,t


#### 6.2.4. pivot column 미지정

In [124]:
# pivot column 미지정
df.pivot(index='index', columns='column')

Unnamed: 0_level_0,value_1,value_1,value_1,value_2,value_2,value_2
column,col_1,col_2,col_3,col_1,col_2,col_3
index,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
1,1,2,3,x,y,z
2,4,5,6,q,w,t


#### 6.2.5. index 미지정 시 변환되는 데이터 구조 주의 

In [125]:
# index 미지정 시 변환되는 데이터 구조 주의 
df.pivot(columns='column', values='value_1')

column,col_1,col_2,col_3
0,1.0,,
1,,2.0,
2,,,3.0
3,4.0,,
4,,5.0,
5,,,6.0


### 6.3. melt를 이용한 변환

#### 6.3.1. id_vars 지정

In [126]:
# melt: id_vars를 제외한 나머지 컬럼을 풀어서 쌓음
df.melt(id_vars=['index','column'])

Unnamed: 0,index,column,variable,value
0,1,col_1,value_1,1
1,1,col_2,value_1,2
2,1,col_3,value_1,3
3,2,col_1,value_1,4
4,2,col_2,value_1,5
5,2,col_3,value_1,6
6,1,col_1,value_2,x
7,1,col_2,value_2,y
8,1,col_3,value_2,z
9,2,col_1,value_2,q


#### 6.3.2. id_vars & value_vars 지정

In [127]:
# id 및 value 컬럼 지정
df.melt(id_vars=['index','column'], value_vars=['value_1'])

Unnamed: 0,index,column,variable,value
0,1,col_1,value_1,1
1,1,col_2,value_1,2
2,1,col_3,value_1,3
3,2,col_1,value_1,4
4,2,col_2,value_1,5
5,2,col_3,value_1,6


## 6. 데이터 변환(실습)

    아래는 운동에 따른 혈당 산소 요구량 데이터이다. pivot을 이용하여 GENDER와 AGEGROUP별 WEIGHT의 평균을 아래와 같이 변환하라.
    데이터: FITNESS_RAW.CSV(변수: 10개, 자료 수: 31개)
![image.png](attachment:image.png)

![image.png](attachment:image.png)
### 절차
    1. 데이터 구성하기
    2. groupby, agg를 이용한 평균값 계산
    3. pivot을 이용한 변환

### 6.1. 데이터 구성하기

In [128]:
filepath = "D:/WORK/DATA/"
df_fitness = pd.read_csv("".join([filepath, "FITNESS_RAW.csv"]))
print("FITNESS 데이터 크기: ", df_fitness.shape)
df_fitness.head()

FITNESS 데이터 크기:  (31, 10)


Unnamed: 0,NAME,GENDER,AGE,AGEGROUP,WEIGHT,OXY,RUNTIME,RUNPULSE,RSTPULSE,MAXPULSE
0,Donna,여성,42,40대,68.15,59.571,8.17,166,40,172
1,Gracie,여성,38,30대,81.87,60.055,8.63,170,48,186
2,Luanne,여성,43,40대,85.84,54.297,8.65,156,45,168
3,Mimi,여성,50,50대,70.87,54.625,8.92,146,48,155
4,Chris,남성,49,40대,81.42,49.156,8.95,180,44,185


### 6.2. groupby, agg를 이용한 평균값 계산

In [129]:
df_agg = df_fitness.groupby(["GENDER", "AGEGROUP"], as_index = False)["WEIGHT"].agg("mean")
df_agg

Unnamed: 0,GENDER,AGEGROUP,WEIGHT
0,남성,30대,81.08
1,남성,40대,85.465
2,남성,50대,79.426
3,여성,30대,78.925
4,여성,40대,72.94375
5,여성,50대,70.856667


### 6.3. pivot을 이용한 변환

#### 6.3.1. pivot

In [131]:
df_pivot = df_agg.pivot(index = "GENDER", columns = "AGEGROUP", values = "WEIGHT")
df_pivot

AGEGROUP,30대,40대,50대
GENDER,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
남성,81.08,85.465,79.426
여성,78.925,72.94375,70.856667


#### 6.3.2. pivot 데이터 transpose

In [132]:
df_pivot.T

GENDER,남성,여성
AGEGROUP,Unnamed: 1_level_1,Unnamed: 2_level_1
30대,81.08,78.925
40대,85.465,72.94375
50대,79.426,70.856667


### 6.4. pivot_table을 이용한 집계(참조)

In [133]:
pd.pivot_table(df_fitness, values = "WEIGHT", index = "GENDER", columns = "AGEGROUP", aggfunc = "mean")

AGEGROUP,30대,40대,50대
GENDER,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
남성,81.08,85.465,79.426
여성,78.925,72.94375,70.856667


## 7. 데이터 변환(연습)

    아래와 같은 샘플 데이터 df을 이용해 stack과 unstack을 실행하라.
    데이터: 직접 생성한 아래와 같은 df 데이터 (변수 4개, 자료 수 3개)
![image.png](attachment:image.png)
### 절차
    1. 연습 데이터 생성
    2. stack을 이용한 변환
    3. unstack을 이용한 변환

### 7.1. 연습 데이터 생성

In [134]:
# df 데이터 생성
df = pd.DataFrame({'index': [1,2,3],
                    'alpha': ['A', 'B', 'C'],
                    'values': [11, 22, 33],
                    'xyz': ['x', 'y', 'z']})
df

Unnamed: 0,index,alpha,values,xyz
0,1,A,11,x
1,2,B,22,y
2,3,C,33,z


### 7.2. stack을 이용한 변환

In [140]:
# index를 기준으로 변수들을 변환
df_stack = df.stack()
# 변환 결과 확인
print("stack 데이터 크기: ", df_stack.shape) # (12,) 배열
print("stack 데이터 type: ", type(df_stack)) # Series
df_stack

stack 데이터 크기:  (12,)
stack 데이터 type:  <class 'pandas.core.series.Series'>


0  index      1
   alpha      A
   values    11
   xyz        x
1  index      2
   alpha      B
   values    22
   xyz        y
2  index      3
   alpha      C
   values    33
   xyz        z
dtype: object

### 7.3. unstack을 이용한 변환

In [138]:
# stack된 데이터를 원래의 형태로 변환
df_unstack = df_stack.unstack()
df_unstack

Unnamed: 0,index,alpha,values,xyz
0,1,A,11,x
1,2,B,22,y
2,3,C,33,z


## 8. 데이터 변환(연습)

    아래와 같은 샘플 데이터 df을 이용해 crosstab을 실행하라.
    데이터: 직접 생성한 아래와 같은 df 데이터 (변수 3개, 자료 수 9개)
![image.png](attachment:image.png)
### 절차
    1. 연습 데이터 생성
    2. crosstab을 이용한 요약
    3. crosstab을 이용한 구성비율 산출

### 8.1. 연습 데이터 생성

In [141]:
# df 데이터 생성
df = pd.DataFrame({'factor1': ['A', 'A', 'A', 'A', 'A','B','B','B', 'B'],
                    'factor2':['a','b','c','a','b','a','b', 'c','c'],
                    'value':[11,13,12,12,14,12,13,11,12]})
df

Unnamed: 0,factor1,factor2,value
0,A,a,11
1,A,b,13
2,A,c,12
3,A,a,12
4,A,b,14
5,B,a,12
6,B,b,13
7,B,c,11
8,B,c,12


### 8.2. crosstab을 이용한 요약

#### 8.2.1. crosstab default

In [143]:
# index, columns 지정
pd.crosstab(df.factor1, df.factor2) 

factor2,a,b,c
factor1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,2,2,1
B,1,1,2


#### 8.2.2. crosstab margin 추가

In [142]:
# 행/열 명칭 부여 및 margin 추가
pd.crosstab(df.factor1, df.factor2, 
            rownames=['Fact1'],colnames=['Fact2'],
            margins=True)

Fact2,a,b,c,All
Fact1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,2,2,1,5
B,1,1,2,4
All,3,3,3,9


#### 8.2.3. 복수의 컬럼 지정

In [144]:
# index-1개, columns-복수 개 컬럼 지정 가능
pd.crosstab(df.factor1, [df.factor2, df.value])

factor2,a,a,b,b,c,c
value,11,12,13,14,11,12
factor1,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,1,1,1,1,0,1
B,0,1,1,0,1,1


### 8.3. crosstab을 이용한 구성비율 산출

In [146]:
# 각 셀의 빈도 기준 정규화 확률 산출
pd.crosstab(df.factor1, df.factor2, margins=True, normalize=True).round(3)

factor2,a,b,c,All
factor1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,0.222,0.222,0.111,0.556
B,0.111,0.111,0.222,0.444
All,0.333,0.333,0.333,1.0
