## 데이터 결합

### 1. concat

In [1]:
import pandas as pd

# 예제 데이터프레임 생성
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                    'B': ['B0', 'B1', 'B2']})

df2 = pd.DataFrame({'A': ['A3', 'A4', 'A5'],
                    'B': ['B3', 'B4', 'B5']})

In [5]:
pd.concat([df1, df2])
# 인덱스 번호가 그대로 들어온다

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A2,B2
0,A3,B3
1,A4,B4
2,A5,B5


In [6]:
pd.concat([df1, df2], ignore_index=True)

#인덱스 번호를 무시하여 새로운 인덱스로 정렬되게 한다

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A2,B2
3,A3,B3
4,A4,B4
5,A5,B5


In [7]:
pd.concat([df1, df2], axis=1)

# 자동으로 인덱스에 맞춰서 옆으로 붙는다

Unnamed: 0,A,B,A.1,B.1
0,A0,B0,A3,B3
1,A1,B1,A4,B4
2,A2,B2,A5,B5


### 2. merge

In [8]:
df1 = pd.DataFrame({'key': ['K0', 'K1', 'K2'],
                    'A': ['A0', 'A1', 'A2']})

df2 = pd.DataFrame({'key': ['K0', 'K1', 'K2'],
                    'B': ['B0', 'B1', 'B2']})

In [11]:
# 동일한 키 값을 기준으로 합친다

pd.merge(df1, df2)

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2


In [13]:
pd.merge(df1, df2, on='key')

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2


In [14]:
pd.merge(df2, df1, on='key')
# 앞에 순서에 맞춰서 나타낸다

Unnamed: 0,key,B,A
0,K0,B0,A0
1,K1,B1,A1
2,K2,B2,A2


In [15]:
df1 = pd.DataFrame({
    'key1': ['K0', 'K0', 'K1', 'K2'],
    'key2': ['K0', 'K1', 'K0', 'K1'],
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3']
})

df2 = pd.DataFrame({
    'key1': ['K0', 'K1', 'K1', 'K2'],
    'key2': ['K0', 'K0', 'K0', 'K0'],
    'C': ['C0', 'C1', 'C2', 'C3'],
    'D': ['D0', 'D1', 'D2', 'D3']
})

In [17]:
# 두개의 키 기준으로 합칠때는 대괄호
pd.merge(df1, df2, on=['key1', 'key2'])

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2


In [18]:
df1 = pd.DataFrame({'key1': ['K0', 'K1', 'K2'],
                    'A': ['A0', 'A1', 'A2']})

df2 = pd.DataFrame({'key2': ['K0', 'K1', 'K2'],
                    'B': ['B0', 'B1', 'B2']})

In [19]:
# df1은 왼쪽 키로, df2는 오른쪽 키로
pd.merge(df1, df2, left_on='key1', right_on='key2')

Unnamed: 0,key1,A,key2,B
0,K0,A0,K0,B0
1,K1,A1,K1,B1
2,K2,A2,K2,B2


| 매개변수 | 설명 |
|----------|------|
| `on` | 두 데이터프레임에서 같은 이름을 가진 컬럼을 기준으로 결합할 때 사용합니다. |
| `left_on` | 왼쪽 데이터프레임에서 결합 기준으로 사용할 컬럼의 이름을 지정합니다. |
| `right_on` | 오른쪽 데이터프레임에서 결합 기준으로 사용할 컬럼의 이름을 지정합니다. |
| `how` | 결합 방식을 지정합니다. 'left', 'right', 'outer', 'inner' 중 하나를 선택할 수 있습니다. |
| `left` | 왼쪽 데이터프레임을 기준으로 결합합니다. 왼쪽 데이터프레임의 키가 모두 포함되며, 오른쪽 데이터프레임의 키는 일치하는 것만 포함됩니다. |
| `right` | 오른쪽 데이터프레임을 기준으로 결합합니다. 오른쪽 데이터프레임의 모든 키를 포함하며, 왼쪽 데이터프레임의 키는 일치하는 것만 포함됩니다. |
| `inner` | 두 데이터프레임에 모두 존재하는 키의 항목만 포함하여 결합합니다. |
| `outer` | 두 데이터프레임의 모든 키를 포함하여 결합하며, 일치하지 않는 부분은 NaN으로 처리됩니다. |

#### merge 실습

merge에 how 매개변수를 사용하여 'left', 'right', 'inner', 'outer' 를 사용해 보세요

In [37]:
import pandas as pd

# 직원 데이터프레임 생성
직원 = pd.DataFrame({
    '직원ID': ['1', '2', '3', '4', '5', '6', '7'],
    '직원이름': ['김영욱', '이조은', '이태훈', '이은호', '김동현', '박재연', '이태형'],
    '부서ID': ['D1', 'D2', 'D1', 'D3', 'D4', 'D1', 'D2']
})

# 부서 데이터프레임 생성
부서 = pd.DataFrame({
    '부서ID': ['D1', 'D2', 'D3', 'D5'],
    '부서이름': ['인사', '공학', '마케팅', '재무']
})

In [38]:
pd.merge(직원, 부서, on='부서ID', how='left')
# 직원데이터를 기준으로 쓰고, 부서에 없는 것도 쓴다

Unnamed: 0,직원ID,직원이름,부서ID,부서이름
0,1,김영욱,D1,인사
1,2,이조은,D2,공학
2,3,이태훈,D1,인사
3,4,이은호,D3,마케팅
4,5,김동현,D4,
5,6,박재연,D1,인사
6,7,이태형,D2,공학


In [39]:
pd.merge(직원, 부서, on='부서ID', how='right')
# 부서를 기준으로 쓰고, 직원에 없는 것도 쓴다

Unnamed: 0,직원ID,직원이름,부서ID,부서이름
0,1.0,김영욱,D1,인사
1,3.0,이태훈,D1,인사
2,6.0,박재연,D1,인사
3,2.0,이조은,D2,공학
4,7.0,이태형,D2,공학
5,4.0,이은호,D3,마케팅
6,,,D5,재무


In [40]:
pd.merge(직원, 부서, on='부서ID', how='outer')
# 모든 값을 다 적는다

Unnamed: 0,직원ID,직원이름,부서ID,부서이름
0,1.0,김영욱,D1,인사
1,3.0,이태훈,D1,인사
2,6.0,박재연,D1,인사
3,2.0,이조은,D2,공학
4,7.0,이태형,D2,공학
5,4.0,이은호,D3,마케팅
6,5.0,김동현,D4,
7,,,D5,재무


In [41]:
pd.merge(직원, 부서, on='부서ID', how='inner')
# how의 기본 값은 inner이다

Unnamed: 0,직원ID,직원이름,부서ID,부서이름
0,1,김영욱,D1,인사
1,2,이조은,D2,공학
2,3,이태훈,D1,인사
3,4,이은호,D3,마케팅
4,6,박재연,D1,인사
5,7,이태형,D2,공학


### 3. join

In [42]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2']},
                  index=['K0', 'K1', 'K2'])

df2 = pd.DataFrame({'B': ['B0', 'B1', 'B2']},
                  index=['K0', 'K1', 'K2'])

In [43]:
df1.join(df2)
# 조인은 인덱스를 기준으로 합친다
# 조인의 내부에서 따로 merge를 부르고 있기에 merge에서의 on 등을 지정가능

# 연관성이 있다면 join과 merge
# 그냥 자료를 붙이고 싶으면 concat

Unnamed: 0,A,B
K0,A0,B0
K1,A1,B1
K2,A2,B2


## 데이터 재구조화

### pivot

피벗 기본 구조

```python
pivot = pd.pivot_table(df, 
                       index='index', # 행 위치에 들어갈 열
                       columns='column', # 컬럼 위치에 들어갈 열
                       values='value', # 데이터로 사용할 열
                       aggfunc = 'mean' # 데이터 집계함수
                       )
```

In [None]:
# 거대한 데이터에서 인사이트 추출할때 피봇 테이블을 활용하지, Pivot은 잘 사용하지 않는다
# 피봇은 간단한 것에서만 사용한다

In [45]:
pip install seaborn

Note: you may need to restart the kernel to use updated packages.


In [73]:
import seaborn as sns
import pandas as pd

# 타이타닉 데이터셋 로드
df = sns.load_dataset('titanic')

# 사용할 컬럼
col = ['survived', 'pclass', 'sex', 'age', 'fare', 'embark_town']

df = df[col]

# 결측치 삭제
df.dropna(subset='age', inplace=True)

df.head()

Unnamed: 0,survived,pclass,sex,age,fare,embark_town
0,0,3,male,22.0,7.25,Southampton
1,1,1,female,38.0,71.2833,Cherbourg
2,1,3,female,26.0,7.925,Southampton
3,1,1,female,35.0,53.1,Southampton
4,0,3,male,35.0,8.05,Southampton


1. survived, 생존 여부 0이면 사망, 1이면 생존
2. pclass, 객실 등급, 1이면 1등급, 2이면 2등급, 3이면 3등급
3. sex, 성별, male이면 남자, female이면 여자
4. age, 나이
5. fare, 요금
6. embark_town, 탑승지 이름

In [48]:
# 객실 등급별 생존확률
pd.pivot_table(df, index='pclass', values='survived', aggfunc='mean')

Unnamed: 0_level_0,survived
pclass,Unnamed: 1_level_1
1,0.655914
2,0.479769
3,0.239437


In [50]:
# 객실마다의 성별
pd.pivot_table(df, index='pclass', columns='sex', values='survived', aggfunc='mean')

sex,female,male
pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,0.964706,0.39604
2,0.918919,0.151515
3,0.460784,0.150198


In [51]:
# 승객수
# count는 횟수를 적는 것이기에 아무 값을 넣어도 탑승객 수가 나온다
# 물론 이전에 이미 실손값들을 제외한 상태로 만든 테이블이라 가능하다
pd.pivot_table(df, index='pclass', columns='sex', values='survived', aggfunc='count')

sex,female,male
pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,85,101
2,74,99
3,102,253


In [57]:
# 탑승지 별 요금
# pd.pivot_table(df, index='embark_town', columns='survived', values='fare', aggfunc='mean')
pd.pivot_table(df, index='embark_town', values='fare', aggfunc='mean')

Unnamed: 0_level_0,fare
embark_town,Unnamed: 1_level_1
Cherbourg,68.296767
Queenstown,18.265775
Southampton,27.476284


In [56]:
# 탑승지 평균 요금과 생존율
pd.pivot_table(df, index='embark_town', values=['fare', 'survived'], aggfunc='mean')

Unnamed: 0_level_0,fare,survived
embark_town,Unnamed: 1_level_1,Unnamed: 2_level_1
Cherbourg,68.296767,0.607692
Queenstown,18.265775,0.285714
Southampton,27.476284,0.362816


In [58]:
# 성별에 따른 생존율
pd.pivot_table(df, index='sex', values='survived', aggfunc='mean')

Unnamed: 0_level_0,survived
sex,Unnamed: 1_level_1
female,0.754789
male,0.205298


In [59]:
# 클래스에 따른 성별 생존율
pd.pivot_table(df, index=['sex', 'pclass'], values='survived', aggfunc='mean')

Unnamed: 0_level_0,Unnamed: 1_level_0,survived
sex,pclass,Unnamed: 2_level_1
female,1,0.964706
female,2,0.918919
female,3,0.460784
male,1,0.39604
male,2,0.151515
male,3,0.150198


In [74]:
# 성별 별 등급 요금
df_2 = pd.pivot_table(df, index=['sex', 'pclass'], values='fare', aggfunc='mean')
df_2

Unnamed: 0_level_0,Unnamed: 1_level_0,fare
sex,pclass,Unnamed: 2_level_1
female,1,107.946275
female,2,21.95107
female,3,15.875369
male,1,71.142781
male,2,21.113131
male,3,12.162695


In [75]:
df_2.loc[1]

KeyError: 1

In [76]:
# 1등급석의 여성의 평균 요금만 추출
df_2.loc[(1, 'female')]

KeyError: 1

In [78]:
# 출발도시에 따른 생존율
pd.pivot_table(df, index=['embark_town', 'sex'], values='survived', aggfunc='mean')


Unnamed: 0_level_0,Unnamed: 1_level_0,survived
embark_town,sex,Unnamed: 2_level_1
Cherbourg,female,0.901639
Cherbourg,male,0.347826
Queenstown,female,0.583333
Queenstown,male,0.0625
Southampton,female,0.715054
Southampton,male,0.184783


In [85]:
pd.pivot_table(df, index=['embark_town', 'pclass', 'sex'], values=['survived'], aggfunc=['mean', 'count'])

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,mean,count
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,survived,survived
embark_town,pclass,sex,Unnamed: 3_level_2,Unnamed: 4_level_2
Cherbourg,1,female,0.973684,38
Cherbourg,1,male,0.444444,36
Cherbourg,2,female,1.0,7
Cherbourg,2,male,0.125,8
Cherbourg,3,female,0.6875,16
Cherbourg,3,male,0.28,25
Queenstown,1,female,1.0,1
Queenstown,1,male,0.0,1
Queenstown,2,female,1.0,1
Queenstown,2,male,0.0,1


In [84]:
# 탑승지와 클래스에 따른 성별 생존율, 사람 수

# pd.pivot_table(df, index=['embark_town', 'pclass', 'sex'], values=['survived'], aggfunc=['mean', 'count'])

pd.pivot_table(df, index=['embark_town', 'pclass'], columns='sex', values=['survived'], aggfunc=['mean', 'count'])

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,mean,count,count
Unnamed: 0_level_1,Unnamed: 1_level_1,survived,survived,survived,survived
Unnamed: 0_level_2,sex,female,male,female,male
embark_town,pclass,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3
Cherbourg,1,0.973684,0.444444,38,36
Cherbourg,2,1.0,0.125,7,8
Cherbourg,3,0.6875,0.28,16,25
Queenstown,1,1.0,0.0,1,1
Queenstown,2,1.0,0.0,1,1
Queenstown,3,0.5,0.071429,10,14
Southampton,1,0.954545,0.375,44,64
Southampton,2,0.909091,0.155556,66,90
Southampton,3,0.407895,0.140187,76,214


## apply

#### 실습

In [86]:
import pandas as pd
import seaborn as sns

# 타이타닉 데이터셋 로드
df = sns.load_dataset('titanic')

# 사용할 컬럼
col = ['survived', 'pclass', 'sex', 'age', 'fare', 'embark_town']

df = df[col]

# 결측치 삭제
df.dropna(subset='age', inplace=True)

df.head()

Unnamed: 0,survived,pclass,sex,age,fare,embark_town
0,0,3,male,22.0,7.25,Southampton
1,1,1,female,38.0,71.2833,Cherbourg
2,1,3,female,26.0,7.925,Southampton
3,1,1,female,35.0,53.1,Southampton
4,0,3,male,35.0,8.05,Southampton
