## Chapter 7. 데이터 결합하기

### 7.1. 데이터 프레임 연결하기

#### 7.1.1. 데이터 프레임 연결하기(concat)

In [1]:
# 코드 7-1. concat 함수 실습 예제 코드
import pandas as pd
data1 = [[80, 69, 83, 98], [71, 90, 69, 66], [74, 72, 72, 95]]
data2 = [[68, 70, 84, 70], [65, 91, 90, 66], [78, 94, 96, 64]]
data3 = [[65, 82], [85, 60], [75, 78]]
data4 = [[79, 99, 95, 90], [99, 76, 81, 97], [95, 80, 62, 84]]
col1 = ['국어', '수학', '영어', '과학']
col2 = ['사회', '일어']
col3 = ['국어', '수학', '영어', '사회']

df1 = pd.DataFrame(data1, index=list('ABC'), columns=col1)
df2 = pd.DataFrame(data2, index=list('DEF'), columns=col1)
df3 = pd.DataFrame(data3, index=list('ABC'), columns=col2)
df4 = df2[['영어', '과학', '수학', '국어']]
df5 = pd.DataFrame(data4, index=list('GHI'), columns=col3)

In [2]:
# 코드 7-2. df1과 df2를 연결
pd.concat([df1, df2])

Unnamed: 0,국어,수학,영어,과학
A,80,69,83,98
B,71,90,69,66
C,74,72,72,95
D,68,70,84,70
E,65,91,90,66
F,78,94,96,64


In [3]:
# 코드 7-3. df1과 df3를 가로 방향으로 연결
pd.concat([df1, df3], axis=1)

Unnamed: 0,국어,수학,영어,과학,사회,일어
A,80,69,83,98,65,82
B,71,90,69,66,85,60
C,74,72,72,95,75,78


In [4]:
# 코드 7-4. 열의 순서가 서로 다른 df1과 df4를 세로 방향으로 연결
pd.concat([df1, df4])

Unnamed: 0,국어,수학,영어,과학
A,80,69,83,98
B,71,90,69,66
C,74,72,72,95
D,68,70,84,70
E,65,91,90,66
F,78,94,96,64


#### 7.1.2. 외부 조인과 내부 조인

In [5]:
# 코드 7-5. 열 구성이 다른 두 데이터 프레임을 외부 조인으로 연결
pd.concat([df1, df5])

Unnamed: 0,국어,수학,영어,과학,사회
A,80,69,83,98.0,
B,71,90,69,66.0,
C,74,72,72,95.0,
G,79,99,95,,90.0
H,99,76,81,,97.0
I,95,80,62,,84.0


In [6]:
# 코드 7-6. 열 구성이 다른 두 데이터 프레임을 내부 조인으로 연결
pd.concat([df1, df5], join='inner')

Unnamed: 0,국어,수학,영어
A,80,69,83
B,71,90,69
C,74,72,72
G,79,99,95
H,99,76,81
I,95,80,62


### 7.2. 데이터 프레임 병합하기

#### 7.2.1. 엑셀의 vlookup 방식으로 병합하기(merge)

In [7]:
# 코드 7-7. merge 함수 실습 예제 코드
import pandas as pd
data1 = {'이름': ['김판다', '조민영', '강승주', '최진환', '박연준'],
         '제품': ['아이스티', '카페라떼', '카페라떼', '아이스티', '녹차']}
data2 = {'제품': ['카페라떼', '아이스티', '녹차'], '가격': [4500, 4600, 4800]}
data3 = {'상품': ['카페라떼', '아이스티', '녹차'], '가격': [4500, 4600, 4800]}
data4 = {'가격': [4500, 4600], '제품': ['카페라떼', '아이스티'],
         '분류': ['커피', '음료']}
data5 = {'제품': ['카페라떼', '아이스티', '녹차', '녹차'],
         '가격': [4500, 4600, 4800, 3500],
         '비고': ['정상가', '정상가', '정상가', '할인가']}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)
df3 = pd.DataFrame(data3)
df4 = pd.DataFrame(data4)
df5 = pd.DataFrame(data5)

In [8]:
# 코드 7-8. vlookup 방식으로 병합
df1.merge(df2, how='left')

Unnamed: 0,이름,제품,가격
0,김판다,아이스티,4600
1,조민영,카페라떼,4500
2,강승주,카페라떼,4500
3,최진환,아이스티,4600
4,박연준,녹차,4800


In [9]:
# 코드 7-9. 기준 열의 이름이 양측 데이터 프레임에서 서로 다를 때 병합
df1.merge(df3.rename({'상품': '제품'}, axis=1), how='left')

Unnamed: 0,이름,제품,가격
0,김판다,아이스티,4600
1,조민영,카페라떼,4500
2,강승주,카페라떼,4500
3,최진환,아이스티,4600
4,박연준,녹차,4800


In [10]:
# 코드 7-10. merge 함수는 열의 순서와 관계없고, 여러 열을 한 번에 병합한다.
df1.merge(df4, how='left')

Unnamed: 0,이름,제품,가격,분류
0,김판다,아이스티,4600.0,음료
1,조민영,카페라떼,4500.0,커피
2,강승주,카페라떼,4500.0,커피
3,최진환,아이스티,4600.0,음료
4,박연준,녹차,,


In [11]:
# 코드 7-11. 복수의 행 병합
df1.merge(df5, how='left')

Unnamed: 0,이름,제품,가격,비고
0,김판다,아이스티,4600,정상가
1,조민영,카페라떼,4500,정상가
2,강승주,카페라떼,4500,정상가
3,최진환,아이스티,4600,정상가
4,박연준,녹차,4800,정상가
5,박연준,녹차,3500,할인가


#### 7.2.2. 다중 요건 vlookup을 merge 함수로 수행하기


In [12]:
# 코드 7-12. 다중 요건 vlookup 실습 예제 코드
import pandas as pd
data1 = {'이름': ['김판다', '강승주', '최진환', '조민영', '권보아'],
         '업체': ['콩다방', '콩다방', '별다방', '콩다방', '별다방'],
         '제품': ['아이스티', '카페라떼', '카페라떼', '아이스티', '아이스티']}
data2 = {'업체': ['콩다방', '콩다방', '별다방', '별다방'],
         '제품': ['아이스티', '카페라떼', '아이스티', '카페라떼'],
         '가격': [4600, 4700, 4200, 4300]}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)
df1

Unnamed: 0,이름,업체,제품
0,김판다,콩다방,아이스티
1,강승주,콩다방,카페라떼
2,최진환,별다방,카페라떼
3,조민영,콩다방,아이스티
4,권보아,별다방,아이스티


In [13]:
# 코드 7-13. 다중 요건 vlookup을 merge 함수로 수행하기
df1.merge(df2, how='left')

Unnamed: 0,이름,업체,제품,가격
0,김판다,콩다방,아이스티,4600
1,강승주,콩다방,카페라떼,4700
2,최진환,별다방,카페라떼,4300
3,조민영,콩다방,아이스티,4600
4,권보아,별다방,아이스티,4200


#### 7.2.3. merge 함수의 병합 방식

In [14]:
# 코드 7-14. merge 함수로 곱집합 생성하기
# 예제 df3와 df4 생성
df3 = pd.DataFrame(['김판다', '강승주'], columns=['이름'])
df4 = pd.DataFrame(['아이스티', '카페라떼', '팥빙수'], columns=['제품'])

# merge 함수의 how='cross'로 곱집합을 생성한다.
df3.merge(df4, how='cross')

Unnamed: 0,이름,제품
0,김판다,아이스티
1,김판다,카페라떼
2,김판다,팥빙수
3,강승주,아이스티
4,강승주,카페라떼
5,강승주,팥빙수


### 엑셀 예제 6. mlb에서 시즌별로 팀 홈런에서 본인 홈런 비중이 높은 타자 집계하기

In [15]:
# 코드 7-15. mlb 엑셀 시트들을 데이터 프레임으로 불러오기
import pandas as pd
pd.options.display.max_rows = 6 # 6행까지만 출력
url1 = 'https://github.com/panda-kim/book1/blob/main/10mlb.xlsx?raw=true'

df_2022 = pd.read_excel(url1)
df_2023 = pd.read_excel(url1, sheet_name=1)
df_team = pd.read_excel(url1, sheet_name=2)

In [16]:
# 코드 7-16. 2022 시즌과 2023 시즌의 개인 타격 데이터 연결하기
df = pd.concat([df_2022, df_2023])
df

Unnamed: 0,Season,Name,Tm,AB,H,HR,BA,OPS
0,2022,Aaron Judge,NYY,570,177,62,0.311,1.111
1,2022,Kyle Schwarber,PHI,577,126,46,0.218,0.827
2,2022,Pete Alonso,NYM,597,162,40,0.271,0.869
...,...,...,...,...,...,...,...,...
47,2023,Corbin Carroll,ARI,565,161,25,0.285,0.868
48,2023,Paul Goldschmidt,STL,593,159,25,0.268,0.810
49,2023,Ketel Marte,ARI,569,157,25,0.276,0.844


In [17]:
# 코드 7-17. 코드 7-15의 팀 타격 데이터를 개인 타격 데이터 프레임에 병합하기
df_mlb = df.merge(df_team, how='left')
df_mlb

Unnamed: 0,Season,Name,Tm,AB,H,HR,BA,OPS,Team,Tm_H,Tm_HR
0,2022,Aaron Judge,NYY,570,177,62,0.311,1.111,New York Yankees,1308.0,254.0
1,2022,Kyle Schwarber,PHI,577,126,46,0.218,0.827,Philadelphia Phillies,1392.0,205.0
2,2022,Pete Alonso,NYM,597,162,40,0.271,0.869,New York Mets,1422.0,171.0
...,...,...,...,...,...,...,...,...,...,...,...
97,2023,Corbin Carroll,ARI,565,161,25,0.285,0.868,Arizona Diamondbacks,1359.0,166.0
98,2023,Paul Goldschmidt,STL,593,159,25,0.268,0.810,St. Louis Cardinals,1376.0,209.0
99,2023,Ketel Marte,ARI,569,157,25,0.276,0.844,Arizona Diamondbacks,1359.0,166.0


In [18]:
# 코드 7-18. 팀 내 개인 홈런의 비중을 Ratio 열로 생성하기(반올림)
df_mlb['Ratio'] = (df_mlb['HR'] / df_mlb['Tm_HR']).round(3)
df_mlb

Unnamed: 0,Season,Name,Tm,AB,H,HR,BA,OPS,Team,Tm_H,Tm_HR,Ratio
0,2022,Aaron Judge,NYY,570,177,62,0.311,1.111,New York Yankees,1308.0,254.0,0.244
1,2022,Kyle Schwarber,PHI,577,126,46,0.218,0.827,Philadelphia Phillies,1392.0,205.0,0.224
2,2022,Pete Alonso,NYM,597,162,40,0.271,0.869,New York Mets,1422.0,171.0,0.234
...,...,...,...,...,...,...,...,...,...,...,...,...
97,2023,Corbin Carroll,ARI,565,161,25,0.285,0.868,Arizona Diamondbacks,1359.0,166.0,0.151
98,2023,Paul Goldschmidt,STL,593,159,25,0.268,0.810,St. Louis Cardinals,1376.0,209.0,0.120
99,2023,Ketel Marte,ARI,569,157,25,0.276,0.844,Arizona Diamondbacks,1359.0,166.0,0.151


In [19]:
# 코드 7-19. Ratio 열로 정렬하고 상위 5개 행 출력하기
df_mlb.sort_values('Ratio', ascending=False).head(5)

Unnamed: 0,Season,Name,Tm,AB,H,HR,BA,OPS,Team,Tm_H,Tm_HR,Ratio
0,2022,Aaron Judge,NYY,570,177,62,0.311,1.111,New York Yankees,1308.0,254.0,0.244
2,2022,Pete Alonso,NYM,597,162,40,0.271,0.869,New York Mets,1422.0,171.0,0.234
24,2022,José Ramírez,CLE,601,168,29,0.28,0.869,Cleveland Guardians,1410.0,127.0,0.228
1,2022,Kyle Schwarber,PHI,577,126,46,0.218,0.827,Philadelphia Phillies,1392.0,205.0,0.224
58,2023,Luis Robert Jr.,CHW,546,144,38,0.264,0.857,Chicago White Sox,1308.0,171.0,0.222


### 7.3. 업데이트

#### 7.3.1. 데이터 프레임 업데이트하기(update)

In [20]:
# 코드 7-20. 업데이트 실습 예제 코드
import pandas as pd
data1 = {'국어': {'A': 25, 'B': 72, 'C': 13, 'D': 78, 'E': 25},
         '영어': {'A': 45, 'B': 94, 'C': 92, 'D': 70, 'E': 18}}
data2 = {'국어': {'A': 64, 'E': 75, 'C': 94},
         '영어': {'A': 76, 'E': 85, 'C': float('nan')}}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

In [21]:
# 코드 7-21. update 함수로 df1에 df2를 업데이트
df1.update(df2)
df1 # update 함수는 원본을 변경하기 때문에 df1을 다시 출력해야 한다.

Unnamed: 0,국어,영어
A,64,76
B,72,94
C,94,92
D,78,70
E,75,85


#### 7.3.2. 데이터 프레임 업데이트하기(combine_first)

In [22]:
# 다시 실행 하는 코드 7-20
import pandas as pd
data1 = {'국어': {'A': 25, 'B': 72, 'C': 13, 'D': 78, 'E': 25},
         '영어': {'A': 45, 'B': 94, 'C': 92, 'D': 70, 'E': 18}}
data2 = {'국어': {'A': 64, 'E': 75, 'C': 94},
         '영어': {'A': 76, 'E': 85, 'C': float('nan')}}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

In [23]:
# 코드 7-22. 코드 7-20을 다시 실행하고 combine_first 함수로 업데이트
df2.combine_first(df1)

Unnamed: 0,국어,영어
A,64,76.0
B,72,94.0
C,94,92.0
D,78,70.0
E,75,85.0


### 7.4. 범위로 병합하기


#### 7.4.1. 범위로 병합하기(merge_asof)

In [24]:
# 코드 7-23. merge_asof 함수 실습 예제 코드
import pandas as pd
data1 = {'이름': ['라', '나', '다', '가', '마'],
         '점수': [60, 72, 80, 88, 95]}
data2 = {'점수': [0, 70, 80, 90], '학점': ['F', 'C', 'B', 'A']}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

In [25]:
# 코드 7-24. df1과 df2를 범위로 병합
pd.merge_asof(df1, df2, on='점수')

Unnamed: 0,이름,점수,학점
0,라,60,F
1,나,72,C
2,다,80,B
3,가,88,B
4,마,95,A


#### 7.4.2. 그룹을 나누어 범위로 병합하기


In [26]:
# 코드 7-25. 그룹화해서 범위로 병합하기 실습 예제 코드
data3 = {'이름': ['라', '나', '다', '가', '마'],
         '점수': [60, 72, 80, 88, 95],
         '과목': ['국어', '영어', '영어', '국어', '국어']}
data4 = {'과목': ['국어', '국어', '국어', '영어', '영어', '영어'],
         '학점': ['A', 'B', 'C', 'A', 'B', 'C'],
         '점수': [90, 80, 0, 80, 70, 0],
         '비고': ['수', '수', '우', '수', '우', '우']}
df3 = pd.DataFrame(data3)
df4 = pd.DataFrame(data4)

In [27]:
# 코드 7-26. df3과 df4를 과목으로 구분해 범위로 병합
pd.merge_asof(df3, df4.sort_values('점수'), on='점수', by='과목')

Unnamed: 0,이름,점수,과목,학점,비고
0,라,60,국어,C,우
1,나,72,영어,B,우
2,다,80,영어,A,수
3,가,88,국어,B,수
4,마,95,국어,A,수


### 엑셀 예제 7. 인쇄소의 매출 데이터로 판매 금액 산출하기

In [28]:
# 코드 7-27. 인쇄소 매출 엑셀 파일에서 데이터 프레임 불러오기
import pandas as pd
pd.options.display.max_rows = 6 # 6행까지만 출력
url2 = 'https://github.com/panda-kim/book1/blob/main/11print.xlsx?raw=true'
df1 = pd.read_excel(url2)
df2 = pd.read_excel(url2, sheet_name=1)
df1

Unnamed: 0,사이즈,종류,수량,단가
0,A4,컬러,1,100
1,A4,컬러,10,90
2,A4,컬러,100,70
...,...,...,...,...
21,B5,풀컬러,100,120
22,B5,풀컬러,500,80
23,B5,풀컬러,1000,50


In [29]:
# 코드 7-28. 사이즈와 종류로 구분해 범위로 병합하기(정렬 필수)
df2 = pd.merge_asof(
    df2.sort_values('수량'),
    df1.sort_values('수량'),
    by=['사이즈', '종류'],
    on='수량'
)
df2

Unnamed: 0,순번,날짜,사이즈,종류,수량,단가
0,5,2024-06-01,A4,컬러,10,90
1,8,2024-06-03,A3,풀컬러,10,360
2,34,2024-06-10,A4,풀컬러,29,180
...,...,...,...,...,...,...
97,39,2024-06-12,A4,컬러,962,50
98,35,2024-06-10,B5,컬러,973,40
99,29,2024-06-09,A4,풀컬러,975,100


In [30]:
# 코드 7-29. 단가 열을 기반으로 금액 산출하기
df2['금액'] = df2['단가'] * df2['수량']
df2

Unnamed: 0,순번,날짜,사이즈,종류,수량,단가,금액
0,5,2024-06-01,A4,컬러,10,90,900
1,8,2024-06-03,A3,풀컬러,10,360,3600
2,34,2024-06-10,A4,풀컬러,29,180,5220
...,...,...,...,...,...,...,...
97,39,2024-06-12,A4,컬러,962,50,48100
98,35,2024-06-10,B5,컬러,973,40,38920
99,29,2024-06-09,A4,풀컬러,975,100,97500


In [31]:
# 코드 7-30. df2의 원래 정렬 상태로 되돌리기 위해 순번으로 정렬
df2.sort_values('순번')

Unnamed: 0,순번,날짜,사이즈,종류,수량,단가,금액
58,1,2024-06-01,A4,컬러,579,50,28950
22,2,2024-06-01,B5,풀컬러,254,120,30480
6,3,2024-06-01,A3,풀컬러,75,160,12000
...,...,...,...,...,...,...,...
4,98,2024-06-29,A3,컬러,55,150,8250
19,99,2024-06-29,A4,풀컬러,227,140,31780
83,100,2024-06-30,A4,풀컬러,815,100,81500


In [32]:
# 코드 7-31. 순번으로 정렬한 결과를 엑셀 파일로 저장하기
df2.sort_values('순번').to_excel('ch07_print.xlsx', index=False)