## chapter 09 : 판다스 파헤치기

### 9.1 중복 데이터를 제거하자

In [47]:
import pandas as pd

data = [['사과', 3000], ['배', 4000], ['딸기',4000], ['사과',3000],\
       ['귤',5000], ['배', 4000]]
fruits = [x[0] for x in data]   # 과일의 이름을 추출
prices = [x[1] for x in data]   # 과일의 가격을 추출
print('fruits =', fruits)
print('prices =', prices)

fruits = ['사과', '배', '딸기', '사과', '귤', '배']
prices = [3000, 4000, 4000, 3000, 5000, 4000]


In [48]:
df = pd.DataFrame({'과일' : fruits,
                   '가격' : prices})
df

Unnamed: 0,과일,가격
0,사과,3000
1,배,4000
2,딸기,4000
3,사과,3000
4,귤,5000
5,배,4000


In [49]:
df.duplicated()

0    False
1    False
2    False
3     True
4    False
5     True
dtype: bool

In [50]:
new_df = df.drop_duplicates()
new_df

Unnamed: 0,과일,가격
0,사과,3000
1,배,4000
2,딸기,4000
4,귤,5000


In [51]:
df = pd.DataFrame({'과일' : fruits,
                   '가격' : prices})

df['순서'] = range(len(fruits)) # 고유한 순서값 추가
df.drop_duplicates()            # 고유한 순서값으로 인해 중복이 없는 데이터로 간주함

Unnamed: 0,과일,가격,순서
0,사과,3000,0
1,배,4000,1
2,딸기,4000,2
3,사과,3000,3
4,귤,5000,4
5,배,4000,5


In [52]:
df.drop_duplicates(['가격'])  # 가격이 동일하면 중복 데이터로 간주

Unnamed: 0,과일,가격,순서
0,사과,3000,0
1,배,4000,1
4,귤,5000,4


In [53]:
df.drop_duplicates(['순서'])

Unnamed: 0,과일,가격,순서
0,사과,3000,0
1,배,4000,1
2,딸기,4000,2
3,사과,3000,3
4,귤,5000,4
5,배,4000,5


### 9.2 중복 데이터를 제거하고 데이터를 변형하자

In [54]:
import numpy as np
import pandas as pd

In [55]:
df

Unnamed: 0,과일,가격,순서
0,사과,3000,0
1,배,4000,1
2,딸기,4000,2
3,사과,3000,3
4,귤,5000,4
5,배,4000,5


In [56]:
df.drop_duplicates(['과일', '가격'])

Unnamed: 0,과일,가격,순서
0,사과,3000,0
1,배,4000,1
2,딸기,4000,2
4,귤,5000,4


In [57]:
df.drop_duplicates(['과일', '가격'], keep='last')

Unnamed: 0,과일,가격,순서
2,딸기,4000,2
3,사과,3000,3
4,귤,5000,4
5,배,4000,5


In [58]:
s = pd.Series([100., -999., 200., -1000., -999., 300.])
s

0     100.0
1    -999.0
2     200.0
3   -1000.0
4    -999.0
5     300.0
dtype: float64

In [59]:
new_s = s.replace(-999, 0)
new_s

0     100.0
1       0.0
2     200.0
3   -1000.0
4       0.0
5     300.0
dtype: float64

In [60]:
df

Unnamed: 0,과일,가격,순서
0,사과,3000,0
1,배,4000,1
2,딸기,4000,2
3,사과,3000,3
4,귤,5000,4
5,배,4000,5


In [61]:
df.replace('사과', '청송 사과')

Unnamed: 0,과일,가격,순서
0,청송 사과,3000,0
1,배,4000,1
2,딸기,4000,2
3,청송 사과,3000,3
4,귤,5000,4
5,배,4000,5


In [62]:
df.replace({'사과': '청송 사과', '배':'나주 배'})

Unnamed: 0,과일,가격,순서
0,청송 사과,3000,0
1,나주 배,4000,1
2,딸기,4000,2
3,청송 사과,3000,3
4,귤,5000,4
5,나주 배,4000,5


#### 도전문제 9.1 : 데이터 값 치환하고 중복 제거하기(난이도 : 하)

In [63]:
new_df = df.replace({'사과': '청송 사과', '배':'나주 배', '딸기':'논산 딸기', '귤':'제주 귤'})
new_df

Unnamed: 0,과일,가격,순서
0,청송 사과,3000,0
1,나주 배,4000,1
2,논산 딸기,4000,2
3,청송 사과,3000,3
4,제주 귤,5000,4
5,나주 배,4000,5


In [64]:
new_df.drop_duplicates(['과일', '가격'])

Unnamed: 0,과일,가격,순서
0,청송 사과,3000,0
1,나주 배,4000,1
2,논산 딸기,4000,2
4,제주 귤,5000,4


### 9.3 데이터프레임의 인덱스와 열 이름을 수정하자

In [65]:
import pandas as pd
import numpy as np

df = pd.DataFrame(np.arange(1, 16).reshape((3, 5)),
                  index = ['Apple', 'Mango', 'Grape'],
                  columns = ['a1', 'b1', 'c1', 'd1', 'e1'])
print(df)

       a1  b1  c1  d1  e1
Apple   1   2   3   4   5
Mango   6   7   8   9  10
Grape  11  12  13  14  15


In [66]:
reform = lambda x: x.upper()
df.index.map(reform) # 인덱스를 대문자로 만든다

Index(['APPLE', 'MANGO', 'GRAPE'], dtype='object')

In [67]:
df.index.map(lambda x: x.lower()) # 인덱스를 소문자로 만든다

Index(['apple', 'mango', 'grape'], dtype='object')

In [68]:
df.columns.map(lambda x: x.upper()) # 열의 이름을 대문자로 만든다

Index(['A1', 'B1', 'C1', 'D1', 'E1'], dtype='object')

In [69]:
df.index = df.index.map(lambda x: x.lower())
print(df)

       a1  b1  c1  d1  e1
apple   1   2   3   4   5
mango   6   7   8   9  10
grape  11  12  13  14  15


In [70]:
new_df = df.rename(index=str.title, columns=str.upper)
print(new_df)

       A1  B1  C1  D1  E1
Apple   1   2   3   4   5
Mango   6   7   8   9  10
Grape  11  12  13  14  15


In [71]:
new_df = df.rename(index=str.upper, columns=str.upper)
print(new_df)

       A1  B1  C1  D1  E1
APPLE   1   2   3   4   5
MANGO   6   7   8   9  10
GRAPE  11  12  13  14  15


In [72]:
new_df = df.rename(index={'apple': 'melon'}, # 인덱스의 내용을 수정
                   columns={'b1':'b2'})      # 열의 내용을 수정
print(new_df)

       a1  b2  c1  d1  e1
melon   1   2   3   4   5
mango   6   7   8   9  10
grape  11  12  13  14  15


#### 도전문제 9.2 : 인덱스 치환하기(난이도 : 하)
##### 위의 데이터프레임 인덱스를 영문자에서 한글로 치환하고자 한다.

##### 다음과 같이 'melon'은 '멜론'으로 'mango'은 '망고', 'grape'는 '포도'로 인덱스 문자열을 한글로 치환하여 출력하여라.

In [73]:
import pandas as pd
import numpy as np

df = pd.DataFrame(np.arange(1, 16).reshape((3, 5)),
                  index = ['melon', 'mango', 'grape'],
                  columns = ['a1', 'b1', 'c1', 'd1', 'e1'])
df

Unnamed: 0,a1,b1,c1,d1,e1
melon,1,2,3,4,5
mango,6,7,8,9,10
grape,11,12,13,14,15


In [74]:
new_df = df.rename(index={'melon': '멜론', 'mango':'망고', 'grape':'포도'})      # 열의 내용을 수정
new_df

Unnamed: 0,a1,b1,c1,d1,e1
멜론,1,2,3,4,5
망고,6,7,8,9,10
포도,11,12,13,14,15


#### LAB 9-1 : 인덱스와 열의 이름을 변경하자

In [75]:
import pandas as pd
import numpy as np

df = pd.DataFrame(np.arange(1, 13).reshape((3, 4)),
                 index = ['당근', '고추', '양파'],
                 columns = ['상점_A', '상점_B', '상점_C', '상점_D'])
df

Unnamed: 0,상점_A,상점_B,상점_C,상점_D
당근,1,2,3,4
고추,5,6,7,8
양파,9,10,11,12


In [76]:
# 인덱스와 열의 이름을 수정
new_df = df.rename(index={'당근': 'carrot', '고추':'pepper', '양파':'onion'},
                   columns={'상점_A':'store A', '상점_B':'store B',\
                            '상점_C':'store C', '상점_D':'store C'})
new_df

Unnamed: 0,store A,store B,store C,store C.1
carrot,1,2,3,4
pepper,5,6,7,8
onion,9,10,11,12


#### LAB 9-2 : 중복 데이터 제거하기

In [77]:
data = [['양파', 6400], ['감자', 3400], ['당근',5600], ['가지',3200],\
      ['감자',4500], ['양파', 2400]]
vegetables = [x[0] for x in data]   # 과일의 이름을 추출
prices = [x[1] for x in data]       # 과일의 가격을 추출
df = pd.DataFrame({'채소' : vegetables,
                  '가격' : prices})
df

Unnamed: 0,채소,가격
0,양파,6400
1,감자,3400
2,당근,5600
3,가지,3200
4,감자,4500
5,양파,2400


In [78]:
df.drop_duplicates(['채소'], keep='last')

Unnamed: 0,채소,가격
2,당근,5600
3,가지,3200
4,감자,4500
5,양파,2400


### 9.4 데이터프레임의 구조를 변경해 보자

In [79]:
import pandas as pd

df1 = pd.DataFrame({'item' : ['ring0', 'ring0', 'ring1', 'ring1'],
                    'type' : ['Gold', 'Silver', 'Gold', 'Bronze'],
                    'price': [20000, 10000, 50000, 30000]})
df1

Unnamed: 0,item,type,price
0,ring0,Gold,20000
1,ring0,Silver,10000
2,ring1,Gold,50000
3,ring1,Bronze,30000


In [80]:
df2 = df1.pivot(index='item', columns='type', values='price')
df2

type,Bronze,Gold,Silver
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ring0,,20000.0,10000.0
ring1,30000.0,50000.0,


In [81]:
item_lst = ['ring', 'ring', 'ring', 'necklace', 'necklace', 'necklace']
type_lst = ['Gold', 'Silver', 'White Gold', 'Gold', 'White Gold', 'Silver']
price_lst = [20000, 10000, 50000, 30000, 60000, 15000]
brand_lst = ['Dior', 'Gucci', 'LV', 'LV', 'Dior', 'Gucci']
df = pd.DataFrame({'item' : item_lst,
                   'type' : type_lst,
                   'price': price_lst,
                   'brand': brand_lst})
df

Unnamed: 0,item,type,price,brand
0,ring,Gold,20000,Dior
1,ring,Silver,10000,Gucci
2,ring,White Gold,50000,LV
3,necklace,Gold,30000,LV
4,necklace,White Gold,60000,Dior
5,necklace,Silver,15000,Gucci


In [82]:
#new_df = df.pivot(index='brand', columns='item', values='price')
new_df= df.pivot(index='brand', columns='item')['price']
new_df

item,necklace,ring
brand,Unnamed: 1_level_1,Unnamed: 2_level_1
Dior,60000,20000
Gucci,15000,10000
LV,30000,50000


In [83]:
new_df = df.pivot(index='item', columns='brand')['price']
new_df

brand,Dior,Gucci,LV
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
necklace,60000,15000,30000
ring,20000,10000,50000


In [84]:
new_df = df.pivot(index='item', columns='brand', values='price')
new_df

brand,Dior,Gucci,LV
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
necklace,60000,15000,30000
ring,20000,10000,50000


In [85]:
new_df = df.pivot(index='item', columns='brand')
print(new_df)

                type                      price              
brand           Dior   Gucci          LV   Dior  Gucci     LV
item                                                         
necklace  White Gold  Silver        Gold  60000  15000  30000
ring            Gold  Silver  White Gold  20000  10000  50000


### 9.5 pivot_table을 활용하자

In [93]:
import pandas as pd
import numpy as np
import datetime as dt

np.random.seed(42)
df = pd.DataFrame({
       "상점": ["상점 A", "상점 B", "상점 B", "상점 C"] * 5,
       "과일": ["사과", "수박", "감", "감"] * 5,
       "산지": ["경북", "경북", "경남", "경남", "전남"] * 4,
       "가격": [3000, 2000, 3000, 4500] * 5,
       "출하일": [dt.datetime(2024, i, 1) for i in range(1, 11)]
               + [dt.datetime(2024, i, 15) for i in range(1, 11)],
   })
df

Unnamed: 0,상점,과일,산지,가격,출하일
0,상점 A,사과,경북,3000,2024-01-01
1,상점 B,수박,경북,2000,2024-02-01
2,상점 B,감,경남,3000,2024-03-01
3,상점 C,감,경남,4500,2024-04-01
4,상점 A,사과,전남,3000,2024-05-01
5,상점 B,수박,경북,2000,2024-06-01
6,상점 B,감,경북,3000,2024-07-01
7,상점 C,감,경남,4500,2024-08-01
8,상점 A,사과,경남,3000,2024-09-01
9,상점 B,수박,전남,2000,2024-10-01


In [87]:
# 상점과 과일을 인덱스로 하는 데이터프레임
pd.pivot_table(df, index=["상점"], columns=["산지"], \
               values="가격", aggfunc="sum")

산지,경남,경북,전남
상점,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
상점 A,6000,6000,3000
상점 B,10000,10000,5000
상점 C,9000,9000,4500


In [88]:
# 상점과 과일을 인덱스로 하는 데이터프레임
pd.pivot_table(df, index=["상점"], columns=["산지"],\
              values="가격",  aggfunc="mean")

산지,경남,경북,전남
상점,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
상점 A,3000.0,3000.0,3000.0
상점 B,2500.0,2500.0,2500.0
상점 C,4500.0,4500.0,4500.0


#### 도전문제 9.3 : 데이터프레임 변환하기(난이도 : 상)

In [89]:
import pandas as pd

df = pd.DataFrame({'자동차명' : ['GV80', 'IONIQ 5', 'Model Y', 'IX3', 'S Class', 'GV60'],
                   '브랜드' : ['제네시스', '현대자동차', '테슬라', 'BMW', 'Mercedes Benz', '제네시스'],
                   '종류' : ['내역기관', '전기차', '전기차', '전기차', '내연기관', '전기차'],
                   '가격': [8000, 5500, 5600, 8300, 14000, 7000]})
df

Unnamed: 0,자동차명,브랜드,종류,가격
0,GV80,제네시스,내역기관,8000
1,IONIQ 5,현대자동차,전기차,5500
2,Model Y,테슬라,전기차,5600
3,IX3,BMW,전기차,8300
4,S Class,Mercedes Benz,내연기관,14000
5,GV60,제네시스,전기차,7000


In [90]:
new_df = df.pivot(index='브랜드', columns='자동차명', values='가격')
new_df

자동차명,GV60,GV80,IONIQ 5,IX3,Model Y,S Class
브랜드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
BMW,,,,8300.0,,
Mercedes Benz,,,,,,14000.0
제네시스,7000.0,8000.0,,,,
테슬라,,,,,5600.0,
현대자동차,,,5500.0,,,


In [91]:
new_df.fillna(0)

자동차명,GV60,GV80,IONIQ 5,IX3,Model Y,S Class
브랜드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
BMW,0.0,0.0,0.0,8300.0,0.0,0.0
Mercedes Benz,0.0,0.0,0.0,0.0,0.0,14000.0
제네시스,7000.0,8000.0,0.0,0.0,0.0,0.0
테슬라,0.0,0.0,0.0,0.0,5600.0,0.0
현대자동차,0.0,0.0,5500.0,0.0,0.0,0.0


### 9.6 pivot_table의 고급 기능을 알아보자

In [94]:
temp_df = pd.pivot_table(df, values="가격", index=["상점"], columns=["과일"],\
                        aggfunc="mean")
temp_df

과일,감,사과,수박
상점,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
상점 A,,3000.0,
상점 B,3000.0,,2000.0
상점 C,4500.0,,


In [95]:
new_df = temp_df.fillna(0).astype("int16")
new_df

과일,감,사과,수박
상점,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
상점 A,0,3000,0
상점 B,3000,0,2000
상점 C,4500,0,0


In [96]:
new_df = pd.pivot_table(df, index=["과일"],\
              columns=["상점", "산지"], values=["가격"]).fillna(0).astype("int16")
new_df

Unnamed: 0_level_0,가격,가격,가격,가격,가격,가격,가격,가격,가격
상점,상점 A,상점 A,상점 A,상점 B,상점 B,상점 B,상점 C,상점 C,상점 C
산지,경남,경북,전남,경남,경북,전남,경남,경북,전남
과일,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3
감,0,0,0,3000,3000,3000,4500,4500,4500
사과,3000,3000,3000,0,0,0,0,0,0
수박,0,0,0,2000,2000,2000,0,0,0


In [97]:
new_df['가격']['상점 B']

산지,경남,경북,전남
과일,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
감,3000,3000,3000
사과,0,0,0
수박,2000,2000,2000


In [98]:
ser = new_df['가격']['상점 B']['경남']
ser

과일
감     3000
사과       0
수박    2000
Name: 경남, dtype: int16

#### 도전문제 9.4 : 상점 A의 지역별 과일 가격 추출하기(난이도 : 상)

In [99]:
new_df['가격']['상점 A']

산지,경남,경북,전남
과일,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
감,0,0,0
사과,3000,3000,3000
수박,0,0,0


#### LAB 9-3 : 데이터의 구조를 변경하자

In [100]:
import pandas as pd

df = pd.DataFrame({'고객 ID' : ['c0', 'c0', 'c1', 'c1', 'c2'],
                   'product' : ['의류', '신발류', '의류', '장신구', '신발류'],
                   'price': [120000, 40000, 15000, 30000, 40000]})
df

Unnamed: 0,고객 ID,product,price
0,c0,의류,120000
1,c0,신발류,40000
2,c1,의류,15000
3,c1,장신구,30000
4,c2,신발류,40000


In [101]:
import pandas as pd

df = pd.DataFrame({'고객 ID' : ['c0', 'c0', 'c1', 'c1', 'c2'],
                   'product' : ['의류', '신발류', '의류', '장신구', '신발류'],
                   'price': [120000, 40000, 15000, 30000, 40000]})

new_df = df.pivot(index='고객 ID', columns='product', values='price')
new_df = new_df.fillna(0).astype('int32')
new_df

product,신발류,의류,장신구
고객 ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
c0,40000,120000,0
c1,0,15000,30000
c2,40000,0,0


#### LAB 9-4 : 타이타닉 데이터

In [102]:
import pandas as pd
import seaborn as sns

df = sns.load_dataset('titanic')
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [103]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


In [104]:
df1 = pd.pivot_table(df,                 # 피벗할 데이터프레임
                     index = 'class',    # 행 위치에 들어갈 열
                     columns = 'sex',    # 열 위치에 들어갈 열
                     values = 'survived',     # 데이터로 사용할 열
                     aggfunc = ['mean', 'sum'])   # 데이터 집계함수
df1

  df1 = pd.pivot_table(df,                 # 피벗할 데이터프레임
  df1 = pd.pivot_table(df,                 # 피벗할 데이터프레임


Unnamed: 0_level_0,mean,mean,sum,sum
sex,female,male,female,male
class,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
First,0.968085,0.368852,91,45
Second,0.921053,0.157407,70,17
Third,0.5,0.135447,72,47


In [105]:
df1 = pd.pivot_table(df,                 # 피벗할 데이터프레임
                     index = 'class',    # 행 위치에 들어갈 열
                     columns = 'sex',    # 열 위치에 들어갈 열
                     values = 'survived',     # 데이터로 사용할 열
                     aggfunc = ['mean', 'sum'], 
                     observed=False)   # 기본값 : False, 데이터가 있던 없던 모든 조합 사용
                                       #          True, 데이터가 없는 조합은 제외
df1

Unnamed: 0_level_0,mean,mean,sum,sum
sex,female,male,female,male
class,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
First,0.968085,0.368852,91,45
Second,0.921053,0.157407,70,17
Third,0.5,0.135447,72,47


### 9.7 두 개 이상의 데이터프레임을 합치는 방법

In [106]:
import pandas as pd  # 이 장의 필수 코드임

s1 = pd.Series(['가', '나', '다'])
s2 = pd.Series(['파', '하'])
pd.concat([s1, s2])  # 두 시리즈를 결합시킴

0    가
1    나
2    다
0    파
1    하
dtype: object

In [107]:
# 시리즈를 재인덱싱 함
pd.concat([s1, s2], ignore_index=True) # 이전 인덱스 무시하고 다시 인덱스 생성

0    가
1    나
2    다
3    파
4    하
dtype: object

In [108]:
df1 = pd.DataFrame([['홍길동', 3.56], ['이유리', 4.03]],
                   columns=['이름', '학점'])
df1

Unnamed: 0,이름,학점
0,홍길동,3.56
1,이유리,4.03


In [109]:
df2 = pd.DataFrame([['홍길순', 4.23], ['김철수', 3.56]],
                   columns=['이름', '학점'])
df2

Unnamed: 0,이름,학점
0,홍길순,4.23
1,김철수,3.56


In [110]:
df3 = pd.concat([df1, df2])
df3

Unnamed: 0,이름,학점
0,홍길동,3.56
1,이유리,4.03
0,홍길순,4.23
1,김철수,3.56


In [111]:
df4 = pd.concat([df1, df2], ignore_index=True)
df4

Unnamed: 0,이름,학점
0,홍길동,3.56
1,이유리,4.03
2,홍길순,4.23
3,김철수,3.56


In [112]:
df5 = pd.concat([df1, df2], axis=1)
df5

Unnamed: 0,이름,학점,이름.1,학점.1
0,홍길동,3.56,홍길순,4.23
1,이유리,4.03,김철수,3.56


### 9.8 : 데이터프레임을 합치는 고급 기능


In [113]:
import pandas as pd  # 이 장의 필수 코드임

df1 = pd.DataFrame( {'A' : ['a10', 'a11', 'a12'],
                     'B' : ['b10', 'b11', 'b12'],
                     'C' : ['c10', 'c11', 'c12']}, index = ['가', '나',  '다'] )

df2 = pd.DataFrame( {'B' : ['b23', 'b24', 'b25'],
                     'C' : ['c23', 'c24', 'c25'],
                     'D' : ['d23', 'd24', 'd25']}, index = ['다', '라',  '마'] )

In [114]:
df1

Unnamed: 0,A,B,C
가,a10,b10,c10
나,a11,b11,c11
다,a12,b12,c12


In [115]:
df2

Unnamed: 0,B,C,D
다,b23,c23,d23
라,b24,c24,d24
마,b25,c25,d25


In [116]:
df3 = pd.concat( [df1, df2] )  # df1, df2 두 데이터프레임을 합쳐서 df3을 생성
df3

Unnamed: 0,A,B,C,D
가,a10,b10,c10,
나,a11,b11,c11,
다,a12,b12,c12,
다,,b23,c23,d23
라,,b24,c24,d24
마,,b25,c25,d25


In [117]:
df3 = pd.concat([df1, df2], axis=0, join='outer')
df3

Unnamed: 0,A,B,C,D
가,a10,b10,c10,
나,a11,b11,c11,
다,a12,b12,c12,
다,,b23,c23,d23
라,,b24,c24,d24
마,,b25,c25,d25


In [118]:
df3 = pd.concat([df1, df2], axis=0, join='inner')
df3

Unnamed: 0,B,C
가,b10,c10
나,b11,c11
다,b12,c12
다,b23,c23
라,b24,c24
마,b25,c25


In [119]:
df4 = pd.concat([df1, df2], axis=1, join='outer')
df4

Unnamed: 0,A,B,C,B.1,C.1,D
가,a10,b10,c10,,,
나,a11,b11,c11,,,
다,a12,b12,c12,b23,c23,d23
라,,,,b24,c24,d24
마,,,,b25,c25,d25


In [120]:
df4 = pd.concat([df1, df2], axis=1, join='inner')
df4

Unnamed: 0,A,B,C,B.1,C.1,D
다,a12,b12,c12,b23,c23,d23


### 9.9 데이터베이스 join 방식의 데이터 병합 - merge

In [121]:
import pandas as pd

df1 = pd.DataFrame(
         {'A' : ['a10', 'a11', 'a12'],
          'B' : ['b10', 'b11', 'b12'],
          'C' : ['c10', 'c11', 'c12']} , index = ['가', '나',  '다'] )

df2 = pd.DataFrame(
         {'B' : ['b23', 'b24', 'b25'],
          'C' : ['c23', 'c24', 'c25'],
          'D' : ['d23', 'd24', 'd25']} , index = ['다', '라',  '마'] )

print(df1)
print(df2)

     A    B    C
가  a10  b10  c10
나  a11  b11  c11
다  a12  b12  c12
     B    C    D
다  b23  c23  d23
라  b24  c24  d24
마  b25  c25  d25


In [122]:
df3 = df1.merge(df2, how='outer', on='B')
print(df3)

     A    B  C_x  C_y    D
0  a10  b10  c10  NaN  NaN
1  a11  b11  c11  NaN  NaN
2  a12  b12  c12  NaN  NaN
3  NaN  b23  NaN  c23  d23
4  NaN  b24  NaN  c24  d24
5  NaN  b25  NaN  c25  d25


#### 인덱스를 키로 활용하여 merge 적용해보기

In [123]:
print(df1)
print()
print(df2)
print()
df1.merge(df2, how = 'outer', left_index = True, right_index = True)

     A    B    C
가  a10  b10  c10
나  a11  b11  c11
다  a12  b12  c12

     B    C    D
다  b23  c23  d23
라  b24  c24  d24
마  b25  c25  d25



Unnamed: 0,A,B_x,C_x,B_y,C_y,D
가,a10,b10,c10,,,
나,a11,b11,c11,,,
다,a12,b12,c12,b23,c23,d23
라,,,,b24,c24,d24
마,,,,b25,c25,d25


In [124]:
print(df1)
print()
print(df2)
print()
df1.merge(df2, how = 'left', left_index = True, right_index = True)

     A    B    C
가  a10  b10  c10
나  a11  b11  c11
다  a12  b12  c12

     B    C    D
다  b23  c23  d23
라  b24  c24  d24
마  b25  c25  d25



Unnamed: 0,A,B_x,C_x,B_y,C_y,D
가,a10,b10,c10,,,
나,a11,b11,c11,,,
다,a12,b12,c12,b23,c23,d23


In [125]:
print(df1)
print()
print(df2)
print()
df1.merge(df2, how = 'right', left_index = True, right_index = True)

     A    B    C
가  a10  b10  c10
나  a11  b11  c11
다  a12  b12  c12

     B    C    D
다  b23  c23  d23
라  b24  c24  d24
마  b25  c25  d25



Unnamed: 0,A,B_x,C_x,B_y,C_y,D
다,a12,b12,c12,b23,c23,d23
라,,,,b24,c24,d24
마,,,,b25,c25,d25


#### 도전문제 9.5 : 프레임워크에 대한 조인(난이도 : 중)
##### 위의 df1, df2 프레임워크에 대하여 다음과 같은 조인 연산을 수행하고 그 결과를 출력하여라.

In [126]:
df1.merge(df2, how='outer')

Unnamed: 0,A,B,C,D
0,a10,b10,c10,
1,a11,b11,c11,
2,a12,b12,c12,
3,,b23,c23,d23
4,,b24,c24,d24
5,,b25,c25,d25


In [127]:
df1.merge(df2, how='outer', on='C')

Unnamed: 0,A,B_x,C,B_y,D
0,a10,b10,c10,,
1,a11,b11,c11,,
2,a12,b12,c12,,
3,,,c23,b23,d23
4,,,c24,b24,d24
5,,,c25,b25,d25
