In [1]:
import pandas as pd
import numpy as np

#### 데이터 프레임의 병합과 연결
- merge : 병합, 내부조인, 외부조인 - how속성을 이용해서 설정
- concat : 연결, 인덱스(이름)을 기준으로 연결

In [2]:
df1 = pd.DataFrame({'key' : ['a', 'b', 'c', 'f'],
                    'c1': [1,2,3,5]})
df1

Unnamed: 0,key,c1
0,a,1
1,b,2
2,c,3
3,f,5


In [3]:
df2 = pd.DataFrame({'key': ['a','b','d','f'],
                    'c2':[5,6,7,8]})
df2

Unnamed: 0,key,c2
0,a,5
1,b,6
2,d,7
3,f,8


In [8]:
# 데이터 병합
# default 는 inner : 공통되는 열 a,b,f를 뽑아옴
df1.merge(df2) 

Unnamed: 0,key,c1,c2
0,a,1,5
1,b,2,6
2,f,5,8


In [10]:
# df1을 기준으로 병합
df1.merge(df2, how='left')

Unnamed: 0,key,c1,c2
0,a,1,5.0
1,b,2,6.0
2,c,3,
3,f,5,8.0


In [11]:
# df2를 기준으로 병합
df1.merge(df2, how='right')

Unnamed: 0,key,c1,c2
0,a,1.0,5
1,b,2.0,6
2,d,,7
3,f,5.0,8


In [13]:
# 양쪽의 데이터 모두 병합
df1.merge(df2, how='outer')

Unnamed: 0,key,c1,c2
0,a,1.0,5.0
1,b,2.0,6.0
2,c,3.0,
3,d,,7.0
4,f,5.0,8.0


#### left_on , right_on 속성
- 키가 되는 기준열의 이름이 두 데이터프레임에서 다르다면 left_on과 right_on 인수를 사용하여 기준이 되는 열을 명시해야함

In [17]:
df3 = pd.DataFrame({'key3' : ['a', 'b', 'c', 'f'],
                    'c1': [1,2,3,5]})

In [18]:
df4 = pd.DataFrame({'key4': ['a', 'b', 'd', 'f'],
                    'c2':[5,6,7,8]})

In [24]:
# df3과 df4의 공통된 열이 없어 error 발생
# df3.merge(df4)

In [21]:
# default는 inner join
# left_on : 왼쪽 데이터프레임 df3 의 key3을 기준
# right_on : df4의 key4를 기준
df3.merge(df4, left_on='key3', right_on='key4') # 모두 써야 merge 실행가능

Unnamed: 0,key3,c1,key4,c2
0,a,1,a,5
1,b,2,b,6
2,f,5,f,8


In [23]:
# left_index=True : df3의 인덱스를 기준으로 병합
# right_index=True : df4의 인덱스를 기준으로 병합
df3.merge(df4, left_index=True, right_index=True)

Unnamed: 0,key3,c1,key4,c2
0,a,1,a,5
1,b,2,b,6
2,c,3,d,7
3,f,5,f,8


In [25]:
df1 = pd.DataFrame({'c1': [1,2,3,4], 'c2': [5,6,7,8]})
df1

Unnamed: 0,c1,c2
0,1,5
1,2,6
2,3,7
3,4,8


In [26]:
df2 = pd.DataFrame({'c3': ['a','b','c','d'],
                    'c4': [1.2,3.4,5.5,7.6]})
df2

Unnamed: 0,c3,c4
0,a,1.2
1,b,3.4
2,c,5.5
3,d,7.6


In [28]:
# column을 기준으로 병합
pd.concat([df1, df2], axis=1)

Unnamed: 0,c1,c2,c3,c4
0,1,5,a,1.2
1,2,6,b,3.4
2,3,7,c,5.5
3,4,8,d,7.6


In [33]:
# df1에는 c3,c4가 없으므로 NaN처리, df2도 마찬가지
# 인덱스가 0,1,2,3,0,1,2,3이라 문제가 생길 가능성이 있다
pd.concat([df1, df2], axis=0)

Unnamed: 0,c1,c2,c3,c4
0,1.0,5.0,,
1,2.0,6.0,,
2,3.0,7.0,,
3,4.0,8.0,,
0,,,a,1.2
1,,,b,3.4
2,,,c,5.5
3,,,d,7.6


In [32]:
# axis를 입력하지 않으면 행을 기준으로(axis=0) 병합
pd.concat([df1, df2])

Unnamed: 0,c1,c2,c3,c4
0,1.0,5.0,,
1,2.0,6.0,,
2,3.0,7.0,,
3,4.0,8.0,,
0,,,a,1.2
1,,,b,3.4
2,,,c,5.5
3,,,d,7.6


In [35]:
df_result = pd.concat([df1,df2], axis=0)
df_result

Unnamed: 0,c1,c2,c3,c4
0,1.0,5.0,,
1,2.0,6.0,,
2,3.0,7.0,,
3,4.0,8.0,,
0,,,a,1.2
1,,,b,3.4
2,,,c,5.5
3,,,d,7.6


In [38]:
# reset_index() : 인덱스를 새로 정의하고 기존 인덱스값을 남긴다
df_result.reset_index()

Unnamed: 0,index,c1,c2,c3,c4
0,0,1.0,5.0,,
1,1,2.0,6.0,,
2,2,3.0,7.0,,
3,3,4.0,8.0,,
4,0,,,a,1.2
5,1,,,b,3.4
6,2,,,c,5.5
7,3,,,d,7.6


In [39]:
# drop=True : 기존의 인덱스를 버리고 인덱스를 새로 정의
df_result.reset_index(drop=True)

Unnamed: 0,c1,c2,c3,c4
0,1.0,5.0,,
1,2.0,6.0,,
2,3.0,7.0,,
3,4.0,8.0,,
4,,,a,1.2
5,,,b,3.4
6,,,c,5.5
7,,,d,7.6


In [41]:
# inplace=True 데이터의 원본에 적용시키기
df_result.reset_index(drop=True, inplace=True)
df_result

Unnamed: 0,c1,c2,c3,c4
0,1.0,5.0,,
1,2.0,6.0,,
2,3.0,7.0,,
3,4.0,8.0,,
4,,,a,1.2
5,,,b,3.4
6,,,c,5.5
7,,,d,7.6


#### 데이터 프레임의 정렬
- sort_index() : 행 또는 열의 이름으로 정렬
- sort_values() : 값을 이용해서 정렬

In [45]:
# !pip install seaborn

In [44]:
import seaborn as sns
import pandas as pd

In [47]:
# 데이터를 iris 에서 가져오기
iris = sns.load_dataset('iris')
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [48]:
iris.sort_index(ascending=False).head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
149,5.9,3.0,5.1,1.8,virginica
148,6.2,3.4,5.4,2.3,virginica
147,6.5,3.0,5.2,2.0,virginica
146,6.3,2.5,5.0,1.9,virginica
145,6.7,3.0,5.2,2.3,virginica


In [49]:
iris.sort_index(axis=1).head()

Unnamed: 0,petal_length,petal_width,sepal_length,sepal_width,species
0,1.4,0.2,5.1,3.5,setosa
1,1.4,0.2,4.9,3.0,setosa
2,1.3,0.2,4.7,3.2,setosa
3,1.5,0.2,4.6,3.1,setosa
4,1.4,0.2,5.0,3.6,setosa


In [53]:
iris.sort_index(axis=1, inplace=True)
iris.head()

Unnamed: 0,petal_length,petal_width,sepal_length,sepal_width,species
0,1.4,0.2,5.1,3.5,setosa
1,1.4,0.2,4.9,3.0,setosa
2,1.3,0.2,4.7,3.2,setosa
3,1.5,0.2,4.6,3.1,setosa
4,1.4,0.2,5.0,3.6,setosa


In [54]:
# 원본 데이터 로드
iris = sns.load_dataset('iris')

In [56]:
# sort_values() : 값을 기준으로 정렬, by=: 정렬 기준을 지정
iris.sort_values(by=['sepal_length'], inplace=True)

In [57]:
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
13,4.3,3.0,1.1,0.1,setosa
8,4.4,2.9,1.4,0.2,setosa
42,4.4,3.2,1.3,0.2,setosa
38,4.4,3.0,1.3,0.2,setosa
41,4.5,2.3,1.3,0.3,setosa
...,...,...,...,...,...
122,7.7,2.8,6.7,2.0,virginica
117,7.7,3.8,6.7,2.2,virginica
118,7.7,2.6,6.9,2.3,virginica
135,7.7,3.0,6.1,2.3,virginica


In [58]:
# 첫번째 정렬된 값이 동률일때 정렬 우선순위를 주어 다음 정렬 기준을 주기
iris.sort_values(by=['sepal_length', 'sepal_width'], inplace=True)

In [59]:
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
13,4.3,3.0,1.1,0.1,setosa
8,4.4,2.9,1.4,0.2,setosa
38,4.4,3.0,1.3,0.2,setosa
42,4.4,3.2,1.3,0.2,setosa
41,4.5,2.3,1.3,0.3,setosa
...,...,...,...,...,...
118,7.7,2.6,6.9,2.3,virginica
122,7.7,2.8,6.7,2.0,virginica
135,7.7,3.0,6.1,2.3,virginica
117,7.7,3.8,6.7,2.2,virginica


In [64]:
iris = sns.load_dataset('iris')

In [65]:
iris.columns = [['sepal', 'sepal', 'petal', 'petal', 'species'], # level 0
                iris.columns] # level 1
iris.columns.names = ['info', 'details']
iris.head()

info,sepal,sepal,petal,petal,species
details,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [68]:
# ascending=False 내림차순 정렬
iris.sort_index(level=['info'], axis=1, ascending=False).head()

info,species,sepal,sepal,petal,petal
details,species,sepal_width,sepal_length,petal_width,petal_length
0,setosa,3.5,5.1,0.2,1.4
1,setosa,3.0,4.9,0.2,1.4
2,setosa,3.2,4.7,0.2,1.3
3,setosa,3.1,4.6,0.2,1.5
4,setosa,3.6,5.0,0.2,1.4


In [73]:
# 위와 같은 결과값
iris.sort_index(level=0, axis=1, ascending=False).head()

info,species,sepal,sepal,petal,petal
details,species,sepal_width,sepal_length,petal_width,petal_length
0,setosa,3.5,5.1,0.2,1.4
1,setosa,3.0,4.9,0.2,1.4
2,setosa,3.2,4.7,0.2,1.3
3,setosa,3.1,4.6,0.2,1.5
4,setosa,3.6,5.0,0.2,1.4


In [74]:
# 가장 바깥 level이 0, 안으로 들어올수록 level이 커짐
iris.sort_index(level=0, axis=1).head()

info,petal,petal,sepal,sepal,species
details,petal_length,petal_width,sepal_length,sepal_width,species
0,1.4,0.2,5.1,3.5,setosa
1,1.4,0.2,4.9,3.0,setosa
2,1.3,0.2,4.7,3.2,setosa
3,1.5,0.2,4.6,3.1,setosa
4,1.4,0.2,5.0,3.6,setosa
