# Reshaping (데이터 재구조화)

- **`pandas.pivot_table()`**
- **`DataFrame객체.stack(), DataFrame객체.unstack()`**
- **`panada.melt()`**
- <a>https://pandas.pydata.org/docs/user_guide/reshaping.html</a>

## 피벗테이블

- 판다스 pivot_table() 함수는 엑셀에서 사용하는 피벗테이블과 비슷한 기능을 처리한다.
- <u>피벗테이블을 구성하는 4가지 요소(행인덱스, 열인덱스, 데이터값, 데이터집계함수)</u>에 적용할 데이터프레임의 열을 각각 지정하여 함수의 인자로 전달한다.


![g.png](attachment:g.png)

* 'titanic' 데이터셋에서 5개의 열을 추출하여 df라는 데이터프레임을 만든다.


In [1]:
# 라이브러리 불러오기

import pandas as pd
import seaborn as sns

In [2]:
# titanic데이터셋 로드, 변수이름 titanic

titanic = sns.load_dataset("titanic")

In [3]:
# 'age', 'sex', 'class', 'fare', 'survived'열을 추출하여 데이터프레임 df를 생성

df = titanic[['age', 'sex', 'class', 'fare', 'survived']]
df

Unnamed: 0,age,sex,class,fare,survived
0,22.0,male,Third,7.2500,0
1,38.0,female,First,71.2833,1
2,26.0,female,Third,7.9250,1
3,35.0,female,First,53.1000,1
4,35.0,male,Third,8.0500,0
...,...,...,...,...,...
886,27.0,male,Second,13.0000,0
887,19.0,female,First,30.0000,1
888,,female,Third,23.4500,0
889,26.0,male,First,30.0000,1


* pivot_table()함수를 사용하여 데이터프레임 형태를 피벗테이블로 변환한다.


* class와 sex별로 age의 평균을 알아보는 피벗테이블 작성

In [4]:
# 5개의 열중에서 행인덱스로는 'class'열을 지정하고, 열 인덱스에는 'sex'열을 지정한다.
# 'age'열을 피벗의 데이터값으로 사용하고 데이터를 집게하는 함수는 평균값을 계산하는 'mean'함수를 지정한다.

# 행, 열, 값, 집계에 사용할 열을 1개씩 지정 - 평균집계

pd.pivot_table(df,            # 피벗할 데이터프레임
               index="class",        # 행 위치에 들어갈 열
               columns="sex",        # 열 위치에 들어갈 열
               values="age",         # 데이터로 사용할 열
               aggfunc="mean")       # 데이터 집계함수


sex,female,male
class,Unnamed: 1_level_1,Unnamed: 2_level_1
First,34.611765,41.281386
Second,28.722973,30.740707
Third,21.75,26.507589


In [5]:
pdf1 = pd.pivot_table(df,            # 피벗할 데이터프레임
               index=["class"],        # 행 위치에 들어갈 열
               columns=["sex"],        # 열 위치에 들어갈 열
               values=["age"],         # 데이터로 사용할 열
               aggfunc=["mean"])       # 데이터 집계함수

pdf1

Unnamed: 0_level_0,mean,mean
Unnamed: 0_level_1,age,age
sex,female,male
class,Unnamed: 1_level_3,Unnamed: 2_level_3
First,34.611765,41.281386
Second,28.722973,30.740707
Third,21.75,26.507589


In [6]:
pdf1.index

CategoricalIndex(['First', 'Second', 'Third'], categories=['First', 'Second', 'Third'], ordered=False, dtype='category', name='class')

In [7]:
pdf1.columns

MultiIndex([('mean', 'age', 'female'),
            ('mean', 'age',   'male')],
           names=[None, None, 'sex'])

* class와 sex별로 age의 평균을 groupby로 알아보기

In [8]:
# groupby()로 위와 같은 결과 만들기 

a= df.groupby(["class","sex"]).age.mean()
a

class   sex   
First   female    34.611765
        male      41.281386
Second  female    28.722973
        male      30.740707
Third   female    21.750000
        male      26.507589
Name: age, dtype: float64

In [9]:
# 위결과를 unstack() 해보기

b= a.unstack()
b

sex,female,male
class,Unnamed: 1_level_1,Unnamed: 2_level_1
First,34.611765,41.281386
Second,28.722973,30.740707
Third,21.75,26.507589


In [10]:
# 위 결과를 stack() 해보기

b.stack()

class   sex   
First   female    34.611765
        male      41.281386
Second  female    28.722973
        male      30.740707
Third   female    21.750000
        male      26.507589
dtype: float64

* class와 sex별로 survived의 평균과 합을 알아보는 피벗테이블 작성

In [11]:
# 값에 적용하는 집계 함수를 2개 이상 지정 가능함 - 생존률, 생존자 수 집계

pdf2 = pd.pivot_table(df,                   # 피벗할 데이터프레임
               index=["class"],                # 행 위치에 들어갈 열
               columns=["sex"],                 # 열 위치에 들어갈 열
               values=["survived"],             # 데이터로 사용할 열
               aggfunc=["mean","sum"])       # 데이터 집계함수

pdf2

Unnamed: 0_level_0,mean,mean,sum,sum
Unnamed: 0_level_1,survived,survived,survived,survived
sex,female,male,female,male
class,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3
First,0.968085,0.368852,91,45
Second,0.921053,0.157407,70,17
Third,0.5,0.135447,72,47


In [12]:
# groupby()로 위와 같은 결과 만들기 

c = df.groupby(["class","sex"]).agg(["mean","sum"])["survived"]
c

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,sum
class,sex,Unnamed: 2_level_1,Unnamed: 3_level_1
First,female,0.968085,91
First,male,0.368852,45
Second,female,0.921053,70
Second,male,0.157407,17
Third,female,0.5,72
Third,male,0.135447,47


In [13]:
# 위결과를 unstack() 해보기

c_us = c.unstack()
c_us

Unnamed: 0_level_0,mean,mean,sum,sum
sex,female,male,female,male
class,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
First,0.968085,0.368852,91,45
Second,0.921053,0.157407,70,17
Third,0.5,0.135447,72,47


In [14]:
# 위결과를 stack() 해보기

c_us.stack()

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,sum
class,sex,Unnamed: 2_level_1,Unnamed: 3_level_1
First,female,0.968085,91
First,male,0.368852,45
Second,female,0.921053,70
Second,male,0.157407,17
Third,female,0.5,72
Third,male,0.135447,47


* class, sex, survived별로 age와 fare의 평균과 최대값을 알아보는 피벗테이블 작성

In [15]:
# 행, 열, 값에 사용할 열을 2개 이상 지정 가능 - 평균나이, 최대 요금 집계

pdf3 =pd.pivot_table(df, # 피벗할 데이터프레임
index=['class','sex'],         # 행 위치에 들어갈 열
columns=['survived'],      # 열 위치에 들어갈 열
values=['age', 'fare'],      # 데이터로 사용할 열
aggfunc=['mean','max']       # 데이터 집계 함수
                   )
pdf3

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,mean,mean,mean,max,max,max,max
Unnamed: 0_level_1,Unnamed: 1_level_1,age,age,fare,fare,age,age,fare,fare
Unnamed: 0_level_2,survived,0,1,0,1,0,1,0,1
class,sex,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3
First,female,25.666667,34.939024,110.604167,105.978159,50.0,63.0,151.55,512.3292
First,male,44.581967,36.248,62.89491,74.63732,71.0,80.0,263.0,512.3292
Second,female,36.0,28.080882,18.25,22.288989,57.0,55.0,26.0,65.0
Second,male,33.369048,16.022,19.488965,21.0951,70.0,62.0,73.5,39.0
Third,female,23.818182,19.329787,19.773093,12.464526,48.0,63.0,69.55,31.3875
Third,male,27.255814,22.274211,12.204469,15.579696,74.0,45.0,69.55,56.4958


In [16]:
# groupby()로 위와 같은 결과 만들기 

d = df.groupby(["class","sex","survived"])[['age',"fare"]].agg(["mean","max"])
d

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,age,age,fare,fare
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,mean,max,mean,max
class,sex,survived,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
First,female,0,25.666667,50.0,110.604167,151.55
First,female,1,34.939024,63.0,105.978159,512.3292
First,male,0,44.581967,71.0,62.89491,263.0
First,male,1,36.248,80.0,74.63732,512.3292
Second,female,0,36.0,57.0,18.25,26.0
Second,female,1,28.080882,55.0,22.288989,65.0
Second,male,0,33.369048,70.0,19.488965,73.5
Second,male,1,16.022,62.0,21.0951,39.0
Third,female,0,23.818182,48.0,19.773093,69.55
Third,female,1,19.329787,63.0,12.464526,31.3875


In [17]:
# 위결과를 unstack() 해보기 = pd3와 동일

d_us = d.unstack()
d_us

Unnamed: 0_level_0,Unnamed: 1_level_0,age,age,age,age,fare,fare,fare,fare
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,mean,max,max,mean,mean,max,max
Unnamed: 0_level_2,survived,0,1,0,1,0,1,0,1
class,sex,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3
First,female,25.666667,34.939024,50.0,63.0,110.604167,105.978159,151.55,512.3292
First,male,44.581967,36.248,71.0,80.0,62.89491,74.63732,263.0,512.3292
Second,female,36.0,28.080882,57.0,55.0,18.25,22.288989,26.0,65.0
Second,male,33.369048,16.022,70.0,62.0,19.488965,21.0951,73.5,39.0
Third,female,23.818182,19.329787,48.0,63.0,19.773093,12.464526,69.55,31.3875
Third,male,27.255814,22.274211,74.0,45.0,12.204469,15.579696,69.55,56.4958


In [18]:
# 위결과를 stack() 해보기

d_us.stack()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,age,age,fare,fare
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,mean,max,mean,max
class,sex,survived,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
First,female,0,25.666667,50.0,110.604167,151.55
First,female,1,34.939024,63.0,105.978159,512.3292
First,male,0,44.581967,71.0,62.89491,263.0
First,male,1,36.248,80.0,74.63732,512.3292
Second,female,0,36.0,57.0,18.25,26.0
Second,female,1,28.080882,55.0,22.288989,65.0
Second,male,0,33.369048,70.0,19.488965,73.5
Second,male,1,16.022,62.0,21.0951,39.0
Third,female,0,23.818182,48.0,19.773093,69.55
Third,female,1,19.329787,63.0,12.464526,31.3875


In [19]:
# pdf3

pdf3

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,mean,mean,mean,max,max,max,max
Unnamed: 0_level_1,Unnamed: 1_level_1,age,age,fare,fare,age,age,fare,fare
Unnamed: 0_level_2,survived,0,1,0,1,0,1,0,1
class,sex,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3
First,female,25.666667,34.939024,110.604167,105.978159,50.0,63.0,151.55,512.3292
First,male,44.581967,36.248,62.89491,74.63732,71.0,80.0,263.0,512.3292
Second,female,36.0,28.080882,18.25,22.288989,57.0,55.0,26.0,65.0
Second,male,33.369048,16.022,19.488965,21.0951,70.0,62.0,73.5,39.0
Third,female,23.818182,19.329787,19.773093,12.464526,48.0,63.0,69.55,31.3875
Third,male,27.255814,22.274211,12.204469,15.579696,74.0,45.0,69.55,56.4958


In [20]:
# 행, 열 구조 살펴보기

print(pdf3.index)
print()
print(pdf3.columns)

MultiIndex([( 'First', 'female'),
            ( 'First',   'male'),
            ('Second', 'female'),
            ('Second',   'male'),
            ( 'Third', 'female'),
            ( 'Third',   'male')],
           names=['class', 'sex'])

MultiIndex([('mean',  'age', 0),
            ('mean',  'age', 1),
            ('mean', 'fare', 0),
            ('mean', 'fare', 1),
            ( 'max',  'age', 0),
            ( 'max',  'age', 1),
            ( 'max', 'fare', 0),
            ( 'max', 'fare', 1)],
           names=[None, None, 'survived'])


**축 이름 바꾸기: 데이터프레임.rename_axis("바꿀이름", axis=0또는 1)**

In [21]:
# 축이름 바꾸기 (인덱스)

pdf3.rename_axis(["등급","성별"], axis=0)

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,mean,mean,mean,max,max,max,max
Unnamed: 0_level_1,Unnamed: 1_level_1,age,age,fare,fare,age,age,fare,fare
Unnamed: 0_level_2,survived,0,1,0,1,0,1,0,1
등급,성별,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3
First,female,25.666667,34.939024,110.604167,105.978159,50.0,63.0,151.55,512.3292
First,male,44.581967,36.248,62.89491,74.63732,71.0,80.0,263.0,512.3292
Second,female,36.0,28.080882,18.25,22.288989,57.0,55.0,26.0,65.0
Second,male,33.369048,16.022,19.488965,21.0951,70.0,62.0,73.5,39.0
Third,female,23.818182,19.329787,19.773093,12.464526,48.0,63.0,69.55,31.3875
Third,male,27.255814,22.274211,12.204469,15.579696,74.0,45.0,69.55,56.4958


In [22]:
# 축이름 바꾸기

pdf3.rename_axis(["함수","나이/요금","생존여부"], axis=1)

Unnamed: 0_level_0,함수,mean,mean,mean,mean,max,max,max,max
Unnamed: 0_level_1,나이/요금,age,age,fare,fare,age,age,fare,fare
Unnamed: 0_level_2,생존여부,0,1,0,1,0,1,0,1
class,sex,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3
First,female,25.666667,34.939024,110.604167,105.978159,50.0,63.0,151.55,512.3292
First,male,44.581967,36.248,62.89491,74.63732,71.0,80.0,263.0,512.3292
Second,female,36.0,28.080882,18.25,22.288989,57.0,55.0,26.0,65.0
Second,male,33.369048,16.022,19.488965,21.0951,70.0,62.0,73.5,39.0
Third,female,23.818182,19.329787,19.773093,12.464526,48.0,63.0,69.55,31.3875
Third,male,27.255814,22.274211,12.204469,15.579696,74.0,45.0,69.55,56.4958


In [23]:
# pdf3
pdf3

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,mean,mean,mean,max,max,max,max
Unnamed: 0_level_1,Unnamed: 1_level_1,age,age,fare,fare,age,age,fare,fare
Unnamed: 0_level_2,survived,0,1,0,1,0,1,0,1
class,sex,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3
First,female,25.666667,34.939024,110.604167,105.978159,50.0,63.0,151.55,512.3292
First,male,44.581967,36.248,62.89491,74.63732,71.0,80.0,263.0,512.3292
Second,female,36.0,28.080882,18.25,22.288989,57.0,55.0,26.0,65.0
Second,male,33.369048,16.022,19.488965,21.0951,70.0,62.0,73.5,39.0
Third,female,23.818182,19.329787,19.773093,12.464526,48.0,63.0,69.55,31.3875
Third,male,27.255814,22.274211,12.204469,15.579696,74.0,45.0,69.55,56.4958


In [24]:
# 행, 열 구조 살펴보기  => 튜플 형태


print(pdf3.index)
print()
print(pdf3.columns)

MultiIndex([( 'First', 'female'),
            ( 'First',   'male'),
            ('Second', 'female'),
            ('Second',   'male'),
            ( 'Third', 'female'),
            ( 'Third',   'male')],
           names=['class', 'sex'])

MultiIndex([('mean',  'age', 0),
            ('mean',  'age', 1),
            ('mean', 'fare', 0),
            ('mean', 'fare', 1),
            ( 'max',  'age', 0),
            ( 'max',  'age', 1),
            ( 'max', 'fare', 0),
            ( 'max', 'fare', 1)],
           names=[None, None, 'survived'])


In [25]:
# First class선택 조회
# Hint! 위에 조회한 인덱스참고하여 작성해보기

pdf3.loc['First']

Unnamed: 0_level_0,mean,mean,mean,mean,max,max,max,max
Unnamed: 0_level_1,age,age,fare,fare,age,age,fare,fare
survived,0,1,0,1,0,1,0,1
sex,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3
female,25.666667,34.939024,110.604167,105.978159,50.0,63.0,151.55,512.3292
male,44.581967,36.248,62.89491,74.63732,71.0,80.0,263.0,512.3292


In [26]:
# First class의 female만 선택
pdf3.loc[('First', 'female')]

            survived
mean  age   0            25.666667
            1            34.939024
      fare  0           110.604167
            1           105.978159
max   age   0            50.000000
            1            63.000000
      fare  0           151.550000
            1           512.329200
Name: (First, female), dtype: float64

In [27]:
# mean 컬럼 선택
pdf3["mean"]

Unnamed: 0_level_0,Unnamed: 1_level_0,age,age,fare,fare
Unnamed: 0_level_1,survived,0,1,0,1
class,sex,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
First,female,25.666667,34.939024,110.604167,105.978159
First,male,44.581967,36.248,62.89491,74.63732
Second,female,36.0,28.080882,18.25,22.288989
Second,male,33.369048,16.022,19.488965,21.0951
Third,female,23.818182,19.329787,19.773093,12.464526
Third,male,27.255814,22.274211,12.204469,15.579696


In [28]:
# (mean, age) 컬럼 선택
# hint 위 열조회 튜플 참조

pdf3[("mean","age")]

Unnamed: 0_level_0,survived,0,1
class,sex,Unnamed: 2_level_1,Unnamed: 3_level_1
First,female,25.666667,34.939024
First,male,44.581967,36.248
Second,female,36.0,28.080882
Second,male,33.369048,16.022
Third,female,23.818182,19.329787
Third,male,27.255814,22.274211


In [29]:
# (mean, age, 0) 컬럼 선택
pdf3[("mean","age",0)]

class   sex   
First   female    25.666667
        male      44.581967
Second  female    36.000000
        male      33.369048
Third   female    23.818182
        male      27.255814
Name: (mean, age, 0), dtype: float64

In [30]:
# (mean, age, 0)과 (max, fare, 1) 컬럼 선택
pdf3[[('mean', 'age', 0), ('max', 'fare', 1)]]

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,max
Unnamed: 0_level_1,Unnamed: 1_level_1,age,fare
Unnamed: 0_level_2,survived,0,1
class,sex,Unnamed: 2_level_3,Unnamed: 3_level_3
First,female,25.666667,512.3292
First,male,44.581967,512.3292
Second,female,36.0,65.0
Second,male,33.369048,39.0
Third,female,23.818182,31.3875
Third,male,27.255814,56.4958


In [31]:
#First 클래스의 평균 비생존자 나이

pdf3.loc["First", ("mean","age",0)]

sex
female    25.666667
male      44.581967
Name: (mean, age, 0), dtype: float64

## stack, unstack
- 데이터프레임(시리즈)객체**`.stack()`** : long 데이터 만들기
- 데이터프레임(시리즈)객체**`.unstack()`** : wide 데이터 만들기
- <u>열을 많이 가지고 있는 폭이 넓은(wide) 데이터와 행을 많이 가진 폭이 좁은(long) 데이터</u>를 생성해본다.
- <u>이런 구조는 변경해도 실제 값에 대한 변경은 없다.</u>

In [32]:
pdf3

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,mean,mean,mean,max,max,max,max
Unnamed: 0_level_1,Unnamed: 1_level_1,age,age,fare,fare,age,age,fare,fare
Unnamed: 0_level_2,survived,0,1,0,1,0,1,0,1
class,sex,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3
First,female,25.666667,34.939024,110.604167,105.978159,50.0,63.0,151.55,512.3292
First,male,44.581967,36.248,62.89491,74.63732,71.0,80.0,263.0,512.3292
Second,female,36.0,28.080882,18.25,22.288989,57.0,55.0,26.0,65.0
Second,male,33.369048,16.022,19.488965,21.0951,70.0,62.0,73.5,39.0
Third,female,23.818182,19.329787,19.773093,12.464526,48.0,63.0,69.55,31.3875
Third,male,27.255814,22.274211,12.204469,15.579696,74.0,45.0,69.55,56.4958


![Stack.PNG](attachment:Stack.PNG)

In [33]:
# pandas 임포트
import pandas as pd

In [34]:
# 데이터프레임 df2생성

df2= pd.DataFrame({"first":['bar','bar','bars','bars'],
                  "second":["one","two","one","two"],
                  "A":[1,3,5,7],
                  "B":[2,4,6,8]})
df2

Unnamed: 0,first,second,A,B
0,bar,one,1,2
1,bar,two,3,4
2,bars,one,5,6
3,bars,two,7,8


In [35]:
df2.set_index(["first","second"], inplace=True)

In [36]:
df2

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,1,2
bar,two,3,4
bars,one,5,6
bars,two,7,8


In [37]:
# df2의 index확인

df2.index

MultiIndex([( 'bar', 'one'),
            ( 'bar', 'two'),
            ('bars', 'one'),
            ('bars', 'two')],
           names=['first', 'second'])

In [38]:
# df2의 columns확인

df2.columns

Index(['A', 'B'], dtype='object')

In [39]:
# df2의 type확인

type(df2)

pandas.core.frame.DataFrame

* df2를 stack함

In [40]:
# df2를 stack하고 변수 stacked에 대입

stacked = df2.stack()
stacked

first  second   
bar    one     A    1
               B    2
       two     A    3
               B    4
bars   one     A    5
               B    6
       two     A    7
               B    8
dtype: int64

In [41]:
# stacked의 index확인

stacked.index

MultiIndex([( 'bar', 'one', 'A'),
            ( 'bar', 'one', 'B'),
            ( 'bar', 'two', 'A'),
            ( 'bar', 'two', 'B'),
            ('bars', 'one', 'A'),
            ('bars', 'one', 'B'),
            ('bars', 'two', 'A'),
            ('bars', 'two', 'B')],
           names=['first', 'second', None])

In [42]:
# stacked의 columns확인

# stacked.columns  ==> 시리즈니까 열은 조회 불가

In [43]:
# stacked의 type확인

type(stacked)

pandas.core.series.Series

![unstack.PNG](attachment:unstack.PNG)

In [44]:
# stacked 확인

stacked

first  second   
bar    one     A    1
               B    2
       two     A    3
               B    4
bars   one     A    5
               B    6
       two     A    7
               B    8
dtype: int64

In [45]:
# stacked의 index확인

stacked.index

MultiIndex([( 'bar', 'one', 'A'),
            ( 'bar', 'one', 'B'),
            ( 'bar', 'two', 'A'),
            ( 'bar', 'two', 'B'),
            ('bars', 'one', 'A'),
            ('bars', 'one', 'B'),
            ('bars', 'two', 'A'),
            ('bars', 'two', 'B')],
           names=['first', 'second', None])

* stacked를 unstack함

In [46]:
# stacked를 unstack하고 변수 unstacked에 대입

unstacked = stacked.unstack()
unstacked

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,1,2
bar,two,3,4
bars,one,5,6
bars,two,7,8


In [47]:
# unstacked이 index확인

unstacked.index

MultiIndex([( 'bar', 'one'),
            ( 'bar', 'two'),
            ('bars', 'one'),
            ('bars', 'two')],
           names=['first', 'second'])

In [48]:
# unstacked이 columns확인

unstacked.columns

Index(['A', 'B'], dtype='object')

In [49]:
# stacked.unstack(2)와 동일
stacked.unstack(2)

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,1,2
bar,two,3,4
bars,one,5,6
bars,two,7,8


![unstack_1.PNG](attachment:unstack_1.PNG)

In [50]:
# stacked확인

stacked

first  second   
bar    one     A    1
               B    2
       two     A    3
               B    4
bars   one     A    5
               B    6
       two     A    7
               B    8
dtype: int64

In [51]:
# unstack(1)

stacked.unstack(1)

Unnamed: 0_level_0,second,one,two
first,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,A,1,3
bar,B,2,4
bars,A,5,7
bars,B,6,8


In [52]:
# unstack(1)의 index확인

stacked.unstack(1).index

MultiIndex([( 'bar', 'A'),
            ( 'bar', 'B'),
            ('bars', 'A'),
            ('bars', 'B')],
           names=['first', None])

In [53]:
# unstack(1)의 columns확인

stacked.unstack(1).columns

Index(['one', 'two'], dtype='object', name='second')

In [54]:
# unstack('second')

stacked.unstack("second")

Unnamed: 0_level_0,second,one,two
first,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,A,1,3
bar,B,2,4
bars,A,5,7
bars,B,6,8


![unstack_0.PNG](attachment:unstack_0.PNG)

In [55]:
# stacked 확인

stacked

first  second   
bar    one     A    1
               B    2
       two     A    3
               B    4
bars   one     A    5
               B    6
       two     A    7
               B    8
dtype: int64

In [56]:
# unstack(0)

stacked.unstack(0)

Unnamed: 0_level_0,first,bar,bars
second,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,A,1,5
one,B,2,6
two,A,3,7
two,B,4,8


In [57]:
# unstack(0)의 index확인

stacked.unstack(0).index

MultiIndex([('one', 'A'),
            ('one', 'B'),
            ('two', 'A'),
            ('two', 'B')],
           names=['second', None])

In [58]:
# unstack(0)의 columns확인

stacked.unstack(0).columns

Index(['bar', 'bars'], dtype='object', name='first')

In [59]:
# unstack('first')

stacked.unstack("first")

Unnamed: 0_level_0,first,bar,bars
second,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,A,1,5
one,B,2,6
two,A,3,7
two,B,4,8


In [60]:
# 데이터프레임 df_r생성

df_r =pd.DataFrame({"이름": ["지완","찬준","지완","찬준","지완","찬준","지완","찬준"],
                   "월":["1월","1월","2월","2월","3월","3월","4월","4월"],
                   "주":["4주","4주","4주","4주","4주","4주","4주","4주"],
                   '몸무게': [69,59,56,64,54,62,52,50]})
df_r

Unnamed: 0,이름,월,주,몸무게
0,지완,1월,4주,69
1,찬준,1월,4주,59
2,지완,2월,4주,56
3,찬준,2월,4주,64
4,지완,3월,4주,54
5,찬준,3월,4주,62
6,지완,4월,4주,52
7,찬준,4월,4주,50


In [61]:
# 피벗테이블 df_p생성

df_p= df_r.pivot_table(index=["이름","월"],columns=["주"], values=["몸무게"], aggfunc="sum")
df_p

Unnamed: 0_level_0,Unnamed: 1_level_0,몸무게
Unnamed: 0_level_1,주,4주
이름,월,Unnamed: 2_level_2
지완,1월,69
지완,2월,56
지완,3월,54
지완,4월,52
찬준,1월,59
찬준,2월,64
찬준,3월,62
찬준,4월,50


In [62]:
# unstack

df_p.unstack()

Unnamed: 0_level_0,몸무게,몸무게,몸무게,몸무게
주,4주,4주,4주,4주
월,1월,2월,3월,4월
이름,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3
지완,69,56,54,52
찬준,59,64,62,50


In [63]:
# stack

df_p.stack()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,몸무게
이름,월,주,Unnamed: 3_level_1
지완,1월,4주,69
지완,2월,4주,56
지완,3월,4주,54
지완,4월,4주,52
찬준,1월,4주,59
찬준,2월,4주,64
찬준,3월,4주,62
찬준,4월,4주,50


## melt

데이터프레임.melt(id_vars=[보길 원하는 열], var_name="바꾸길 원하는 열이름", value_name="data")

![melt.PNG](attachment:melt.PNG)

In [64]:
# 데이터프레임 df3생성

df3 = pd.DataFrame({"first":["John","Mary"],
                   "last":["Doe","Bo"],
                   "height":[5.5,6.0],
                   "weight":[130,150]})
df3

Unnamed: 0,first,last,height,weight
0,John,Doe,5.5,130
1,Mary,Bo,6.0,150


In [65]:
# df3 melt

df3.melt(id_vars=["first","last"])

Unnamed: 0,first,last,variable,value
0,John,Doe,height,5.5
1,Mary,Bo,height,6.0
2,John,Doe,weight,130.0
3,Mary,Bo,weight,150.0


In [66]:
# df3 melt

df3.melt(id_vars=["first","last"], var_name="property", value_name="data")

Unnamed: 0,first,last,property,data
0,John,Doe,height,5.5
1,Mary,Bo,height,6.0
2,John,Doe,weight,130.0
3,Mary,Bo,weight,150.0


# 데이터프레임 합치기
- 데이터가 여러 군데 나누어져 있을 때 하나로 합치거나 데이터를 연결해야 하는 경우가 있다. 
- 판다스에서 데이터프레임을 합치거나 연결할 때 사용하는 함수와 메소드는 여러 가지가 있는데, 대표적으로 **`concat(), merge()`** 등이 있다.

## 데이터프레임 연결

pandas.**`concat(데이터프레임리스트)`**

- 서로 다른 데이터프레임들의 구성 형태와 속성이 균일하다면, 행 또는 열 중에 어느 한 방향으로 이어 붙여도 데이터의 일관성을 유지할 수 있다.
- 기존 데이터프레임의 형태를 유지하면서 이어 붙이는 개념으로 판다스 concat() 함수를 활용한다.
    - <u>concat() 함수에 데이터프레임을 원소로 갖는 리스트를 전달하면 여러 개의 데이터프레임을 서로 연결</u>한다.
    - <u>축방향을 지정하지 않으면 기본 옵션(axis=0)이 적용되어 위 아래 행 방향으로 연결</u>된다.
    - 이때 <u>각 데이터프레임의 행 인덱스는 본래 형태를 유지</u>한다.
     <br></br>
    - 열 이름에 대해서는 <u>join='outer' 옵션이 기본 적용되어, df1의 열 이름(A, B, C)와 df2의 열 이름(B, C, D, E)의 합집합으로 연결 데이터프레임의 열 이름(A, B, C, D, E)를 구성</u>한다.    
    <br></br>
    - 한편<u> join='inner' 옵션의 경우 데이터프레임에 공통으로 속하는 교집합(B, C)</u>가 기준이 된다.    


In [67]:
# 라이브러리 불러오기
import pandas as pd

In [68]:
# 데이터프레임 만들기
df1 = pd.DataFrame({'a':['a0', 'a1', 'a2', 'a3'],
                    'b':['b0', 'b1', 'b2', 'b3'],
                    'c':['c0', 'c1', 'c2', 'c3']}, 
                    index=[0, 1, 2, 3])
df2 = pd.DataFrame({'a':['a2', 'a3', 'a4', 'a5'],
                    'b':['b2', 'b3', 'b4', 'b5'],
                    'c':['c2', 'c3', 'c4', 'c5'],
                    'd':['d2', 'd3', 'd4', 'd5']}, 
                    index=[2, 3, 4, 5])

In [69]:
# df1
df1

Unnamed: 0,a,b,c
0,a0,b0,c0
1,a1,b1,c1
2,a2,b2,c2
3,a3,b3,c3


In [70]:
#df2
df2

Unnamed: 0,a,b,c,d
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,a4,b4,c4,d4
5,a5,b5,c5,d5


### concat

In [71]:
# 2개의 데이터프레임을 위 아래 행 방향으로 이어 붙이듯 연결하기, 🎈default: axis=0
# 열이름의 합집합을 기준으로 열이름 배열이 생성된다. default: join='outer'
# df1에는  d 열이 없기 때문에 NaN으로 입력된다.
# 각 데이터프레임의 행인덱스는 그대로 유지됨

pd.concat([df1,df2])

Unnamed: 0,a,b,c,d
0,a0,b0,c0,
1,a1,b1,c1,
2,a2,b2,c2,
3,a3,b3,c3,
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,a4,b4,c4,d4
5,a5,b5,c5,d5


### concat - join (axis=0)

In [72]:
# 2개의 데이터프레임을 위 아래 행 방향으로 이어 붙이듯 연결하기
# join='inner' 옵션 적용하기(교집합)
# 연결할 데이터프레임들의 열이름의 교집합을 기준으로 사용한다.
#  df1과  df2에 적용하면 양쪽에 공통으로 존재하는 'a', 'b', 'c'열의 데이터만을 반환한다.

result = pd.concat([df1,df2], join = "inner")
result

Unnamed: 0,a,b,c
0,a0,b0,c0
1,a1,b1,c1
2,a2,b2,c2
3,a3,b3,c3
2,a2,b2,c2
3,a3,b3,c3
4,a4,b4,c4
5,a5,b5,c5


* concat - ignore_index

In [73]:
# ignore_index=True 옵션 설정하기
# 기존 행 인덱스를 무시하고 새로운 행 인덱스를 설정한다.

result = pd.concat([df1,df2], ignore_index=True)
result

Unnamed: 0,a,b,c,d
0,a0,b0,c0,
1,a1,b1,c1,
2,a2,b2,c2,
3,a3,b3,c3,
4,a2,b2,c2,d2
5,a3,b3,c3,d3
6,a4,b4,c4,d4
7,a5,b5,c5,d5


In [74]:
# 2개의 데이터프레임을 좌우 열 방향으로 이어 붙이듯 연결하기
# 기존 열 이름배열이 그대로 유지되고, 각 데이터프레임의 행 인덱스들의 합집합으로 구성된다. default: join='outer'
# 0~1 행은 df1에만 존재하고, 4~5행은 df2에만 존재한다. 
# 이처럼 어느 한쪽에만 데이터가 존재하는 경우는 유효한 데이터가 없다는 의미로 NaN값이 설정된다.

pd.concat([df1,df2], join="outer")

Unnamed: 0,a,b,c,d
0,a0,b0,c0,
1,a1,b1,c1,
2,a2,b2,c2,
3,a3,b3,c3,
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,a4,b4,c4,d4
5,a5,b5,c5,d5


### concat - join (axis=1)

In [75]:
# join='inner' 옵션 적용하기(교집합)
# 연결할 데이터프레임들의 행 인덱스의 교집합을 기준으로 사용한다.
#  df1과  df2에 적용하면 양쪽에 공통으로 존재하는 2~3행의 데이터만을 반환한다.


pd.concat([df1,df2], axis=1, join="inner")

Unnamed: 0,a,b,c,a.1,b.1,c.1,d
2,a2,b2,c2,a2,b2,c2,d2
3,a3,b3,c3,a3,b3,c3,d3


In [76]:
#join="outer"
#axis=1 옆으로 붙인다

pd.concat([df1,df2], axis=1, join="outer")

Unnamed: 0,a,b,c,a.1,b.1,c.1,d
0,a0,b0,c0,,,,
1,a1,b1,c1,,,,
2,a2,b2,c2,a2,b2,c2,d2
3,a3,b3,c3,a3,b3,c3,d3
4,,,,a4,b4,c4,d4
5,,,,a5,b5,c5,d5


In [77]:
# 데이터프레임과 시리즈를 좌우 열 방향으로 연결할 수 있다.

# 시리즈 만들기
sr1 = pd.Series(['e0', 'e1', 'e2', 'e3'], name='e')
sr2 = pd.Series(['f0', 'f1', 'f2'], index=[4,5, 6], name='f')
sr3 = pd.Series(['g0', 'g1', 'g2', 'g3'], name='g')

In [78]:
#sr1
sr1

0    e0
1    e1
2    e2
3    e3
Name: e, dtype: object

In [79]:
#sr2
sr2

4    f0
5    f1
6    f2
Name: f, dtype: object

In [80]:
# sr3
sr3

0    g0
1    g1
2    g2
3    g3
Name: g, dtype: object

In [81]:
# df1과 sr1을 좌우 열 방향으로 연결하기
# 데이터프레임에 열을 추가하느 것과 같다. 이때 시리즈의 이름이 데이터프레임의 열 이름으로 변환된다.
# 단, 데이터프레임의 행 인덱스와 시리즈의 인덱스가 같아야 한다.

pd.concat([df1,sr1])

Unnamed: 0,a,b,c,0
0,a0,b0,c0,
1,a1,b1,c1,
2,a2,b2,c2,
3,a3,b3,c3,
0,,,,e0
1,,,,e1
2,,,,e2
3,,,,e3


In [82]:
# df2와 sr2를 좌우 열 방향으로 연결하기
# 공통의 인덱스가 없을 경우  NaN 으로 처리한다.
pd.concat([df2, sr2], axis=1)

Unnamed: 0,a,b,c,d,f
2,a2,b2,c2,d2,
3,a3,b3,c3,d3,
4,a4,b4,c4,d4,f0
5,a5,b5,c5,d5,f1
6,,,,,f2


In [83]:
# 시리즈들로 만든 리스트를 concat() 함수에 전달하면 시리즈가 서로 연결된다.
# axis=1 옵션을 적용하면 좌우 열 방향으로 연결하여 🎈데이터프레임이 된다.

# sr1과 sr3을 좌우 열 방향으로 연결하기

pd.concat([sr1,sr3], axis=1)

Unnamed: 0,e,g
0,e0,g0
1,e1,g1
2,e2,g2
3,e3,g3


In [94]:
# axis=0 옵션을 적용하면 위아래 행 방향으로 길게 연결되어 하나의 🎈시리즈가 된다.
# sr1과 sr3을 위 아래 행 방향으로 연결하기

pd.concat([sr1,sr3], axis=0)

0    e0
1    e1
2    e2
3    e3
0    g0
1    g1
2    g2
3    g3
dtype: object

## 데이터프레임 병합

**`pandas.merge(df_lef, df_right, how='inner', on=None)`**

- merge() 함수는 <u>어떤 기준에 의해 두 데이터프레임을 병합</u>하는 개념이다.
- 이때 기준이 되는 열이나 인덱스를 <u>키(key)</u>라고 부른다. 
- 키가 되는 열이나 인덱는 반드시 양쪽 데이터프레임에 모두 존재해야 한다.

In [95]:
# 라이브러리 불러오기
import pandas as pd

In [96]:
# 주식 데이터를 가져와서 데이터프레임 만들기
# df1: 여러종목의 주가 정보를 담고있음. 종목코드(id), 회사명(name), 시가총액(value), 주가(price) 열로 구성됨
df1 = pd.read_excel('./data/stock price.xlsx')
# df2: 주식의 밸류에이션 정로를 담고있음. 종목코드(id), 회사명(name), 주당순이익(eps), 주당순자산가치(bps), 주가수익비율(per), 주가자산비율(pbr)등 주식가치를 평가하는 지표로구성됨
df2 = pd.read_excel('./data/stock valuation.xlsx')

print(df1); print()
print(df2)

       id stock_name          value   price
0  128940       한미약품   59385.666667  421000
1  130960     CJ E&M   58540.666667   98900
2  138250      엔에스쇼핑   14558.666667   13200
3  139480        이마트  239230.833333  254500
4  142280     녹십자엠에스     468.833333   10200
5  145990        삼양사   82750.000000   82000
6  185750        종근당   40293.666667  100500
7  192400      쿠쿠홀딩스  179204.666667  177500
8  199800         툴젠   -2514.333333  115400
9  204210     모두투어리츠    3093.333333    3475

       id       name           eps     bps        per       pbr
0  130960     CJ E&M   6301.333333   54068  15.695091  1.829178
1  136480         하림    274.166667    3551  11.489362  0.887074
2  138040    메리츠금융지주   2122.333333   14894   6.313806  0.899691
3  139480        이마트  18268.166667  295780  13.931338  0.860437
4  145990        삼양사   5741.000000  108090  14.283226  0.758627
5  161390      한국타이어   5648.500000   51341   7.453306  0.820007
6  181710  NHN엔터테인먼트   2110.166667   78434  30.755864  0.827447
7  

In [97]:
# 데이터프레임 합치기 - 교집합
# 🎈default : on=None, how='inner'
# on=None : 두 데이터프레임에 공통으로 속하는 모든 열을 기준(키)으로 병합한다는 뜻
# how='inner' : 기준이 되는 열의 데이터가 양쪽 데이터프레임에 공통으로 존재하는 교집합일 경우에만 추출한다는 뜻
# 예제에서는 'id'열을 기준으로 공통으로 존재하는 5개의 종목에 대해 병합되어 출력됨

pd.merge(df1,df2)

Unnamed: 0,id,stock_name,value,price,name,eps,bps,per,pbr
0,130960,CJ E&M,58540.666667,98900,CJ E&M,6301.333333,54068,15.695091,1.829178
1,139480,이마트,239230.833333,254500,이마트,18268.166667,295780,13.931338,0.860437
2,145990,삼양사,82750.0,82000,삼양사,5741.0,108090,14.283226,0.758627
3,185750,종근당,40293.666667,100500,종근당,3990.333333,40684,25.185866,2.470259
4,204210,모두투어리츠,3093.333333,3475,모두투어리츠,85.166667,5335,40.802348,0.651359


In [99]:
# 데이터프레임 합치기 - 합집합
# on='id' : 두 데이터프레임의 공통열 중에서 'id'열을 키로 병합한다는 뜻
# how='outer' : 기준이 되는 'id'열의 데이터가 데이터프레임 중 어느 한쪽에만 속하더라도 포함한다는 뜻
# 'id' 열을 기준으로 모든 종목의 데이터가 포함된다. 어느 한쪽이라도 데이터가 없는 열에는 NaN값이 지정된다.

pd.merge(df1,df2, on='id', how='outer')

Unnamed: 0,id,stock_name,value,price,name,eps,bps,per,pbr
0,128940,한미약품,59385.666667,421000.0,,,,,
1,130960,CJ E&M,58540.666667,98900.0,CJ E&M,6301.333333,54068.0,15.695091,1.829178
2,138250,엔에스쇼핑,14558.666667,13200.0,,,,,
3,139480,이마트,239230.833333,254500.0,이마트,18268.166667,295780.0,13.931338,0.860437
4,142280,녹십자엠에스,468.833333,10200.0,,,,,
5,145990,삼양사,82750.0,82000.0,삼양사,5741.0,108090.0,14.283226,0.758627
6,185750,종근당,40293.666667,100500.0,종근당,3990.333333,40684.0,25.185866,2.470259
7,192400,쿠쿠홀딩스,179204.666667,177500.0,,,,,
8,199800,툴젠,-2514.333333,115400.0,,,,,
9,204210,모두투어리츠,3093.333333,3475.0,모두투어리츠,85.166667,5335.0,40.802348,0.651359


In [100]:
# 데이터프레임 합치기 - 왼쪽 데이터프레임 기준, 왼쪽 오른쪽 데이터프레임의 키값 분리
# how='left' : 왼쪽 데이터프레임의 키 열에 속하는 데이터 값을 기준으로 병합함
# left_on, right_on : 좌우 데이터프레임의 키
# df1의 'stock_name'열과 df2의 'name'열을 기준으로 병합하고, 
# 기준 열이 아닌 'id'열의 경우 양쪽 데이터프레임에 모두 존재하기 때문에 'id_x', 'id_y'와 같이 구분하여 표시됨

pd.merge(df1,df2, how="left", left_on="stock_name", right_on="name")

Unnamed: 0,id_x,stock_name,value,price,id_y,name,eps,bps,per,pbr
0,128940,한미약품,59385.666667,421000,,,,,,
1,130960,CJ E&M,58540.666667,98900,130960.0,CJ E&M,6301.333333,54068.0,15.695091,1.829178
2,138250,엔에스쇼핑,14558.666667,13200,,,,,,
3,139480,이마트,239230.833333,254500,139480.0,이마트,18268.166667,295780.0,13.931338,0.860437
4,142280,녹십자엠에스,468.833333,10200,,,,,,
5,145990,삼양사,82750.0,82000,145990.0,삼양사,5741.0,108090.0,14.283226,0.758627
6,185750,종근당,40293.666667,100500,185750.0,종근당,3990.333333,40684.0,25.185866,2.470259
7,192400,쿠쿠홀딩스,179204.666667,177500,,,,,,
8,199800,툴젠,-2514.333333,115400,,,,,,
9,204210,모두투어리츠,3093.333333,3475,204210.0,모두투어리츠,85.166667,5335.0,40.802348,0.651359


In [102]:
# 데이터프레임 합치기 - 오른쪽 데이터프레임 기준, 왼쪽 오른쪽 데이터프레임의 키값 분리
# how='right' : 오른쪽 데이터프레임의 키 열을 기준으로 추출함
# df2의 'name'열에 들어 있는 종목 데이터를 기준으로 병합함

pd.merge(df1,df2, how="right", left_on="stock_name", right_on="name")

Unnamed: 0,id_x,stock_name,value,price,id_y,name,eps,bps,per,pbr
0,130960.0,CJ E&M,58540.666667,98900.0,130960,CJ E&M,6301.333333,54068,15.695091,1.829178
1,,,,,136480,하림,274.166667,3551,11.489362,0.887074
2,,,,,138040,메리츠금융지주,2122.333333,14894,6.313806,0.899691
3,139480.0,이마트,239230.833333,254500.0,139480,이마트,18268.166667,295780,13.931338,0.860437
4,145990.0,삼양사,82750.0,82000.0,145990,삼양사,5741.0,108090,14.283226,0.758627
5,,,,,161390,한국타이어,5648.5,51341,7.453306,0.820007
6,,,,,181710,NHN엔터테인먼트,2110.166667,78434,30.755864,0.827447
7,185750.0,종근당,40293.666667,100500.0,185750,종근당,3990.333333,40684,25.185866,2.470259
8,204210.0,모두투어리츠,3093.333333,3475.0,204210,모두투어리츠,85.166667,5335,40.802348,0.651359
9,,,,,207940,삼성바이오로직스,4644.166667,60099,89.790059,6.938551


* 불린 인덱싱과 결합하여 원하는 데이터 찾기
  * merge() 함수를 불린 인덱싱과 함께 사용하면 원하는 데이터를 추출할 수 있다.



In [104]:
df1

Unnamed: 0,id,stock_name,value,price
0,128940,한미약품,59385.666667,421000
1,130960,CJ E&M,58540.666667,98900
2,138250,엔에스쇼핑,14558.666667,13200
3,139480,이마트,239230.833333,254500
4,142280,녹십자엠에스,468.833333,10200
5,145990,삼양사,82750.0,82000
6,185750,종근당,40293.666667,100500
7,192400,쿠쿠홀딩스,179204.666667,177500
8,199800,툴젠,-2514.333333,115400
9,204210,모두투어리츠,3093.333333,3475


In [103]:
# 주가가 50,000원 미만인 종목을 찾고, 해당 종목의 valuation 지표를 확인한다.
# 주가 데이터와 valuation 지표가 다른 데이터프레임에 있기 때문에 merge() 함수를 이용한다.

price = df1[ df1["price"] < 50000 ]
price

# 주가가 50,000원 미만이 종목은 모두 3개이다.

Unnamed: 0,id,stock_name,value,price
2,138250,엔에스쇼핑,14558.666667,13200
4,142280,녹십자엠에스,468.833333,10200
9,204210,모두투어리츠,3093.333333,3475


In [105]:
pd.merge(price, df2)

# 3개중에서 df2에 valuation 데이터를 가진 회사는 '모두투어리츠' 한종목으로 확인됨

Unnamed: 0,id,stock_name,value,price,name,eps,bps,per,pbr
0,204210,모두투어리츠,3093.333333,3475,모두투어리츠,85.166667,5335,40.802348,0.651359
