데이터 프레임에 컬럼 추가

In [5]:
from pandas import DataFrame, Series
data = [
    [ "3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]
df = DataFrame(data=data, index=index, columns=columns)

'목표가'라는 이름의 컬럼을 추가하기 위해선, Datafram에 같은 인덱스를 갖는 series가 필요하다.   
따라서 시리즈를 생성할 때 인덱스를 전달하고, 다음과 같이 데이터프레임에 시리즈가 추가된다.

In [9]:
s = Series(data=[1600, 1600, 1600], index=df.index)
df['목표가'] = s
print(df)

          종목명   현재가   등락률   목표가
037730     3R  1510  7.36  1600
036360  3SOFT  1790  1.65  1600
005760   ACTS  1185  1.28  1600


시리즈의 값을 구성하는 과정 없이, 추가될 커럼의 이름과 데이터만 입력해도 같은 결과를 얻을 수 있다.

In [10]:
from pandas import DataFrame, Series
data = [
    [ "3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]
df = DataFrame(data=data, index=index, columns=columns)
df['목표가'] = 1600
print(df)

          종목명   현재가   등락률   목표가
037730     3R  1510  7.36  1600
036360  3SOFT  1790  1.65  1600
005760   ACTS  1185  1.28  1600


기존 시리즈의 연산을 통해서도 컬럼을 추가할 수 있다.

In [11]:
df["괴리율"] = (df['목표가'] - df["현재가"]) / df['현재가']
print(df)

          종목명   현재가   등락률   목표가       괴리율
037730     3R  1510  7.36  1600  0.059603
036360  3SOFT  1790  1.65  1600 -0.106145
005760   ACTS  1185  1.28  1600  0.350211


로우 추가하기   
추가할 로우를 하나의 시리즈로 표현하려면 객체의 인덱스가 Dataframe의 컬럼명이 되어야 한다.

In [13]:
from pandas import DataFrame, Series
data = [
    [ "3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]
df = DataFrame(data=data, index=index, columns=columns)

s = Series(data=["LG전자", 60000, 3.84], index=df.columns)
df.loc["066570"] = s
print(df)

          종목명    현재가   등락률
037730     3R   1510  7.36
036360  3SOFT   1790  1.65
005760   ACTS   1185  1.28
066570   LG전자  60000  3.84


loc 속성으로 066570이름의 인덱스에 LG전자의 데이터를 입력하면 간단히 표현할 수 있다.   
이 경우는 우변이리스트를 시리즈로 변경하고, 데이터프레임과 같은 컬럼 레이블을 갖도록 자동 변환한다.

In [15]:
from pandas import DataFrame, Series
data = [
    [ "3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]
df = DataFrame(data=data, index=index, columns=columns)

df.loc["066570"] = ["LG전자", 60000, 3.84]
print(df)

          종목명    현재가   등락률
037730     3R   1510  7.36
036360  3SOFT   1790  1.65
005760   ACTS   1185  1.28
066570   LG전자  60000  3.84


컬럼, 로우를 삭제할 땐 drop 메소드를 사용한다. axis1은 컬럼, axis0은 로우를 삭제한다 (축)

In [25]:
from pandas import DataFrame, Series
data = [
    [ "3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]
df = DataFrame(data=data, index=index, columns=columns)

df_new1 = df.drop("현재가", axis=1)
df_new2 = df.drop("037730", axis=0)

print(df)
print(df_new1)
print(df_new2)

          종목명   현재가   등락률
037730     3R  1510  7.36
036360  3SOFT  1790  1.65
005760   ACTS  1185  1.28
          종목명   등락률
037730     3R  7.36
036360  3SOFT  1.65
005760   ACTS  1.28
          종목명   현재가   등락률
036360  3SOFT  1790  1.65
005760   ACTS  1185  1.28


원본에서 바로 삭제하고자 하면, inplace=True를 인자로 넘기면 된다.

In [26]:
df.drop("037730", axis=0, inplace=True)
print(df)

          종목명   현재가   등락률
036360  3SOFT  1790  1.65
005760   ACTS  1185  1.28


컬럼 레이블 변경   
이미 생성된 DF에서 컬럼과 인덱스의 이름을 수정하기 위해선   
변경할 컬럼의 label을 정의하고 바인딩한다.

In [28]:
from pandas import DataFrame, Series
data = [
    [ "3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]
df = DataFrame(data=data, index=index, columns=columns)
df.columns = ['name', 'close', 'fluctuation']
df.index.name = 'code'
print(df)

         name  close  fluctuation
code                             
037730     3R   1510         7.36
036360  3SOFT   1790         1.65
005760   ACTS   1185         1.28


rename 메소드를 사용해 변경할 수도 있다.   
 {}"변경 전 이름":"변경 후 이름"}과 같은 딕셔너리를 메서드의 인자로 쓰면 된다.

In [30]:
from pandas import DataFrame, Series
data = [
    [ "3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]
df = DataFrame(data=data, index=index, columns=columns)
df.rename(columns={'종목명' : 'code'}, inplace=True)
print(df)

         code   현재가   등락률
037730     3R  1510  7.36
036360  3SOFT  1790  1.65
005760   ACTS  1185  1.28


데이터 타입 변경   
앞서 1주차에 배운 map 메소드를 사용한다.

In [36]:
from pandas import DataFrame, Series
data = [
    ["1,000", "1,100", "1,510"],
    ["1,410", "1,420", "1,790"],
    ["850", "900", "1,185"]
]

columns = ["03/02", "03/03", "03/04"]
df = DataFrame(data=data, index=index, columns=columns)
print(df)

def remove_comma(x):
    return int(x.replace(',',''))

df['03/02'] = df["03/02"].map(remove_comma)
print(df)

        03/02  03/03  03/04
037730  1,000  1,100  1,510
036360  1,410  1,420  1,790
005760    850    900  1,185
        03/02  03/03  03/04
037730   1000  1,100  1,510
036360   1410  1,420  1,790
005760    850    900  1,185


컬럼의 문자열 다루기   
pandas는 데이터의 여러 전처리를 지원한다   
다음은 cd컬럼의 종목코드에서 A를 제거하는 것이다.

In [49]:
from pandas import DataFrame
import numpy as np

data = [
    {"cd":"A060310",'nm':"3S", "close":"2,920"},
    {"cd":"A095570",'nm':"AJ네트웍스", "close":"6,250"},
    {"cd":"A006840",'nm':"AK홀딩스", "close":"29,700"},
    {"cd":"A054620",'nm':"APS홀딩스", "close":"19,400"}
    
]
df = DataFrame(data=data)
df['cd'] = df['cd'].str[1:]
print(df)

       cd      nm   close
0  060310      3S   2,920
1  095570  AJ네트웍스   6,250
2  006840   AK홀딩스  29,700
3  054620  APS홀딩스  19,400


close 컬럼에 대해서 콤마를 제거할 것이다.   
str.replace라는 파이썬의 문자열 메소드를 사용한다.

In [48]:
df['close'] = df['close'].str.replace(',','').astype(np.int64)
print(df)

       cd      nm  close
0  060310      3S   2920
1  095570  AJ네트웍스   6250
2  054620  APS홀딩스  19400


DF에서 Boolean을 사용해 조건을 만든 후, 이를 사용해 필터링 하는 것처럼   
query 메소드를 사용하면, 특정 조건에 부합하는 데이터를 쉽게 필터링할 수 있다.   
@키워드를 사용하면 변수를 참조할 수 있다.

In [59]:
from pandas import DataFrame
import numpy as np

data = [
    {"cd":"A060310",'nm':"3S", "open":2920, "close":2800},
    {"cd":"A095570",'nm':"AJ네트웍스", "open":1920, "close":1900},
    {"cd":"A006840",'nm':"AK홀딩스", "open":2020, "close":2010},
    {"cd":"A054620",'nm':"APS홀딩스", "open":3120, "close":3200}
]
df = DataFrame(data=data)
df = df.set_index('cd')
print(df)

cond = df['open'] >=2000
print(df[cond])

print(df.query("nm=='3S'"))

print(df[df["open"]>df['close']])

name = "AJ네트웍스"
df.query('nm == @name')

             nm  open  close
cd                          
A060310      3S  2920   2800
A095570  AJ네트웍스  1920   1900
A006840   AK홀딩스  2020   2010
A054620  APS홀딩스  3120   3200
             nm  open  close
cd                          
A060310      3S  2920   2800
A006840   AK홀딩스  2020   2010
A054620  APS홀딩스  3120   3200
         nm  open  close
cd                      
A060310  3S  2920   2800
             nm  open  close
cd                          
A060310      3S  2920   2800
A095570  AJ네트웍스  1920   1900
A006840   AK홀딩스  2020   2010


Unnamed: 0_level_0,nm,open,close
cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A095570,AJ네트웍스,1920,1900


filter 메소드는 인덱스나 컬럼 이름에 대해 특정 조건으로 필터링 할 수 있다.

In [65]:
from pandas import DataFrame
data = [
    [1416,1416,2994,1755],
    [6.42,17.63,21.09,13.93],
    [1.10,1.49,2.06,1.88]
]
columns = ["2018/12", "2019/12", "2020/12", "2021/12(E)"]
index = ["DPS", "PER", "PBR"]
df = DataFrame(data=data, index=index, columns=columns)
print(df)
print(df.filter(items=['2018/12']))
print(df.filter(items=["PER"], axis=0))

     2018/12  2019/12  2020/12  2021/12(E)
DPS  1416.00  1416.00  2994.00     1755.00
PER     6.42    17.63    21.09       13.93
PBR     1.10     1.49     2.06        1.88
     2018/12
DPS  1416.00
PER     6.42
PBR     1.10
     2018/12  2019/12  2020/12  2021/12(E)
PER     6.42    17.63    21.09       13.93


여러 종목에 대해 백테스팅을 할 때, 회사별로 결산월이 다르다.   
2020이라는 문자열 일부로 필터링이 필요하고, regex를 사용할 수 있다.

In [67]:
df.filter(regex="2020")

Unnamed: 0,2020/12
DPS,2994.0
PER,21.09
PBR,2.06


단순히 문자열의 패턴만 검색하면 원치 않는 값들이 함께 선택될 수 있다.   
구체화하기위해 ^를 사용할 수 있고, ^2020은 2020으로 시작하는 패턴을 선택하라는 뜻이다.   
또한 $는 $로 끝나는 패턴을 의미한다.

In [68]:
df.filter(regex="^2020")

Unnamed: 0,2020/12
DPS,2994.0
PER,21.09
PBR,2.06


In [69]:
df.filter(regex="R$", axis=0)

Unnamed: 0,2018/12,2019/12,2020/12,2021/12(E)
PER,6.42,17.63,21.09,13.93
PBR,1.1,1.49,2.06,1.88


|d는 숫자를 의미하며, 중괄호로 출현 횟수를 지정할 수 있다.   
숫자가 4개 연속해서 발생하는 문자열만 탐색할 수 있다.

In [70]:
df.filter(regex="|d{4}")

Unnamed: 0,2018/12,2019/12,2020/12,2021/12(E)
DPS,1416.0,1416.0,2994.0,1755.0
PER,6.42,17.63,21.09,13.93
PBR,1.1,1.49,2.06,1.88


정렬 및 순위   
정렬 기준을 늘 정해줘야하고, 파라미터의 이름을 정해줄 수도 있다.

In [None]:
data = [
    ['037730', "3R", 1510],
    ['036360', "3SOFT", 1790],
    ['005760', "ACTS", 1185]
]
columns = ["종목코드", "종목명", "현재가"]

df = DataFrame(data= data, columns=columns)
df.set_index("종목코드", inplace=True)


In [73]:
df2 = df.sort_values("현재가")
print(df2)

df3 = df.sort_values(by = "현재가")
print(df3)

          종목명   현재가
종목코드               
005760   ACTS  1185
037730     3R  1510
036360  3SOFT  1790
          종목명   현재가
종목코드               
005760   ACTS  1185
037730     3R  1510
036360  3SOFT  1790


내림차순으로 정렬하기 위해선 ascending parameter를 추가하면 된다.   
기본 값이 True이기 때문에 지정하지 않는다면 오름차순이다.

In [74]:
df4 = df.sort_values(by="현재가", ascending=False)
print(df2)

          종목명   현재가
종목코드               
005760   ACTS  1185
037730     3R  1510
036360  3SOFT  1790


순위를 매길 땐 rank 메소드를 사용하면 된다.

In [77]:
df["순위"] = df["현재가"].rank()
print(df)
df.sort_values(by="순위", inplace=True)
print(df)

          종목명   현재가   순위
종목코드                    
037730     3R  1510  2.0
036360  3SOFT  1790  3.0
005760   ACTS  1185  1.0
          종목명   현재가   순위
종목코드                    
005760   ACTS  1185  1.0
037730     3R  1510  2.0
036360  3SOFT  1790  3.0


인덱스 연산   
Pandas는 브로드캐스팅이 적용되어 반복문 없이 전체 데이터에 연산을 적용할 수 있다.   
같은 인덱스 사이에 연산이 적용되기 때문에, 인덱스가 같은 지 비교할 필요가 있다.   
union 메소드는 현재 인덱스와 현재 인덱스의 합집합을 반환한다.

In [79]:
import pandas as pd

idx1 = pd.Index([1,2,3])
idx2 = pd.Index([2,3,4])
print(type(idx1))
idx1.union(idx2)

<class 'pandas.core.indexes.base.Index'>


Index([1, 2, 3, 4], dtype='int64')

Groupby

In [83]:
from pandas import DataFrame
data = [
    ["2차전지(생산)", "SK이노베이션", 10.19, 1.29],
    ["해운", "팬오션", 21.23, 0.95],
    ["시스템반도체", "티엘아이", 35.97, 1.12],
    ["해운", "HMM", 21.52, 3.20],
    ["시스템반도체", "아이에이", 37.32, 3.55], 
    ["2차전지(생산)", "LG화학", 83.06, 3.75]
]
columns = ["테마", "종목명", "PER", "PBR"]
df = DataFrame(data=data, columns=columns)
print(df)

         테마      종목명    PER   PBR
0  2차전지(생산)  SK이노베이션  10.19  1.29
1        해운      팬오션  21.23  0.95
2    시스템반도체     티엘아이  35.97  1.12
3        해운      HMM  21.52  3.20
4    시스템반도체     아이에이  37.32  3.55
5  2차전지(생산)     LG화학  83.06  3.75


다음 데이터에서 테마별로 PER와 PBR을 구하려면?   
먼저 2차전지, 해운, 시스템반도체 세 그룹으로 종목을 분류해야한다.   
이후 각 개체에서 평균값을 계산하기 위해 mean 메소드를 호출하고 새로운 시리즈를 만든다.

In [85]:
df1 = df[df['테마'] == "2차전지(생산)"]
df2 = df[df['테마'] == "해운"]
df3 = df[df['테마'] == "시스템반도체"]

mean1 = df1['PER'].mean()
mean2 = df2['PER'].mean()
mean3 = df3['PER'].mean()

data = [mean1, mean2, mean3]
index = ["2차전지(생산)", "해운", "시스템반도체"]
s = pd.Series(data=data, index=index)
print(s)

2차전지(생산)    46.625
해운          21.375
시스템반도체      36.645
dtype: float64


이를 groupby 메소드를 활용해 간략화 할 수 있다.   
groupby는 split을 담당하며 DataFrameGroupby라는 객체를 반환한다.   
get_gropu을 통해 특정 값을 갖는 데이터프레임을 얻을 수 있다.

In [87]:
print(df.groupby("테마")["PER"].mean())

gb = df.groupby("테마")
temp = gb.get_group("2차전지(생산)")
print(temp)

테마
2차전지(생산)    46.625
시스템반도체      36.645
해운          21.375
Name: PER, dtype: float64
         테마      종목명    PER   PBR
0  2차전지(생산)  SK이노베이션  10.19  1.29
5  2차전지(생산)     LG화학  83.06  3.75


원본 데이터를 슬라이싱해서 필요한 세 개의 컬럼에 대해 groupby를 적용해보자.

In [88]:
temp = df[["테마", "PER", "PBR"]].groupby("테마").get_group("2차전지(생산)")
print(temp)

         테마    PER   PBR
0  2차전지(생산)  10.19  1.29
5  2차전지(생산)  83.06  3.75


또다른 방법은 DataFrameGroupBy객체를 슬라이싱 하는 것이다.   
이는 데이터프레임과 유사하게 컬럼 인덱싱, 슬라이싱을 지원한다.

In [89]:
temp = df.groupby("테마")[["PER", "PBR"]].get_group("2차전지(생산)")
print(temp)

     PER   PBR
0  10.19  1.29
5  83.06  3.75


그룹화 이후 특정 컬럼마다 다른 함수를 적용할 수 있다.   
PER의 max, PBR의 min을 대푯값으로 설정하고자 하는 경우 agg를 사용한다.   
컬럼의 이름을 key, 함수의 이름을 value로 전달한다.

In [90]:
df.groupby("테마").agg({"PER":max, "PBR":min})

  df.groupby("테마").agg({"PER":max, "PBR":min})
  df.groupby("테마").agg({"PER":max, "PBR":min})


Unnamed: 0_level_0,PER,PBR
테마,Unnamed: 1_level_1,Unnamed: 2_level_1
2차전지(생산),83.06,1.29
시스템반도체,37.32,1.12
해운,21.52,0.95


하나의 컬럼에 여러 연산을 사용할 수도 있다.

In [91]:
df.groupby("테마").agg({"PER":[min, max], "PBR": [np.std,np.var]})

  df.groupby("테마").agg({"PER":[min, max], "PBR": [np.std,np.var]})
  df.groupby("테마").agg({"PER":[min, max], "PBR": [np.std,np.var]})
  df.groupby("테마").agg({"PER":[min, max], "PBR": [np.std,np.var]})
  df.groupby("테마").agg({"PER":[min, max], "PBR": [np.std,np.var]})


Unnamed: 0_level_0,PER,PER,PBR,PBR
Unnamed: 0_level_1,min,max,std,var
테마,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2차전지(생산),10.19,83.06,1.739483,3.0258
시스템반도체,35.97,37.32,1.718269,2.95245
해운,21.23,21.52,1.59099,2.53125


좌/우로 붙이기   
concat을 이용해 두개 이상의 데이터프레임을 하나로 만들 수 있다.   
concat은 기본적으로 같은 컬럼을 갖는 데이터를 위/아래로 연결한다.   
axis=1을 전닥ㄹ하면 데이터를 좌/우로 연결하고 인덱스를 기준으로 연결한다.

In [96]:
from pandas import DataFrame
import pandas as pd

 # 첫 번째 데이터프레임
data = {
    '종가': [113000, 111500],
    '거래량': [555850, 282163]
}
index = ['2019-06-21', '2019-06-20']

df1 = DataFrame(data=data, index=index)
# 두 번째 데이터프레임
data = {
    '시가':[112500, 110000],
    '고가':[115000, 112000],
    '저가':[111500, 109000]
}
index = ['2019-06-21', '2019-06-20']
df2 = DataFrame(data=data, index=index)

df = pd.concat([df1, df2], axis=1)
print(df)

                종가     거래량      시가      고가      저가
2019-06-21  113000  555850  112500  115000  111500
2019-06-20  111500  282163  110000  112000  109000


좌우로 이어붙인 컬럼의 순서가 적절하지 않다.   
보통 시가,고가,저가,종가,거래량 순서로 컬럼을 사용하기 때문에   
변경할 순서대로 레이블을 리스트로 정의하고, 인덱싱 기호에 넣어주면 된다.

In [97]:
정렬순서 = ['시가', '고가', '저가', '종가', '거래량']
df = df[정렬순서]
print(df)

                시가      고가      저가      종가     거래량
2019-06-21  112500  115000  111500  113000  555850
2019-06-20  110000  112000  109000  111500  282163


인덱스가 다른 데이터 프레임에선?   
존재하지않는 레이블에서 결측값 NAN이 표기된다.   


In [98]:
from pandas import DataFrame
import pandas as pd

data = {
    '종가': [113000, 111500],
    '거래량': [555850, 282163]
}
index = ['2019-06-21', '2019-06-20']
df1 = DataFrame(data=data, index=index)

data = {
    '시가':[112500, 110000],
    '고가':[115000, 112000],
    '저가':[111500, 109000]
}

index = ['2019-06-20', '2019-06-19']
df2 = DataFrame(data=data, index=index)

df = pd.concat([df1, df2], axis=1)
print(df)


                  종가       거래량        시가        고가        저가
2019-06-21  113000.0  555850.0       NaN       NaN       NaN
2019-06-20  111500.0  282163.0  112500.0  115000.0  111500.0
2019-06-19       NaN       NaN  110000.0  112000.0  109000.0


결측치를 채우기 위한 방법은 여러가지가 있다.   
concat에서 join을 사용해 outer, inner를 통해 인덱스가 다를 때의 동작을 지정할 수 있다.   
outer는 합집합처럼 모든 인덱스에 값을 연결하며 존재하지 않는 Nan으로 표시한다.   
inner를 사용하면 교집합처럼 동작하여 공통인 부분만 연결한다. default는 outer이다.

In [99]:
df = pd.concat([df1, df2], axis=1, join='inner')
print(df)

                종가     거래량      시가      고가      저가
2019-06-20  111500  282163  112500  115000  111500


위/아래로 붙이기   
두개의 데이터프레임을 컬럼을 기준으로 정렬 후, 위/아래로 붙일 수 있다.   

In [104]:
from pandas import DataFrame
import pandas as pd

data = {
    '종가': [113000, 111500],
    '거래량': [555850, 282163]
}
index = ['2019-06-21', '2019-06-20']
df1 = DataFrame(data=data, index=index)

data = {
    '종가': [113000, 483689],
    '거래량': [109000, 754123]
}

index = ['2019-06-19', '2019-06-18']
df2 = DataFrame(data=data, index=index)

df = pd.concat([df1, df2])


Merge   
merge는 데이터프레임을 병합한다.   
concat은 단순히 붙이는 것이라면, merge는 특정 컬럼의 값을 기준으로 데이터를 병합한다.   
이번에 병합할 기준은 "업종"이다.

In [106]:
from pandas import DataFrame
import pandas as pd
data = [
    ["전기전자", "005930", "삼성전자", 74400],
    ["화학", "051910", "LG화학", 896000],
    ["전기전자", "000660", "SK하이닉스", 101500]
]

columns = ["업종", "종목코드", "종목명", "현재가"]
df1 = DataFrame(data=data, columns=columns)

data = [
    ["은행", 2.92],
    ["보험", 0.37],
    ["화학", 0.06],
    ["전기전자", -2.43]
]

columns = ["업종", "등락률"]
df2 = DataFrame(data=data, columns=columns)

df = pd.merge(left=df1, right=df2, on="업종")
print(df)

     업종    종목코드     종목명     현재가   등락률
0  전기전자  005930    삼성전자   74400 -2.43
1    화학  051910    LG화학  896000  0.06
2  전기전자  000660  SK하이닉스  101500 -2.43


how를 이용해 합치는 방법을 정할 수 있다.   
concat과 일관성 있게 inner와 outer를 사용할 수 있다.    
left에 의해 서비스업의 카카옦자ㅣ 표시하며 등락률은 존재하지않아 NaN으로 출력한다.

In [108]:
from pandas import DataFrame
import pandas as pd
data = [
    ["전기전자", "005930", "삼성전자", 74400],
    ["화학", "051910", "LG화학", 896000],
    ["서비스업", "035720", "카카오", 121500]
]

columns = ["업종", "종목코드", "종목명", "현재가"]
df1 = DataFrame(data=data, columns=columns)

data = [
    ["은행", 2.92],
    ["보험", 0.37],
    ["화학", 0.06],
    ["전기전자", -2.43]
]

columns = ["업종", "등락률"]
df2 = DataFrame(data=data, columns=columns)

df = pd.merge(left=df1, right=df2, how = 'left', on="업종")
print(df)

     업종    종목코드   종목명     현재가   등락률
0  전기전자  005930  삼성전자   74400 -2.43
1    화학  051910  LG화학  896000  0.06
2  서비스업  035720   카카오  121500   NaN


두 데이터프레임의 컬럼이 다르다면 ?   
컬럼의 이름을 변경하고 합칠 수 있지만, 코드가 길어진다.   
이 때 어떤 기준을 사용할지 left_on, right_on으로 지정한다.

In [110]:
from pandas import DataFrame
import pandas as pd
data = [
    ["전기전자", "005930", "삼성전자", 74400],
    ["화학", "051910", "LG화학", 896000],
    ["서비스업", "035720", "카카오", 121500]
]

columns = ["업종", "종목코드", "종목명", "현재가"]
df1 = DataFrame(data=data, columns=columns)

data = [
    ["은행", 2.92],
    ["보험", 0.37],
    ["화학", 0.06],
    ["전기전자", -2.43]
]

columns = ["항목", "등락률"]
df2 = DataFrame(data=data, columns=columns)

df = pd.merge(left=df1, right=df2, left_on="업종", right_on="항목")
print(df)

     업종    종목코드   종목명     현재가    항목   등락률
0  전기전자  005930  삼성전자   74400  전기전자 -2.43
1    화학  051910  LG화학  896000    화학  0.06


Join   
merge와 유사하지만 인덱스의 기준으로 병합하는 경우 join을 사용한다.

In [114]:
data = [
    ["전기전자", "005930", "삼성전자", 74400],
    ["화학", "051910", "LG화학", 896000],
    ["서비스업", "035720", "카카오", 121500]
]

columns = ["업종", "종목코드", "종목명", "현재가"]
df1 = DataFrame(data=data, columns=columns)

data = [
    ["은행", 2.92],
    ["보험", 0.37],
    ["화학", 0.06],
    ["전기전자", -2.43]
]

columns = ["항목", "등락률"]
df2 = DataFrame(data=data, columns=columns)
df2 = df2.set_index("항목")

df1.join(other=df2)

Unnamed: 0,업종,종목코드,종목명,현재가,등락률
0,전기전자,5930,삼성전자,74400,
1,화학,51910,LG화학,896000,
2,서비스업,35720,카카오,121500,


멀티 인덱스   
엑셀에선 cell을 병합하는 형태로 여러 컬럼으로 구분된 데이터를 표현할 수 있다.   
이를 데이터프레임에선 멀팅니덱스라고 표현한다.   
level0, level1 인덱스 등으로 나뉜다.

In [None]:
from pandas import DataFrame
import pandas as pd

data = [
    ['영업이익', '컨센서스', 1000, 1200],
    ['영업이익', '잠정치', 900, 1400],
    ['당기순이익', '컨센서스', 800, 900],
    ['당기순이익', '잠정치', 700, 800],
]

df = DataFrame(data=data)
df = df.set_index([0, 1])
print(df)
