## 데이터프레임의 기본 연산
Series 데이터와 같이 DataFrame에도 `브로드캐스팅`이 적용됩니다.  
예를 들어, 수치 연산은 전체 데이터에 확장 적용됩니다. 

In [None]:
from pandas import DataFrame

data = [
    {'시가': 100, '고가': 110, '저가': 90, '종가': 105}, 
    {'시가':  90, '고가': 112, '저가': 80, '종가':  95}, 
    {'시가':  80, '고가': 115, '저가': 70, '종가':  85}, 
    {'시가':  70, '고가':  80, '저가': 60, '종가':  75}, 
]

df = DataFrame(data, index=['20200615', '20200616', '20200617', '20200618'])
df

Unnamed: 0,시가,고가,저가,종가
20200615,100,110,90,105
20200616,90,112,80,95
20200617,80,115,70,85
20200618,70,80,60,75


df에 덧셈 연산을 적용해 봅시다.

In [None]:
df = df + 10
df

Unnamed: 0,시가,고가,저가,종가
20200615,110,120,100,115
20200616,100,122,90,105
20200617,90,125,80,95
20200618,80,90,70,85


비교 연산 또한 전체 데이터에 적용됩니다. 

In [None]:
df > 110

Unnamed: 0,시가,고가,저가,종가
20200615,False,True,False,True
20200616,False,True,False,False
20200617,False,True,False,False
20200618,False,False,False,False


In [None]:
df[df>100]

Unnamed: 0,시가,고가,저가,종가
20200615,110.0,120.0,,115.0
20200616,,122.0,,105.0
20200617,,125.0,,
20200618,,,,


일반적으로 하나의 컬럼에 대해 조건 비교를 하고 값을 슬라이싱하는 형태로 사용합니다. 시가가 100원 이상인 `행`만을 선택해 봅시다. 

In [None]:
df[df['시가']>=100]
# df.loc[df['시가'>=100]] 요게 더 완벽한 코드임

Unnamed: 0,시가,고가,저가,종가
20200615,110,120,100,115
20200616,100,122,90,105


시가가 100원 이상인 날의 `종가`를 출력해 봅시다. 

In [None]:
# 시리즈로 출력됨
df[df['시가']>=100]['종가']

20200615    115
20200616    105
Name: 종가, dtype: int64

In [None]:
df.loc[df['시가']>=100]['종가']

20200615    115
20200616    105
Name: 종가, dtype: int64

In [None]:
# 한번에 입력하기
df.loc[df['시가']>=100, '종가']
# df.loc[조건비교, 선택]

20200615    115
20200616    105
Name: 종가, dtype: int64

## 데이터프레임 메서드

데이터프레임은 다양한 메서드를 제공합니다. 

In [None]:
df = DataFrame(data, index=['20200615', '20200616', '20200617', '20200618'])
df

Unnamed: 0,시가,고가,저가,종가
20200615,100,110,90,105
20200616,90,112,80,95
20200617,80,115,70,85
20200618,70,80,60,75


`head`와 `tail` 메서드는 일부 데이터를 출력합니다.

In [None]:
df.head()

Unnamed: 0,시가,고가,저가,종가
20200615,100,110,90,105
20200616,90,112,80,95
20200617,80,115,70,85
20200618,70,80,60,75


In [None]:
df.tail()

Unnamed: 0,시가,고가,저가,종가
20200615,100,110,90,105
20200616,90,112,80,95
20200617,80,115,70,85
20200618,70,80,60,75


`describe` 메서드는 컬럼의 통계 정보를 제공합니다.

In [None]:
df.describe()

Unnamed: 0,시가,고가,저가,종가
count,4.0,4.0,4.0,4.0
mean,85.0,104.25,75.0,90.0
std,12.909944,16.296728,12.909944,12.909944
min,70.0,80.0,60.0,75.0
25%,77.5,102.5,67.5,82.5
50%,85.0,111.0,75.0,90.0
75%,92.5,112.75,82.5,97.5
max,100.0,115.0,90.0,105.0


`info` 메서드로 데이터의 수, 결측값, 데이터 타입을 확인할 수 있습니다.

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, 20200615 to 20200618
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   시가      4 non-null      int64
 1   고가      4 non-null      int64
 2   저가      4 non-null      int64
 3   종가      4 non-null      int64
dtypes: int64(4)
memory usage: 160.0+ bytes


`mean` 메서드는 평균을 계산합니다. 

In [None]:
df.mean()

시가     85.00
고가    104.25
저가     75.00
종가     90.00
dtype: float64

`min` / `max` 함수는 최대, 최소 값을 출력합니다.

In [None]:
df.min()

시가    70
고가    80
저가    60
종가    75
dtype: int64

In [None]:
df.max()

시가    100
고가    115
저가     90
종가    105
dtype: int64

`axis` 파라미터는 연산의 적용 방향을 설정합니다.

In [None]:
df.min(axis=1)

20200615    90
20200616    80
20200617    70
20200618    60
dtype: int64

의미는 없지만 `종가`의 `누적합`을 계산해 봅시다. 

In [None]:
# df['종가'].sum()
df['종가'].cumsum()

20200615    115
20200616    220
20200617    315
20200618    400
Name: 종가, dtype: int64

In [None]:
df['종가'].cumsum()[-1]

400

`누적곱`을 계산하는 메서드도 존재합니다.

In [None]:
df['종가'].cumprod()

20200615         115
20200616       12075
20200617     1147125
20200618    97505625
Name: 종가, dtype: int64

In [None]:
df['종가'].cumprod()[-1]

97505625

In [None]:
df['종가'].cumprod().iloc[-1]

97505625

Q. 시가에 매수하고 종가에 매도 했을 때의 누적 수익률을 출력하라.

In [None]:
data = [
    {'시가': 100, '고가': 110, '저가': 90, '종가': 105}, 
    {'시가':  90, '고가': 112, '저가': 80, '종가':  95}, 
    {'시가':  80, '고가': 115, '저가': 70, '종가':  85}, 
    {'시가':  70, '고가':  80, '저가': 60, '종가':  75}, 
]

df = DataFrame(data, index=['20200615', '20200616', '20200617', '20200618'])
df['수익률'] = df['종가'] / df['시가']
df['누적수익률'] = df['수익률'].cumsum()
df

Unnamed: 0,시가,고가,저가,종가,수익률,누적수익률
20200615,100,110,90,105,1.05,1.05
20200616,90,112,80,95,1.055556,2.105556
20200617,80,115,70,85,1.0625,3.168056
20200618,70,80,60,75,1.071429,4.239484


In [None]:
#Quiz
!pip install pykrx

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pykrx
  Downloading pykrx-1.0.33-py3-none-any.whl (93 kB)
[K     |████████████████████████████████| 93 kB 1.7 MB/s 
[?25hCollecting deprecated
  Downloading Deprecated-1.2.13-py2.py3-none-any.whl (9.6 kB)
Collecting datetime
  Downloading DateTime-4.4-py2.py3-none-any.whl (51 kB)
[K     |████████████████████████████████| 51 kB 519 kB/s 
Collecting zope.interface
  Downloading zope.interface-5.4.0-cp37-cp37m-manylinux2010_x86_64.whl (251 kB)
[K     |████████████████████████████████| 251 kB 54.3 MB/s 
Installing collected packages: zope.interface, deprecated, datetime, pykrx
Successfully installed datetime-4.4 deprecated-1.2.13 pykrx-1.0.33 zope.interface-5.4.0


In [None]:
from pykrx import stock

dfsam = stock.get_market_ohlcv("20200101", "20220528", "005930")
dfsam.tail()

Unnamed: 0_level_0,시가,고가,저가,종가,거래량
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2022-05-23,68800,68800,67600,67900,13684088
2022-05-24,67500,67700,66500,66500,15482576
2022-05-25,66700,67100,65900,66400,15150490
2022-05-26,66300,67200,65500,65900,15970890
2022-05-27,66700,66900,66200,66500,11405555


In [None]:
dfsam['수익률'] = df['종가'] / df['시가']
dfsam.tail()
# dfsam['누적수익률'][-1]

Unnamed: 0_level_0,시가,고가,저가,종가,거래량,수익률
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2022-05-23,68800,68800,67600,67900,13684088,
2022-05-24,67500,67700,66500,66500,15482576,
2022-05-25,66700,67100,65900,66400,15150490,
2022-05-26,66300,67200,65500,65900,15970890,
2022-05-27,66700,66900,66200,66500,11405555,


In [None]:
dfsam['고가'].idxmax()

Timestamp('2021-01-11 00:00:00')

Q. 데이터 프레임에서 고가가 가장 높은 날이 날짜를 출력하라.

In [None]:
data = [
    {'시가': 100, '고가': 110, '저가': 90, '종가': 105}, 
    {'시가':  90, '고가': 112, '저가': 80, '종가':  95}, 
    {'시가':  80, '고가': 115, '저가': 70, '종가':  85}, 
    {'시가':  70, '고가':  80, '저가': 60, '종가':  75}, 
]

df = DataFrame(data, index=['20200615', '20200616', '20200617', '20200618'])

In [None]:
# df.index[df['고가']==df['고가'].max()]
df.index[df['고가']==df['고가'].max()][0]

'20200617'

In [None]:
df['고가'].idxmax()

'20200617'

Q. df에서 전일 종가보다 시가가 크다면 해당일의 고가를 출력하라.

In [None]:
data = [
    {'시가': 100, '고가': 110, '저가': 90, '종가': 105}, 
    {'시가': 100, '고가': 112, '저가': 80, '종가':  95}, 
    {'시가':  99, '고가': 115, '저가': 70, '종가':  85}, 
    {'시가':  70, '고가':  80, '저가': 60, '종가':  75}, 
]

df = DataFrame(data, index=['20200615', '20200616', '20200617', '20200618'])
df

Unnamed: 0,시가,고가,저가,종가
20200615,100,110,90,105
20200616,100,112,80,95
20200617,99,115,70,85
20200618,70,80,60,75


In [None]:
df.shape[0]
for i in range(df.shape[0]-1):
    if df['종가'][i] < df['시가'][i+1]:
        print(df.index[i+1],"고가", df['고가'][i+1])

20200617 고가 115


In [None]:
# shift() 사용해보기
df['전일종가'] = df['종가'].shift(1)
df

Unnamed: 0,시가,고가,저가,종가,전일종가
20200615,100,110,90,105,
20200616,100,112,80,95,105.0
20200617,99,115,70,85,95.0
20200618,70,80,60,75,85.0


In [None]:
# df[df['전일종가'] > df['시가']]
cond1 = df['전일종가'] < df['시가']
df.loc[cond1, '고가']

20200617    115
Name: 고가, dtype: int64

In [None]:
## 반복문을 사용해볼까 
c = [False] # df['전일종가'] 처음에 NaN 이니까 
for i in range(1, len(df)):
     c.append(df.iloc[i, 0] > df.iloc[i-1, 3])
df.loc[ c ].head()

Unnamed: 0,시가,고가,저가,종가,전일종가
20200617,99,115,70,85,95.0


In [None]:
# Q. 2일전 종가보다 당일 시가가 높은 경우의 데이터를 슬라이싱 하세요.
dfsam.tail()

Unnamed: 0_level_0,시가,고가,저가,종가,거래량,수익률
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2022-05-23,68800,68800,67600,67900,13684088,
2022-05-24,67500,67700,66500,66500,15482576,
2022-05-25,66700,67100,65900,66400,15150490,
2022-05-26,66300,67200,65500,65900,15970890,
2022-05-27,66700,66900,66200,66500,11405555,


In [None]:
dfsam['2일전종가'] = dfsam['종가'].shift(2)
dfsam.head()

Unnamed: 0_level_0,시가,고가,저가,종가,거래량,수익률,2일전종가
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2020-01-02,55500,56000,55000,55200,12993228,,
2020-01-03,56000,56600,54900,55500,15422255,,
2020-01-06,54900,55600,54600,55500,10278951,,55200.0
2020-01-07,55700,56400,55600,55800,10009778,,55500.0
2020-01-08,56200,57400,55900,56800,23501171,,55500.0


In [None]:
dfsam.loc[dfsam['시가']>dfsam['2일전종가']].head()

Unnamed: 0_level_0,시가,고가,저가,종가,거래량,수익률,2일전종가
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2020-01-07,55700,56400,55600,55800,10009778,,55500.0
2020-01-08,56200,57400,55900,56800,23501171,,55500.0
2020-01-09,58400,58600,57400,58600,24102579,,55800.0
2020-01-10,58800,59700,58300,59500,16000170,,56800.0
2020-01-13,59600,60000,59100,60000,11359139,,58600.0


In [None]:
# 반복문 사용해보기
c = [False, False]
for i in range(2, len(dfsam)):
    c.append(dfsam.iloc[i, 0] > dfsam.iloc[i,6])
dfsam.loc[c].head()

Unnamed: 0_level_0,시가,고가,저가,종가,거래량,수익률,2일전종가
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2020-01-07,55700,56400,55600,55800,10009778,,55500.0
2020-01-08,56200,57400,55900,56800,23501171,,55500.0
2020-01-09,58400,58600,57400,58600,24102579,,55800.0
2020-01-10,58800,59700,58300,59500,16000170,,56800.0
2020-01-13,59600,60000,59100,60000,11359139,,58600.0


In [None]:
# Q. 전일 종가보다 당일 상승 출발했다면 시가에 매수, 종가에 매도했을 때의 수익률을 계산하라.
## + 조건 : 일주일전보다도 상승
dfsam.head()
cond1 = dfsam['시가']>dfsam['종가'].shift(1)
cond2 = dfsam['시가']>dfsam['종가'].shift(7)
temp = dfsam.loc[cond1 & cond2]
수익률 = temp['종가'] / temp['시가']
수익률.cumprod().tail()

날짜
2022-05-17    0.714075
2022-05-18    0.711984
2022-05-20    0.714084
2022-05-23    0.704743
2022-05-25    0.701573
dtype: float64

In [None]:
# Q. 누적수익률 정리
tickers = stock.get_market_ticker_list()[:5]
len(tickers)

5

In [None]:
df = stock.get_market_ohlcv("20200101", "20220528", "005930")
df.head()

Unnamed: 0_level_0,시가,고가,저가,종가,거래량
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2020-01-02,55500,56000,55000,55200,12993228
2020-01-03,56000,56600,54900,55500,15422255
2020-01-06,54900,55600,54600,55500,10278951
2020-01-07,55700,56400,55600,55800,10009778
2020-01-08,56200,57400,55900,56800,23501171


In [None]:
prof0, prof3, prof7 = [], [], []
for ticker in tickers:
    df = stock.get_market_ohlcv("20200101", "20220528",ticker)

    cond1 = df['시가']>df['종가'].shift(1)
    cond2 = df['시가']>df['종가'].shift(3)
    cond3 = df['시가']>df['종가'].shift(7)

    prof0.append((df.loc[cond1]['종가'] / df.loc[cond1]['시가']).cumprod().iloc[-1])
    prof3.append((df.loc[cond1 & cond2]['종가'] / df.loc[cond1 & cond2]['시가']).cumprod().iloc[-1])
    prof7.append((df.loc[cond1 & cond2 & cond3]['종가'] / df.loc[cond1 & cond2 & cond3]['시가']).cumprod().iloc[-1])

pd.DataFrame({'code': tickers, '매일수익률': prof0, '3일수익률':prof3, '7일수익률':prof7})

Unnamed: 0,code,매일수익률,3일수익률,7일수익률
0,95570,0.421307,0.535213,0.518918
1,6840,0.311311,0.611271,0.520398
2,27410,0.947787,1.033015,0.839968
3,282330,0.783539,1.038214,0.905447
4,138930,1.095348,1.00979,0.977143


In [None]:
# 강사 코드
result = [   ]
for ticker in tickers:
    df = stock.get_market_ohlcv("20200101", "20220528", ticker)
    수익률 = df['종가'] / df['시가']
    매일 = 수익률.cumprod().iloc[-1]

    temp = df.loc[   df['시가'] > df['종가'].shift(1)    ]
    수익률 = temp['종가'] / temp['시가']
    모멘텀1 = 수익률.cumprod().iloc[-1]

    cond0 = df['시가'] > df['종가'].shift(1)
    cond1 = df['시가'] > df['종가'].shift(7)
    temp = df.loc[   cond0 & cond1   ]
    수익률 = temp['종가'] / temp['시가']
    모멘텀17 = 수익률.cumprod().iloc[-1]

    cond0 = df['시가'] > df['종가'].shift(1)
    cond1 = df['시가'] > df['종가'].shift(7)
    cond2 = df['시가'] > df['종가'].shift(14)
    temp = df.loc[   cond0 & cond1 & cond2   ]
    수익률 = temp['종가'] / temp['시가']
    모멘텀1714 = 수익률.cumprod().iloc[-1]

    result.append([ticker, 매일, 모멘텀1, 모멘텀17, 모멘텀1714])
a = DataFrame(result, columns=["ticker", "algo0", "algo1", "algo2", "algo3"])
a
# a.describe(  )

Unnamed: 0,ticker,algo0,algo1,algo2,algo3
0,95570,0.784545,0.421307,0.572808,0.727478
1,6840,0.465738,0.311311,0.356805,0.63197
2,27410,0.742302,0.947787,0.775337,0.765678
3,282330,4.418718,0.783539,0.760093,0.946251
4,138930,0.952032,1.095348,0.989696,0.996123


## 파일 I/O
대부분의 데이터는 웹상에 존재하거나 파일 형태로 보관됩니다. 판다스는 파일로 데이터를 쓰거나 읽어 올 수 있는 메서드를 제공합니다. 

데이터프레임의 `to_excel` 메서드는 엑셀 파일로 데이터를 저장합니다. 

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
df = DataFrame({
    'sex'    : ['m', 'm', 'w', 'm', 'w'],
    'weight' : [76, 88, 54, 70, 45],
    'height' : [176, 190, 148, 177, 155]        
}, index=["영수", "철수", "영자", "말똥", "영희"])
df

Unnamed: 0,sex,weight,height
영수,m,76,176
철수,m,88,190
영자,w,54,148
말똥,m,70,177
영희,w,45,155


In [None]:
df.to_excel('test.xlsx')

화면에 아무런 값도 출력되지 않지만, 파일로 데이터가 저장된 것을 확인할 수 있습니다.

<img src="https://i.ibb.co/GFDXBcW/pandas-1-1.png" width="350" style="float:left" />

`sheet_name` 속성을 사용하면 엑셀의 시트탭 이름을 변경할 수 있습니다.

In [None]:
df.to_excel('test.xlsx', sheet_name = '인적사항')

엑셀에 저장된 데이터도 `pd`의 `read_excel` 메서드를 사용하면 데이터 프레임으로 값을 읽어옵니다.

In [None]:
import pandas as pd

df = pd.read_excel('test.xlsx')
df

Unnamed: 0.1,Unnamed: 0,sex,weight,height
0,영수,m,76,176
1,철수,m,88,190
2,영자,w,54,148
3,말똥,m,70,177
4,영희,w,45,155


자동으로 부여된 인덱스와 함께 데이터를 읽어 온 것을 확인 할 수 있습니다. 의미있는 이름으로 인덱스를 지정해 보겠습니다.

In [None]:
df = df.rename(columns = {'Unnamed: 0': 'name'})
df

Unnamed: 0,name,sex,weight,height
0,영수,m,76,176
1,철수,m,88,190
2,영자,w,54,148
3,말똥,m,70,177
4,영희,w,45,155


In [None]:
df.set_index('name')

Unnamed: 0_level_0,sex,weight,height
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
영수,m,76,176
철수,m,88,190
영자,w,54,148
말똥,m,70,177
영희,w,45,155


추가적인 연산없이 `read_excel`에 `index_col` 옵션을 사용하면 한 번에 인덱스를 설정할 수 있습니다.

In [None]:
import pandas as pd

df = pd.read_excel('test.xlsx', index_col=0)
df

Unnamed: 0,sex,weight,height
영수,m,76,176
철수,m,88,190
영자,w,54,148
말똥,m,70,177
영희,w,45,155


## 데이터프레임 연결하기
하나 이상의 데이터 프레임 혹은 시리즈를 연결할 수 있습니다. 

In [None]:
import pandas as pd

d0 = [10, 20, 30]
s0 = pd.Series(d0)
s0

0    10
1    20
2    30
dtype: int64

In [None]:
d1 = [100, 200, 300, 400]
s1 = pd.Series(d1)
s1

0    100
1    200
2    300
3    400
dtype: int64

### concat

`concat` 함수는 여러 개의 자료구조를 하나로 합칩니다. 
- 리스트로 값을 전달해야 합니다. 

In [None]:
pd.concat([s0,s1])

0     10
1     20
2     30
0    100
1    200
2    300
3    400
dtype: int64

`axis` 파라미터는 연결 방향을 정의합니다. 

In [None]:
pd.concat([s0,s1], axis=1)

Unnamed: 0,0,1
0,10.0,100
1,20.0,200
2,30.0,300
3,,400


기본적으로 같은 인덱스의 값만 연결합니다. `join` 파라미터를 사용하면 연결 방식을 지정할수도 있습니다. 

`axis=0`

In [None]:
pd.concat([s0,s1], axis = 1, join='inner')

Unnamed: 0,0,1
0,10,100
1,20,200
2,30,300


<img src="https://i.ibb.co/8jQZpkd/3.png" width=300/>

`axis=1`

<img src="https://i.ibb.co/4sd5BJw/2.png" width=300/>

In [None]:
import numpy as np

df0 = DataFrame(  np.random.randint(10, size=(2, 2)) )
df1 = DataFrame(  np.random.randint(10, size=(2, 2)) )
df0

Unnamed: 0,0,1
0,7,0
1,1,1


In [None]:
df1

Unnamed: 0,0,1
0,9,9
1,2,7


In [None]:
pd.concat([df0, df1], axis=1)

Unnamed: 0,0,1,0.1,1.1
0,7,0,9,9
1,1,1,2,7


In [None]:
from pykrx import stock

tickers = stock.get_market_ticker_list()[:10]

for ticker in tickers:
    df = stock.get_market_ohlcv("20220101", "20220430", ticker)
    if ticker == tickers[0]:
        result = df["종가"]
    else:
        temp = df["종가"]
        result = pd.concat([result, temp], axis=1)
result.columns = tickers
result.head()

Unnamed: 0_level_0,095570,006840,027410,282330,138930,001460,001465,001040,079160,00104K
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
2022-01-03,5320,19550,5310,143500,8390,456000,183000,84000,25150,71300
2022-01-04,5320,19750,5290,142000,8470,510000,198500,84000,24850,71000
2022-01-05,5230,19750,5290,139500,8550,513000,198000,82900,24350,70400
2022-01-06,5090,19550,5230,141500,8480,499000,197000,81300,24200,69700
2022-01-07,5120,19500,5250,140000,8560,513000,198000,81900,24400,71000


### merge

판다스의 merge는 데이터프레임을 병합해줍니다. concat이 단순히 두 데이터프레임을 이어 붙이는 연결이라면 merge는 특정 컬럼의 값을 기준으로 데이터를 병합해줍니다. 

<div class='alert alert-info'> merge.xlsx 파일에서 익혀 봅시다 </div>

파이썬에서 병합(merge)을 사용해 보겠습니다.

In [None]:
# 첫 번째 데이터프레임
data = [
    ["전기전자", "005930", "삼성전자", 74400],
    ["화학", "051910", "LG화학", 896000],
    ["전기전자", "000660", "SK하이닉스", 101500]
]

columns = ["업종", "종목코드", "종목명", "현재가"]
df1 = pd.DataFrame(data=data, columns=columns)
df1

Unnamed: 0,업종,종목코드,종목명,현재가
0,전기전자,5930,삼성전자,74400
1,화학,51910,LG화학,896000
2,전기전자,660,SK하이닉스,101500


In [None]:
# 두 번째 데이터프레임
data = [
    ["은행", 2.92],
    ["보험", 0.37],
    ["화학", 0.06],
    ["전기전자", -2.43]
]

columns = ["업종", "등락률"]
df2 = pd.DataFrame(data=data, columns=columns)
df2

Unnamed: 0,업종,등락률
0,은행,2.92
1,보험,0.37
2,화학,0.06
3,전기전자,-2.43


df1과 df2의 데이터프레임을 병합할 기준은 `업종` 컬럼입니다. 판다스의 merge 함수는 두 데이터프레임을 합칠 기준값(컬럼명)을 on 파라미터에 지정할 수 있습니다. 합칠 두 개의 데이터프레임은 `left`와 `right` 파라미터에 각각 연결합니다. 

In [None]:
# df = DataFrame.merge(df1, df2, left_on=df1['업종'], right_on = df2['업종'])
# df = DataFrame.merge(df1, df2, on='업종')
df = pd.merge(left = df1, right = df2, on='업종')
df

Unnamed: 0,업종,종목코드,종목명,현재가,등락률
0,전기전자,5930,삼성전자,74400,-2.43
1,전기전자,660,SK하이닉스,101500,-2.43
2,화학,51910,LG화학,896000,0.06


In [None]:
df = pd.merge(left = df1, right = df2, on='업종', how = 'right')
df

Unnamed: 0,업종,종목코드,종목명,현재가,등락률
0,은행,,,,2.92
1,보험,,,,0.37
2,화학,51910.0,LG화학,896000.0,0.06
3,전기전자,5930.0,삼성전자,74400.0,-2.43
4,전기전자,660.0,SK하이닉스,101500.0,-2.43


## 데이터프레임 그룹화

복잡한 문제는 잘게 나누어 분석하고, 합쳐나가는 `Split-Apply-Combine` 전략을 사용해서 문제를 해결할 수 있습니다. 판다스가 제공하는 `groupby` 메서드를 사용하면 쉽게 `Split-Apply-Combine`을 사용할 수 있습니다. 
- split: `sex` 칼럼을 기준으로 같은 값을 같는 데이터로 분할합니다. 
- apply: 분할된 각각의 데이터에 mean/min/max/sum 등의 연산을 적용합니다.
- combine: 연산이 적용된 결과를 합쳐 하나의 테이블로 만듭니다. 

<img src="https://i.ibb.co/9Z90Hsy/pandas-1-0.png" width="800" style="float:left" />

다음은 데이터프레임을 사용하 보겠습니다. 

In [None]:
df = DataFrame({
    'sex'    : ['m', 'm', 'w', 'm', 'w'],
    'weight' : [76, 88, 54, 70, 45],
    'height' : [176, 190, 148, 177, 155]        
})
df

Unnamed: 0,sex,weight,height
0,m,76,176
1,m,88,190
2,w,54,148
3,m,70,177
4,w,45,155


In [None]:
df.sex.unique()

array(['m', 'w'], dtype=object)

In [None]:
a = df.loc[df.sex == 'm'].mean()
b = df.loc[df.sex == 'w'].mean()
t = pd.concat([a,b], axis = 1)
t.columns=['weight','height']
t

  """Entry point for launching an IPython kernel.
  


Unnamed: 0,weight,height
weight,78.0,49.5
height,181.0,151.5


`groupby` 메서드를 사용하면 특정 항목을 기준으로 분류할 수 있습니다.  

In [None]:
gb = df.groupby(by='sex')
gb

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fd2fcd3bd50>

그룹화한 결과를 확인하기 위해서는 `get_group()` 메서드를 사용해야 합니다.
- 어떤 값을 get 할지 지정해야 함

In [None]:
gb.get_group('m')

Unnamed: 0,sex,weight,height
0,m,76,176
1,m,88,190
3,m,70,177


In [None]:
gb.mean()

Unnamed: 0_level_0,weight,height
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
m,78.0,181.0
w,49.5,151.5


In [None]:
df = DataFrame({
    'sex'    : ['m', 'm', 'w', 'm', 'w'],
    'weight' : [76, 88, 54, 70, 45],
    'height' : [176, 190, 148, 177, 155]
})
df

Unnamed: 0,sex,weight,height
0,m,76,176
1,m,88,190
2,w,54,148
3,m,70,177
4,w,45,155


groupby와 함께 사용할 수 있는 기본 연산은 `mean()` / `min()` / `max()` / `size()`가 있습니다.

In [None]:
df.groupby(by='sex').mean()

Unnamed: 0_level_0,weight,height
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
m,78.0,181.0
w,49.5,151.5


In [None]:
df.groupby(by='sex').min()

Unnamed: 0_level_0,weight,height
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
m,70,176
w,45,148


In [None]:
df.groupby(by='sex').size() #중복데이터 제거

sex
m    3
w    2
dtype: int64

In [None]:
df.groupby(by='sex').count()

Unnamed: 0_level_0,weight,height
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
m,3,3
w,2,2


`agg` (aggregation) 메서드를 사용해도 같은 기능을 구현할 수 있습니다.

In [None]:
how = {'weight' : np.mean, 'height': np.min}
df.groupby(by='sex').agg(how)

Unnamed: 0_level_0,weight,height
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
m,78.0,176
w,49.5,148


In [None]:
how2 = {'weight': [np.mean, np.min, np.max]}
df.groupby('sex').agg(how2)

Unnamed: 0_level_0,weight,weight,weight
Unnamed: 0_level_1,mean,amin,amax
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
m,78.0,70,88
w,49.5,45,54


`agg`를 사용하면 각 컬럼 별로 다른 연산을 적용할 수 있습니다. 딕셔너리 형태로 적용할 연산 정보를 전달해야 합니다.