### round 함수
DataFrame 객체 내의 요소를 반올림하는 메서드
#### 기본 사용법
df.round(decimals=0, args, kwargs)<br>
decimals : 소수 n번째 자리 '까지' 반올림<br>
    만약 음수면 10의 n승 자리 까지 반올림<br>

In [222]:
import pandas as pd
import numpy as np

In [223]:
col = ['col1','col2','col3']
row = ['row1','row2','row3']
data = np.random.rand(3,3)*100
df = pd.DataFrame(data=data, index=row, columns=col)
print(df)

           col1       col2       col3
row1  60.486233  20.771086  73.754785
row2  98.790128  83.547950  67.425870
row3  95.060189  49.372102  54.367847


In [224]:
print(df.round(0))
print(df.round(1))
print(df.round(2))
print(df.round(-1))


      col1  col2  col3
row1  60.0  21.0  74.0
row2  99.0  84.0  67.0
row3  95.0  49.0  54.0
      col1  col2  col3
row1  60.5  20.8  73.8
row2  98.8  83.5  67.4
row3  95.1  49.4  54.4
       col1   col2   col3
row1  60.49  20.77  73.75
row2  98.79  83.55  67.43
row3  95.06  49.37  54.37
       col1  col2  col3
row1   60.0  20.0  70.0
row2  100.0  80.0  70.0
row3  100.0  50.0  50.0


#### sum 메서드
객체의 행이나 열의 총 합계를 구하는 메서드
기본 사용법
df.sum(axis=None, skipna=None, level=None, numeric_only=None, min_count=0, kwargs)
axis : { 0 : 행 / 1 : 열} 더할 레이블을 선택
skipna : {True or False} Na가 존재할 경우 무시할지의 여부
    기본값은 True
level : Multi Index일 경우 레벨을 설정
numeric_only : 숫자 데이터만 사용할지의 여부
min_count : 계산에 필요한 숫자의 최소 갯수

In [225]:
col = ['col1','col2','col3']
row = ['row1','row2','row3']
data = [[1,2,3],[4,5,6],[7,np.NaN,9]]
df = pd.DataFrame(data=data,index=row,columns=col)
print(df)

      col1  col2  col3
row1     1   2.0     3
row2     4   5.0     6
row3     7   NaN     9


In [226]:
print(df.sum(axis=0))

col1    12.0
col2     7.0
col3    18.0
dtype: float64


In [227]:
print(df.sum(axis=1))

row1     6.0
row2    15.0
row3    16.0
dtype: float64


In [228]:
print(df.sum(axis=0,skipna=False))

col1    12.0
col2     NaN
col3    18.0
dtype: float64


In [229]:
print(df.sum(axis=1,min_count=3))

row1     6.0
row2    15.0
row3     NaN
dtype: float64


prod 함수
객체의 행이나 열의 곱을 구하는 메서드
기본 사용법
df.prod(axis=None, skipna=None, level=None, numeric_only=None, min_count=0, kwargs)

In [230]:
print(df.prod(axis=0))

col1     28.0
col2     10.0
col3    162.0
dtype: float64


In [231]:
print(df.prod(axis=1))

row1      6.0
row2    120.0
row3     63.0
dtype: float64


In [232]:
print(df.prod(axis=0, skipna=False))

col1     28.0
col2      NaN
col3    162.0
dtype: float64


In [233]:
print(df.prod(axis=1, min_count=3))

row1      6.0
row2    120.0
row3      NaN
dtype: float64


abs함수
각 요소의 절댓값을 반환하는 메서드
기본 사용법
df.abs( )

In [234]:
col = ['col1','col2','col3']
row = ['row1','row2','row3']
data = [[-1,2,-3.5],[4,-5.5, 3+4j],[7,np.NaN,0]]
df = pd.DataFrame(data=data,index=row,columns=col)
print(df)

      col1  col2      col3
row1    -1   2.0 -3.5+0.0j
row2     4  -5.5  3.0+4.0j
row3     7   NaN  0.0+0.0j


In [235]:
print(df.abs())

      col1  col2  col3
row1     1   2.0   3.5
row2     4   5.5   5.0
row3     7   NaN   0.0


transpose함수
Dataframe객체를 전치 하는 메서드
기본 사용법
df.transpose(args, copy=False)

In [236]:
col = ['col1','col2','col3']
row = ['row1','row2','row3','row4']
data = [['A',1,2],['B',3,4],['C',5,6],['D',7,8]]
df = pd.DataFrame(data=data,index=row,columns=col)
print(df)

     col1  col2  col3
row1    A     1     2
row2    B     3     4
row3    C     5     6
row4    D     7     8


In [237]:
print(df.transpose())
print(df.T)

     row1 row2 row3 row4
col1    A    B    C    D
col2    1    3    5    7
col3    2    4    6    8
     row1 row2 row3 row4
col1    A    B    C    D
col2    1    3    5    7
col3    2    4    6    8


### rank 함수
축에 대해서 순위를 매기는 메서드
#### 기본 사용법
df.rank(axis=0, method='average', numeric_only=None, na_option='keep', ascending=True, pct=False) <br>
axis : {0 : index / 1 : columns}  <br>
method : {'average' / 'min' / 'max' / 'first' / 'dense'}  <br>
    동순위 일때 처리 방법 <br>
    average는 평균, min은 낮은순위, max는 높은순위,  <br>
    first는 나타나는순서대로  <br>
    dense의 경우는 min과 같지만 그룹간 순위는 항상 1씩 증가 <br>
numeric_only : {True / False} 숫자만 순위를 매길지 여부 <br>
na_option : {'keep' / 'top' / 'bottom'} NaN값의 처리 방법  <br>
    keep의 경우 NaN순위 할당, top의 경우 낮은순위 할당,  <br>
    bottom의 경우 높은 순위를 할당 <br>
ascending : {True / False} 오름차순으로 할지의 여부 <br>
pct : {True / False} 순위를 백분위수형식으로 할지 여부 <br>

In [238]:
data = [[5],[5],[pd.NA],[3],[-3.1],[5],[0.4],[6.7],[3]]
row = ['A★','B★','C','D☆','E','F★','G','H','I☆']
df = pd.DataFrame(data=data, index=row, columns=['Value'])
print(df)

   Value
A★     5
B★     5
C   <NA>
D☆     3
E   -3.1
F★     5
G    0.4
H    6.7
I☆     3


In [239]:
df['average']=df['Value'].rank(method='average')
df['min']=df['Value'].rank(method='min')
df['max']=df['Value'].rank(method='max')
df['first']=df['Value'].rank(method='first')
df['dense']=df['Value'].rank(method='dense')
print(df)

   Value  average  min  max  first  dense
A★     5      6.0  5.0  7.0    5.0    4.0
B★     5      6.0  5.0  7.0    6.0    4.0
C   <NA>      NaN  NaN  NaN    NaN    NaN
D☆     3      3.5  3.0  4.0    3.0    3.0
E   -3.1      1.0  1.0  1.0    1.0    1.0
F★     5      6.0  5.0  7.0    7.0    4.0
G    0.4      2.0  2.0  2.0    2.0    2.0
H    6.7      8.0  8.0  8.0    8.0    5.0
I☆     3      3.5  3.0  4.0    4.0    3.0


In [240]:
df['keep']=df['Value'].rank(na_option='keep')
df['top']=df['Value'].rank(na_option='top')
df['bottom']=df['Value'].rank(na_option='bottom')
df['pct']=df['Value'].rank(pct=True)
print(df)

   Value  average  min  max  first  dense  keep  top  bottom     pct
A★     5      6.0  5.0  7.0    5.0    4.0   6.0  7.0     6.0  0.7500
B★     5      6.0  5.0  7.0    6.0    4.0   6.0  7.0     6.0  0.7500
C   <NA>      NaN  NaN  NaN    NaN    NaN   NaN  1.0     9.0     NaN
D☆     3      3.5  3.0  4.0    3.0    3.0   3.5  4.5     3.5  0.4375
E   -3.1      1.0  1.0  1.0    1.0    1.0   1.0  2.0     1.0  0.1250
F★     5      6.0  5.0  7.0    7.0    4.0   6.0  7.0     6.0  0.7500
G    0.4      2.0  2.0  2.0    2.0    2.0   2.0  3.0     2.0  0.2500
H    6.7      8.0  8.0  8.0    8.0    5.0   8.0  9.0     8.0  1.0000
I☆     3      3.5  3.0  4.0    4.0    3.0   3.5  4.5     3.5  0.4375


diff함수
한 객체 내에서 열과 열 / 행과 행의 차이를 출력하는 메서드
기본 사용법
df.diff(periods=1, axis=0)
axis : 비교할 축을 지정
    axis=0 인 경우 행 비교, axis=1인 경우 열 끼리 비교
periods : 비교할 간격을 지정
    기본은 +1로 바로 이전 값과 비교

In [241]:
a = [1,2,3,4,5,6,7,8]
b = [1,2,4,8,16,32,64,128]
c = [8,7,6,5,4,3,2,1]
data = {"col1":a,"col2":b,"col3":c}
df = pd.DataFrame(data)
print(df)

   col1  col2  col3
0     1     1     8
1     2     2     7
2     3     4     6
3     4     8     5
4     5    16     4
5     6    32     3
6     7    64     2
7     8   128     1


In [242]:
print(df.diff(axis=0))

   col1  col2  col3
0   NaN   NaN   NaN
1   1.0   1.0  -1.0
2   1.0   2.0  -1.0
3   1.0   4.0  -1.0
4   1.0   8.0  -1.0
5   1.0  16.0  -1.0
6   1.0  32.0  -1.0
7   1.0  64.0  -1.0


In [243]:
print(df.diff(axis=1))

   col1  col2  col3
0   NaN     0     7
1   NaN     0     5
2   NaN     1     2
3   NaN     4    -3
4   NaN    11   -12
5   NaN    26   -29
6   NaN    57   -62
7   NaN   120  -127


In [244]:
print(df)
print(df.diff(periods=3))

   col1  col2  col3
0     1     1     8
1     2     2     7
2     3     4     6
3     4     8     5
4     5    16     4
5     6    32     3
6     7    64     2
7     8   128     1
   col1   col2  col3
0   NaN    NaN   NaN
1   NaN    NaN   NaN
2   NaN    NaN   NaN
3   3.0    7.0  -3.0
4   3.0   14.0  -3.0
5   3.0   28.0  -3.0
6   3.0   56.0  -3.0
7   3.0  112.0  -3.0


In [245]:
print(df.diff(periods=-2))

   col1  col2  col3
0  -2.0  -3.0   2.0
1  -2.0  -6.0   2.0
2  -2.0 -12.0   2.0
3  -2.0 -24.0   2.0
4  -2.0 -48.0   2.0
5  -2.0 -96.0   2.0
6   NaN   NaN   NaN
7   NaN   NaN   NaN


### pct_change 함수
한 객체 내에서 행과 행의 차이를 현재값과의 백분율로 출력하는 메서드<br>
(다음행 - 현재행)÷현재행
##### 기본 사용법
df.pct_change(periods=1, fill_method='pad', limit=None, freq=None, kwargs)<br>
periods : 비교할 간격을 지정<br>
    기본은 +1로 바로 이전 값과 비교<br>
fill_method : {ffill : 앞의 값으로 채움 / bfill : 뒤의 값으로 채움}<br>
    결측치를 대체할 값<br>
limit : 결측값을 몇개나 대체할지<br>
freq : 시계열 API에서 사용할 증분을 지정<br>
>결측치/결측값(Missing value): 데이터에 값이 없는 것 NA,Null<br>
    처리방법 중요(삭제/추측)

In [246]:
N=pd.NA
a = [1,1,4,4,1,1]
b = [1,2,4,8,16,32]
c = [1,N,N,N,16,64]
data = {"col1":a,"col2":b,"col3":c}
df = pd.DataFrame(data)
print(df)

   col1  col2  col3
0     1     1     1
1     1     2  <NA>
2     4     4  <NA>
3     4     8  <NA>
4     1    16    16
5     1    32    64


In [247]:
print(df.pct_change())

   col1  col2  col3
0   NaN   NaN   NaN
1  0.00   1.0   0.0
2  3.00   1.0   0.0
3  0.00   1.0   0.0
4 -0.75   1.0  15.0
5  0.00   1.0   3.0


In [248]:
print(df.pct_change(periods=2))

   col1  col2  col3
0   NaN   NaN   NaN
1   NaN   NaN   NaN
2  3.00   3.0   0.0
3  3.00   3.0   0.0
4 -0.75   3.0  15.0
5 -0.75   3.0  63.0


In [249]:
print(df.pct_change(periods=-1))

   col1  col2    col3
0  0.00  -0.5  0.0000
1 -0.75  -0.5  0.0000
2  0.00  -0.5  0.0000
3  3.00  -0.5 -0.9375
4  0.00  -0.5 -0.7500
5   NaN   NaN     NaN


In [250]:
print(df.pct_change(fill_method='ffill'))
print(df.pct_change(fill_method='bfill'))

   col1  col2  col3
0   NaN   NaN   NaN
1  0.00   1.0   0.0
2  3.00   1.0   0.0
3  0.00   1.0   0.0
4 -0.75   1.0  15.0
5  0.00   1.0   3.0
   col1  col2  col3
0   NaN   NaN   NaN
1  0.00   1.0  15.0
2  3.00   1.0   0.0
3  0.00   1.0   0.0
4 -0.75   1.0   0.0
5  0.00   1.0   3.0


### expanding 함수
행이나 열의 값에 대해 누적으로 연산을 수행하는 메서드<br>
#### 기본 사용법<br>
df.expanding(min_periods=1, center=None, axis=0, method='single').추가메서드()<br>
min_periods : 연산을 수행할 요소의 최소 갯수 작으면 NaN을 출력<br>
axis : 누적 연산을 수행할 축을 지정<br>
method : {single / table} 연산을 한 줄씩 수행할지 아니면 전체 테이블에 대해서 롤링을 수행할지 여부<br>
>기본값은 'single'로 한 줄씩 연산을 수행<br>
>'table'을 사용하기 위해서는 numba 라이브러리가 설치되어있어야 하며,<br>
>추가 연산 메서드에서 engine=numba로 설정<br>

In [251]:
import numba

data = {'col1':[1,2,3,4],'col2':[3,7,5,6]}
idx = ['row1','row2','row3','row4']
df = pd.DataFrame(data = data, index = idx)
print(df)

      col1  col2
row1     1     3
row2     2     7
row3     3     5
row4     4     6


mean(평균),max(최대값),sum(총합),min(최소값),median(중간값),std(표준편차)

In [252]:
print(df.expanding().sum())

      col1  col2
row1   1.0   3.0
row2   3.0  10.0
row3   6.0  15.0
row4  10.0  21.0


In [253]:
print(df.expanding(min_periods=3).sum())

      col1  col2
row1   NaN   NaN
row2   3.0  10.0
row3   6.0  15.0
row4  10.0  21.0


In [254]:
print(df.expanding(axis=1).sum())

      col1  col2
row1   1.0   4.0
row2   2.0   9.0
row3   3.0   8.0
row4   4.0  10.0


In [255]:
print(df.expanding(method='table').sum(engine='numba'))

      col1  col2
row1   1.0   3.0
row2   3.0  10.0
row3   6.0  15.0
row4  10.0  21.0


rolling 메서드(이동평균 함수)
현재 열에 대하여 일정 크기의 창(window)를 이용하여 그 window안의 값을 추가 메서드를 통해 계산하는 메서드
기본 사용법
df.rolling(window, min_periods=None, center=False, win_type=None, on=None, axis=0, closed=None, method='single')
window : 계산할 창(window)의 크기
    열 기준으로 계산할 경우 행의 수
min_periods : 계산할 최소 크기(기간)
    window 안의 값의 수가 min_periods의 값보다 작을경우 NaN을 출력
    기본적으로 window 크기와 동일
center : {True / False} 레이블을 window의 중간에 둘지 여부
    기본값은 False로 레이블이 창 우측에 위치
win_type : {'triang' / 'gaussian' / ...} 가중치를 넣어 계산할 경우 계산 방식
on : 시계열 인덱스나, 시계열과 유사한 열이 있을 경우 이 열을 기준으로 rolling을 수행
axis : 계산의 기준이 될 축
closed : {'left' / 'right' / 'both' / 'neither'} window가 닫히는 방향
method :{'single' / 'table'} numba 를 이용하여 테이블 계산을 진행하여 속도를 높힐지 여부

In [256]:
period = pd.period_range(start='2022-01-13 00:00:00',end='2022-01-13 02:30:00',freq='30T')
data = {'col1':[1,2,3,4,5,6],'col2':period}
idx = ['row1','row2','row3','row4','row5','row6']
df = pd.DataFrame(data= data, index = idx)
print(df)

      col1              col2
row1     1  2022-01-13 00:00
row2     2  2022-01-13 00:30
row3     3  2022-01-13 01:00
row4     4  2022-01-13 01:30
row5     5  2022-01-13 02:00
row6     6  2022-01-13 02:30


mean(평균),max(최대값),sum(총합),min(최소값),median(중간값),std(표준편차)

In [257]:
print(df.rolling(window=3).sum())

      col1
row1   NaN
row2   NaN
row3   6.0
row4   9.0
row5  12.0
row6  15.0


  print(df.rolling(window=3).sum())
