# Functions

In [8]:
import pandas as pd
import numpy as np

In [10]:
col = ['col1','col2','col3']
row = ['row1','row2','row3']
data = [[1,2,3],[4,5,6],[7,8,9]]
df = pd.DataFrame(data=data,index=row,columns=col)
print(df)

      col1  col2  col3
row1     1     2     3
row2     4     5     6
row3     7     8     9


### Apply : row or column 대상 함수 적용

In [11]:
print(df.apply(np.sum))

col1    12
col2    15
col3    18
dtype: int64


In [12]:
print(df.apply(np.sqrt))

          col1      col2      col3
row1  1.000000  1.414214  1.732051
row2  2.000000  2.236068  2.449490
row3  2.645751  2.828427  3.000000


In [17]:
print(df.apply(np.prod,axis=1))

row1      6
row2    120
row3    504
dtype: int64


In [18]:
print(df.apply(lambda x : [1,2,3])) # series 로 정보를 주고 받음

      col1  col2  col3
row1     1     1     1
row2     2     2     2
row3     3     3     3


### applymap : 각 요소에 함수 적용

In [19]:
print(df.applymap(np.prod)) #series 대상으로 연산하지 않음!

      col1  col2  col3
row1     1     2     3
row2     4     5     6
row3     7     8     9


In [20]:
print(df.applymap(lambda x : x**2))

      col1  col2  col3
row1     1     4     9
row2    16    25    36
row3    49    64    81


### pipe : arranged convolution function

In [22]:
def a(x):
    y = x**2
    return y

def b(x):
    y = x+2
    return y

In [24]:
print(df.pipe(a).pipe(b))

      col1  col2  col3
row1     3     6    11
row2    18    27    38
row3    51    66    83


### aggregate(agg) : 여러 함수 적용해 축 별 변경

In [48]:
data=[[10,8,9],[4,8,6],[9,8,4]]
col = ['A','B','C']
row = ['test1','test2','test3']
df = pd.DataFrame(data=data,index=row,columns=col)
print(df)

        A  B  C
test1  10  8  9
test2   4  8  6
test3   9  8  4


In [50]:
x2 = df.agg(['mean','sum','max','min'])  # index : 문자열 list 형태로 제시
print(x2)

              A     B          C
mean   7.666667   8.0   6.333333
sum   23.000000  24.0  19.000000
max   10.000000   8.0   9.000000
min    4.000000   8.0   4.000000


### transfrom : 여러 함수 호출해 요소별 변경

In [53]:
x2 = df.transform(['sqrt',lambda x:x+2])
print(x2)

              A                  B                 C         
           sqrt <lambda>      sqrt <lambda>     sqrt <lambda>
test1  3.162278       12  2.828427       10  3.00000       11
test2  2.000000        6  2.828427       10  2.44949        8
test3  3.000000       11  2.828427       10  2.00000        6


### eval : 문자열 계산식 적용

In [56]:
print(df.eval('SUM=A+B+C'))  # Columns 들에 대한 문자열만 계산가능 : row 계산하고 싶으면 transpose하면 될듯?

        A  B  C  SUM
test1  10  8  9   27
test2   4  8  6   18
test3   9  8  4   21


### # inplace : return / void type 결정

In [57]:
print(df)

        A  B  C
test1  10  8  9
test2   4  8  6
test3   9  8  4


In [60]:
print(df.eval('sum=A+B+C', inplace=True)) # Void type : no return

None


In [62]:
print(df)                                 # Void > df modified

        A  B  C  sum
test1  10  8  9   27
test2   4  8  6   18
test3   9  8  4   21


# Indexing

### at : 요소 기준 반환

In [63]:
print(df)

        A  B  C  sum
test1  10  8  9   27
test2   4  8  6   18
test3   9  8  4   21


In [64]:
print(df.at['test1','sum'])

27


In [71]:
df.at['test1','A'] = 9

In [72]:
print(df)               #sum은 연산된 값을 저장했으니 변하지 않음

       A  B  C  sum
test1  9  8  9   27
test2  4  8  6   18
test3  9  8  4   21


### loc : dataframe, series 형태 반환 (row 기준)

In [91]:
print(df.loc['test1'])    #series 반환

A       9
B       8
C       9
sum    26
Name: test1, dtype: int64


In [92]:
print(df.loc[['test1','test2']])   #DataFrame 반환 : 여러 row

       A  B  C  sum
test1  9  8  9   26
test2  4  8  6   18


In [93]:
print(df.loc['test1','A'])        #요소 반환도 가능 (=at)

9


# Data Structure에 대해

공부하는 함수들 중 행이나 열 중 하나에만 적용되는 함수들이 존재하고, 이러한 존재는 데이터를 정렬하는 것에 있어서 통상적인 방법이 존재함을 의미한다. 예를 들어 방금 진행한 loc함수의 경우는 값을 반환하는 것에 있어서 row를 기준으로 값을 반환하고, 이전의 eval 함수의 경우는 column을 기준으로만 문자열 연산을 지원한다.

dataset은 기본적으로 한 객체에 대한 여러 정보들을 담은 단위들의 나열로 인식을 할 수 있다.
그렇다면 우리가 loc를 통해 row 단위로 정보를 뽑는 경우,
1) row가 한 객체의 정보를 포함하고 있는 것

2) row가 모든 객체의 하나의 정보를 포함하고 있는 것
중 무엇이 더 적절할 것인가?

eval 을 통해 각 column간의 연산을 진행한다고 하면, 
1) column이 정보를 의미해 정보간의 연산을 진행하는것

2) column이 객채를 의미해 객체간의 연산을 진행하는것
중 무엇이 더 적절한 것인가?

data analysis의 시각에서의 적절함을 EDA에 적절하다라는 말에 연결지어 본다면
지금의 시각으론 전자의 경우가 보다 유용해보인다.


In [95]:
data=[[10,8,9],[4,8,6],[9,8,4]]
col = ['A','B','C']
row = ['test1','test2','test3']
df1 = pd.DataFrame(data=data,index=row,columns=col)
print(df1)

        A  B  C
test1  10  8  9
test2   4  8  6
test3   9  8  4


In [98]:
data=[[10,8,9],[4,8,6],[9,8,4]]
row = ['A','B','C']
col = ['test1','test2','test3']
df2 = pd.DataFrame(data=data,index=row,columns=col)
print(df2)

   test1  test2  test3
A     10      8      9
B      4      8      6
C      9      8      4


즉 df2가 df1보다 유용해보인다.

### iat : integer at, iloc : integer loc

In [99]:
print(df2)

   test1  test2  test3
A     10      8      9
B      4      8      6
C      9      8      4


In [101]:
print(df2.iat[1,2]) #(2행 3열)

6


In [104]:
print(df2.iloc[[0,2]])

   test1  test2  test3
A     10      8      9
C      9      8      4


In [110]:
print(df2.iloc[0:2])     #slice

   test1  test2  test3
A     10      8      9
B      4      8      6


### head : n row from top   //   tail : n row from bottom

In [112]:
print(df2.head(n=2))

   test1  test2  test3
A     10      8      9
B      4      8      6


In [113]:
print(df.head(n=-1))

   test1  test2  test3
A     10      8      9
B      4      8      6


In [115]:
print(df.tail(n=2))

   test1  test2  test3
B      4      8      6
C      9      8      4


### multi_index

In [117]:
#multi_index
index_tuples = [('a','2019'),('a','2020'),('b','2019'),('b','2020'),('c','2019'),('c','2020')]
index = pd.MultiIndex.from_tuples(index_tuples)
col = ['test1','test2','test3']
data = [[100,100,100],[90,90,90],[100,90,80],[80,90,100],[50,70,90],[100,100,100]]
df=pd.DataFrame(data=data,columns=col,index=index)
print(df)

        test1  test2  test3
a 2019    100    100    100
  2020     90     90     90
b 2019    100     90     80
  2020     80     90    100
c 2019     50     70     90
  2020    100    100    100


In [126]:
print(df.loc['a'])

      test1  test2  test3
2019    100    100    100
2020     90     90     90


In [131]:
print(df.loc['a','2020'])    #단일 리스트 형태면 series 반환

test1    90
test2    90
test3    90
Name: (a, 2020), dtype: int64


In [132]:
print(df.loc[[('a','2020')]])  #이중 리스트 형태면 dataframe 반환

        test1  test2  test3
a 2020     90     90     90


In [134]:
print(df.loc[('a','2020'):('b','2020')])  #slicing 도 가능

        test1  test2  test3
a 2020     90     90     90
b 2019    100     90     80
  2020     80     90    100
