# 데이터 연산 (Universal Functions)

- Numpy와 같이 사칙연산, 삼각함수 지수와로그함수,UFuncs 사용 가능

In [1]:
import pandas as pd
import numpy as np

print("pandas ver : ",pd.__version__)
print("numpy ver : ",np.__version__)

pandas ver :  0.24.2
numpy ver :  1.16.4


In [2]:
# Series, Dataframe 데이터 선언
rng = np.random.RandomState(42)
ser = pd.Series(rng.randint(0,10,4))
print("Series - ser : \n",ser)
print("\n")

df = pd.DataFrame(rng.randint(0,10,(3,4)), columns=['A', 'B', 'C', 'D'])
print("Dataframe - df : \n",df)

Series - ser : 
 0    6
1    3
2    7
3    4
dtype: int64


Dataframe - df : 
    A  B  C  D
0  6  9  2  6
1  7  4  3  7
2  7  2  5  4


### [ 인덱스 보존 ]

- **UFuncs를 적용**
  - 결과는 인덱스가 보존된 객체를 반환함
  - 원본 데이터 값은 변경안됨

In [3]:
print("원본 데이터")
print("ser : \n",ser)
print("df : \n",df)
print("------------------------")

print("UFuncs 적용")
result_ser = np.exp(ser)
result_df = np.exp(df)
print("result_ser : \n",result_ser)
print(type(result_ser))
print("\n")
print("result_df : \n",result_df)
print(type(result_df))

print("------------------------")
print("원본데이터")
print("ser : \n",ser)
print("df : \n",df)

원본 데이터
ser : 
 0    6
1    3
2    7
3    4
dtype: int64
df : 
    A  B  C  D
0  6  9  2  6
1  7  4  3  7
2  7  2  5  4
------------------------
UFuncs 적용
result_ser : 
 0     403.428793
1      20.085537
2    1096.633158
3      54.598150
dtype: float64
<class 'pandas.core.series.Series'>


result_df : 
              A            B           C            D
0   403.428793  8103.083928    7.389056   403.428793
1  1096.633158    54.598150   20.085537  1096.633158
2  1096.633158     7.389056  148.413159    54.598150
<class 'pandas.core.frame.DataFrame'>
------------------------
원본데이터
ser : 
 0    6
1    3
2    7
3    4
dtype: int64
df : 
    A  B  C  D
0  6  9  2  6
1  7  4  3  7
2  7  2  5  4


###### 예) UFuncs 를 이용한 계산

In [4]:
np.sin(df * np.pi / 4)

Unnamed: 0,A,B,C,D
0,-1.0,0.7071068,1.0,-1.0
1,-0.707107,1.224647e-16,0.707107,-0.7071068
2,-0.707107,1.0,-0.707107,1.224647e-16


### [ 인덱스 정렬 ]

- **Series 인덱스 정렬**

In [5]:
# Sereis 데이터 선언 
area = pd.Series({'Alaska': 1723337, 'Texas': 695662,
                  'California': 423967}, name='area')
population = pd.Series({'California': 38332521, 'Texas': 26448193,
                        'New York': 19651127}, name='population')

In [6]:
print("area : \n",area)
print("\n")
print("population : \n",population)

area : 
 Alaska        1723337
Texas          695662
California     423967
Name: area, dtype: int64


population : 
 California    38332521
Texas         26448193
New York      19651127
Name: population, dtype: int64


In [7]:
# area, population Series 데이터를 이용하여 인구 밀도 계산
density = population / area
print("density : \n", density)

density : 
 Alaska              NaN
California    90.413926
New York            NaN
Texas         38.018740
dtype: float64


- 두 Series 데이터의 인덱스를 합쳐서 계산 하게 되는데 데이터가 없는 부분은 NaN(Not a Number)값이 됨
- **인덱스 부분이 알파벳 순으로 정렬되어 결과가 출력됨**

In [8]:
A = pd.Series([2,4,6], index=[0,1,2])
B = pd.Series([1,3,5], index=[1,2,3])

print("A : \n",A)
print("\n")
print("B : \n",B)

A : 
 0    2
1    4
2    6
dtype: int64


B : 
 1    1
2    3
3    5
dtype: int64


In [9]:
print(A.index | B.index)

Int64Index([0, 1, 2, 3], dtype='int64')


In [10]:
# A+ B 연산 결과 
print(A+B)

0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64


* A에는 인덱스 3이 없고 B에는 인덱스 0이 없기 때문에 각 Series 데이터간 + 연산이 안되고 NaN으로 결과가 나옴

- NaN으로 표시하지 않고 결측값을 임의의 값으로 지정하여 계산 할 수 있음
- `Series.add` 이용
  - 선언 : `Series.add(other, level=None, fill_value=None, axis=0)`

In [11]:
# 결측값들을 0으로 지정하여 계산함
result = A.add(B, fill_value=0)
print(result)
print(type(result))

0    2.0
1    5.0
2    9.0
3    5.0
dtype: float64
<class 'pandas.core.series.Series'>


- **Dataframe 인덱스 정렬**

In [12]:
rng = np.random.RandomState(42)
A = pd.DataFrame(rng.randint(0,20,(2,2)), columns=list('AB'))
print(A)

    A   B
0   6  19
1  14  10


In [13]:
B = pd.DataFrame(rng.randint(0,10,(3,3)), columns=list('BAC'))
print(B)

   B  A  C
0  7  4  6
1  9  2  6
2  7  4  3


In [14]:
result = A+B
print(result)

      A     B   C
0  10.0  26.0 NaN
1  16.0  19.0 NaN
2   NaN   NaN NaN


- A, B DataFrame 의 column은 A, B, C 알파벳 순으로 정렬 되어 있지 않음
- A + B 연산을 통한 결과인 result DataFrame은 인덱스가 정렬되어 나옴

- `DataFrame.stack(level=-1, dropna=True)`
  - 각각의 컬럼에서 인덱스(행 row) 를 기준으로 각각의 컬럼(열 column) 데이터를 하나의 Series로 만들어 순서대로 쌓아놓은 구조로 반환

In [15]:
print(A.stack())
print(type(A.stack()))

0  A     6
   B    19
1  A    14
   B    10
dtype: int64
<class 'pandas.core.series.Series'>


In [16]:
# Series 접근
print(A.stack()[0])
print("\n")
print(A.stack()[1])

A     6
B    19
dtype: int64


A    14
B    10
dtype: int64


In [17]:
# Series 항목 접근
print("0-B : ",A.stack()[0]['B'])
print("\n")
print("1-A : ",A.stack()[1,'A'])

0-B :  19


1-A :  14


In [18]:
print("A :\n",A)
print("\n")
print("B :\n",B)
print("\n")
print("result : \n",result)
print("\n")

print("A.values.sum()/A.size : ",A.values.sum()/A.size)
A_Element_mean = A.stack().mean()
print("A_Element_mean = ",A_Element_mean)
result2 = A.add(B, fill_value=A_Element_mean)
print("result2 : \n",result2)

A :
     A   B
0   6  19
1  14  10


B :
    B  A  C
0  7  4  6
1  9  2  6
2  7  4  3


result : 
       A     B   C
0  10.0  26.0 NaN
1  16.0  19.0 NaN
2   NaN   NaN NaN


A.values.sum()/A.size :  12.25
A_Element_mean =  12.25
result2 : 
        A      B      C
0  10.00  26.00  18.25
1  16.00  19.00  18.25
2  16.25  19.25  15.25


###### Python 연산자와  Pandas 메서드 

| Python Operator | Pandas Method(s)                      |
|-----------------|---------------------------------------|
| ``+``           | ``add()``                             |
| ``-``           | ``sub()``, ``subtract()``             |
| ``*``           | ``mul()``, ``multiply()``             |
| ``/``           | ``truediv()``, ``div()``, ``divide()``|
| ``//``          | ``floordiv()``                        |
| ``%``           | ``mod()``                             |
| ``**``          | ``pow()``                             |

### [ Series 와 DataFrame 사이의 UFuncs 연산 ]

- Series 와 Dataframe 사이의 연산에서 인덱스와 열의 순서는 비슷하게 유지됨
- 1차원 Numpy 배열과 2차원 Numpy 배열 사이의 연산과 비슷함

In [21]:
# Dataframe 데이터 선언
A = rng.randint(10, size=(3,4))
print(A)
print(type(A))
print("\n")
# Sereis 데이터 선언(Dataframe에서 추출함)
B = A[0]
print(B)
print(type(B))

[[4 8 6 1]
 [3 8 1 9]
 [8 9 4 1]]
<class 'numpy.ndarray'>


[4 8 6 1]
<class 'numpy.ndarray'>


- Dataframe, Series  행 방향으로 연산 
  - 2차원 배열에서 배열의 행 하나를 뺌
  - **Pandas에서 연산 규칙은 기본적으로 행 방향으로 적용됨**

In [25]:
result = A - B 
print(result)
print(type(result))

[[ 0  0  0  0]
 [-1  0 -5  8]
 [ 4  1 -2  0]]
<class 'numpy.ndarray'>


- Dataframe, Series 열 방향 연산
  - UFuncs 을 이용하여 axis 키워드를 지정하면 됨

In [29]:
df = pd.DataFrame(A, columns=list("QRST"))
print(df)
print(type(df))

   Q  R  S  T
0  4  8  6  1
1  3  8  1  9
2  8  9  4  1
<class 'pandas.core.frame.DataFrame'>


In [30]:
ser = df['R']
print(ser)
print(type(ser))

0    8
1    8
2    9
Name: R, dtype: int64
<class 'pandas.core.series.Series'>


In [34]:
result_df = df.subtract(ser, axis=0)
print(result_df)
print(type(result_df))

   Q  R  S  T
0 -4  0 -2 -7
1 -5  0 -7  1
2 -1  0 -5 -8
<class 'pandas.core.frame.DataFrame'>
