### 산술연산
- series 객체와 스칼라 값의 산술연산 => BroadCasting
- series 객체 간의 산술연산
    - 인덱스의 라벨이 동일한 것끼리 연산 수행, 공통으로 존재하지 않는 경우 NaN 반환
    - 라벨이 없는 경우 차례대로 연산 수행, 개수가 동일하지 않는 경우 NaN 반환
    - fill_value 인자를 통해 NaN이 아닌 특정 값으로 대체 가능

    <img src="img/series_math.png" width="400" align="center">

- 연산의 종류
    - 더하기 : +, add() 메서드
    - 빼기 : -, sub() 메서드
    - 곱하기 : *, mul() 메서드
    - 나머지만 반환 : %
    - 몫만 반환 : //

In [3]:
import pandas as pd

In [4]:
# Numpy의 브로드캐스팅과 비슷합니다.

# s1 -> 라벨 : a, b, c, d -> 데이터 4개 [1, 2, 3, 4]
# s2 -> 라벨 : a, c, d, e, f, g -> 데이터 6개 [10, 20, 30, 40, 50, 60]

s1 = pd.Series([1, 2, 3, 4], index=list('abcd'))
s2 = pd.Series([10, 20, 30, 40, 50, 60], index=list('acdefg'))

In [5]:
s1

a    1
b    2
c    3
d    4
dtype: int64

In [6]:
s2

a    10
c    20
d    30
e    40
f    50
g    60
dtype: int64

In [7]:
# Series 객체와 스칼라값의 연산
s1 * 3

a     3
b     6
c     9
d    12
dtype: int64

In [9]:
# Series끼리 더하기
# 공통라벨인 a, c, d에만 값 부여,
# 어느 한쪽에만 존재하는 라벨들은 NaN
# b는 s1에만, e,f,g는 s2d에만 있어서 NaN으로 취급됨

# tip : NaN은 실수최급됩니다.
s1 + s2

a    11.0
b     NaN
c    23.0
d    34.0
e     NaN
f     NaN
g     NaN
dtype: float64

In [10]:
#fill_value 파라미터 : 공통으로 존재하지 않는 라벨에대해 NaN 값을
# 적용하지 않고 특정 값으로 대체해서 사용가능합니다.
# Series 메서드를 사용할 때의 파라미터로 입력 가능
s1.add(s2)

a    11.0
b     NaN
c    23.0
d    34.0
e     NaN
f     NaN
g     NaN
dtype: float64

In [11]:
# NaN값이 0으로 채워져 연산이 가능해집니다.
# NaN값이 0으로 치환되었습니다.
s1.add(s2, fill_value = 0)

a    11.0
b     2.0
c    23.0
d    34.0
e    40.0
f    50.0
g    60.0
dtype: float64

In [12]:
# Series간의 뺄셈
s1 - s2

a    -9.0
b     NaN
c   -17.0
d   -26.0
e     NaN
f     NaN
g     NaN
dtype: float64

In [13]:
# Series간의 뺄셈
# 지금 fill_value는 100으로 치환했습니다.
s1.sub(s2, fill_value = 100)

a    -9.0
b   -98.0
c   -17.0
d   -26.0
e    60.0
f    50.0
g    40.0
dtype: float64

In [14]:
# Series간의 곱셈
s1 * s2

a     10.0
b      NaN
c     60.0
d    120.0
e      NaN
f      NaN
g      NaN
dtype: float64

In [15]:
# 곱셈은 fill_value를 0이아닌 1로 채우는것이 적당합니다.
s1.mul(s2, fill_value = 1)

a     10.0
b      2.0
c     60.0
d    120.0
e     40.0
f     50.0
g     60.0
dtype: float64

In [16]:
# Series간의 나눗셈
s1 / s2

a    0.100000
b         NaN
c    0.150000
d    0.133333
e         NaN
f         NaN
g         NaN
dtype: float64

In [17]:
# 나눗셈도 fill_value를 0이아닌 1로 채우는것이 적당합니다.
s1.divide(s2, fill_value = 1)

a    0.100000
b    2.000000
c    0.150000
d    0.133333
e    0.025000
f    0.020000
g    0.016667
dtype: float64

https://pandas.pydata.org/pandas-docs/stable/reference/series.html

위 사이트에서 추가적인 fill_value 사용 가능 연산자별 명령어를 확인할 수 있다.

#### 연습 문제
##### 1. 실습 데이터 생성 : 1 ~ 100(미만) 사이의 랜덤 정수 값을 26개 저장한 Series를 생성하고 A~Z까지의 알파벳으로 라벨링 설정

In [3]:
import numpy as np

In [4]:
np.random.seed(1021)

In [5]:
arr = np.random.randint(1, 100, 26)
arr

array([18, 66, 34, 34,  8, 25,  6, 14, 70, 73, 72, 85, 20, 35, 84, 69,  7,
       86, 64,  5, 30, 12, 25, 96,  6, 44])

In [6]:
index_data = [ chr(i) for i in range(ord('A'), ord('Z')+1) ]

# for i in range(ord('a'), ord('z')+1):
#     print(chr(i))

In [53]:
# arr = pd.Series([18, 66, 34, 34,  8, 25,  6, 14, 70, 73, 72, 85, 20, 35, 84, 69,  7,
#        86, 64,  5, 30, 12, 25, 96,  6, 44], index = list('abcdefghijklmnopqrstuvwxyz'))
# arr

# 더 나은 방법
pd.Series(arr, index = list('abcdefghijklmnopqrstuvwxyz'))

a    18
b    66
c    34
d    34
e     8
f    25
g     6
h    14
i    70
j    73
k    72
l    85
m    20
n    35
o    84
p    69
q     7
r    86
s    64
t     5
u    30
v    12
w    25
x    96
y     6
z    44
dtype: int64

##### 2. 인덱스 라벨이 'K' 항목의 값 출력

In [54]:
arr['k']

72

##### 3. 인덱스 라벨이 'A','F','C' 항목의 값 출력

In [57]:
arr[['a', 'f', 'c']]
# 값만 추출
# arr[['a', 'f', 'c']].values

a    18
f    25
c    34
dtype: int64

##### 4. 5번 인덱스 부터 15번 인덱스 까지 항목 출력

In [60]:
arr[5:16]
# arr['f':'p']


f    25
g     6
h    14
i    70
j    73
k    72
l    85
m    20
n    35
o    84
p    69
dtype: int64

##### 5. 뒤에서 5개 항목 출력

In [62]:
# arr[:-6:-1]
arr[-5:]

v    12
w    25
x    96
y     6
z    44
dtype: int64

##### 6. data의 항목의 갯수 출력

In [63]:
len(arr)
# arr.size

26

#### 7.data 항목 값들의 평균보다 큰 항목만 출력

In [66]:
# arr[arr > (sum(arr)/len(arr))]
arr[arr > arr.mean()]

b    66
i    70
j    73
k    72
l    85
o    84
p    69
r    86
s    64
x    96
z    44
dtype: int64

##### 8. data의 항목 값 중에 50이 있는지 확인하여, 있으면 True, 없으면 False

In [68]:
# 50 이 인덱스 중이 있는지 찾기
50 in arr

False

In [70]:
# 50 이 데이터 값중에 있는지 찾기
50 in arr.values

False