# DataFrame과 Series 간의 연산

In [8]:
import pandas as pd
import numpy as np
import random

random.seed(5)

A = np.random.randint(10, size = (3,4))
A

array([[6, 0, 6, 9],
       [7, 2, 8, 6],
       [2, 7, 1, 4]])

In [9]:
A-A[0]

array([[ 0,  0,  0,  0],
       [ 1,  2,  2, -3],
       [-4,  7, -5, -5]])

In [11]:
df = pd.DataFrame(A, columns=list('QRST'))
df

Unnamed: 0,Q,R,S,T
0,6,0,6,9
1,7,2,8,6
2,2,7,1,4


In [14]:
df - df.iloc[0]

Unnamed: 0,Q,R,S,T
0,0,0,0,0
1,1,2,2,-3
2,-4,7,-5,-5


In [15]:
# 열 방향 연산 
df.subtract(df['R'], axis=0)

Unnamed: 0,Q,R,S,T
0,6,0,6,9
1,5,0,6,4
2,-5,0,-6,-3


In [17]:
halfrow = df.iloc[0, ::2]
halfrow

Q    6
S    6
Name: 0, dtype: int32

In [18]:
df - halfrow

Unnamed: 0,Q,R,S,T
0,0.0,,0.0,
1,1.0,,2.0,
2,-4.0,,-5.0,


# 누락된 데이터
- None : 파이썬의 누락된 데이터
- NaN(Not a Number) : 누락된 숫자 데이터

| 타입 클래스 | NA값을 저장할 때의 변환 | NA 센티널 값 |
|--|--|--|
| floating | 변경 없음 | np.nan |
| object | 변경 없음 | None 또는 np.nan |
| integer | float64로 변환 | np.nan |
| Boolean | object로 변환 | None 또는 np.nan |

# 널 값 탐지

In [21]:
data = pd.Series([1, np.nan, 'Hello', None])
data

0        1
1      NaN
2    Hello
3     None
dtype: object

In [22]:
data.isnull()

0    False
1     True
2    False
3     True
dtype: bool

In [20]:
data[data.notnull()]

0        1
2    Hello
dtype: object

In [23]:
# 널 값 제거
data.dropna()

0        1
2    Hello
dtype: object

In [30]:
# DataFrame에서 Null값 처리
df = pd.DataFrame([[1, np.nan, 2],
                   [2, 3, 5],
                   [None, 4, 6]])
df

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [31]:
df.dropna(axis='columns')

Unnamed: 0,2
0,2
1,5
2,6


In [34]:
df[3] = np.nan
df

Unnamed: 0,0,1,2,3
0,1.0,,2,
1,2.0,3.0,5,
2,,4.0,6,


In [37]:
# thresh : 행이나 열에서 널이 아닌 값이 최소 몇 개가 있어야 하는지 지정
df.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,3.0,5,


# 널 값 채우기

In [38]:
data.fillna(0)

0        1
1        0
2    Hello
3        0
dtype: object

In [39]:
# 이전 값으로 채우기
data.fillna(method='ffill')

0        1
1        1
2    Hello
3    Hello
dtype: object

In [40]:
# 다음에 오는 값으로 채우기
data.fillna(method='bfill')

0        1
1    Hello
2    Hello
3     None
dtype: object

In [44]:
# axis=0 : 행 / axis=1 : 열
df.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,2.0,2.0
1,2.0,3.0,5.0,5.0
2,,4.0,6.0,6.0
