### 결측치
- 데이터프레임에서 value의 값이 존재하지 않는 공간
- NaN 표시

In [None]:
import pandas as pd 
import numpy as np

In [None]:
## 결측치가 존재하는 데이터프레임 생성 
data = [
    [1, 2, np.nan, 4, 5], 
    [1, np.nan, 3, 4, 5], 
    [1, 2, 3, np.nan, 5]
]
col = ['S1', 'S2', 'S3', 'S4', 'S5']
df = pd.DataFrame(data, columns=col)
df

In [None]:
## 결측치를 확인 
# 1. 데이터프레임의 정보를 출력 
df.info()

In [5]:
# 결측치의 유무를 체크하는 함수 
df.isna()

Unnamed: 0,S1,S2,S3,S4,S5
0,False,False,True,False,False
1,False,True,False,False,False
2,False,False,False,True,False


In [8]:
df.isna().sum(axis='columns')

0    1
1    1
2    1
dtype: int64

In [9]:
# 결측치를 제거 
# 결측치가 포함된 행, 열 지정하여 삭제
# dropna(axis = {0(rows) | 1(columns)})
# 결측치가 포함된 행을 제거 
df.dropna(axis=0)

Unnamed: 0,S1,S2,S3,S4,S5


In [10]:
df.dropna(axis=1)

Unnamed: 0,S1,S5
0,1,5
1,1,5
2,1,5


In [12]:
## 결측치를 다른 값을 대체 
## fillna({data}) : 결측치를 data로 채워준다. 
## fillna(method = {'ffill' | 'bfill'})
    ## ffill : 결측치가 존재하는 데이터에서 전행 인덱스의 값으로 대체
    ## bfill : 결측치가 존재하는 데이터에서 후행 인덱스의 값으로 대체
## 결측치를 특정 데이터로 채워준다. 
df.fillna(10)

Unnamed: 0,S1,S2,S3,S4,S5
0,1,2.0,10.0,4.0,5
1,1,10.0,3.0,4.0,5
2,1,2.0,3.0,10.0,5


In [13]:
## 전행의 데이터로 결측치를 채워준다. 
df.fillna(method='ffill')

  df.fillna(method='ffill')


Unnamed: 0,S1,S2,S3,S4,S5
0,1,2.0,,4.0,5
1,1,2.0,3.0,4.0,5
2,1,2.0,3.0,4.0,5


In [14]:
df.fillna(method='bfill')

  df.fillna(method='bfill')


Unnamed: 0,S1,S2,S3,S4,S5
0,1,2.0,3.0,4.0,5
1,1,2.0,3.0,4.0,5
2,1,2.0,3.0,,5


### 데이터프레임의 필터링
1. 데이터프레임명.loc[{인덱스의 조건}, {컬럼의 조건}]
    - 인덱스의 값을 기준으로 필터링
    - 컬럼의 값을 기준으로 필터링
2. 데이터프레임명.iloc[{인덱스의 위치}, {컬럼의 위치}]
    - 인덱스의 위치를 기준으로 필터링
    - 컬럼의 위치를 기준으로 필터링
3. 데이터프레임명[컬럼명]
    - 해당 컬럼만 추출 
    - 데이터의 형태는 Series로 출력

In [15]:
data = [
    [1,2,3], 
    [4,5,6],
    [7,8,9]
]
col = ['A', 'B', 'C']
_index = [2, 4, 6]

df = pd.DataFrame(data, index=_index, columns=col)
df

Unnamed: 0,A,B,C
2,1,2,3
4,4,5,6
6,7,8,9


In [17]:
# loc를 이용하여 인덱스 필터링
df.loc[ [2], ]

Unnamed: 0,A,B,C
2,1,2,3


In [20]:
df['B'] >= 5

2    False
4     True
6     True
Name: B, dtype: bool

In [21]:
df.loc[ df['B'] >= 5 , ]

Unnamed: 0,A,B,C
4,4,5,6
6,7,8,9


In [18]:
# iloc를 이용하여 인덱스 필터링
df.iloc[ [2],  ]

Unnamed: 0,A,B,C
6,7,8,9


In [27]:
## loc를 이용해서 인덱스의 조건과 컬럼의 조건 
df.loc[ 2, 'B' ] = 5

In [28]:
df

Unnamed: 0,A,B,C
2,1,5,3
4,4,5,6
6,7,8,9


In [30]:
df.loc[ : , 'A']

2    1
4    4
6    7
Name: A, dtype: int64