# 결측치
- 데이터프레임에서 value값이 존재하지 않는 공간
- NaN

In [2]:
import pandas as pd
import numpy as np

Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


In [4]:
# 결측치가 존재하는 데이터프레임 생성
data = [
    [1,2,np.nan,4,5],
    [1,np.nan,3,4,5],
    [1,2,3,np.nan,5]
]

col = ['S1','S2','S3','S4','S5']
df = pd.DataFrame(data, columns=col)
df

Unnamed: 0,S1,S2,S3,S4,S5
0,1,2.0,,4.0,5
1,1,,3.0,4.0,5
2,1,2.0,3.0,,5


In [5]:
# 결측치 확인
# 데이터프레임 정보 출력
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   S1      3 non-null      int64  
 1   S2      2 non-null      float64
 2   S3      2 non-null      float64
 3   S4      2 non-null      float64
 4   S5      3 non-null      int64  
dtypes: float64(3), int64(2)
memory usage: 252.0 bytes


In [6]:
# 결측치 유무 체크
df.isna()

Unnamed: 0,S1,S2,S3,S4,S5
0,False,False,True,False,False
1,False,True,False,False,False
2,False,False,False,True,False


In [7]:
# 결측치 개수 확인
df.isna().sum() # 컬럼별로
df.isna().sum(axis=1) # 인덱스별로

S1    0
S2    1
S3    1
S4    1
S5    0
dtype: int64

In [13]:
# 결측치 제거
df.dropna(axis=0) # 저장 안됨 (결측치 있는 행(rows) 제거)
df.dropna(axis=1) # 열(columns)제거

Unnamed: 0,S1,S5
0,1,5
1,1,5
2,1,5


In [14]:
# 결측치 대체 : fillna({data})
# ffill : 상위 인덱스 값으로 대체
# bfill : 하위 인덱스 값으로 대체
df.fillna(10)

Unnamed: 0,S1,S2,S3,S4,S5
0,1,2.0,10.0,4.0,5
1,1,10.0,3.0,4.0,5
2,1,2.0,3.0,10.0,5


In [21]:
# 위에 있는 값과 동일하게 채워줌
df.fillna(method='ffill')

  df.fillna(method='ffill')


Unnamed: 0,S1,S2,S3,S4,S5
0,1,2.0,,4.0,5
1,1,2.0,3.0,4.0,5
2,1,2.0,3.0,4.0,5


In [16]:
# 아래
df.fillna(method='bfill')

  df.fillna(method='bfill')


Unnamed: 0,S1,S2,S3,S4,S5
0,1,2.0,3.0,4.0,5
1,1,2.0,3.0,4.0,5
2,1,2.0,3.0,,5


# 데이터프레임 필터링
1. 데이터프레임명.loc[{인덱스조건}, {컬럼조건}]
- 인덱스, 컬럼의 값을 기준으로 필터링

2. 데이터프레임명.iloc[{인덱스의 위치}, {컬럼의 위치}]
- 위치를 기준으로 필터링

3. 데이터프레임명[컬럼명]
- 해당 컬럼만 추출
- 데이터 형태는 Series

In [22]:
# 데이터프레임 필터링
data = [
    [1,2,3],
    [4,5,6],
    [7,8,9]
]

col = ['A','B','C']
_index = [2,4,6]

df = pd.DataFrame(data, index=_index, columns=col)
df


Unnamed: 0,A,B,C
2,1,2,3
4,4,5,6
6,7,8,9


In [27]:
df.loc[[2], ] # 행이 '2'

Unnamed: 0,A,B,C
2,1,2,3


In [26]:
df.iloc[[2], ] # 위치가 '2'

Unnamed: 0,A,B,C
6,7,8,9


In [29]:
df['B'] >= 5 # B컬럼에서 조건에 맞으면 True

2    False
4     True
6     True
Name: B, dtype: bool

In [31]:
df.loc[df['B'] >= 5, ] # B컬럼이 5보다 큰

Unnamed: 0,A,B,C
4,4,5,6
6,7,8,9


In [33]:
df.loc[2,'B'] = 5
df

Unnamed: 0,A,B,C
2,1,5,3
4,4,5,6
6,7,8,9


In [34]:
df.loc[ :, 'A'] # : : 모두 보여줌

2    1
4    4
6    7
Name: A, dtype: int64