### 결측치

In [1]:
import pandas as pd
import numpy as np

In [2]:
## 결측치가 존재하는 데이터프레임 생성
data = [
    [1, 2, np.nan, 4, 5],
    [1, np.nan, 3, 4, 5],
    [1, 2, 3, np.nan, 5]
]
col = ['S1', 'S2', 'S3', 'S4', 'S5']
df = pd.DataFrame(data, columns=col)
df

Unnamed: 0,S1,S2,S3,S4,S5
0,1,2.0,,4.0,5
1,1,,3.0,4.0,5
2,1,2.0,3.0,,5


In [3]:
## 결측치를 확인 
# 1. 데이터프레임의 정보를 출력
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   S1      3 non-null      int64  
 1   S2      2 non-null      float64
 2   S3      2 non-null      float64
 3   S4      2 non-null      float64
 4   S5      3 non-null      int64  
dtypes: float64(3), int64(2)
memory usage: 252.0 bytes


In [8]:
# 결측치의 유무를 체크하는 함수
df.isna()

Unnamed: 0,S1,S2,S3,S4,S5
0,False,False,True,False,False
1,False,True,False,False,False
2,False,False,False,True,False


In [10]:
# 컬럼별
df.isna().sum()

S1    0
S2    1
S3    1
S4    1
S5    0
dtype: int64

In [14]:
# 인덱스별
df.isna().sum(axis='columns')

0    1
1    1
2    1
dtype: int64

In [16]:
# 결측치 제거
# 결측치가 포함된 행, 열 지정하여 삭제
# dropna(axis = {0 or rows}, {1 or columns}) = 결측치를 drop한다
# 결측치가 포함된 행을 제거
df.dropna(axis=1)

Unnamed: 0,S1,S5
0,1,5
1,1,5
2,1,5


In [17]:
## 결측치를 다른 값을 대체
## fillna({data}) : 결측치를 data로 채워준다
## fillna(method = {'ffill' | 'bfill'})
    ## ffill : na 데이터에서 전행 인덱스의 값으로 대체
    ## bfill : na 데이터에서 후행 인덱스의 값으로 대체
df

Unnamed: 0,S1,S2,S3,S4,S5
0,1,2.0,,4.0,5
1,1,,3.0,4.0,5
2,1,2.0,3.0,,5


In [18]:
## 결측치를 특정 데이터로 채워준다
df.fillna(10)

Unnamed: 0,S1,S2,S3,S4,S5
0,1,2.0,10.0,4.0,5
1,1,10.0,3.0,4.0,5
2,1,2.0,3.0,10.0,5


In [19]:
## 전행의 데이터로 결측치를 채워준다.
df.fillna(method = 'ffill')

Unnamed: 0,S1,S2,S3,S4,S5
0,1,2.0,,4.0,5
1,1,2.0,3.0,4.0,5
2,1,2.0,3.0,4.0,5


In [20]:
df.fillna(method = 'bfill')

Unnamed: 0,S1,S2,S3,S4,S5
0,1,2.0,3.0,4.0,5
1,1,2.0,3.0,4.0,5
2,1,2.0,3.0,,5


### 데이터프레임의 필터링
1. df.loc[{인덱스의 조건}, {컬럼의 조건}]
    - 인덱스의 값을 기준으로 필터링
    - 컬럼의 값을 기준으로 필터링
2. df.iloc[{인덱스의 위치}, {컬럼의 위치}]
    - 인덱스의 위치를 기준으로 필터링
    - 컬럼의 위치를 기준으로 필터링
3. df[컬럼명]
    - 해당 컬럼만 추출
    - 데이터의 형태는 Serise로 출력

In [21]:
data = [
    [1,2,3],
    [4,5,6],
    [7,8,9]
]
col = ["A", 'B', "C"]
_index = [2,4,6]

df = pd.DataFrame(data, index = _index, columns=col)
df

Unnamed: 0,A,B,C
2,1,2,3
4,4,5,6
6,7,8,9


In [43]:
# loc를 이용하여 인덱스 필터링
df.loc[[2],]

Unnamed: 0,A,B,C
2,1,2,3


In [53]:
df.iloc[[2],[2]]

Unnamed: 0,C
6,9


In [59]:
df[['B']] >= 5

Unnamed: 0,B
2,False
4,True
6,True


In [60]:
df.loc[ df['B'] >= 5]

Unnamed: 0,A,B,C
4,4,5,6
6,7,8,9


In [64]:
# loc를 이용해서 인덱스의 조건과 컬럼의 조건
df.loc[2,['B']]
df.loc[2, 'B'] = 5

In [65]:
df.loc[[2],['B']]

Unnamed: 0,B
2,5


In [66]:
df.loc[:,'A']

2    1
4    4
6    7
Name: A, dtype: int64