### 결측치
- 데이터프레임에서 value의 값이 존재하지 않는 공간
- NaN 표시

In [1]:
import pandas as pd
import numpy as np

Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


In [2]:
## 결측치가 존재하는 데이터프레임 생성
data = [
    [1, 2, np.nan, 4, 5],
    [1, np.nan, 3, 4, 5],
    [1, 2, 3, np.nan, 5]
]
col = ['S1','S2','S3','S4','S5']
df = pd.DataFrame(data, columns=col) # 데이터와 컬럼수가 같아야 한다.
df

Unnamed: 0,S1,S2,S3,S4,S5
0,1,2.0,,4.0,5
1,1,,3.0,4.0,5
2,1,2.0,3.0,,5


In [3]:
## 결측치를 확인
# 1. 데이터프레임의 정보를 출력
df.info()

# 결측치가 존재하면 float 타입으로 뜸

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   S1      3 non-null      int64  
 1   S2      2 non-null      float64
 2   S3      2 non-null      float64
 3   S4      2 non-null      float64
 4   S5      3 non-null      int64  
dtypes: float64(3), int64(2)
memory usage: 252.0 bytes


In [4]:
# 결측치의 유무를 체크하는 함수
df.isna()

Unnamed: 0,S1,S2,S3,S4,S5
0,False,False,True,False,False
1,False,True,False,False,False
2,False,False,False,True,False


In [5]:
# 컴퓨터는 True와 False를 1과 0으로 보기 떄문에
# 위 결과를 합하여 컬럼별 결측치 확인(컬럼별로 합해짐)
# S1 컬럼에 있는 인덱스를 모두 더함
df.isna().sum()

S1    0
S2    1
S3    1
S4    1
S5    0
dtype: int64

In [7]:
# 컬럼별 말고 인덱스 기준으로 합하려면
# axis = 0 과 axis=rows 같은 뜻
df.isna().sum(axis='columns')

0    1
1    1
2    1
dtype: int64

In [8]:
# 결측치를 제거
# 결측치가 포함된 행, 열 지정
# dropna(axis=0 또는 1)
# 결측치가 포함된 행 제거
df.dropna(axis=0) # 모든 행이 지워짐

Unnamed: 0,S1,S2,S3,S4,S5


In [9]:
# 결측치가 포함된 열 제거
df.dropna(axis=1)

Unnamed: 0,S1,S5
0,1,5
1,1,5
2,1,5


In [13]:
## 결측치를 다른 값으로 대체
## fillna({data}) : 결측치를 data로 채워준다.
## fillna(method = {'ffill | 'bfill'})
    ## ffill : front / 결측치가 존재하는 데이터에서 상위(전행) 인덱스의 값으로 대체
    ## bfill : back / 결측치가 존재하는 데이터에서 하위(후행) 인덱스의 값으로 대체

## 결측치를 특정 데이터로 채워준다.
df.fillna(10)

Unnamed: 0,S1,S2,S3,S4,S5
0,1,2.0,10.0,4.0,5
1,1,10.0,3.0,4.0,5
2,1,2.0,3.0,10.0,5


In [14]:
## 전행의 데이터로 결측치를 채워준다.
# 상위 데이터가 존재하지 않으면 결측치가 제거되지 않는다.
df.fillna(method='ffill')

  df.fillna(method='ffill')


Unnamed: 0,S1,S2,S3,S4,S5
0,1,2.0,,4.0,5
1,1,2.0,3.0,4.0,5
2,1,2.0,3.0,4.0,5


In [15]:
# 하위 데이터가 존재하지 않으면 결측치가 제거되지 않는다.
df.fillna(method='bfill')

  df.fillna(method='bfill')


Unnamed: 0,S1,S2,S3,S4,S5
0,1,2.0,3.0,4.0,5
1,1,2.0,3.0,4.0,5
2,1,2.0,3.0,,5


### 데이터프레임의 필터링
1. 데이터프레임명.loc[{인덱스의 조건},{컬럼의 조건}]
    - 인덱스의 값을 기준으로 필터링
    - 컬럼의 값을 기준으로 필터링
2. 데이터프레임명.iloc[{인덱스의 위치}, {컬럼의 위치}]
    - i = index를 의미
    - 인덱스 위치를 기준으로 필터링
    - 컬럼의 위치를 기준으로 필터링
3. 데이터프레임명[컬럼명]
    - 해당 컬럼만 추출
    - 데이터의 형태는 Series로 출력

In [16]:
data = [
    [1,2,3],
    [4,5,6],
    [7,8,9]
]
col = ['A','B','C']
_index = [2, 4, 6]

df = pd.DataFrame(data, index=_index, columns=col)
df

Unnamed: 0,A,B,C
2,1,2,3
4,4,5,6
6,7,8,9


In [17]:
# loc를 이용하여 인덱스 필터링
# 이렇게 2를 넣으면 series로 보여줌
df.loc[2, ] # 인덱스의 값이 2인 걸 보여줌

A    1
B    2
C    3
Name: 2, dtype: int64

In [18]:
df.loc[ [2], ] # 리스트로 넣으면 데이터프레임으로 보여줌

Unnamed: 0,A,B,C
2,1,2,3


In [19]:
# iloc를 이용하여 인덱스 필터링
df.iloc[ [2], ] # 인덱스 위치가 2번째인걸 보여줌

Unnamed: 0,A,B,C
6,7,8,9


In [20]:
# loc와 iloc의 가장 큰 차이는 인덱스 값이냐 인덱스 위치냐임.

In [21]:
df['B'] # B컬럼을 선택해서 인덱스 값과 같이 보여줌

2    2
4    5
6    8
Name: B, dtype: int64

In [22]:
df['B'] >= 5

2    False
4     True
6     True
Name: B, dtype: bool

In [23]:
df.loc[ df['B'] >= 5, ]

Unnamed: 0,A,B,C
4,4,5,6
6,7,8,9


In [25]:
## loc를 이용해서 인덱스의 조건과 컬럼의 조건
df.loc[ 2, 'B' ] # 각 1개의 데이터를 넣으면 1차원 데이터에서 단일 데이터로 변함

2

In [27]:
df.loc[ [2], ['B'] ]

Unnamed: 0,B
2,2


In [28]:
# 다른 값으로 넣어주기
df.loc[2, 'B'] = 5

In [29]:
df

Unnamed: 0,A,B,C
2,1,5,3
4,4,5,6
6,7,8,9


In [33]:
df.loc[:, 'A'] # 하나의 컬럼과 해당 인덱스를 모두 보고 싶을 때 = :

2    1
4    4
6    7
Name: A, dtype: int64