In [1]:
import pandas as pd
import numpy as np

#### 결측치
- 데이터프레임에서 특정 부분에 데이터가 존재하지 않는 경우
- ex) 코로나 재감염율 -> 수집하기 힘들어서 수집하지 않음
- NaN 표시
- 일반적으로 전체의 5% 미만이면 삭제함. 그러나 데이터는 많을수록 좋기 때문에 안 지우는 게 가장 좋음.
</br> 따라서 '채워야' 함!



In [6]:
_values = [
    [1, 2, np.nan, 4, 5],
    [1, np.nan, 3, 4, 5],
    [1, 2, 3, 4, np.nan]
]

_cols = ['a', 'b', 'c', 'd', 'e']

df = pd.DataFrame(_values, columns=_cols)

df

Unnamed: 0,a,b,c,d,e
0,1,2.0,,4,5.0
1,1,,3.0,4,5.0
2,1,2.0,3.0,4,


In [7]:
# 결측치에 무슨 연산을 해도 nan
3 * np.nan

nan

In [8]:
# 연산이 성립되지 않으므로 결측치 == 결측치 -> False
np.nan == np.nan

False

In [9]:
# pandas의 데이터프레임이나 시리즈 연산에서는 결측치를 제외하고 연산 가능
df.sum()

a     3.0
b     4.0
c     6.0
d    12.0
e    10.0
dtype: float64

In [12]:
# 데이터프레임에 비교연산자를 사용하면?
df == 1

# 2차원 데이터와 단일 데이터를 비교한 것
# 비교연산자를 통해 각 원소별로 T/F 결과 나올 수 있음

Unnamed: 0,a,b,c,d,e
0,True,False,False,False,False
1,True,False,False,False,False
2,True,False,False,False,False


<span style='color:#ffd33d'>isna( ) 함수
- 데이터프레임, 시리즈에서 사용 가능

In [11]:
# 데이터프레임에서 결측치가 존재하는가?
# 결측치끼리는 '같다' 비교연산자로 True가 나오지 않기 때문에, 함수를 사용해야 한다.
# 존재 유무 ( is ) + 결측치 ( na ) ⇒ isna() 함수
df.isna()

Unnamed: 0,a,b,c,d,e
0,False,False,True,False,False
1,False,True,False,False,False
2,False,False,False,False,True


In [13]:
# isna() 함수를 사용하면, 결측치와 같은지에 대한 T/F로 이루어진 데이터프레임 생성
# 결측치의 개수를 확인하려면? ⇒ bool의 values 합계를 구한다.
df.isna().sum()

a    0
b    1
c    1
d    0
e    1
dtype: int64

<span style='color:#ffd33d'>sum( )
- 파이썬 기본 제공 함수, 데이터프레임 제공 함수
- 기본적으로 column을 기준으로 연산
- 매개변수 axis
    </br> ⇒ <span style='color:#808080'>(기본값 0)</span> *0* 'index' | *1*  'columns'

In [15]:
df.isna().sum(axis='index')  # column별 합산 # 기본값

a    0
b    1
c    1
d    0
e    1
dtype: int64

<span style='color:#ffd33d'>info( )

In [16]:
# info(): 외부의 파일을 로드하고 해당 데이터프레임의 정보를 확인하는 함수
df.info()

# (Range)Index: index 개수 (지정한 index가 없어 자동으로 매겨짐)
# Non-Null Count: 결측치를 제외한 데이터 개수

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   a       3 non-null      int64  
 1   b       2 non-null      float64
 2   c       2 non-null      float64
 3   d       3 non-null      int64  
 4   e       2 non-null      float64
dtypes: float64(3), int64(2)
memory usage: 252.0 bytes


---

#### 결측치 제거
1. 결측치가 포함되어 있는 컬럼 제거
    - 해당 컬럼을 사용하지 않는 경우
2. 결측치가 포함되어 있는 인덱스 제거
    - 해당 인덱스를 신뢰하기 힘든 경우
    - 제거하는 데이터의 개수가 많은 경우 ⇒ 제거 여부 선택
        - 제거: 데이터가 줄어 학습이 잘 안 됨
        - 채움: 데이터에 편향이 생길 수 있음

> 결측치 ( na ) + 제거한다 ( drop ) ⇒ **dropna( ) 함수** </br>
    <span style='color:#808080'>- *지금까지 배운 '제거': remove, delete, pop, strip*</span>
- <span style='color:#ffd33d'>**dropna( ) 함수**</span>
    - 매개변수 axis
    </br> ⇒ <span style='color:#808080'>(기본값 0)</span> *0* 'index' | *1*  'columns'
    - 매개변수 inplace
    </br>⇒ <span style='color:#808080'>(기본값 False)</span> class 안에 저장되어 있는 원본 데이터를 변경할지 그 여부를 지정

In [17]:
df.dropna()

Unnamed: 0,a,b,c,d,e


In [18]:
df.dropna(axis=1)

Unnamed: 0,a,d
0,1,4
1,1,4
2,1,4


#### 결측치가 포함되어 있는 행 or 열인지 판단하는 방법
<span style='color:#ffd33d'>any( )
- 매개변수 axis
    </br> ⇒ <span style='color:#808080'>(기본값 0)</span> *0* 'index' | *1*  'columns'

In [21]:
# any() 함수
df.isna().any( axis= 1 )

0    True
1    True
2    True
dtype: bool

#### 결측치에 특정 데이터를 채우는 방법
> 결측치 ( na ) + 채운다 ( fill ) ⇒ **fillna( ) 함수** </br>

<span style='color:#ffd33d'>fillna( )
- 첫 번째 인자에 특정 데이터 입력 ⇒ 결측치에 해당 데이터가 채워진다.
- 첫 번째 인자에 값을 채우지 않고 method 매개변수 이용 ⇒ 주변 데이터로 채워진다.
    - 매개변수 method
        - 'ffill' → 전 인덱스의 데이터로 채움
        - 'bfill' → 후 인덱스의 데이터로 채움

In [25]:
# 특정 데이터 결측치 치환
df.fillna( 10 )

Unnamed: 0,a,b,c,d,e
0,1,2.0,10.0,4,5.0
1,1,10.0,3.0,4,5.0
2,1,2.0,3.0,4,10.0


In [26]:
# method 매개변수 이용 - ffill
df.fillna( method= 'ffill' )

  df.fillna( method= 'ffill' )


Unnamed: 0,a,b,c,d,e
0,1,2.0,,4,5.0
1,1,2.0,3.0,4,5.0
2,1,2.0,3.0,4,5.0


In [23]:
# method 매개변수 이용 - bfill
df.fillna( method= 'bfill' )

  df.fillna( method= 'bfill' )


Unnamed: 0,a,b,c,d,e
0,1,2.0,3.0,4,5.0
1,1,2.0,3.0,4,5.0
2,1,2.0,3.0,4,


In [30]:
# method= 없이 쓰면 method에 들어가지 않는다.
df.fillna( 'bfill' )

# ⇒ method가 첫 번째 매개변수가 아님을 알 수 있다.
# ⇒ 첫 번째 매개변수에 인자를 넣지 않고 method에만 넣어도 동작하므로,
#    첫 번째 매개변수에 기본값이 있을 것이다.
# ⇒ 그렇다면 fillna()에 아무것도 넣지 않아도 될까?

Unnamed: 0,a,b,c,d,e
0,1,2.0,bfill,4,5.0
1,1,bfill,3.0,4,5.0
2,1,2.0,3.0,4,bfill


In [32]:
df.fillna()

# ValueError: Must specify a fill 'value' or 'method'.
# 둘 중 하나는 무조건 채워줘야 하고, 그렇지 않으면 error가 발생한다.

# value에 값을 넣지 않고 method에만 넣어도 동작하는 이유는 '*' 덕분이다.
    # def func_1(value, method=0):    ⇒ value에 값 안 넣으면 동작 X
    # def func_1(*value, method=0):   ⇒ value가 가변이므로 값 안 넣어도 동작

ValueError: Must specify a fill 'value' or 'method'.

---

### 데이터프레임의 필터링
loc, iloc는 함수가 아니므로 대괄호[]로 묶어서 사용
- 데이터프레임명.<span style='color:#ffd33d'>**loc**</span>[ 인덱스의 조건, 컬럼의 조건 ]
    - 인덱스의 <span style='color:#ffd33d'>값</span>을 기준으로 필터링
    - 컬럼의 <span style='color:#ffd33d'>값</span>을 기준으로 필터링
    - 영역(시작:종료)을 기준으로 필터링 ⇒ 시작<span style='color:#ffd33d'>값</span>부터 종료<span style='color:#ffd33d'>값</span>까지<span style='color:#008000'>**(종료값 포함)**
- 데이터프레임명.<span style='color:#ffd33d'>**iloc**</span>[ 인덱스의 위치, 컬럼의 위치 ]
    - 인덱스의 <span style='color:#ffd33d'>위치</span>를 기준으로 필터링
    - 컬럼의 <span style='color:#ffd33d'>위치</span>를 기준으로 필터링
    - 영역(시작:종료)을 기준으로 필터링 ⇒ 시작<span style='color:#ffd33d'>위치</span>부터 종료<span style='color:#ffd33d'>위치</span> 전까지<span style='color:#008000'>**(종료위치 미포함)**
- 특정 컬럼의 데이터 확인
    - 데이터프레임명[ 컬럼의 값 ]
    </br>⇒ 조건이 단일 타입이라면(str, int) 결과는 Series
    - 데이터프레임명[ [컬럼의 값, ...] ]
    </br>⇒ 조건이 단일 타입이 아니라면(tuple,list) 결과는 DataFrame