In [1]:
import pandas as pd 
import numpy as np

In [2]:
_values = [
    [1, 2, np.nan, 4, 5], 
    [1, np.nan, 3, 4, 5], 
    [1, 2, 3, 4, np.nan]
]
_cols = ['a', 'b', 'c', 'd', 'e']

df = pd.DataFrame(_values, columns = _cols)

df

Unnamed: 0,a,b,c,d,e
0,1,2.0,,4,5.0
1,1,,3.0,4,5.0
2,1,2.0,3.0,4,


In [4]:
# 일반적으로 결측의 연산은 되지 않는다. -> 결과는 nan 고정 
3 * np.nan

nan

In [None]:
# 결측치 == 결측치 ??? -> False -> 연산이 성립 되지 않기때문에 
np.nan == np.nan

False

In [6]:
# pandas의 데이터프레임이나 스리즈 연산에서는 결측치를 제외하고 연산이 가능
df.sum()

a     3.0
b     4.0
c     6.0
d    12.0
e    10.0
dtype: float64

In [7]:
# 데이터프레임에서 결측치가 존재하는가?
# 존재 유무 ( is ) + 결측치 ( na ) -> isna() 함수 
# 해당 함수를 사용하는 이유는 결측치와 결측치를 '같다' 비교연산자로 True 나오지 않기 때문에 
df.isna()

Unnamed: 0,a,b,c,d,e
0,False,False,True,False,False
1,False,True,False,False,False
2,False,False,False,False,True


In [8]:
# 데이터프레임에 비교연산자를 사용하면 결과? 
df == 1

Unnamed: 0,a,b,c,d,e
0,True,False,False,False,False
1,True,False,False,False,False
2,True,False,False,False,False


In [None]:
# isna() 함수를 이용하면 결측치와 같은가? T/F로 이루어진 데이터프레임 생성 
# 결측치의 개수를 확인하려면? -> bool의 values를 합계를 구한다. 
# sum() -> 기본적(특정 매개변수에 기본값이 존재)으로 컬럼을 기준으로 합산 
df.isna().sum()

a    0
b    1
c    1
d    0
e    1
dtype: int64

In [12]:
# sum() 함수는 axis 매개변수가 존재 
# 0 | 1 ,  'index' | 'columns'
df.isna().sum(axis = 'columns')

0    1
1    1
2    1
dtype: int64

In [13]:
# 외부의 파일을 로드하고 해당 데이터프레임의 정보를 확인하는 함수 
# info()
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   a       3 non-null      int64  
 1   b       2 non-null      float64
 2   c       2 non-null      float64
 3   d       3 non-null      int64  
 4   e       2 non-null      float64
dtypes: float64(3), int64(2)
memory usage: 252.0 bytes


In [14]:
df

Unnamed: 0,a,b,c,d,e
0,1,2.0,,4,5.0
1,1,,3.0,4,5.0
2,1,2.0,3.0,4,


In [16]:
# 결측치의 제거 
# 1. 결측치가 포함되어 있는 컬럼을 제거
    # 해당 컬럼을 사용하지 않는 경우 
# 2. 결측치가 포함되어 있는 인덱스를 제거 
    # 해당 인덱스의 신뢰도 떨어질때 
    # 제거하는 데이터의 갯수가 많은 경우? -> 선택 
# 결측치( na ) , 제거한다( drop )
# dropna()
    # 매개변수 axis -> 0 'index' | 1 'columns' (기본값은 0)
    # 매개변수 inplace -> 기본값 False -> 원본 데이터(class 안에 저장되어있는 데이터)를 
    #                                   변경할지 지정
df.dropna(axis=1)

Unnamed: 0,a,d
0,1,4
1,1,4
2,1,4


In [18]:
# 결측치가 포함되어 있는 행인가? 열인가? 판단하는 방법 
# any() -> 매개변수 axis 0 | 1
df.isna().any(axis = 1)

0    True
1    True
2    True
dtype: bool

In [19]:
# 결측치에 특정 데이터를 채운다. 
# 채운다(fill) + 결측치(na)
# fillna()
    # 첫번째 인자에 특정 데이터를 입력하면 -> 결측치에 해당 데이터가 채워진다.
    # 첫번째 인자에 값을 채우지 않고 method 매개변수를 이용
        # 'ffill' / 'bfill'
            # ffill -> 전 인덱스의 데이터로 채워준다.
            # bfill -> 후 인덱스의 데이터로 채워준다.
df.fillna(method='ffill') 

  df.fillna(method='ffill')


Unnamed: 0,a,b,c,d,e
0,1,2.0,,4,5.0
1,1,2.0,3.0,4,5.0
2,1,2.0,3.0,4,5.0


In [20]:
df.fillna(method='bfill')

  df.fillna(method='bfill')


Unnamed: 0,a,b,c,d,e
0,1,2.0,3.0,4,5.0
1,1,2.0,3.0,4,5.0
2,1,2.0,3.0,4,


In [23]:
# 특정 데이터 결측치 치환
df.fillna(10)

Unnamed: 0,a,b,c,d,e
0,1,2.0,10.0,4,5.0
1,1,10.0,3.0,4,5.0
2,1,2.0,3.0,4,10.0


In [25]:
# value, method 매개변수에 값을 입력하지 않으면 에러가 발생
# df.fillna()

#### 데이터프레임의 필터링 
- 데이터프레임명.loc[인덱스의 조건, 컬럼의 조건]
    - 인덱스의 값을 기준으로 필터 
    - 컬럼의 값을 기준으로 필터 
    - 시작 : 종료 -> 시작값부터 종료값까지 (종료가 포함)
- 데이터프레임명.iloc[인덱스의 위치, 컬럼의 위치]
    - 인덱스의 위치를 기준으로 필터
    - 컬럼의 위치를 기준으로 필터 
    - 시작 : 종료 -> 시작 위치부터 종료 위치 전까지 (종료위치가 미포함)
- 특정 컬럼의 데이터를 확인 
    - 데이터프레임명[ 컬럼의 값 ] -> 조건이 단일 타입(str, int)이라면 -> 결과는 Series
    - 데이터프레임명[ [컬럼의 값, ...] ] -> 조건이 단일 타입(tuple, list)이 아니라면 -> 결과는 DataFrame