In [2]:
# 결측치 Missing Value (nan)

import numpy as np
import pandas as pd

In [5]:
# 결측치가 포함된 시리즈 생성
sr = pd.Series([0, 1, np.nan, 3, 4])

sr

0    0.0
1    1.0
2    NaN
3    3.0
4    4.0
dtype: float64

In [12]:
# 결측치 확인 함수  
# is NAN?
sr.isna()

# is Null?
sr.isnull()

# is Not NAN?
sr.notna()

# is Not Null?
sr.notnull()

0     True
1     True
2    False
3     True
4     True
dtype: bool

In [15]:
# 데이터 안에 결측치가 있는지 없는지 확인을 먼저 한다. 
# 일반적으로 결측치를 채워넣고 시작한다.

sr.isna().sum() # 결측치의 합으로 개수를 파악한다.
sr.isnull().sum()

1

In [23]:
# 결측치 존재하는 행 찾기

df = pd.DataFrame({'A' : [1, 2, None, 4, None],    # None = np.nan
                   'B' : [None, 6, 7, None, 9]})

df_with_nan = df.isna()

mask = df_with_nan.any(axis = 1) # 요청된 축에 대해 요소가 True인지 여부를 반환합니다. 축에 대해 어떤 요소가 True인지 여부를 반환합니다.
                                 #시리즈 내 또는 데이터프레임 축에 True 또는 이에 상응하는 요소(예:0이 아니거나 비어 있지 않음)가 하나 이상 없는 경우 False를 반환합니다.

result = df[mask] # mask 조건을 만족하는 데이터 프레임 (결측치가 존재하는 데이터프레임)

print(df_with_nan)
print(result)


       A      B
0  False   True
1  False  False
2   True  False
3  False   True
4   True  False
     A    B
0  1.0  NaN
2  NaN  7.0
3  4.0  NaN
4  NaN  9.0


In [25]:
# 결측치 채우기

sr = pd.Series([0, 1, None, np.nan, 4])

sr.fillna(method = 'bfill') # forward fill 앞의 값으로 채운다, back fill 뒤의 값으로 채운다

0    0.0
1    1.0
2    4.0
3    4.0
4    4.0
dtype: float64

In [55]:
# 결측치 삭제
df = pd.DataFrame({'A' : [1, 2, None, 4, 5],    
                   'B' : [None, 6, 7, None, 9],
                   'C' : [10, 11, 12, 13, 14]})

df_drop_cols = df.dropna(axis = 1) # 설정한 축에 따라 결측치가 있는 축을 삭제

df_drop_rows = df.dropna(axis = 0)

df_drop_rows

Unnamed: 0,A,B,C
1,2.0,6.0,11
4,5.0,9.0,14


In [61]:
# 중복값 삭제
df = pd.DataFrame({'A' : [1, 2, 3, 1, 3],    
                   'B' : ['apple', 'banana', 'apple', 'apple', 'apple'],
                   'C' : [10, 20, 30, 11, 30]})

df.drop_duplicates() # 중복 값 삭제 (행의 값이 모두 같으면 삭제)

Unnamed: 0,A,B,C
0,1,apple,10
1,2,banana,20
2,3,apple,30
3,1,apple,11


In [42]:
# 실제 데이터를 이용한 결측치 확인

flight_route_info = pd.read_csv('flight_route_info.csv', encoding='cp949') # utf8  자동으로 데이터 프레임으로 읽어온다.



df_with_nan = flight_route_info.isna() 
print(df_with_nan.sum().sum()) # 결측치 개수 확인. 열별 합계를 다시 전부 더해준다.

'''
mask = df_with_nan.any(axis = 1) 
result = flight_route_info[mask]
print(result)
'''
flight_route_info

412


Unnamed: 0,노선명,항공사,출발지,출발국,도착지,도착국,검수,2016.6,2018.5,상태,...,운송량_여름 총합,운송량_2016.9,운송량_2016.10,운송량_2016.11,운송량_2017.9,운송량_2017.10,운송량_2017.11,운송량_2016가을,운송량_2017가을,운송량_가을 총합
0,7J105,Tajik Air,DYU,TJK,IKA,IRI,O,O,O,완료,...,4258,842,985,596,746,597,448,2423,1791,4214
1,7J117,Tajik Air,DYU,TJK,DEL,IND,O,O,O,완료,...,3440,794,815,990,224,0,0,2599,224,2823
2,7J4801,Tajik Air,DYU,TJK,SVX,RUS,O,O,O,완료,...,3949,970,896,596,745,448,448,2462,1641,4103
3,7J4805,Tajik Air,DYU,TJK,SGC,RUS,O,O,O,완료,...,0,0,0,298,0,0,0,298,0,298
4,7J4849,Tajik Air,DYU,TJK,FRU,KGZ,O,O,O,완료,...,3604,767,788,596,298,0,0,2151,298,2449
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
672,ZM559,Air Manas,FRU,KGZ,DME,RUS,O,O,O,완료,...,15498,2457,2646,3192,2457,2268,0,8295,4725,13020
673,ZM561,Air Manas,FRU,KGZ,DME,RUS,O,O,O,완료,...,15498,2268,2457,1701,3024,3402,4725,6426,11151,17577
674,ZM5610,Air Manas,FRU,KGZ,DME,RUS,O,O,O,완료,...,0,0,0,0,0,0,0,0,0,0
675,ZM641,Air Manas,FRU,KGZ,DME,RUS,O,O,O,완료,...,567,1512,1512,1701,0,0,0,4725,0,4725


In [44]:
flight_route_info['비고'].value_counts(dropna = False).head() # value_counts() value값 카운트 후 내림차순 정렬, head() 상위 5개 행 출력, tail() 하위 5개 행 출력

NaN                     412
2016.11.05. 이후 폐선         4
2018.04.24. 이후 기록 없음      3
2016.10 한 달 운항            2
2017.03.24. 이후 폐선         2
Name: 비고, dtype: int64

In [48]:
flight_route_info.fillna(' ', axis = 1, inplace = True) # nan를 ' '로 채운다

flight_route_info.isnull().sum().sum()

0