### 05. 판다스 결측 데이터 처리하기

In [29]:
# Pandas 는 누락된 데이터를 표시할 때 NaN (Not a Number)으로 표기하며, 연산에는 포함되지 않음.

In [30]:
import pandas as pd

In [31]:
df = pd.read_csv('../input/weather.csv', index_col='date')
df.head()

Unnamed: 0_level_0,temp,max_wind,mean_wind
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2010-08-01,28.7,8.3,3.4
2010-08-02,25.2,8.7,3.8
2010-08-03,22.1,6.3,2.9
2010-08-04,25.3,6.6,4.2
2010-08-05,27.2,9.1,5.6


In [32]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3653 entries, 2010-08-01 to 2020-07-31
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   temp       3653 non-null   float64
 1   max_wind   3649 non-null   float64
 2   mean_wind  3647 non-null   float64
dtypes: float64(3)
memory usage: 114.2+ KB


### 1) 결측 데이터 확인

In [33]:
# 최고풍속이 측정되지 않은 모든 데이터 출력
# isna() 메서드는 값이 NaN일 떄 True, 아닌 경우엔 False 반환.
df[df['max_wind'].isna()]   # <--  이것도 어떻게 보면 불인덱싱이나 다름없다. 


Unnamed: 0_level_0,temp,max_wind,mean_wind
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2012-02-11,-0.7,,
2012-02-12,0.4,,
2012-02-13,4.0,,
2019-04-19,7.8,,2.3


In [34]:
df[df['max_wind'].isnull()]

Unnamed: 0_level_0,temp,max_wind,mean_wind
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2012-02-11,-0.7,,
2012-02-12,0.4,,
2012-02-13,4.0,,
2019-04-19,7.8,,2.3


- isnull() 은 결측 데이터이면 True 반환, 유효한 데이터가 존재하면 False 를 반환.
- isna(), isnull() 은 기능적으로 동일.

In [35]:
# 결측 데이터 개수 확인
df.isnull().sum()

temp         0
max_wind     4
mean_wind    6
dtype: int64

In [36]:
df.isnull().value_counts()  # <-- 이것도 결측 데이터 개수를 볼 수 있기는하다.

temp   max_wind  mean_wind
False  False     False        3646
                 True            3
       True      True            3
                 False           1
Name: count, dtype: int64

In [37]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3653 entries, 2010-08-01 to 2020-07-31
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   temp       3653 non-null   float64
 1   max_wind   3649 non-null   float64
 2   mean_wind  3647 non-null   float64
dtypes: float64(3)
memory usage: 243.2+ KB


In [38]:
# notnull() 은 유효한 데이터가 존재하면 True를 반환, 결측 데이터면 False 를 반환.
df.notnull().sum() # 결측값이 

temp         3653
max_wind     3649
mean_wind    3647
dtype: int64

### 2) 결측 데이터 삭제하기

In [39]:
# 결측 데이터를 다루는 가장 간단한 방법은 결측 데이터를 가진 행이나 열을 삭제.
# 판다스에서 dropna() 를 이용하여 삭제 할 수 있음.

In [40]:
# DataFrame.dropna(axis, how, thresh, subset, inplace)
# axis : 축을 행 또는 열로 결정
# 0 또는 'index'이면 누락된 값이 포함된 행을 삭제
# 1 또는 'columns'이면 누락된 값이 포함된 열을 삭제
# 기본적으로 값은 0
# how : any는 null 값이 있는 경우 행 또는 열을 삭제
# all은 모든 값이 누락된 경우 행 또는 열을 삭제
# 기본값은 any
# inplace : 데이터프레임에 나온 값을 저장할 것인지를 설정하는 변수로 기본적으로 값은 False

In [41]:
# 결측 데이터가 있는 행 삭제 후 확인
df2 = df.dropna()   # 옵션을 지정하지 않아서 행기준, NaN가 하나라도 있는 경우에 삭제. dropna()는 덮어쓰는건 아님 inplace가 기본적으로 False라서. 원본삭제를 하는 경우는 
# 잘 없음. inplace=True를 하면 원본삭제가됨
df2.isnull().sum()

temp         0
max_wind     0
mean_wind    0
dtype: int64

In [42]:
# 행 데이터 중 어느 한 변수에도 결측치가 있는 경우 삭제되므로
# 향 후 제거한 데이터프레임을 사용하려면 다른 이름으로 저장해야 함.
df.isnull().sum()   #  <- 이걸 변수에 저장해서 결측치만 따로 사용할 수 있다.

temp         0
max_wind     4
mean_wind    6
dtype: int64

### 3) 결측 데이터 대체하기

In [46]:
# 결측 데이터 대체하기 : 평균값으로 대체

# df['max_wind'].fillna(df['max_wind'].mean(), inplace=True)
# df.fillna({'max_wind' : df['max_wind'].mean()}, inplace=True)
df['mean_wind'].fillna(df['mean_wind'].mean(), inplace=True)
# fillna() 결측 데이터를 특정 값으로 채움. inplace를 True 로 설정해 원본 데이터를 수정.

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['mean_wind'].fillna(df['mean_wind'].mean(), inplace=True)


In [44]:
# 결측 데이터 대체 후 확인
df.isna().sum()

temp         0
max_wind     0
mean_wind    0
dtype: int64