# 결측치(Missing Value)처리 실습 

- 결측치(Missing Value)란?
    : 값이 들어있지 않은 것으로 NaN, NA로 표기
    
- 관련 메서드
    - 결측치 여부 체크: isnull(), isna(), notnull(), notna()
    - 결측치 삭제: dropna()
    - 결측치 치환: fillna()

In [11]:
# 모듈 로딩
import pandas as pd

In [12]:
# 파일 관련 변수 선언
PATH = '../DATA/'
FILENAME2 = PATH + 'weather.csv'
# csv file -> DataFrame
weatherDf = pd.read_csv(FILENAME2)
weatherDf

Unnamed: 0,id,year,month,element,d1,d2,d3,d4,d5,d6,...,d22,d23,d24,d25,d26,d27,d28,d29,d30,d31
0,MX17004,2010,1,tmax,,,,,,,...,,,,,,,,,27.8,
1,MX17004,2010,1,tmin,,,,,,,...,,,,,,,,,14.5,
2,MX17004,2010,2,tmax,,27.3,24.1,,,,...,,29.9,,,,,,,,
3,MX17004,2010,2,tmin,,14.4,14.4,,,,...,,10.7,,,,,,,,
4,MX17004,2010,3,tmax,,,,,32.1,,...,,,,,,,,,,
5,MX17004,2010,3,tmin,,,,,14.2,,...,,,,,,,,,,
6,MX17004,2010,4,tmax,,,,,,,...,,,,,,36.3,,,,
7,MX17004,2010,4,tmin,,,,,,,...,,,,,,16.7,,,,
8,MX17004,2010,5,tmax,,,,,,,...,,,,,,33.2,,,,
9,MX17004,2010,5,tmin,,,,,,,...,,,,,,18.2,,,,


In [13]:
# 데이터 정보 확인
weatherDf.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22 entries, 0 to 21
Data columns (total 35 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   id       22 non-null     object 
 1   year     22 non-null     int64  
 2   month    22 non-null     int64  
 3   element  22 non-null     object 
 4   d1       2 non-null      float64
 5   d2       4 non-null      float64
 6   d3       4 non-null      float64
 7   d4       2 non-null      float64
 8   d5       8 non-null      float64
 9   d6       2 non-null      float64
 10  d7       2 non-null      float64
 11  d8       2 non-null      float64
 12  d9       0 non-null      float64
 13  d10      2 non-null      float64
 14  d11      2 non-null      float64
 15  d12      0 non-null      float64
 16  d13      2 non-null      float64
 17  d14      4 non-null      float64
 18  d15      2 non-null      float64
 19  d16      2 non-null      float64
 20  d17      2 non-null      float64
 21  d18      0 non-nul

In [14]:
weatherDf.shape

(22, 35)

In [15]:
weatherDf.describe().loc[:,'d1':'d10']

Unnamed: 0,d1,d2,d3,d4,d5,d6,d7,d8,d9,d10
count,2.0,4.0,4.0,2.0,8.0,2.0,2.0,2.0,0.0,2.0
mean,21.85,22.325,21.15,19.6,20.8625,19.15,20.5,23.15,,25.65
std,11.384419,8.254443,6.405466,10.748023,8.904243,12.232947,10.748023,8.273149,,12.51579
min,13.8,14.4,14.4,12.0,7.9,10.5,12.9,17.3,,16.8
25%,17.825,15.825,16.725,15.8,14.15,14.825,16.7,20.225,,21.225
50%,21.85,21.8,20.8,19.6,21.05,19.15,20.5,23.15,,25.65
75%,25.875,28.3,25.225,23.4,27.65,23.475,24.3,26.075,,30.075
max,29.9,31.3,28.6,27.2,32.1,27.8,28.1,29.0,,34.5


In [16]:
# 결측치 개수 파악
weatherDf.isnull().sum()

id          0
year        0
month       0
element     0
d1         20
d2         18
d3         18
d4         20
d5         14
d6         20
d7         20
d8         20
d9         22
d10        20
d11        20
d12        22
d13        20
d14        18
d15        20
d16        20
d17        20
d18        22
d19        22
d20        22
d21        22
d22        22
d23        18
d24        22
d25        20
d26        20
d27        16
d28        20
d29        18
d30        20
d31        20
dtype: int64

In [17]:
# 결측치 개수 파악
weatherDf.isnull().sum() == 22

id         False
year       False
month      False
element    False
d1         False
d2         False
d3         False
d4         False
d5         False
d6         False
d7         False
d8         False
d9          True
d10        False
d11        False
d12         True
d13        False
d14        False
d15        False
d16        False
d17        False
d18         True
d19         True
d20         True
d21         True
d22         True
d23        False
d24         True
d25        False
d26        False
d27        False
d28        False
d29        False
d30        False
d31        False
dtype: bool

In [18]:
# 데이터 삭제
weatherDf.dropna(axis = 1, how = 'all', inplace= True)  # 최고, 최저 온도값이 모두 NaN인 것 삭제
weatherDf

Unnamed: 0,id,year,month,element,d1,d2,d3,d4,d5,d6,...,d16,d17,d23,d25,d26,d27,d28,d29,d30,d31
0,MX17004,2010,1,tmax,,,,,,,...,,,,,,,,,27.8,
1,MX17004,2010,1,tmin,,,,,,,...,,,,,,,,,14.5,
2,MX17004,2010,2,tmax,,27.3,24.1,,,,...,,,29.9,,,,,,,
3,MX17004,2010,2,tmin,,14.4,14.4,,,,...,,,10.7,,,,,,,
4,MX17004,2010,3,tmax,,,,,32.1,,...,31.1,,,,,,,,,
5,MX17004,2010,3,tmin,,,,,14.2,,...,17.6,,,,,,,,,
6,MX17004,2010,4,tmax,,,,,,,...,,,,,,36.3,,,,
7,MX17004,2010,4,tmin,,,,,,,...,,,,,,16.7,,,,
8,MX17004,2010,5,tmax,,,,,,,...,,,,,,33.2,,,,
9,MX17004,2010,5,tmin,,,,,,,...,,,,,,18.2,,,,


In [20]:
oneMonth = weatherDf.iloc[:]

# 최고기온인 레코드는 월별 기록 중에 가장 높은 기온 선택
# 최저기온인 레코드는 월별 기록 중에 가장 낮은 기온 선택
monthMax = oneMonth[oneMonth['element'] == 'tmax']
monthMin = oneMonth[oneMonth['element'] == 'tmin']

# id, year, month, element 열 제외한 열 중에 max, min 구하기
monthMax = monthMax.iloc[:,4:].max(axis=1, numeric_only=True)
monthMin = monthMin.iloc[:,4:].min(axis=1, numeric_only=True)

# max인 행이랑 min인 행 합쳐서 reindex
maxMin = pd.concat([monthMax, monthMin]).reindex(oneMonth.index)

#
weatherDf.loc[:,'월별 최고/최저 기온'] = list(maxMin)

weatherDf

         id  year  month element    d1    d2    d3    d4    d5    d6  ...  \
0   MX17004  2010      1    tmax   NaN   NaN   NaN   NaN   NaN   NaN  ...   
1   MX17004  2010      1    tmin   NaN   NaN   NaN   NaN   NaN   NaN  ...   
2   MX17004  2010      2    tmax   NaN  27.3  24.1   NaN   NaN   NaN  ...   
3   MX17004  2010      2    tmin   NaN  14.4  14.4   NaN   NaN   NaN  ...   
4   MX17004  2010      3    tmax   NaN   NaN   NaN   NaN  32.1   NaN  ...   
5   MX17004  2010      3    tmin   NaN   NaN   NaN   NaN  14.2   NaN  ...   
6   MX17004  2010      4    tmax   NaN   NaN   NaN   NaN   NaN   NaN  ...   
7   MX17004  2010      4    tmin   NaN   NaN   NaN   NaN   NaN   NaN  ...   
8   MX17004  2010      5    tmax   NaN   NaN   NaN   NaN   NaN   NaN  ...   
9   MX17004  2010      5    tmin   NaN   NaN   NaN   NaN   NaN   NaN  ...   
10  MX17004  2010      6    tmax   NaN   NaN   NaN   NaN   NaN   NaN  ...   
11  MX17004  2010      6    tmin   NaN   NaN   NaN   NaN   NaN   NaN  ...   

Unnamed: 0,id,year,month,element,d1,d2,d3,d4,d5,d6,...,d17,d23,d25,d26,d27,d28,d29,d30,d31,월별 최고/최저 기온
0,MX17004,2010,1,tmax,,,,,,,...,,,,,,,,27.8,,27.8
1,MX17004,2010,1,tmin,,,,,,,...,,,,,,,,14.5,,14.5
2,MX17004,2010,2,tmax,,27.3,24.1,,,,...,,29.9,,,,,,,,29.9
3,MX17004,2010,2,tmin,,14.4,14.4,,,,...,,10.7,,,,,,,,10.7
4,MX17004,2010,3,tmax,,,,,32.1,,...,,,,,,,,,,34.5
5,MX17004,2010,3,tmin,,,,,14.2,,...,,,,,,,,,,14.2
6,MX17004,2010,4,tmax,,,,,,,...,,,,,36.3,,,,,36.3
7,MX17004,2010,4,tmin,,,,,,,...,,,,,16.7,,,,,16.7
8,MX17004,2010,5,tmax,,,,,,,...,,,,,33.2,,,,,33.2
9,MX17004,2010,5,tmin,,,,,,,...,,,,,18.2,,,,,18.2


In [None]:
# 과제: 2010년 1~12월까지 최고-최저온도 데이터 추출

In [21]:
# 월별 최고/최저기온 표시
weatherDf[['id', 'year', 'month', 'element','월별 최고/최저 기온' ]]

Unnamed: 0,id,year,month,element,월별 최고/최저 기온
0,MX17004,2010,1,tmax,27.8
1,MX17004,2010,1,tmin,14.5
2,MX17004,2010,2,tmax,29.9
3,MX17004,2010,2,tmin,10.7
4,MX17004,2010,3,tmax,34.5
5,MX17004,2010,3,tmin,14.2
6,MX17004,2010,4,tmax,36.3
7,MX17004,2010,4,tmin,16.7
8,MX17004,2010,5,tmax,33.2
9,MX17004,2010,5,tmin,18.2


# 처리방법(2): 치환

In [None]:
# 파일 관련 변수 선언
PATH = '../DATA/'
FILENAME2 = PATH + 'weather.csv'
# csv file -> DataFrame
weatherDf = pd.read_csv(FILENAME2)
weatherDf

In [None]:
# NaN 데이터를 다른 값으로 치환(변경)하기 -> fillna()
# 'ffill': 앞에 있는 값으로 채움, 'bfill': 뒤에 있는 값으로 채움, pad: 특정한 값으로 채움

# 모든 NaN을 0으로 채우기
weatherDf.fillna(0)

In [None]:
# 서울 -> 다른 지역으로 간 사람의 데이터를 뽑는데, 연도별 추이가 어떻게 되는지 관측