# 결측치(Missing Value) 처리하기_2

   #### < RUN ALL 금지! >

- 데이터 정보 확인에서 NaN 감지가 안 되는 경우에 대한 처리
(non-null이나 isnull로 해도 알 수 없을 때)
- 1) NaN으로 처리해야 되는 데이터를 찾기   ex) '-'이나 ' '
- 2) 데이터를 NaN으로 변경
- 3) NaN 데이터 처리

In [6]:
# 모듈 로딩
import pandas as pd

# 파일 관련 변수 선언
DIR_PATH = '../Data/'
FILE_NAME = DIR_PATH+'auto_mpg.csv'

In [7]:
# 파일을 열어보니, 첫줄은 컬럼명 & 구분자도 콤마(,)로 맞군
# 1) CSV File -> DataFrame 로딩
mpgDF = pd.read_csv(FILE_NAME)

In [8]:
# 2) Data 정보 확인
mpgDF.info()
# entry개수가 398, Non-Null이 398 => NaN 값이 없는가보군

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 398 entries, 0 to 397
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   mpg           398 non-null    float64
 1   cylinders     398 non-null    int64  
 2   displacement  398 non-null    float64
 3   horsepower    398 non-null    object 
 4   weight        398 non-null    int64  
 5   acceleration  398 non-null    float64
 6   model year    398 non-null    int64  
 7   origin        398 non-null    int64  
 8   car name      398 non-null    object 
dtypes: float64(3), int64(4), object(2)
memory usage: 28.1+ KB


In [9]:
# 일부 데이터 확인
mpgDF.head()
# horsepower이 숫자인데 -> object로 되어 있네?

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,car name
0,18.0,8,307.0,130,3504,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165,3693,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150,3436,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150,3433,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140,3449,10.5,70,1,ford torino


In [12]:
# NaN 체크
mpgDF.isnull().sum()

mpg             0
cylinders       0
displacement    0
horsepower      0
weight          0
acceleration    0
model year      0
origin          0
car name        0
dtype: int64

In [13]:
# 3) 데이터 전처리
# 데이터와 해당 데이터의 타입이 맞도록 설정
mpgDF.horsepower

0      130
1      165
2      150
3      150
4      140
      ... 
393     86
394     52
395     84
396     79
397     82
Name: horsepower, Length: 398, dtype: object

In [None]:
# 타입 변경 => astype(타입)
# mpgDF.horsepower.astype(int)

# 정수로 바꾸려고 했는데, 오류 메시지를 보면 '?'가 있다고 하는데!?
# => 따라서, 아래 순서를 먼저 진행해야 함!!

In [20]:
# 데이터의 고유값 확인
mpgDF.horsepower.unique()
# 확인하면 '?'가 있는 것을 볼 수 있음
#--------------------------------------------------------------------------
# '?'와 같이 문제가 되는 데이터를 NaN으로 변경 => replace(원래값, 새로운 값)
#  NaN 상수 사용을 위해 Numpy 모듈을 포함
import numpy as np

mpgDF.horsepower.replace('?', np.nan)
# repolace()가 inplace 속성이 있는지 확인해 봐야
mpgDF.horsepower.unique()
# 허허, 그대로 있네, 그럼 replace()는 inplace 속성이 있는 것! True 로 !
mpgDF.horsepower.replace('?', np.nan, inplace=True)
mpgDF.horsepower.unique()
# '?'이 'nan'으로 바뀐 것을 확인할 수 있군!
#--------------------------------------------------------------------------
# 타입 변경 => astype(타입)
# mpgDF.horsepower.astype(int)

# 정수로 바꾸려고 했는데, 오류 메시지를 보면 '?'가 있다고 하는데!?
# => 따라서, 위로 올라가서 진행!!

array(['130', '165', '150', '140', '198', '220', '215', '225', '190',
       '170', '160', '95', '97', '85', '88', '46', '87', '90', '113',
       '200', '210', '193', nan, '100', '105', '175', '153', '180', '110',
       '72', '86', '70', '76', '65', '69', '60', '80', '54', '208', '155',
       '112', '92', '145', '137', '158', '167', '94', '107', '230', '49',
       '75', '91', '122', '67', '83', '78', '52', '61', '93', '148',
       '129', '96', '71', '98', '115', '53', '81', '79', '120', '152',
       '102', '108', '68', '58', '149', '89', '63', '48', '66', '139',
       '103', '125', '133', '138', '135', '142', '77', '62', '132', '84',
       '64', '74', '116', '82'], dtype=object)

In [21]:
mpgDF.isnull().sum()
# 이제서야 결측치를 제대로 카운팅이 되었구나

mpg             0
cylinders       0
displacement    0
horsepower      6
weight          0
acceleration    0
model year      0
origin          0
car name        0
dtype: int64

In [22]:
# 볼만큼 보고 불렀더니
# Null 해보니 제대로 되었고
# 데이터 형태 맞추려고 보니
# 전환이 안되네 => 못잡은게 있나?
# 정상적으로 카운팅 되네
# 삭제냐 / 치환이냐

In [24]:
# NaN => 0으로 채우기
mpgDF.fillna(0, inplace=True)
mpgDF.isnull().sum()
# 6개던데 사라졌네!!

mpg             0
cylinders       0
displacement    0
horsepower      0
weight          0
acceleration    0
model year      0
origin          0
car name        0
dtype: int64

In [25]:
# 자, 이제 숫자로 다 전환했으니, 데이터 형태를 변환해보자
mpgDF.horsepower.astype(int)
# object -> int32로 바뀐 것을 확인할 수 있음

0      130
1      165
2      150
3      150
4      140
      ... 
393     86
394     52
395     84
396     79
397     82
Name: horsepower, Length: 398, dtype: int32

In [26]:
mpgDF.info()
# !? info()로 하니까 object 그대로네!? int32로 안바꼈네!?
# mpgDF.horsepower.astype(int, inplace=True)
# astype에는 inplace 파라미터가 없어서 오류가 생기네?

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 398 entries, 0 to 397
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   mpg           398 non-null    float64
 1   cylinders     398 non-null    int64  
 2   displacement  398 non-null    float64
 3   horsepower    398 non-null    object 
 4   weight        398 non-null    int64  
 5   acceleration  398 non-null    float64
 6   model year    398 non-null    int64  
 7   origin        398 non-null    int64  
 8   car name      398 non-null    object 
dtypes: float64(3), int64(4), object(2)
memory usage: 28.1+ KB


In [29]:
# 그럼 mpgDF.horsepower에다가 넣어주지뭐!!
mpgDF.horsepower = mpgDF.horsepower.astype(int)
mpgDF.info()
# 이제서야 int32로 바꼈구나

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 398 entries, 0 to 397
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   mpg           398 non-null    float64
 1   cylinders     398 non-null    int64  
 2   displacement  398 non-null    float64
 3   horsepower    398 non-null    int32  
 4   weight        398 non-null    int64  
 5   acceleration  398 non-null    float64
 6   model year    398 non-null    int64  
 7   origin        398 non-null    int64  
 8   car name      398 non-null    object 
dtypes: float64(3), int32(1), int64(4), object(1)
memory usage: 26.6+ KB
