[미국 차동차 연비 데이터 분석]

- 분석목표 : 자동차 연비 와 관련된 자동차의 속성 분석
- 데이터셋 : UCI auto_mpg.csv
- 타겟컬럼 : mpg    <=> 종속 변수 
- 피쳐컬럼 : 7개    <=> 독립 변수 / 다변량변수

[1] 모듈 로딩 및 데이터 준비 <hr>

In [102]:
# [1-1] 모듈 로딩
import pandas as pd     # 데이터 분석 및 전처리 관련 모듈
import numpy as np      # 배열(array) 파이썬 구현 관련 모듈


In [103]:
# [1-2] 데이터 준비

MPG_FILE = '../DATA/auto_mpg.csv' 

[2] 데이터 로딩 및 확인 <hr>

In [104]:
# 데이터 로딩
mpgDF = pd.read_csv(MPG_FILE)
mpgDF

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,car name
0,18.0,8.0,307.0,130,3504.0,12.0,70,1.0,chevrolet chevelle malibu
1,15.0,8.0,350.0,165,3693.0,11.5,70,1.0,buick skylark 320
2,18.0,8.0,318.0,150,3436.0,11.0,70,1.0,plymouth satellite
3,16.0,8.0,304.0,150,3433.0,12.0,70,1.0,amc rebel sst
4,17.0,8.0,302.0,140,3449.0,10.5,70,1.0,ford torino
...,...,...,...,...,...,...,...,...,...
399,32.0,,135.0,84,,11.6,82,1.0,dodge rampage
400,28.0,,120.0,,2625.0,18.6,82,,
401,31.0,4.0,119.0,82,2720.0,,82,1.0,chevy s-104
402,32.0,,135.0,,2295.0,11.6,82,1.0,dodge rampage


In [105]:
# 데이터 확인
# - 요약 정보 확인
# (1) 데이터 와 타입 불일치 => horsepower 컬럼 onject => 130,....
# (2) 데이터 실제 의미와 타입 => cylinders, origin => 범주형 
# (3) 데이터 범위 변환 ==> 연속형 데이터 ---> 범주형 데이터 
mpgDF.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 404 entries, 0 to 403
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   mpg           403 non-null    float64
 1   cylinders     400 non-null    float64
 2   displacement  403 non-null    float64
 3   horsepower    402 non-null    object 
 4   weight        403 non-null    float64
 5   acceleration  403 non-null    float64
 6   model year    404 non-null    int64  
 7   origin        403 non-null    float64
 8   car name      403 non-null    object 
dtypes: float64(6), int64(1), object(2)
memory usage: 28.5+ KB


In [106]:
mpgDF.describe()

Unnamed: 0,mpg,cylinders,displacement,weight,acceleration,model year,origin
count,403.0,400.0,403.0,403.0,403.0,404.0,403.0
mean,23.637221,5.4475,192.529777,2964.327543,15.585856,76.09901,1.568238
std,7.868054,1.699843,103.939745,843.697519,2.799453,3.741007,0.799368
min,9.0,3.0,68.0,1613.0,8.0,70.0,1.0
25%,17.5,4.0,104.5,2224.5,13.8,73.0,1.0
50%,23.0,4.0,146.0,2790.0,15.5,76.0,1.0
75%,29.25,8.0,261.0,3589.5,17.25,79.0,2.0
max,46.6,8.0,455.0,5140.0,24.8,82.0,3.0


In [107]:
# - 컬럼의 값의 종류 데이터 수

print(f"'cylinders' 고유값 => , {mpgDF['cylinders'].nunique()}")
mpgDF['cylinders'].value_counts()

'cylinders' 고유값 => , 5


cylinders
4.0    206
8.0    103
6.0     84
3.0      4
5.0      3
Name: count, dtype: int64

In [108]:
print(f"'origin' 고유값 => , {mpgDF['origin'].nunique()}")
mpgDF['origin'].value_counts()

'origin' 고유값 => , 3


origin
1.0    253
3.0     79
2.0     71
Name: count, dtype: int64

In [109]:
# -- 결측치 체크 : 컬럼별 요소/원소 빈칸인 데이터 존재여부
# -- isna()/ isnull() ==> 결과 True/False

mpgDF.isna().sum()


mpg             1
cylinders       4
displacement    1
horsepower      2
weight          1
acceleration    1
model year      0
origin          1
car name        1
dtype: int64

In [110]:
# -결측치 처리 방법 (1) 결측치가 존재하는 행 삭제
# - 행에 한 개의 컬럼 값이라도 nan 이면 삭제
mpgDF2 = mpgDF.dropna()
mpgDF2.isna().sum()

mpg             0
cylinders       0
displacement    0
horsepower      0
weight          0
acceleration    0
model year      0
origin          0
car name        0
dtype: int64

In [111]:
# - 행에 구성하는 모든 컬럼 값이 nan 이면 삭제
mpgDF2 = mpgDF.dropna(how='all')
mpgDF2.isna().sum()

mpg             1
cylinders       4
displacement    1
horsepower      2
weight          1
acceleration    1
model year      0
origin          1
car name        1
dtype: int64

In [112]:
# - 특정 컬럼이 nan인 행을 삭제
mpgDF2 = mpgDF.dropna(subset=['origin','cylinders'])
mpgDF2.isna().sum()

mpg             1
cylinders       0
displacement    1
horsepower      0
weight          0
acceleration    1
model year      0
origin          0
car name        0
dtype: int64

In [113]:
# -정상 데이터가 지정값 이하 이면 해당 행을 삭제

mpgDF2 = mpgDF.dropna(thresh=405)
mpgDF2.isna().sum()

# -정상 데이터가 지정값 이하 이면 해당 컬럼 을 삭제
# -결측치가 많은 컬럼 제거에 사용
mpgDF2 = mpgDF.dropna(thresh=403, axis=1)
print(mpgDF.shape)
mpgDF2.isna().sum()
 

(404, 9)


mpg             1
displacement    1
weight          1
acceleration    1
model year      0
origin          1
car name        1
dtype: int64

In [114]:
## -결측치 처리 방법 (2)결측치 값 대체 방법

missingSR = mpgDF.isna().sum()
# -True/False 로 구성된 Series => True에 해당하는 값/행 추출
# -불린인덱스
boolIDX=missingSR > 0
print(boolIDX, end="\n\n")
print(missingSR[boolIDX])

mpg              True
cylinders        True
displacement     True
horsepower       True
weight           True
acceleration     True
model year      False
origin           True
car name         True
dtype: bool

mpg             1
cylinders       4
displacement    1
horsepower      2
weight          1
acceleration    1
origin          1
car name        1
dtype: int64


In [115]:
# 결측치가 존재하는 컬럼명 추출
columns =missingSR[ boolIDX ].index


In [116]:
# for col_name in columns:
#     print(col_name,mpgDF[col_name].mean())

# 숫자 데이터 컬럼의 경우
mpgDF['cylinders'].fillna( mpgDF['cylinders'].mean())
mpgDF['origin'].fillna( mpgDF['origin'].mean())
mpgDF['weight'].fillna( mpgDF['weight'].mean())

# 글자 데이터 컬럼의 경우
mpgDF['horsepower'].fillna( mpgDF['horsepower'].mode()[0])



0      130
1      165
2      150
3      150
4      140
      ... 
399     84
400    150
401     82
402    150
403     79
Name: horsepower, Length: 404, dtype: object

In [118]:
# object ==> int 형변환 : astype(타입명) : 'int' , 'float', 'category' , 'object'
# mpgDF['horsepower'].astype('int')
# print(mpgDF['horsepower'].nunique())
# mpgDF['horsepower'].replace('?', np.nan).dropna()

df =mpgDF['horsepower'].replace('?',np.nan).dropna()
mpgDF['horsepower']=df.astype('int') 