## learning-AI101 : vehicle price regression (ML)
### 자동차 데이터를 KNN, multiple regression, SVM, lasso, ridge, decision tree, random forest, XGBoost, gradient boosting, GPR 기법을 적용하여 regression

<br>

- **임규연 (lky473736)**
- 2024.08.12. ~ 2024.08.13.에 문서 작성
- **kaggle** : https://www.kaggle.com/datasets/nehalbirla/vehicle-dataset-from-cardekho
- **data abstract** : This dataset contains information about used cars. This data can be used for a lot of purposes such as price prediction to exemplify the use of linear regression in Machine Learning.

------

----
## <span id='ml'><mark>ML</mark></span>

machine learning으로 vehicle price를 regression한다. 목차는 아래와 같다.

- **1. 데이터 EDA (탐색적 데이터 분석) 및 데이터 전처리**
- **2. 각종 모델을 적용하여 regression 및 각 모델의 score 비교**

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns 

-------

### 1. 데이터 EDA (탐색적 데이터 분석)

regression 진행하기 전, 데이터 구조를 파악하고, 전처리를 진행한다.

- **데이터 구조 파악 및 EDA**
    - 각 feature가 의미하는 바를 분석, 결측치 파악 후 어떻게 classification을 진행하는 것이 탁월할 지 파악
    - 각 feature에 대한 사분위수, mean, max, min, median, corr
    - seaborn을 통한 corr 상관관계 및 histplot 시각화
    - 각 feature에 대한 box plot 시각화
    - target의 도수를 bar plot 시각화
    
- **전처리**
    - train, test, val set으로 split
    - scaling (Z-score normalization)
    - 결측치 확인 및 filling by everage value
    - Polynormial Feature
    
아래와 같은 순서로 진행한다.

- **순서**
    - (1) dataframe으로 파일 열기 및 head, info 파악
    - (2) 각 describe를 통한 편향성 확인 및 기초통계량 확인
    - (3) 각 열마다 unique한 component 목록 확인 및 전처리 여부 판단 후 수행
    - (4) seaborn heatmap로 상관관계 파악
    - (5) seaborn pairplot으로 상관관계 시각화
    - (6) outlier 확인 위해 boxplot 시각화
    - (7) 결측치 확인 및 filling by evarage value
    - (8) input, target set -> train, test, val set으로 split
    - (9) labeling (Label Encoding)
    - (10) scaling (Z-score normalization)

#### (1) dataframe으로 파일 열기 및 head, info 파악

이번 regression은 조금 난해한 길을 가려고 한다. 현재 ./data/vehicle 디렉토리 안에는 아래와 같이 파일이 구성되어 있다.

```sh
alphastation:learning-ai101 alphastation$ ls -lha ./report/data/vehicle
total 3472
drwxr-xr-x   6 alphastation  staff   192B  8 13 00:03 .
drwxr-xr-x  12 alphastation  staff   384B  8 13 00:02 ..
-rw-rw-r--@  1 alphastation  staff   346K  1 14  2023 CAR DETAILS FROM CAR DEKHO.csv
-rw-rw-r--@  1 alphastation  staff   1.0M  1 14  2023 Car details v3.csv
-rw-rw-r--@  1 alphastation  staff    17K  1 14  2023 car data.csv
-rw-rw-r--@  1 alphastation  staff   345K  1 14  2023 car details v4.csv
```
각 파일은 아래와 같다.
- car data.csv : 기본적인 feature만 구성
- Car details v3.csv : 기본적인 feature + 세부적인 범주형 feature
- Car details v4.csv : v3보다 정교해진 data, component 더 많아짐
- CAR DETAILS FROM CAR DEKHO.csv

이 중 가장 feature 수가 많은 Car details v4.csv dataset을 이용하여 regression을 진행해보겠다.

In [7]:
# 파일 열기 및 head, info 파악

df = pd.read_csv('data/vehicle/car details v4.csv')
df.info()
df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2059 entries, 0 to 2058
Data columns (total 20 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Make                2059 non-null   object 
 1   Model               2059 non-null   object 
 2   Price               2059 non-null   int64  
 3   Year                2059 non-null   int64  
 4   Kilometer           2059 non-null   int64  
 5   Fuel Type           2059 non-null   object 
 6   Transmission        2059 non-null   object 
 7   Location            2059 non-null   object 
 8   Color               2059 non-null   object 
 9   Owner               2059 non-null   object 
 10  Seller Type         2059 non-null   object 
 11  Engine              1979 non-null   object 
 12  Max Power           1979 non-null   object 
 13  Max Torque          1979 non-null   object 
 14  Drivetrain          1923 non-null   object 
 15  Length              1995 non-null   float64
 16  Width 

Unnamed: 0,Make,Model,Price,Year,Kilometer,Fuel Type,Transmission,Location,Color,Owner,Seller Type,Engine,Max Power,Max Torque,Drivetrain,Length,Width,Height,Seating Capacity,Fuel Tank Capacity
0,Honda,Amaze 1.2 VX i-VTEC,505000,2017,87150,Petrol,Manual,Pune,Grey,First,Corporate,1198 cc,87 bhp @ 6000 rpm,109 Nm @ 4500 rpm,FWD,3990.0,1680.0,1505.0,5.0,35.0
1,Maruti Suzuki,Swift DZire VDI,450000,2014,75000,Diesel,Manual,Ludhiana,White,Second,Individual,1248 cc,74 bhp @ 4000 rpm,190 Nm @ 2000 rpm,FWD,3995.0,1695.0,1555.0,5.0,42.0
2,Hyundai,i10 Magna 1.2 Kappa2,220000,2011,67000,Petrol,Manual,Lucknow,Maroon,First,Individual,1197 cc,79 bhp @ 6000 rpm,112.7619 Nm @ 4000 rpm,FWD,3585.0,1595.0,1550.0,5.0,35.0
3,Toyota,Glanza G,799000,2019,37500,Petrol,Manual,Mangalore,Red,First,Individual,1197 cc,82 bhp @ 6000 rpm,113 Nm @ 4200 rpm,FWD,3995.0,1745.0,1510.0,5.0,37.0
4,Toyota,Innova 2.4 VX 7 STR [2016-2020],1950000,2018,69000,Diesel,Manual,Mumbai,Grey,First,Individual,2393 cc,148 bhp @ 3400 rpm,343 Nm @ 1400 rpm,RWD,4735.0,1830.0,1795.0,7.0,55.0


#### (2) 각 describe를 통한 편향성 확인 및 기초통계량 확인

In [8]:
# 기초통계량 확인

df.describe()

Unnamed: 0,Price,Year,Kilometer,Length,Width,Height,Seating Capacity,Fuel Tank Capacity
count,2059.0,2059.0,2059.0,1995.0,1995.0,1995.0,1995.0,1946.0
mean,1702992.0,2016.425449,54224.71,4280.860652,1767.99198,1591.735338,5.306266,52.00221
std,2419881.0,3.363564,57361.72,442.458507,135.265825,136.073956,0.82217,15.110198
min,49000.0,1988.0,0.0,3099.0,1475.0,1165.0,2.0,15.0
25%,484999.0,2014.0,29000.0,3985.0,1695.0,1485.0,5.0,41.25
50%,825000.0,2017.0,50000.0,4370.0,1770.0,1545.0,5.0,50.0
75%,1925000.0,2019.0,72000.0,4629.0,1831.5,1675.0,5.0,60.0
max,35000000.0,2022.0,2000000.0,5569.0,2220.0,1995.0,8.0,105.0


위 기초통계량을 보면 아래와 같은 내용을 알 수 있다.

- 가장 오래된 차 연도는 1988, 최신의 차 연도는 2022년이니, 비교적 최신의 dataset임을 알 수 있다.
- 범주형 column은 출력되지 않고, 연속형 column의 기초통계량만 표현하고 있다.
- **가격 측면**
  - 가격의 표준편차는 약 2,419,881달러로, 가격 변동성이 크다.
  - 가격의 최소값은 49,000달러, 최대값은 35,000,000달러이다.
- **주행 거리 측면**
  - 주행 거리의 표준편차는 약 57,361킬로미터로, 주행 거리의 차이가 크다.
  - 최소 주행 거리는 0킬로미터, 최대 주행 거리는 2,000,000킬로미터이다. 아예 타지 않은 차도 있다는 뜻이다.
- **연료 탱크 용량 측면**
  - 최소 연료 탱크 용량은 15리터, 최대 용량은 105리터이다.



#### (3) 각 열마다 unique한 component 목록 확인 및 전처리 여부 판단 후 수행

In [16]:
# 각 열마다의 component를 출력

'''
#   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Make                2059 non-null   object 
 1   Model               2059 non-null   object 
 2   Price               2059 non-null   int64  
 3   Year                2059 non-null   int64  
 4   Kilometer           2059 non-null   int64  
 5   Fuel Type           2059 non-null   object 
 6   Transmission        2059 non-null   object 
 7   Location            2059 non-null   object 
 8   Color               2059 non-null   object 
 9   Owner               2059 non-null   object 
 10  Seller Type         2059 non-null   object 
 11  Engine              1979 non-null   object 
 12  Max Power           1979 non-null   object 
 13  Max Torque          1979 non-null   object 
 14  Drivetrain          1923 non-null   object 
 15  Length              1995 non-null   float64
 16  Width               1995 non-null   float64
 17  Height              1995 non-null   float64
 18  Seating Capacity    1995 non-null   float64
 19  Fuel Tank Capacity  1946 non-null   float64
'''

for col_name in [feature for feature in df.columns if df[feature].dtype == 'object'] :
    print (f'col_name : {col_name} \ncompo : {df[col_name].unique()}')
    print ()

col_name : Make 
compo : ['Honda' 'Maruti Suzuki' 'Hyundai' 'Toyota' 'Mercedes-Benz' 'BMW' 'Skoda'
 'Nissan' 'Renault' 'Tata' 'Volkswagen' 'Ford' 'Audi' 'Mahindra' 'MG'
 'Jeep' 'Porsche' 'Kia' 'Land Rover' 'Volvo' 'Maserati' 'Jaguar' 'Isuzu'
 'Fiat' 'MINI' 'Ferrari' 'Mitsubishi' 'Datsun' 'Lamborghini' 'Chevrolet'
 'Ssangyong' 'Rolls-Royce' 'Lexus']

col_name : Model 
compo : ['Amaze 1.2 VX i-VTEC' 'Swift DZire VDI' 'i10 Magna 1.2 Kappa2' ...
 'Ritz Vxi (ABS) BS-IV' 'XUV500 W8 [2015-2017]'
 'Figo Duratec Petrol ZXI 1.2']

col_name : Fuel Type 
compo : ['Petrol' 'Diesel' 'CNG' 'LPG' 'Electric' 'CNG + CNG' 'Hybrid'
 'Petrol + CNG' 'Petrol + LPG']

col_name : Transmission 
compo : ['Manual' 'Automatic']

col_name : Location 
compo : ['Pune' 'Ludhiana' 'Lucknow' 'Mangalore' 'Mumbai' 'Coimbatore' 'Bangalore'
 'Delhi' 'Raipur' 'Kanpur' 'Patna' 'Vadodara' 'Hyderabad' 'Yamunanagar'
 'Gurgaon' 'Jaipur' 'Deoghar' 'Agra' 'Goa' 'Warangal' 'Jalandhar' 'Noida'
 'Ahmedabad' 'Mohali' 'Navi Mumbai' 'Gha

범주형 자료들을 출력해보았다. 이런 범주형 변수들까지 학습시키기 위해선, 추후 **LabelEncoder를 이용하여 각 고유한 값들을 전부 0과 1의 고유벡터로 전환시켜야 할 것**이다.