# 075. Data Wrangling & Linear Regression 
## 자동차 연비 예측 project

- 데이터 랭글링은 데이터를 초기 형식에서 분석에 더 적합한 형식으로 변환하는 프로세스입니다.

## 디젤 자동차의 연비 (L/100k) 예측

다음 링크에서 "자동차 데이터 세트"를 찾을 수 있습니다.: https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data.

1. symboling: -3, -2, -1, 0, 1, 2, 3.(자동차가 가격이 나타내는 것보다 더 위험한 정도)
2. normalized-losses: continuous from 65 to 256. (피보험차량 연도당 상대평균손해배상금)
3. make:
alfa-romero, audi, bmw, chevrolet, dodge, honda,
isuzu, jaguar, mazda, mercedes-benz, mercury,
mitsubishi, nissan, peugot, plymouth, porsche,
renault, saab, subaru, toyota, volkswagen, volvo

4. fuel-type: diesel, gas.
5. aspiration: std, turbo. (흡기 방식)
6. num-of-doors: four, two.
7. body-style: hardtop, wagon, sedan, hatchback, convertible.
8. drive-wheels: 4wd, fwd, rwd.
9. engine-location: front, rear.
10. wheel-base: continuous from 86.6 120.9.(축간 거리)
11. length: continuous from 141.1 to 208.1.
12. width: continuous from 60.3 to 72.3.
13. height: continuous from 47.8 to 59.8.
14. curb-weight: continuous from 1488 to 4066.(차량 중량)
15. engine-type: dohc, dohcv, l, ohc, ohcf, ohcv, rotor.
16. num-of-cylinders: eight, five, four, six, three, twelve, two.
17. engine-size: continuous from 61 to 326.
18. fuel-system: 1bbl, 2bbl, 4bbl, idi, mfi, mpfi, spdi, spfi.
19. bore: continuous from 2.54 to 3.94.(실린더 직경)
20. stroke: continuous from 2.07 to 4.17.
21. compression-ratio: continuous from 7 to 23.
22. horsepower: continuous from 48 to 288.
23. peak-rpm: continuous from 4150 to 6600.
24. city-mpg: continuous from 13 to 49.
25. highway-mpg: continuous from 16 to 54.
26. price: continuous from 5118 to 45400.

**연습의 편이성을 위해 일부 feature 를 임의로 삭제**

- 물음표는 결측치로 표시되어 있음

**누락된 데이터(결측치) 처리**

결측치 처리 단계:
1. 누락된 데이터 식별
2. 누락된 데이터 처리
3. 데이터 형식 수정

### Identify and handle missing values

- "?" 를 NaN 으로 변환

 <pre>.replace(A, B, inplace = True) </pre>

### Missing Data 평가

누락된 값은 Python의 기본값으로 변환됩니다. 우리는 이러한 누락된 값을 식별하기 위해 Python의 내장 함수를 사용합니다.

1.  **.isnull()**
2.  **.notnull()**

## missing data 처리
** 누락 된 데이터를 처리하는 방법 : **
   
 1. 데이터 삭제  
         a. 전체 행을 삭제  
         b. 전체 열을 삭제  
     
     
 2. 데이터 교체  
         a. 평균으로 대체  
         b. 빈도수가 많은 것으로 대체  
         c. 기타 함수를 이용하여 교체  
     

- 평균으로 교체할 columns
    
    "normalized-losses", "stroke", "bore", "horsepower", "peak-rpm"

    
- 빈도수가 많은 것으로 대체할 column

    "num-of-doors": sedan의 84% 가 4 도어이므로 "four"로 대체
    
    
- Drop the whole row

    "price": 평균으로 대체할 수도 있으나 간단히 전체 행 삭제.    

### column의 평균 계산
- "normalized-losses", "bore", "stroke", "horsepower", "peak-rpm"은 "NaN" 을 열의 평균 값으로 바꿉니다.

### 빈도수를 check하여 가장 빈번한 값으로 대체

### 값을 대체할 수 없는 row 삭제

## data format 교정

- 데이터 정리의 마지막 단계는 모든 데이터가 올바른 형식 (int, float, text 또는 기타)인지 확인하는 것입니다.

**`.dtype()`** - data type check  


**`.astype()`**- data type 변경 

### 데이터 유형을 적절한 형식으로 변환:

- 숫자 변수는 'float'또는 'int'유형을 가져야 하며 카테고리와 같은 문자열이 있는 변수는 'object'유형을 가져야 합니다.


- 숫자값 feature는 `astype()` 메소드를 사용하여 'float'또는 'int' type 으로 변환.  

## Data Standardization (데이터 표준화)


- 표준화는 의미있는 비교를 할 수 있도록 데이터를 공통 형식으로 변환하는 프로세스

**Ex)** mpg 를 L/100km로 변환:

데이터 세트에서 연료 소비 열 "city-mpg" 및 "highway-mpg"는 mpg(갤런 당 마일 단위로 표시됩니다. L/100km 기준으로 연료 소비를 허용하는 국가에서 애플리케이션을 개발 중이라고 가정하면, mpg를 L/100km로 변환해야 합니다.

단위 변환 공식은 다음과 같습니다.  
L/100km = 235 / mpg 

#  Binning


- binning은 그룹화 된 분석을 위해 연속 숫자 변수를 이산 범주 형 `bin`으로 변환하는 프로세스입니다.

**Example:**   
"horsepower" 48 to 288 사이의 변수이고 57 개의 unique value 를 가지고 있는데 이 것을 3 개의 type 으로 구분

- `pd.cut` 함수를 이용하여 bandwidth가 동일한 4 개의 bin으로 구분. "cut" 함수에 맨 오른쪽 값이 포함되기 때문에 숫자는 4개 지정.

## Bins visualization 

- `horsepower` 특성을 bins=3 으로 historgram 작성 

## 범주형 변수 처리

### Indicator variable (or dummy variable) 

 - 범주에 레이블을 지정하는 데 사용되는 숫자 변수.

## Data Normalization (데이터 정규화)

- 정규화는 여러 변수의 값을 유사한 범위로 변환하는 프로세스입니다. 일반적인 정규화에는 simple scaling, 변수 평균이 0 이고, 변수 분산이 1이 되도록 하는 Standard Scaling, 변수 값이 0에서 1 범위가 되도록 하는 MinMax Scaling 이 포함됩니다.

**Example**
- `length`, `width`, `height`를 `0 과 1` 사이로 normalize

## Machine Learning을 이용한 Linear Regression - 연비 예측

- train/test split

- 예측 line 시각화