### 데이터 이해 : mtcars.csv
1. mpg : 연비 (Miles/gallon) >> target(종속변수)
2. Unnamed: 0 : 자동차 모델명
3. cyl : 엔진 기통수 (Number of cylinders)
4. disp : 배기량 (Displacement)
5. hp : 마력 (Gross horsepower)
6. drat : 뒤 차축비 (Rear axle ratio)
7. wt : 무게 (Weight)
8. qsec : 1/4 mile 도달 시간 (1/4 mile time)
9. vs : V형 엔진/직렬 엔진 (V engine/ Straight engine)
10. am : 변속기 (Transmission)
11. gear : 전진기어 개수 (Number of forward gears)
12. carb : 기화기 개수 (Number of carburetors)

## 데이터 분석 과정
1. 데이터 준비
2. 데이터 관찰 및 가공
3. 데이터 분리 (학습 데이터/ 테스트 데이터)
4. 학습 및 평가(검증)
5. 결과 출력 및 저장

## tips
- 실제 시험 환경 특성 상, 반드시 print() 함수 사용해야 함
- type(), head(), shape() 등의 결괏값 확인시 print() 사용 필수!

### 1. 데이터 준비하기: Data Load

In [104]:
import pandas as pd
data = pd.read_csv('bigData-main/mtcars.csv')

In [105]:
# data 변수 상위 5개 출력
display(data.head())

Unnamed: 0.1,Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6.0,160.0,110,3.9,2.62,16.46,0,manual,4,4
1,Mazda RX4 Wag,21.0,6.0,160.0,110,3.9,2.875,17.02,0,manual,4,4
2,Datsun 710,22.8,4.0,108.0,93,3.85,2.32,18.61,1,manual,4,1
3,Hornet 4 Drive,21.4,6.0,258.0,110,3.08,3.215,0.1,1,auto,3,1
4,Hornet Sportabout,18.7,8.0,360.0,175,3.15,3.44,17.02,0,auto,3,2


### 데이터 둘러보기

In [106]:
# 데이터 모양 확인
print(data.shape)

(32, 12)


In [107]:
# 데이터 타입 확인
print(type(data))

<class 'pandas.core.frame.DataFrame'>


In [108]:
# 데이터 열 확인
print(data.columns)

Index(['Unnamed: 0', 'mpg', 'cyl', 'disp', 'hp', 'drat', 'wt', 'qsec', 'vs',
       'am', 'gear', 'carb'],
      dtype='object')


In [109]:
# 기초통계랑 확인
print(data.describe())

             mpg        cyl        disp          hp       drat         wt  \
count  32.000000  30.000000   32.000000   32.000000  32.000000  32.000000   
mean   20.090625   7.600000  230.721875  146.687500   3.596563   3.217250   
std     6.026948   8.194195  123.938694   68.562868   0.534679   0.978457   
min    10.400000   4.000000   71.100000   52.000000   2.760000   1.513000   
25%    15.425000   4.000000  120.825000   96.500000   3.080000   2.581250   
50%    19.200000   6.000000  196.300000  123.000000   3.695000   3.325000   
75%    22.800000   8.000000  326.000000  180.000000   3.920000   3.610000   
max    33.900000  50.000000  472.000000  335.000000   4.930000   5.424000   

             qsec         vs     carb  
count   31.000000  32.000000  32.0000  
mean    19.866774   0.437500   2.8125  
std     15.310469   0.504016   1.6152  
min      0.100000   0.000000   1.0000  
25%     16.785000   0.000000   2.0000  
50%     17.600000   0.000000   2.0000  
75%     18.755000   1.0000

In [110]:
# hp 수치형 변수의 기초통계량 확인
print(data['hp'].describe())

count     32.000000
mean     146.687500
std       68.562868
min       52.000000
25%       96.500000
50%      123.000000
75%      180.000000
max      335.000000
Name: hp, dtype: float64


In [111]:
# 데이터 중복 제거 : unique
print('am   : ', data['am'].unique())
print('gear : ', data['gear'].unique())
print('vs   : ', data['vs'].unique())

am   :  ['manual' 'auto']
gear :  ['4' '3' '*3' '5' '*5']
vs   :  [0 1]


In [112]:
# 요약정보 확인
print(data.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32 entries, 0 to 31
Data columns (total 12 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Unnamed: 0  32 non-null     object 
 1   mpg         32 non-null     float64
 2   cyl         30 non-null     float64
 3   disp        32 non-null     float64
 4   hp          32 non-null     int64  
 5   drat        32 non-null     float64
 6   wt          32 non-null     float64
 7   qsec        31 non-null     float64
 8   vs          32 non-null     int64  
 9   am          32 non-null     object 
 10  gear        32 non-null     object 
 11  carb        32 non-null     int64  
dtypes: float64(6), int64(3), object(3)
memory usage: 3.1+ KB
None


In [113]:
# 상관관계 구하기
display(data.corr())

Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,carb
mpg,1.0,-0.460227,-0.847551,-0.776168,0.681172,-0.867659,0.013668,0.664039,-0.550925
cyl,-0.460227,1.0,0.544876,0.323293,-0.372671,0.53369,-0.012755,-0.32396,0.23998
disp,-0.847551,0.544876,1.0,0.790949,-0.710214,0.88798,0.18181,-0.710416,0.394977
hp,-0.776168,0.323293,0.790949,1.0,-0.448759,0.658748,0.010807,-0.723097,0.749812
drat,0.681172,-0.372671,-0.710214,-0.448759,1.0,-0.712441,-0.120283,0.440278,-0.09079
wt,-0.867659,0.53369,0.88798,0.658748,-0.712441,1.0,0.0939,-0.554916,0.427606
qsec,0.013668,-0.012755,0.18181,0.010807,-0.120283,0.0939,1.0,-0.112146,-0.120312
vs,0.664039,-0.32396,-0.710416,-0.723097,0.440278,-0.554916,-0.112146,1.0,-0.569607
carb,-0.550925,0.23998,0.394977,0.749812,-0.09079,0.427606,-0.120312,-0.569607,1.0


### 종속변수/ 독립변수 분리

In [114]:
X = data.drop(columns = 'mpg')
y = data['mpg']

In [115]:
# 독립변수 X 의 상위 5개 행을 확인
print(X.head())

          Unnamed: 0  cyl   disp   hp  drat     wt   qsec  vs      am gear  \
0          Mazda RX4  6.0  160.0  110  3.90  2.620  16.46   0  manual    4   
1      Mazda RX4 Wag  6.0  160.0  110  3.90  2.875  17.02   0  manual    4   
2         Datsun 710  4.0  108.0   93  3.85  2.320  18.61   1  manual    4   
3     Hornet 4 Drive  6.0  258.0  110  3.08  3.215   0.10   1    auto    3   
4  Hornet Sportabout  8.0  360.0  175  3.15  3.440  17.02   0    auto    3   

   carb  
0     4  
1     4  
2     1  
3     1  
4     2  


In [116]:
# 독립변수 X의 컬럼 이름 출력
print(X.columns)

Index(['Unnamed: 0', 'cyl', 'disp', 'hp', 'drat', 'wt', 'qsec', 'vs', 'am',
       'gear', 'carb'],
      dtype='object')


In [117]:
print(y.head())

0    21.0
1    21.0
2    22.8
3    21.4
4    18.7
Name: mpg, dtype: float64


### 2. 데이터 관찰 및 가공 : 전처리(preprocessing)
- 필요하지 않은 열 삭제
- 누락된 값들은 다른 값으로 바꾸거나 삭제
- 잘못된 값을 바르게 수정
- 일반적인 범위에서 벗어나는 이상값 조정
- 각 열들의 숫자 값을 동일한 범위의 숫자로 변경
- 의도한 데이터 타입이 아닌 경우, 적절한 데이터 타입으로 변경
- 문자로 구성된 범주형 데이터를 숫자형으로 변경
- 분석에 필요한 새로운 열 생성

실기 환경은 시각화가 불가능하므로 텍스트 기반의 전처리만 가능함 인지!

### 불필요한 열 삭제

In [118]:
# X 변수의 상위 5개 행 데이터 확인
print(X.head())

          Unnamed: 0  cyl   disp   hp  drat     wt   qsec  vs      am gear  \
0          Mazda RX4  6.0  160.0  110  3.90  2.620  16.46   0  manual    4   
1      Mazda RX4 Wag  6.0  160.0  110  3.90  2.875  17.02   0  manual    4   
2         Datsun 710  4.0  108.0   93  3.85  2.320  18.61   1  manual    4   
3     Hornet 4 Drive  6.0  258.0  110  3.08  3.215   0.10   1    auto    3   
4  Hornet Sportabout  8.0  360.0  175  3.15  3.440  17.02   0    auto    3   

   carb  
0     4  
1     4  
2     1  
3     1  
4     2  


Unnamed: 0 >> 모델명의 의미 가진 row 삭제

In [119]:
X = X.iloc[:, 1:]

In [120]:
print(X.head())    

   cyl   disp   hp  drat     wt   qsec  vs      am gear  carb
0  6.0  160.0  110  3.90  2.620  16.46   0  manual    4     4
1  6.0  160.0  110  3.90  2.875  17.02   0  manual    4     4
2  4.0  108.0   93  3.85  2.320  18.61   1  manual    4     1
3  6.0  258.0  110  3.08  3.215   0.10   1    auto    3     1
4  8.0  360.0  175  3.15  3.440  17.02   0    auto    3     2


### 결측값 처리

- 결측치 삭제 비추천! 선택하지 말 것!!
- 다른 값으로 변환하는 방향으로 전처리를 수행
- 단, 문제에서 결측치 삭제하라고 명시하는 경우 문제의 요구대로 결측치 삭제해야 함

In [121]:
# X 변수의 결측치 여부에 대한 결과 상위 3개 행 확인
X.isnull().head(3)

Unnamed: 0,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False


In [122]:
# True == 1 인 속성 이용, 결측치 개수 계산
print(X.isnull().sum())  # cyl, qsec 열에 결측치 존재 확인

cyl     2
disp    0
hp      0
drat    0
wt      0
qsec    1
vs      0
am      0
gear    0
carb    0
dtype: int64


### - 평균값으로 대치

In [123]:
# cyl 평균값을 X_cyl_mean 변수에 저장
X_cyl_mean = X['cyl'].mean()

# X_cyl_mean 변수 확인
print(X_cyl_mean)

7.6


In [124]:
X['cyl'] = X['cyl'].fillna(X_cyl_mean)

In [125]:
print(X.isnull().sum())  # cyl 결측치 처리 됨

cyl     0
disp    0
hp      0
drat    0
wt      0
qsec    1
vs      0
am      0
gear    0
carb    0
dtype: int64


### - 중위값 대체 : qsec

In [126]:
X_qsec_median = X['qsec'].median()

print(X_qsec_median)

17.6


In [127]:
# 중위값으로 NaN 대체
X['qsec'] = X['qsec'].fillna(X_qsec_median)

print(X['qsec'].isnull().sum())

0


### - 결측치 임의의 값으로 교체 or 삭제

#### 결측치 임의의 값으로 교체
- X['열이름'].fillna(n) : 결측치를 n으로 일괄 교체

#### 결측치 삭제
- X.dropna() : 결측치 있는 해당 행 데이터 일괄 삭제
- X.drop(columns = ['열이름']) : 해당 열 이름의 결측치 모두 삭제

### 잘못된 값 올바르게 바꾸기

In [128]:
# gear 열의 값 확인
print(X['gear'].unique())

['4' '3' '*3' '5' '*5']


기어 개수 의미하는 gear 열에 잘못된 값(*3, *5) 포함 >>>> *3, *5 에서 * 제외한 정상적인 값으로 수정 필요

In [129]:
print(X['gear'].replace('*3', '3').replace('*5', '5'))

0     4
1     4
2     4
3     3
4     3
5     3
6     3
7     4
8     4
9     4
10    4
11    3
12    3
13    3
14    3
15    3
16    3
17    4
18    4
19    4
20    3
21    3
22    3
23    3
24    3
25    4
26    5
27    5
28    5
29    5
30    5
31    4
Name: gear, dtype: object


In [130]:
X['gear'] = X['gear'].replace('*3', '3').replace('*5', '5')

In [131]:
# gear 열 값 재확인
X['gear'].unique()

array(['4', '3', '5'], dtype=object)

### 이상치(outlier) 처리
- 이상치(outlier) : 정상적인 데이터의 범위를 넘어서는 비정상적인 값
- 이상치 처리가 데이터 스케일링보다 선행되어야 함
- 이상치 처리 방식도 데이터 삭제가 아닌 다른 값으로 교체하는 것을 추천!

### - 사분범위(IQR) 활용
- IQR = Q3 - Q1
- Q1 - 1.5 * IQR 미만, Q3 + 1.5 * IQR 초과의 값 이상치로 판단

In [132]:
# X 변수의 기초통계랑 구한 후, X_describe  변수에 저장
X_describe = X.describe()
print(X_describe)

             cyl        disp          hp       drat         wt        qsec  \
count  32.000000   32.000000   32.000000  32.000000  32.000000   32.000000   
mean    7.600000  230.721875  146.687500   3.596563   3.217250   19.795938   
std     7.925459  123.938694   68.562868   0.534679   0.978457   15.066831   
min     4.000000   71.100000   52.000000   2.760000   1.513000    0.100000   
25%     4.000000  120.825000   96.500000   3.080000   2.581250   16.827500   
50%     6.000000  196.300000  123.000000   3.695000   3.325000   17.600000   
75%     8.000000  326.000000  180.000000   3.920000   3.610000   18.682500   
max    50.000000  472.000000  335.000000   4.930000   5.424000  100.000000   

              vs     carb  
count  32.000000  32.0000  
mean    0.437500   2.8125  
std     0.504016   1.6152  
min     0.000000   1.0000  
25%     0.000000   2.0000  
50%     0.000000   2.0000  
75%     1.000000   4.0000  
max     1.000000   8.0000  


In [133]:
# X_describe 변수에서 75% 행, 25% 행 확인
print(X_describe.loc['75%'], '\n\n', X_describe.loc['25%'])

cyl       8.0000
disp    326.0000
hp      180.0000
drat      3.9200
wt        3.6100
qsec     18.6825
vs        1.0000
carb      4.0000
Name: 75%, dtype: float64 

 cyl       4.00000
disp    120.82500
hp       96.50000
drat      3.08000
wt        2.58125
qsec     16.82750
vs        0.00000
carb      2.00000
Name: 25%, dtype: float64


In [134]:
# IQR 계산 후 X_iqr 변수에 저장
X_iqr = X_describe.loc['75%'] - X_describe.loc['25%']

print(X_iqr)

cyl       4.00000
disp    205.17500
hp       83.50000
drat      0.84000
wt        1.02875
qsec      1.85500
vs        1.00000
carb      2.00000
dtype: float64


이상치 판단 위해 Q3 + 1.5 * IQR 계산

In [135]:
print(X_describe.loc['75%'] + (1.5 * X_iqr))

cyl      14.000000
disp    633.762500
hp      305.250000
drat      5.180000
wt        5.153125
qsec     21.465000
vs        2.500000
carb      7.000000
dtype: float64


In [136]:
# X 변수 최대값 확인
X_describe.loc['max']

cyl      50.000
disp    472.000
hp      335.000
drat      4.930
wt        5.424
qsec    100.000
vs        1.000
carb      8.000
Name: max, dtype: float64

#### cyl, hp, wt, qsec, carb 이상치 존재 확인

- cyp, hp : 사분위수 활용하여 이상치 처리
- qsec, carb : 평균, 표준편차 사용한 이상값 처리

In [137]:
# cyl 열에서 최대경계값 14 초과하는 값 추출
print(X.loc[X['cyl'] > 14])

     cyl   disp   hp  drat    wt   qsec  vs    am gear  carb
14  50.0  472.0  205  2.93  5.25  17.98   0  auto    3     4


In [138]:
# X 변수에서 인덱스 14, 열 cyl 인 값 14 로 변경
X.loc[14, 'cyl'] = 14

# 해당 값 확인
print(X.loc[14, 'cyl'])

14.0


In [139]:
# hp 열 값이 305.25 초과하는 값 찾기
print(X.loc[X['hp'] > 305.25])

    cyl   disp   hp  drat    wt  qsec  vs      am gear  carb
30  8.0  301.0  335  3.54  3.57  14.6   0  manual    5     8


In [140]:
# X 변수에서 인덱스 30, 열 hp 인 값 305.25 로 변경
X.loc[30, 'hp'] = 305.25

# 값 확인
print(X.loc[30, 'hp'])

305.25


cyl, hp 열에 대해 최소 이상값 처리
- Q1 - 1.5 * IQR

In [141]:
# 각 열의 최소경계값 계산
print(X_describe.loc['25%'] - (X_iqr * 1.5))

cyl      -2.000000
disp   -186.937500
hp      -28.750000
drat      1.820000
wt        1.038125
qsec     14.045000
vs       -1.500000
carb     -1.000000
dtype: float64


In [142]:
# X 변수 최소값 확인
X_describe.loc['min']

cyl      4.000
disp    71.100
hp      52.000
drat     2.760
wt       1.513
qsec     0.100
vs       0.000
carb     1.000
Name: min, dtype: float64

### - 평균 및 표준편차 활용 : qsec, carb
이상값 판단 범위
- 최대 경계값 : 평균 + 1.5 * 표준편차
- 최소 경계값 : 평균 - 1.5 * 표준편차

In [143]:
# mean, std, lowest, highest >> outlier 함수로 정의
def outlier(data, column):
    mean = data[column].mean()
    std  = data[column].std()
    lowest = mean - (1.5 * std)
    highest = mean + (std * 1.5)
    print('최소 경계값 : {} \t 최대 경계값 : {}'.format(lowest, highest))
    
    outlier_index = data[column][(data[column] < lowest) | (data[column] > highest)].index
    return outlier_index

qsec column

In [144]:
# X 변수와 qsec 열 전달하여 이상값 정보 출력
print(outlier(X, 'qsec'))

최소 경계값 : -2.8043094560577657 	 최대 경계값 : 42.39618445605777
Int64Index([24], dtype='int64')


In [145]:
print(X.loc[24, 'qsec'])

100.0


In [146]:
# 이상값 100 을 42.396 으로 변경
X.loc[24, 'qsec'] = 42.396

print(X.loc[24, 'qsec'])

42.396


carb column

In [147]:
print(outlier(X, 'carb'))

최소 경계값 : 0.3897000335522218 	 최대 경계값 : 5.235299966447778
Int64Index([29, 30], dtype='int64')


In [148]:
# 인덱스 29, 30 열 carb 값 출력
X.loc[[29,30], 'carb']

29    6
30    8
Name: carb, dtype: int64

In [149]:
# carb 열의 이상값을 최대 경계값인 5.235 로 변경
X.loc[[29,30], 'carb'] = 5.235

X.loc[[29,30], 'carb']

29    5.235
30    5.235
Name: carb, dtype: float64

### 데이터 동일한 범위로 맞추기 : 데이터 스케일링 (Data scaling)
- Standard Scaling : 평균 0, 표준편차 1로 변환
- Min-Max Scaling : 최소값 0, 최대값 1로 변환
- Robust Scaling : 중앙값 0, IQR 1로 변환

### - StandardScaler (표준크기변환)
- 평균값 0, 표준편차 1인 정규분포로 변환
- **주로 종속변수가 범주형 형태인 분류 문제에 활용**

In [150]:
from sklearn.preprocessing import StandardScaler

temp = X[['qsec']]

In [151]:
# StandardScaler 함수 호출하여 표준 크기변환 기능 갖는 scaler 라는 객체 생성
scaler = StandardScaler()

# 표준 크기변환하는 scaler에게 fit_transform 명령으로 temp 변수의 크기변환 요청
print(scaler.fit_transform(temp))

[[-2.73145534e-01]
 [-1.73549067e-01]
 [ 1.09233759e-01]
 [-3.18278518e+00]
 [-1.73549067e-01]
 [ 3.95573602e-01]
 [-3.83413051e-01]
 [ 3.56446419e-01]
 [ 8.72213838e-01]
 [ 5.41000006e-02]
 [-7.03955833e-02]
 [-1.05965750e-01]
 [-7.03955833e-02]
 [ 7.44750368e-04]
 [-2.81226632e-03]
 [-3.12683998e-02]
 [-1.02408733e-01]
 [ 2.62185477e-01]
 [ 9.32271841e-02]
 [ 3.38661335e-01]
 [ 3.58224927e-01]
 [-2.00226692e-01]
 [-1.23750834e-01]
 [-4.59888910e-01]
 [ 4.33959370e+00]
 [ 1.60810501e-01]
 [-2.30461334e-01]
 [-1.94891167e-01]
 [-6.21733169e-01]
 [-4.43882335e-01]
 [-6.03948086e-01]
 [ 1.07455251e-01]]


In [152]:
# 표준 크기변환을 수행한 결과를 qsec_s_scaler 변수에 저장
qsec_s_scaler = pd.DataFrame(scaler.fit_transform(temp))

# qsec_s_scaler 기초통계량 확인
print(qsec_s_scaler.describe())

                  0
count  3.200000e+01
mean   8.066464e-17
std    1.016001e+00
min   -3.182785e+00
25%   -2.077854e-01
50%   -7.039558e-02
75%    1.221279e-01
max    4.339594e+00


### - MinMaxScaler : 최소-최대 크기 변환
- 최소값 0, 최대값 1의 분포로 변환
- **주로 종속변수가 연속형 범주인 회귀 문제에 활용**

In [153]:
from sklearn.preprocessing import MinMaxScaler

# X 변수에서 qsec 열만 추출한 후, temp변수에 저장
temp = X[['qsec']]
temp

Unnamed: 0,qsec
0,16.46
1,17.02
2,18.61
3,0.1
4,17.02
5,20.22
6,15.84
7,20.0
8,22.9
9,18.3


In [154]:
scaler = MinMaxScaler()

# 최소최대 크기 변환 기능이 있는 scaler 에게 temp변수 크기변환 요청 후 변환결과 qsec_m_scaler 에 저장
qsec_m_scaler = pd.DataFrame(scaler.fit_transform(temp))

# 크기변환 결과인 qsec_m_scaler 변수 확인
print(qsec_m_scaler)

           0
0   0.386798
1   0.400038
2   0.437630
3   0.000000
4   0.400038
5   0.475695
6   0.372139
7   0.470494
8   0.539058
9   0.430301
10  0.413751
11  0.409022
12  0.413751
13  0.423208
14  0.422735
15  0.418952
16  0.409495
17  0.457963
18  0.435502
19  0.468129
20  0.470730
21  0.396491
22  0.406658
23  0.361973
24  1.000000
25  0.444486
26  0.392472
27  0.397201
28  0.340458
29  0.364101
30  0.342822
31  0.437394


In [155]:
# qsec_m_scaler 변수의 기초통계량 확인

print(qsec_m_scaler.describe())

               0
count  32.000000
mean    0.423109
std     0.135064
min     0.000000
25%     0.395487
50%     0.413751
75%     0.439344
max     1.000000


### - RobustScaler : 로버스트 크기 변환
- 중앙값 0, 사분범위(IQR)가 1인 분포로 변환시키는 방법
- 이상값의 영향을 잘 받지 않으므로, 일반적으로 활용하는 변환 기법

In [156]:
from sklearn.preprocessing import RobustScaler

# X 변수에서 qsec열만 추출한 후, temp변수에 저장
temp = X[['qsec']]

In [157]:
scaler = RobustScaler()

qsec_r_scaler = pd.DataFrame(scaler.fit_transform(temp))

# 로버스트 크기변환 결과는 qsec_r_scaler 변수 확인
print(qsec_r_scaler)

            0
0   -0.614555
1   -0.312668
2    0.544474
3   -9.433962
4   -0.312668
5    1.412399
6   -0.948787
7    1.293801
8    2.857143
9    0.377358
10   0.000000
11  -0.107817
12   0.000000
13   0.215633
14   0.204852
15   0.118598
16  -0.097035
17   1.008086
18   0.495957
19   1.239892
20   1.299191
21  -0.393531
22  -0.161725
23  -1.180593
24  13.367116
25   0.700809
26  -0.485175
27  -0.377358
28  -1.671159
29  -1.132075
30  -1.617251
31   0.539084


In [158]:
# qsec_r_scaler 변수의 기초통계량 확인
print(qsec_r_scaler.describe())

               0
count  32.000000
mean    0.213376
std     3.079600
min    -9.433962
25%    -0.416442
50%     0.000000
75%     0.583558
max    13.367116


### 데이터 타입 변경

In [159]:
# X 변수 요약정보 확인
X.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32 entries, 0 to 31
Data columns (total 10 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   cyl     32 non-null     float64
 1   disp    32 non-null     float64
 2   hp      32 non-null     float64
 3   drat    32 non-null     float64
 4   wt      32 non-null     float64
 5   qsec    32 non-null     float64
 6   vs      32 non-null     int64  
 7   am      32 non-null     object 
 8   gear    32 non-null     object 
 9   carb    32 non-null     float64
dtypes: float64(7), int64(1), object(2)
memory usage: 2.6+ KB


전진기어 개수 의미하는 gear 열은 수치형 들어가는 연속형 변수로, int64 타입으로 변경

In [160]:
X.gear = X.gear.astype('int64')

X.gear.dtype

dtype('int64')

### 범주형을 수치형으로 변경 : Encoding

#### - One-Hot Encoding
- 범주형 데이터가 가진 의미를 버리지 않고, 함축된 의미를 유지한 채 숫자형 데이터로 변경하는 방법
- label encoding 보다 결과의 왜곡이 적고, 변환된 값의 서열이 없음 > 주로 사용되는 인코딩 방식

In [161]:
X.select_dtypes(include='object').columns  # am 열이 object type 으로 인코딩 필요

Index(['am'], dtype='object')

In [162]:
X.am.unique()

array(['manual', 'auto'], dtype=object)

In [163]:
# X 변수 상위 5개 열 확인
print(X.head())

   cyl   disp     hp  drat     wt   qsec  vs      am  gear  carb
0  6.0  160.0  110.0  3.90  2.620  16.46   0  manual     4   4.0
1  6.0  160.0  110.0  3.90  2.875  17.02   0  manual     4   4.0
2  4.0  108.0   93.0  3.85  2.320  18.61   1  manual     4   1.0
3  6.0  258.0  110.0  3.08  3.215   0.10   1    auto     3   1.0
4  8.0  360.0  175.0  3.15  3.440  17.02   0    auto     3   2.0


pandas 라이브러리의 get_dummies() 함수 사용

In [164]:
print(pd.get_dummies(X.am))

    auto  manual
0      0       1
1      0       1
2      0       1
3      1       0
4      1       0
5      1       0
6      1       0
7      1       0
8      1       0
9      1       0
10     1       0
11     1       0
12     1       0
13     1       0
14     1       0
15     1       0
16     1       0
17     0       1
18     0       1
19     0       1
20     1       0
21     1       0
22     1       0
23     1       0
24     1       0
25     0       1
26     0       1
27     0       1
28     0       1
29     0       1
30     0       1
31     0       1


- 열을 구성하는 값의 개수만큼 열이 생성되는 것은 공간적으로나 가독성 측면에서 불리
- 범주형 데이터의 값 개수만큼 새로운 열이 만들어지지 않게 인코딩 수행하는 것 필요
- 데이터의 종류가 N 개인 경우, N-1 개의 열만 새로 생성!
- 어차피 하나가 1이면 하나가 0이니까 그 중 열 하나만 살려도 OK

#### How? >>> get_dummies( data, drop_first=True )

In [165]:
pd.get_dummies(X.am, drop_first=True)

Unnamed: 0,manual
0,1
1,1
2,1
3,0
4,0
5,0
6,0
7,0
8,0
9,0


In [166]:
# X 변수 데이터 타입 확인
print(X.info())

# X 변수 전체열 대상으로 원핫 인코딩 수행
print(pd.get_dummies(X, drop_first=True))

print('\n>>>> object 변수인 am 만 encoding 된 것으로 확인')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32 entries, 0 to 31
Data columns (total 10 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   cyl     32 non-null     float64
 1   disp    32 non-null     float64
 2   hp      32 non-null     float64
 3   drat    32 non-null     float64
 4   wt      32 non-null     float64
 5   qsec    32 non-null     float64
 6   vs      32 non-null     int64  
 7   am      32 non-null     object 
 8   gear    32 non-null     int64  
 9   carb    32 non-null     float64
dtypes: float64(7), int64(2), object(1)
memory usage: 2.6+ KB
None
     cyl   disp      hp  drat     wt    qsec  vs  gear   carb  am_manual
0    6.0  160.0  110.00  3.90  2.620  16.460   0     4  4.000          1
1    6.0  160.0  110.00  3.90  2.875  17.020   0     4  4.000          1
2    4.0  108.0   93.00  3.85  2.320  18.610   1     4  1.000          1
3    6.0  258.0  110.00  3.08  3.215   0.100   1     3  1.000          0
4    8.0  360.0  175.

#### sklearn 라이브러리의 OneHotEncoder()
- pd.get_dummies() 와 메커니즘 유사하나, OneHotEncoder() 의 경우 범주형 변수 외의 연속형 변수까지 모두 인코딩 수행
- 모델 객체와 모델을 학습하는 코드 추가 작성 필요
- 따라서, 단순히 함수호출만으로 범주형 데이터를 자동으로 select 해서 인코딩하는 get_dummies() 함수 사용 추천!

#### - Label Encoding
- 범주형 변수를 일련번호를 부여하는 방식의 연속형 변수로 변환하는 방식
- 일련번호의 특성상 변환하는 숫자의 크기가 점점 커지기 때문에 값의 크고 작음에 따라 모델의 성능에 민감하게 작동
- 따라서, 트리 계열의 데이터 분석에만 제약적으로 사용

In [167]:
# am 열의 상위 5개 행 확인
print(X['am'].head())

0    manual
1    manual
2    manual
3      auto
4      auto
Name: am, dtype: object


In [168]:
# sklearn 라이브러리에서 LabelEncoder 함수 가져오기
from sklearn.preprocessing import LabelEncoder

# LabelEncoder 호출 통해 인코딩 기능 갖는 encoder 변수 생성
encoder = LabelEncoder()

In [169]:
# encoder 통해 am열 값에 대해 라벨 인코딩 수행
print(encoder.fit_transform(X['am']))

[1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 1 1 1 1 1 1 1]


세 가지 종류 지닌 범주형 변수 임의 생성 후 라벨 인코딩 결과 관찰

In [170]:
# 3가지 과일 들어있는 fruit 변수 생성
fruit = ['apple', 'banana', 'grape']

# LabelEncoder 호출 통해 라벨인코딩 기능 갖는 encoder 변수 생성
encoder = LabelEncoder()

# encoder 통해 fruit 변수에 대한 라벨 인코딩 수행 후, 결과는 fruit_new 에 저장
fruit_new = encoder.fit_transform(fruit)

# 기존 fruit 변수와 라벨 인코딩한 fruit_new 변수 비교
print(fruit, fruit_new)

['apple', 'banana', 'grape'] [0 1 2]


#### - 수동 인코딩 : Replace

In [171]:
# am 열에서 manual 은 0으로, auto 는 1로 변환 후, 새로운 am_new 열에 저장
X['am_new'] = X['am'].replace('manual', 0).replace('auto', 1)

# X 변수의 am_new 열 확인
print(X.head())

   cyl   disp     hp  drat     wt   qsec  vs      am  gear  carb  am_new
0  6.0  160.0  110.0  3.90  2.620  16.46   0  manual     4   4.0       0
1  6.0  160.0  110.0  3.90  2.875  17.02   0  manual     4   4.0       0
2  4.0  108.0   93.0  3.85  2.320  18.61   1  manual     4   1.0       0
3  6.0  258.0  110.0  3.08  3.215   0.10   1    auto     3   1.0       1
4  8.0  360.0  175.0  3.15  3.440  17.02   0    auto     3   2.0       1


기존의 am 열 삭제 (불필요)

In [172]:
# X 변수에서 am 열 삭제 후, X 변수 다시 저장
X = X.drop(columns = 'am')

print(X.head())

   cyl   disp     hp  drat     wt   qsec  vs  gear  carb  am_new
0  6.0  160.0  110.0  3.90  2.620  16.46   0     4   4.0       0
1  6.0  160.0  110.0  3.90  2.875  17.02   0     4   4.0       0
2  4.0  108.0   93.0  3.85  2.320  18.61   1     4   1.0       0
3  6.0  258.0  110.0  3.08  3.215   0.10   1     3   1.0       1
4  8.0  360.0  175.0  3.15  3.440  17.02   0     3   2.0       1


### 파생변수 만들기
- 파생변수 : 특정한 조건이나 함수에 의해서 새롭게 의미를 부여해서 만드는 변수
- 관점에 따라 주관적인 측면이 강하기 때문에 논리적인 근거 기반으로 만드는 것이 중요

### [1] wt_class
- 무게를 의미하는 wt 열에 따라 등급 구분하는 파생변수 생성
- 평균값인 약 3.3 기준으로 무게 등급 나누기 ( <3.3 : 0, >=3.3 : 1)

In [173]:
X.wt.describe()

count    32.000000
mean      3.217250
std       0.978457
min       1.513000
25%       2.581250
50%       3.325000
75%       3.610000
max       5.424000
Name: wt, dtype: float64

In [174]:
# wt 열이 3.3보다 작은지 여부 확인
print(X.wt < 3.3)

0      True
1      True
2      True
3      True
4     False
5     False
6     False
7      True
8      True
9     False
10    False
11    False
12    False
13    False
14    False
15    False
16    False
17     True
18     True
19     True
20     True
21    False
22    False
23    False
24    False
25     True
26     True
27     True
28     True
29     True
30    False
31     True
Name: wt, dtype: bool


In [175]:
# wt 열이 3.3보다 작은지의 여부 결과를 condition 변수에 저장
condition = X.wt < 3.3

# X 변수가 condition 조건 만족하면 wt_class 열에 0 으로 저장
X.loc[condition, 'wt_class'] = 0

# X 변수가 condition 조건 만족하지 않으면 wt_class 열에 1로 저장
X.loc[~condition, 'wt_class'] = 1

# wt 열과 wt_class 열 확인
print(X[['wt','wt_class']])

       wt  wt_class
0   2.620       0.0
1   2.875       0.0
2   2.320       0.0
3   3.215       0.0
4   3.440       1.0
5   3.460       1.0
6   3.570       1.0
7   3.190       0.0
8   3.150       0.0
9   3.440       1.0
10  3.440       1.0
11  4.070       1.0
12  3.730       1.0
13  3.780       1.0
14  5.250       1.0
15  5.424       1.0
16  5.345       1.0
17  2.200       0.0
18  1.615       0.0
19  1.835       0.0
20  2.465       0.0
21  3.520       1.0
22  3.435       1.0
23  3.840       1.0
24  3.845       1.0
25  1.935       0.0
26  2.140       0.0
27  1.513       0.0
28  3.170       0.0
29  2.770       0.0
30  3.570       1.0
31  2.780       0.0


wt_class 열에 특이사항 없으면 기존 wt 열 삭제

In [176]:
# X 변수에서 wt열 삭제한 후, 삭제 결과를 X 변수에 다시 저장
X = X.drop(columns='wt')

print(X.head())

   cyl   disp     hp  drat   qsec  vs  gear  carb  am_new  wt_class
0  6.0  160.0  110.0  3.90  16.46   0     4   4.0       0       0.0
1  6.0  160.0  110.0  3.90  17.02   0     4   4.0       0       0.0
2  4.0  108.0   93.0  3.85  18.61   1     4   1.0       0       0.0
3  6.0  258.0  110.0  3.08   0.10   1     3   1.0       1       0.0
4  8.0  360.0  175.0  3.15  17.02   0     3   2.0       1       1.0


### [2] qsec_4
- qsec 열 (1/4mile 도달 시간) 값 기반으로, qsec 열 단위를 1/4mile 단위에서 1mile 단위로 변환하기 위해 생성하는 변수
- 현재 qsec 열 값을 4배하여 1mile 당 도달 시간을 의미하는 qsec_4 변수 생성

In [177]:
# qsec 열에 4 곱한 결과를 qsec_4 열에 저장
X['qsec_4'] = X.qsec * 4

# qsec 열과 qsec_4 열 값 확인
print(X[['qsec','qsec_4']])

      qsec   qsec_4
0   16.460   65.840
1   17.020   68.080
2   18.610   74.440
3    0.100    0.400
4   17.020   68.080
5   20.220   80.880
6   15.840   63.360
7   20.000   80.000
8   22.900   91.600
9   18.300   73.200
10  17.600   70.400
11  17.400   69.600
12  17.600   70.400
13  18.000   72.000
14  17.980   71.920
15  17.820   71.280
16  17.420   69.680
17  19.470   77.880
18  18.520   74.080
19  19.900   79.600
20  20.010   80.040
21  16.870   67.480
22  17.300   69.200
23  15.410   61.640
24  42.396  169.584
25  18.900   75.600
26  16.700   66.800
27  16.900   67.600
28  14.500   58.000
29  15.500   62.000
30  14.600   58.400
31  18.600   74.400


qsec_4 열을 분석 수행에서 활용하고, 기존 qsec 열 삭제

In [178]:
# X 변수에서 qsec 열 삭제 후 X 변수에 다시 저장
X = X.drop(columns = 'qsec')

print(X.head())

   cyl   disp     hp  drat  vs  gear  carb  am_new  wt_class  qsec_4
0  6.0  160.0  110.0  3.90   0     4   4.0       0       0.0   65.84
1  6.0  160.0  110.0  3.90   0     4   4.0       0       0.0   68.08
2  4.0  108.0   93.0  3.85   1     4   1.0       0       0.0   74.44
3  6.0  258.0  110.0  3.08   1     3   1.0       1       0.0    0.40
4  8.0  360.0  175.0  3.15   0     3   2.0       1       1.0   68.08


### 3. 학습 데이터로 공부하기 : 모델 생성, 모델 검증

In [179]:
# 데이터셋 분리
from sklearn.model_selection import train_test_split

In [180]:
# X, Y 변수로 학습 데이터 70%, 테스트 데이터 30% 로 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = .3, random_state=10)

In [181]:
# 독립변수인 학습 데이터의 상위 5개 행 확인
print(X_train.head())

     cyl   disp     hp  drat  vs  gear  carb  am_new  wt_class  qsec_4
19   4.0   71.1   65.0  4.22   1     4   1.0       0       0.0   79.60
14  14.0  472.0  205.0  2.93   0     3   4.0       1       1.0   71.92
18   4.0   75.7   52.0  4.93   1     4   2.0       0       0.0   74.08
6    8.0  360.0  245.0  3.21   0     3   4.0       1       1.0   63.36
11   8.0  275.8  180.0  3.07   0     3   3.0       1       1.0   69.60


In [182]:
# 종속변수인 학습 데이터의 상위 5개행 확인
print(y_train.head())

19    33.9
14    10.4
18    30.4
6     14.3
11    16.4
Name: mpg, dtype: float64


In [183]:
# 독립변수인 테스트 데이터의 상위 5개 행 확인
print(X_test.head())

    cyl   disp     hp  drat  vs  gear  carb  am_new  wt_class  qsec_4
20  4.0  120.1   97.0  3.70   1     3   1.0       1       0.0   80.04
7   7.6  146.7   62.0  3.69   1     4   2.0       1       0.0   80.00
5   6.0  225.0  105.0  2.76   1     3   1.0       1       1.0   80.88
2   4.0  108.0   93.0  3.85   1     4   1.0       0       0.0   74.44
3   6.0  258.0  110.0  3.08   1     3   1.0       1       0.0    0.40


In [184]:
# 종속변수인 테스트 데이터의 상위 5개 행 확인
print(y_test.head())

20    21.5
7     24.4
5     18.1
2     22.8
3     21.4
Name: mpg, dtype: float64


### 공부하고 평가하기 : Modeling
- 종속변수가 연속형 >>> 예측 모델
- 종속변수가 범주형 >>> 분류 모델

### - 모델 학습, 파이썬 코드
1. 사용할 모델의 함수 가져오기
 > from sklearn.모듈 import 모델함수
2. 학습 모델 만들기
 > model = 모델함수()
3. 학습 데이터로 모델 학습
 > model.fit(X_train, y_train)
4. 학습된 모델로 값 예측
 > - y_train의 예측값 = model.predict(X_train)
 > - y_test의 예측값 = model.predict(X_test)
 
### - 모델 평가, 파이썬 코드
1. 평가할 함수 가져오기
 > from sklearn.metrics import 평가함수
2. 모델 평가
 > - print( 평가함수( y_train, y_train의 예측값 ) )
 > - print( 평가함수( y_test, y_test의 예측값 ) )

### - 예측 모델링 수행

#### [1] 선형회귀 모델

In [185]:
from sklearn.linear_model import LinearRegression

In [186]:
# 모델 생성
model = LinearRegression()

model.fit(X_train, y_train)

# X_train 이용한 y_train 값 예측
y_train_pred = model.predict(X_train)

# X_test 이용한 y_test 값 예측
y_test_pred = model.predict(X_test)

In [187]:
# 선형회귀 모델에 포함된 독립변수들의 각 기울기 값 구하기
print(model.intercept_)

24.269976151248574


In [188]:
# 선형회귀 모델에 포함된 독립변수들의 각 기울기 값 구하기
print(model.coef_)   # 회귀계수 값

[-0.13806535 -0.01231226 -0.00409045  0.96664468  1.12299283  0.65737698
 -1.97459464 -3.57949528  0.01935106  0.02389729]


예측모델 평가지표
- MAE (Mean Absolute Error) : 실제값과 예측값의 차이를 절대값으로 변환해 평균을 계산한 값
- MSE (Mean Squared Error) : 실제값과 예측값 차이를 제곱하여 평균을 계산한 값
- RMSE (Root Mean Squared Error) : MSE 값의 제곱근
- 결정계수 (R^2) : 실제값 분산과 예측값 분산의 비율로서 1에 가까울수록 예측 정확도가 높음을 의미

In [189]:
# 선형회귀 분석 model 에서 학습 데이터에 대한 결정계수 구하기
print(model.score(X_train, y_train))

0.9063060047456276


In [190]:
# 선형회귀 분석 model 에서 테스트 데이터에 대한 결정계수 구하기
print(model.score(X_test, y_test))

0.10181427149458189


테스트 데이터의 예측 성능이 학습 데이터의 예측 성능 대비 낮게 나오는 것은 당연하나, 위의 경우처럼 테스트 데이터의 결정계수가 0.1처럼 극단적으로 낮게 도출된 결과는 과적합(overfitting) 문제일 가능성이 높음

In [191]:
# 결정계수 계산하는 r2_score 함수 가져오기
from sklearn.metrics import r2_score

# MAE 계산하는 mean_absolute_error 함수 가져오기
from sklearn.metrics import mean_absolute_error

# MSE 계산하는 mean_squared_error 함수 가져오기
from sklearn.metrics import mean_squared_error

# 제곱근 계산을 위해 numpy 라이브러리 가져오기
import numpy as np

In [192]:
# 1. 학습 데이터 결정계수 구하기
print('1. ', r2_score(y_train, y_train_pred))

# 2. 테스트 데이터 결정계수 구하기
print('2. ', r2_score(y_test, y_test_pred))

# 3. 테스트 데이터의 MSE 지표 구하기
print('3. ', mean_squared_error(y_test, y_test_pred))

# 4. 테스트 데이터의 RMSE 지표 구하기
print('4. ', np.sqrt(mean_squared_error(y_test, y_test_pred)))

# 5. 테스트 데이터의 MAE 지표 구하기
print('5. ', mean_absolute_error(y_test, y_test_pred))

1.  0.9063060047456276
2.  0.10181427149458189
3.  8.922577026972823
4.  2.98706829968329
5.  2.3740787517183946


#### [2] 랜덤 포레스트 회귀(RandomForestRegressor)
- 무작위의 다수 트리를 만들어 투표에 의해 값 결정하는 방식

In [193]:
from sklearn.ensemble import RandomForestRegressor

model = RandomForestRegressor(random_state=100)
model.fit(X_train, y_train)

y_train_pred = model.predict(X_train)

y_test_pred = model.predict(X_test)

In [199]:
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error

# 학습 데이터 결정계수
print('1. ', r2_score(y_train, y_train_pred))

# 테스트 데이터 결정계수
print('2. ', r2_score(y_test, y_test_pred))

# 테스트 데이터 MSE 지표
print('3. ', mean_squared_error(y_test, y_test_pred))

# 테스트 데이터 MAE 지표
print('4. ', mean_absolute_error(y_test, y_test_pred))

1.  0.9809756744937923
2.  0.37783296758606166
3.  6.180607300000062
4.  1.7937000000000112


### Hyper parameter
- 예측 모델링의 평가가 예를 들어 MAE 지표로 수행할 것이라고 명시한 경우
- 지표의 품질을 높이기 위해 회귀분석을 수행하는 과정에 추가적인 정보 전달
    - n_estimators : 생성할 트리의 개수
    - criterion : 트리를 분할하는 기준

In [200]:
# 트리 생성 1000개, 분할 기준은 MAE 지표로 분석할 모델 생성
model = RandomForestRegressor(n_estimators=1000, 
                              criterion = 'mae', 
                              random_state = 10)

model.fit(X_train, y_train)

# 학습이 완료된 모델에 X_train 전달하여 y_train 값 예측
y_train_pred = model.predict(X_train)

# 학습이 완료된 모델에 X_test 전달하여 y_test 값 예측
y_test_pred = model.predict(X_test)



In [203]:
# 학습 데이터 결정계수
print('1. ', r2_score(y_train, y_train_pred))

# 테스트 데이터 결정계수
print('2. ', r2_score(y_test, y_test_pred))

# 테스트 데이터 MSE 지표
print('3. ', mean_squared_error(y_test, y_test_pred))

# 테스트 데이터 MAE 지표
print('4. ', mean_absolute_error(y_test, y_test_pred))

1.  0.9805355759422818
2.  0.44313226215521484
3.  5.531924107750095
4.  1.7446750000000346


- MAE 지표가 1.794 에서 1.745 로 줄어들었으므로 모델의 성능이 향상되었다고 평가할 수 있음
- 또한, MAE 지표를 기준으로 분할된 트리 데이터에 영향(criterion='mae')을 받아서 학습 데이터의 결정계수, 테스트 데이터의 결정계수, MSE 지표 값도 이전보다 나아진 것을 확인
- 학습 모델마다 하이퍼 파라미터가 다름

https://bit.ly/3GAqdyw

#### [3] 그래디언트 부스팅 회귀 (GradientBoostingRegressor)

- 여러 개의 결정나무(decision tree)를 묶어서 강력한 모델을 만드는 앙상블 기법
- 이전 결정나무에서 발생한 오차를 보완하여 새로운 트리를 만들기 때문에 보다 높은 정확도 기대 가능

In [205]:
from sklearn.ensemble import GradientBoostingRegressor

# 하이퍼 파라미터 기본값으로 모델 생성
model = GradientBoostingRegressor(random_state=10)

# 학습 및 예측
model.fit(X_train, y_train)
y_train_pred = model.predict(X_train)
y_test_pred = model.predict(X_test)

In [206]:
# 결정계수와 MAE, MSE 일괄로 가져오기
from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error

# 결정계수 및 MAE , MSE 계산
print('train r2_score : ', r2_score(y_train, y_train_pred))
print('test  r2_score : ', r2_score(y_test, y_test_pred))
print('test  MSE      : ', mean_squared_error(y_test, y_test_pred))
print('test  MAE      : ', mean_absolute_error(y_test, y_test_pred))

train r2_score :  0.9999908554215274
test  r2_score :  0.1559551191323465
test  MSE      :  8.384741846539269
test  MAE      :  2.1754887773282503


https://bit.ly/3CsCUsL

#### [4] XGBRegressor (eXtreme Gradient Boosting Regressor)
- 다수의 약한 분류기를 묶어서 정확도를 향상시키는 방법
- 병렬처리 기능을 지원하여 빠른 속도로 결과를 도출

In [207]:
from xgboost import XGBRegressor

# 모델 생성
model = XGBRegressor(random_state=10)

# 학습 및 예측
model.fit(X_train, y_train)
y_train_pred = model.predict(X_train)
y_test_pred = model.predict(X_test)

In [208]:
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error

# 결정계수, MSE, MAE 계산
print('train r2_score : ', r2_score(y_train, y_train_pred))
print('test  r2_score : ', r2_score(y_test, y_test_pred))
print('test  MSE      : ', mean_squared_error(y_test, y_test_pred))
print('test  MAE      : ', mean_absolute_error(y_test, y_test_pred))

train r2_score :  0.99999998477324
test  r2_score :  0.29171552932917066
test  MSE      :  7.036097931644018
test  MAE      :  2.1146967697143553


https://bit.ly/3bl8T2b

### - 분류 모델링 수행
- 종속변수가 **범주형** 데이터인 경우 수행
- 종속변수 : am (변속기 유형)

In [210]:
# X_train 변수에서 종속변수인 am_new 열 삭제하고 결과는 X_train2 변수에 저장
X_train2 = X_train.drop(columns = 'am_new')

# X_train 변수에서 am_new 열 추출한 후, 종속변수인 y_train2 변수에 저장
y_train2 = X_train.am_new

# 위와 같이 X_test2, y_test2 세팅
X_test2 = X_test.drop(columns = 'am_new')
y_test2 = X_test.am_new

In [212]:
# 생성된 4개의 세트의 상위 5개행 확인
print(X_train2.head())

     cyl   disp     hp  drat  vs  gear  carb  wt_class  qsec_4
19   4.0   71.1   65.0  4.22   1     4   1.0       0.0   79.60
14  14.0  472.0  205.0  2.93   0     3   4.0       1.0   71.92
18   4.0   75.7   52.0  4.93   1     4   2.0       0.0   74.08
6    8.0  360.0  245.0  3.21   0     3   4.0       1.0   63.36
11   8.0  275.8  180.0  3.07   0     3   3.0       1.0   69.60


In [213]:
print(X_test2.head())

    cyl   disp     hp  drat  vs  gear  carb  wt_class  qsec_4
20  4.0  120.1   97.0  3.70   1     3   1.0       0.0   80.04
7   7.6  146.7   62.0  3.69   1     4   2.0       0.0   80.00
5   6.0  225.0  105.0  2.76   1     3   1.0       1.0   80.88
2   4.0  108.0   93.0  3.85   1     4   1.0       0.0   74.44
3   6.0  258.0  110.0  3.08   1     3   1.0       0.0    0.40


In [214]:
print(y_train2.head())

19    0
14    1
18    0
6     1
11    1
Name: am_new, dtype: int64


In [215]:
print(y_test2.head())

20    1
7     1
5     1
2     0
3     1
Name: am_new, dtype: int64


#### [1] 의사결정나무 분류 (DecisionTreeClassifier)
- 의사결정나무 : 트리를 분할하고 가지치기 과정을 반복하면서 모델을 형성하는 방식
- 과적합될 가능성이 큰 모델이기도 하나, 각 특성들이 단독으로 처리되기 때문에 데이터 스케일에 영향을 덜 받고 예측(회귀)과 분류 모델에 모드 사용될 수 있는 장점이 있음

In [222]:
from sklearn.tree  import DecisionTreeClassifier

model = DecisionTreeClassifier()

model.fit(X_train2, y_train2)

# 학습 완료된 후 X_test2 전달하여 그에 대응하는 y_test2 값 예측
y_test2_pred = model.predict(X_test2)

#### 의사결정나무 분류 모델 평가지표
- ROC-AUC (roc_auc_score)
- 정확도 (accuracy_score)
- 정밀도 (precision_score)
- 재현율 (recall_score)
- ...

In [217]:
# ROC-AUC 계산위한 metrics 모델 import
from sklearn.metrics import roc_auc_score

# 정확도, 정밀도, 재현율 계산을 위한 함수 import
from sklearn.metrics import accuracy_score, precision_score, recall_score

In [223]:
# 테스트 데이터로 ROC-AUC 구하기
print(roc_auc_score(y_test2, y_test2_pred))

0.8571428571428572


In [224]:
# 테스트 데이터로 정확도 구하기
print(accuracy_score(y_test2, y_test2_pred))

0.8


In [225]:
# 테스트 데이터로 정밀도 구하기
print(precision_score(y_test2, y_test2_pred))

1.0


In [226]:
# 테스트 데이터로 재현율 구하기
print(recall_score(y_test2, y_test2_pred))

0.7142857142857143


- 최근 실기시험 작업형 2유형에서 ROC-AUC 를 채점 기준으로 설정
- 따라서 이후 분류 모델의 실습 과정에서는 ROC-AUC 평가지표에 한해 학습 모델 평가
- 물론, 실제시험에서 다른 평가지표를 채점 기준으로 삼았다면 해당 평가지표를 높이는 방향으로 데이터 분석 수행 필요

https://bit.ly/3bi8kq2

#### [2] 랜덤 포레스트 분류 (RandomForestClassifier)
- 앙상블 모형 중의 하나
- 무작위의 다수 트리를 만들어 투표에 의해 값 결정하는 방식

In [227]:
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier()
model.fit(X_train2, y_train2)

y_test2_pred = model.predict(X_test2)

In [230]:
# ROC-AUC 사용한 모델 평가
from sklearn.metrics import roc_auc_score

print(roc_auc_score(y_test2, y_test2_pred))

0.8571428571428572


http://bit.ly/2ZAj9ko

#### [3] 로지스틱 회귀 (LogisticRegresson)
- 종속변수가 어떤 범주에 속할지에 대해 0과 1사이의 연속적인 확률로 예측하는 회귀 알고리즘의 하나
- 즉, 0과 1중에서 하나의 값으로 분류하는 이진 분류 모델

In [234]:
from sklearn.linear_model import LogisticRegression

model = LogisticRegression()
model.fit(X_train2, y_train2)

y_test2_pred = model.predict(X_test2)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


In [235]:
# 로지스틱 회귀 모델 평가지표 확인 > ROC-AUC
from sklearn.metrics import roc_auc_score

print(roc_auc_score(y_test2, y_test2_pred))

0.7619047619047621


https://bit.ly/3vRXuR2

#### [4] XGBClassifier (eXtreme Gradient Boosting Classifier)
- 다수의 약한 분류기를 묶어서 정확도를 향상하는 기법
- 병렬처리 기능을 지원하여 빠른 속도로 결과 도출

In [236]:
from xgboost import XGBClassifier

model = XGBClassifier()
model.fit(X_train2, y_train2)

y_test2_pred = model.predict(X_test2)





In [237]:
# y_test2_pred 값 확인
print(y_test2_pred)

[0 0 1 0 1 1 1 1 1 0]


### 분류해야 하는 종속변수의 0과 1에 대한 확률값 계산 (함수)
- 0과 1로 각각 분류될 확률을 계산하고, 최종적으로 확률이 높은 값을 예측값으로 분류
- 함수 : predict_proba()

In [238]:
# 테스트 데이터의 종속변수에 대한 분류 확률 계산
y_test2_proba = model.predict_proba(X_test2)

# 테스트 데이터에 대한 분류 확률인 y_test2_proba 값 확인
print(y_test2_proba)

[[0.5252248  0.47477522]
 [0.67885995 0.32114008]
 [0.03991383 0.96008617]
 [0.8779035  0.1220965 ]
 [0.10923749 0.8907625 ]
 [0.10923749 0.8907625 ]
 [0.03991383 0.96008617]
 [0.38030726 0.61969274]
 [0.03991383 0.96008617]
 [0.8811508  0.1188492 ]]


In [239]:
# ROC-AUC 계산으로 XGB 분류 모델 성능 확인
from sklearn.metrics import roc_auc_score

print(roc_auc_score(y_test2, y_test2_pred))

0.6904761904761906


https://bit.ly/3bl8T2b

### 분류 모델로 사용할 수 있는 기타 알고리즘

#### - 서포트 벡터 분류 (SVC; Support Vector Classification)
https://bit.ly/3jNLWtg

In [240]:
from sklearn.svm import SVC

model = SVC()
model.fit(X_train2, y_train2)
y_test2_pred = model.predict(X_test2)

In [241]:
from sklearn.metrics import roc_auc_score
print(roc_auc_score(y_test2, y_test2_pred))

0.6904761904761906


#### - 배깅 분류 (BaggingClassifier)
https://bit.ly/3pMcleI

In [242]:
from sklearn.ensemble import BaggingClassifier

model = BaggingClassifier()
model.fit(X_train2, y_train2)
y_test2_pred = model.predict(X_test2)

In [243]:
print(roc_auc_score(y_test2, y_test2_pred))

0.8571428571428572


#### - K-최근접 이웃(KNN; K-Nearest Neighbor) 분류
https://bit.ly/3CpXpg1

In [246]:
from sklearn.neighbors import KNeighborsClassifier

model = KNeighborsClassifier()
model.fit(X_train2, y_train2)
y_test2_pred = model.predict(X_test2)

In [247]:
print(roc_auc_score(y_test2, y_test2_pred))

0.5238095238095238


#### - 다층 퍼셉트론 분류 (MLPClassifier; Multi Layer Perceptron Classifier)
https://bit.ly/3nGbZDD

In [248]:
from sklearn.neural_network  import MLPClassifier

model = MLPClassifier()
model.fit(X_train2, y_train2)
y_test2_pred = model.predict(X_test2)

In [249]:
print(roc_auc_score(y_test2, y_test2_pred))

0.5952380952380953


### 4. 최종 결과 공유

### 4-1. 결과 출력 : 제 1유형
- 최종 결과 print() 함수 이용하여 출력
- 중간 출력값들은 주석처리하거나 삭제

In [250]:
# 출력하는 다른 코드는 주석 처리하고, 최종 결과만 출력
print(roc_auc_score(y_test2, y_test2_pred))

0.5952380952380953


### 4-2. 결과 파일에 저장하기 : 제 2유형
- 최종 결과를 csv 파일 형식으로 저장하여 제출
- 저장할 파일명, 저장 경로 명확히 지정
- to_csv 함수 사용해서 결과값 csv 파일로 저장

1. 제출할 최종 값을 데이터 프레임 타입의 변수로 변경
2. to_csv 함수 안에 파일 경로, 파일명 입력
    - 파일경로 : data 디렉터리 하위 경로에 저장
    - 파일명 : '수험번호.csv' 형태로 저장 가정

In [253]:
# 제출할 y_test2_pred 변수의 데이터 타입 확인
print(type(y_test2_pred))

<class 'numpy.ndarray'>


In [254]:
# 제출할 변수를 데이터 프레임으로 변경하고, data디렉터리 하위에 csv 파일 저장
pd.DataFrame(y_test2_pred).to_csv('data/12345.csv', index=False)

FileNotFoundError: [Errno 2] No such file or directory: 'data/12345.csv'