# 🤣 Preparing for data analysis test
> 단기속성 빅분기 실기 대비, using mtcars data set
- toc: true
- branch: master
- badges: false
- comments: true
- author: dinonene
- categories: [python]

# 데이터를 관찰하고 가공하기: 전처리(preprocessing)

현업에서 사용하는 전처리 작업에는 수십 가지가 있지만 주로 사용하는 몇가지 전처리 작업을 소개하겠습니다.

1. 필요하지 않은 열 삭제
2. 누락된 값들을 다른 값들로 바꾸거나 삭제
3. 잘못된 값을 바르게수정
4. 일반적인 범위에서 벗어나는 이상값 조정
5. 각 열들의 숫자 값을 동일한 범위의 숫자로 변경
6. 의도한 데이터 타입이 아니라면 적절한 데이터 타입으로 변경
7. 문자로 구성된 범주형 데이터를 숫자형으로 변경
8. 분석에 필요한 새로운 열 생성

## Data Load

In [2]:
import pandas as pd
data = pd.read_csv('https://raw.githubusercontent.com/7ieon/bigData/main/mtcars.csv')

In [3]:
data.head()

Unnamed: 0.1,Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6.0,160.0,110,3.9,2.62,16.46,0,manual,4,4
1,Mazda RX4 Wag,21.0,6.0,160.0,110,3.9,2.875,17.02,0,manual,4,4
2,Datsun 710,22.8,4.0,108.0,93,3.85,2.32,18.61,1,manual,4,1
3,Hornet 4 Drive,21.4,6.0,258.0,110,3.08,3.215,0.1,1,auto,3,1
4,Hornet Sportabout,18.7,8.0,360.0,175,3.15,3.44,17.02,0,auto,3,2


In [4]:
data.shape

(32, 12)

In [5]:
type(data)

pandas.core.frame.DataFrame

In [6]:
data.columns

Index(['Unnamed: 0', 'mpg', 'cyl', 'disp', 'hp', 'drat', 'wt', 'qsec', 'vs',
       'am', 'gear', 'carb'],
      dtype='object')

In [7]:
data.describe()

Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,carb
count,32.0,30.0,32.0,32.0,32.0,32.0,31.0,32.0,32.0
mean,20.090625,7.6,230.721875,146.6875,3.596563,3.21725,19.866774,0.4375,2.8125
std,6.026948,8.194195,123.938694,68.562868,0.534679,0.978457,15.310469,0.504016,1.6152
min,10.4,4.0,71.1,52.0,2.76,1.513,0.1,0.0,1.0
25%,15.425,4.0,120.825,96.5,3.08,2.58125,16.785,0.0,2.0
50%,19.2,6.0,196.3,123.0,3.695,3.325,17.6,0.0,2.0
75%,22.8,8.0,326.0,180.0,3.92,3.61,18.755,1.0,4.0
max,33.9,50.0,472.0,335.0,4.93,5.424,100.0,1.0,8.0


In [8]:
# 단일변수도 가능
data['hp'].describe()

count     32.000000
mean     146.687500
std       68.562868
min       52.000000
25%       96.500000
50%      123.000000
75%      180.000000
max      335.000000
Name: hp, dtype: float64

In [9]:
print(data['am'].unique()) # am칼럼에서 중복 제거
print(data['gear'].unique())
print(data['vs'].unique())

['manual' 'auto']
['4' '3' '*3' '5' '*5']
[0 1]


In [10]:
print(data.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32 entries, 0 to 31
Data columns (total 12 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Unnamed: 0  32 non-null     object 
 1   mpg         32 non-null     float64
 2   cyl         30 non-null     float64
 3   disp        32 non-null     float64
 4   hp          32 non-null     int64  
 5   drat        32 non-null     float64
 6   wt          32 non-null     float64
 7   qsec        31 non-null     float64
 8   vs          32 non-null     int64  
 9   am          32 non-null     object 
 10  gear        32 non-null     object 
 11  carb        32 non-null     int64  
dtypes: float64(6), int64(3), object(3)
memory usage: 3.1+ KB
None


In [11]:
print(data.corr())

           mpg       cyl      disp        hp      drat        wt      qsec  \
mpg   1.000000 -0.460227 -0.847551 -0.776168  0.681172 -0.867659  0.013668   
cyl  -0.460227  1.000000  0.544876  0.323293 -0.372671  0.533690 -0.012755   
disp -0.847551  0.544876  1.000000  0.790949 -0.710214  0.887980  0.181810   
hp   -0.776168  0.323293  0.790949  1.000000 -0.448759  0.658748  0.010807   
drat  0.681172 -0.372671 -0.710214 -0.448759  1.000000 -0.712441 -0.120283   
wt   -0.867659  0.533690  0.887980  0.658748 -0.712441  1.000000  0.093900   
qsec  0.013668 -0.012755  0.181810  0.010807 -0.120283  0.093900  1.000000   
vs    0.664039 -0.323960 -0.710416 -0.723097  0.440278 -0.554916 -0.112146   
carb -0.550925  0.239980  0.394977  0.749812 -0.090790  0.427606 -0.120312   

            vs      carb  
mpg   0.664039 -0.550925  
cyl  -0.323960  0.239980  
disp -0.710416  0.394977  
hp   -0.723097  0.749812  
drat  0.440278 -0.090790  
wt   -0.554916  0.427606  
qsec -0.112146 -0.120312  
vs 

우리 목표는 mpg(연비) 값을 **예측**하는 것

In [12]:
# 종속변수와 도립변수 분리
X = data.drop(columns = 'mpg')  # dependent variables
Y = data['mpg']  # dependent variable

In [13]:
X.head()

Unnamed: 0.1,Unnamed: 0,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,6.0,160.0,110,3.9,2.62,16.46,0,manual,4,4
1,Mazda RX4 Wag,6.0,160.0,110,3.9,2.875,17.02,0,manual,4,4
2,Datsun 710,4.0,108.0,93,3.85,2.32,18.61,1,manual,4,1
3,Hornet 4 Drive,6.0,258.0,110,3.08,3.215,0.1,1,auto,3,1
4,Hornet Sportabout,8.0,360.0,175,3.15,3.44,17.02,0,auto,3,2


In [14]:
Y.head()

0    21.0
1    21.0
2    22.8
3    21.4
4    18.7
Name: mpg, dtype: float64

- 잘 나눠진 것 같다.

## 데이터 전처리

### `1` 불필요한 열 삭제

In [15]:
# X변수의 전체 행과 1번열 ~ 맨끝 열까지 추출한 후, X변수에 다시 저장하기
X = X.iloc[:,1:]
X.head()

Unnamed: 0,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,6.0,160.0,110,3.9,2.62,16.46,0,manual,4,4
1,6.0,160.0,110,3.9,2.875,17.02,0,manual,4,4
2,4.0,108.0,93,3.85,2.32,18.61,1,manual,4,1
3,6.0,258.0,110,3.08,3.215,0.1,1,auto,3,1
4,8.0,360.0,175,3.15,3.44,17.02,0,auto,3,2


### `2` 결측값 처리
결측치를 처리하는 데는 해당 데이터를 삭제하거나 다른 값으로 바꾸는 방법이 있습니다. 여기서 다른 값으로 바꾸는 데는 전체 데이터의 평균값, 중위값으로 바꾸거나, 해당 데이터와 유사한 값이나 패턴을 참고하여 바꾸는 등, 여러가지 방법이 존재합니다. 

**<font color='red'>하지만 결측치를 삭제하는 방법은 빅분기 실기 시험에서는 선택해서는 안 됩니다.</font>**

그 이유는 주어진 분석 데이터의 개수 그대로 예측 결과를 출력하거나 파일로 제출해야하기 때문입니다.

In [16]:
# 결측치 여부 확인
X.isnull().head(3)

Unnamed: 0,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False


In [17]:
print(X.isnull().sum())

cyl     2
disp    0
hp      0
drat    0
wt      0
qsec    1
vs      0
am      0
gear    0
carb    0
dtype: int64


`cyl`과 `qsec`열에 결측치가 각각 2개, 1개 있음을 확인

#### `-` 평균값으로 대치하기 (cyl)

In [18]:
# cyl열의 평균값을 x_cyl_mean 변수에 저장
X_cyl_mean = X['cyl'].mean()

# X_cyl_mean 변수 확인
print(X_cyl_mean)

7.6


In [19]:
# 평균값으로 cyl 결측치 대치
X['cyl'] = X['cyl'].fillna(X_cyl_mean)

In [20]:
X.isnull().sum()

cyl     0
disp    0
hp      0
drat    0
wt      0
qsec    1
vs      0
am      0
gear    0
carb    0
dtype: int64

- `cyl`의 결측값이 잘 처리된 것을 확인할 수 있다.

#### `-` 중위값으로 대치하기 (qsec)

In [21]:
# qsec열의 중위값을 X_qsec_median 변수에 저장하기
X_qsec_median = X['qsec'].median()

# X1_qsec_median
X_qsec_median

17.6

In [22]:
# 중앙값으로 qsec 결측치 대치
X['qsec'] = X['qsec'].fillna(X_qsec_median)

In [23]:
X.isnull().sum()

cyl     0
disp    0
hp      0
drat    0
wt      0
qsec    0
vs      0
am      0
gear    0
carb    0
dtype: int64

- 결측치가 모두 처리되었다. cyl은 평균으로 결측값을 대치하였고, qsec는 중앙값으로 결측치를 대치하였다.

### `3` 잘못된 값을 올바르게 변경

gear열에 의도치 않은 특수문자가 포함되어 있고, 데이터 타입 또한 object로 인식됨을 알 수 있다.

In [24]:
X['gear'].unique()

array(['4', '3', '*3', '5', '*5'], dtype=object)

In [25]:
X['gear'].value_counts()

3     14
4     12
5      4
*3     1
*5     1
Name: gear, dtype: int64

- `*3`, `*5`  잘못들어간 애들..!
- $*3 \to 3, *5 \to 5$ 로 수정하자. (2개만 처리하면 될 듯하다..)

In [26]:
X['gear'] = X['gear'].replace('*3','3').replace('*5','5')
X['gear'].value_counts()

3    15
4    12
5     5
Name: gear, dtype: int64

- 잘 변환되었다..ㅎㅎ

### `4` 이상값 처리

이상값은 정상적인 데이터의 범위를 넘어서는 비정상인 값으로, data scaling보다 선행되어야 한다. data scaling 이후에 이상값을 처리한다면, 데이터의 분포가 왜곡되거나 데이터 스케일링의 수행이 다시 필요할수도 있다.

**빅분기 시험에서는 이상값의 처리방식을 데이터 삭제가 아닌 다른 값으로 교체할 것을 추천한다.**

만약, 이상값을 제거하라고 명시되어있다면, 문제의 요구대로 처리하면 된다.

#### `-` 사분위수 활용


왼쪽에 위치한 이상값 (작은) : $Q1 - 1.5 * IQR$ <br>
오른쪽에 위치한 이상값 (큰) : $Q3 + 1.5 * IQR$

In [27]:
X_describe = X.describe()
print(X_describe)

             cyl        disp          hp       drat         wt        qsec  \
count  32.000000   32.000000   32.000000  32.000000  32.000000   32.000000   
mean    7.600000  230.721875  146.687500   3.596563   3.217250   19.795938   
std     7.925459  123.938694   68.562868   0.534679   0.978457   15.066831   
min     4.000000   71.100000   52.000000   2.760000   1.513000    0.100000   
25%     4.000000  120.825000   96.500000   3.080000   2.581250   16.827500   
50%     6.000000  196.300000  123.000000   3.695000   3.325000   17.600000   
75%     8.000000  326.000000  180.000000   3.920000   3.610000   18.682500   
max    50.000000  472.000000  335.000000   4.930000   5.424000  100.000000   

              vs     carb  
count  32.000000  32.0000  
mean    0.437500   2.8125  
std     0.504016   1.6152  
min     0.000000   1.0000  
25%     0.000000   2.0000  
50%     0.000000   2.0000  
75%     1.000000   4.0000  
max     1.000000   8.0000  


In [28]:
# X_describe 변수에서 75% 행과 25%행 확인
print(X_describe.loc['75%'],X_describe.loc['25%'])

cyl       8.0000
disp    326.0000
hp      180.0000
drat      3.9200
wt        3.6100
qsec     18.6825
vs        1.0000
carb      4.0000
Name: 75%, dtype: float64 cyl       4.00000
disp    120.82500
hp       96.50000
drat      3.08000
wt        2.58125
qsec     16.82750
vs        0.00000
carb      2.00000
Name: 25%, dtype: float64


In [29]:
x_iqr = X_describe.loc['75%'] - X_describe.loc['25%']

print(x_iqr)

cyl       4.00000
disp    205.17500
hp       83.50000
drat      0.84000
wt        1.02875
qsec      1.85500
vs        1.00000
carb      2.00000
dtype: float64


In [30]:
print('[ q3 + 1.5 * iqr ]')
print(X_describe.loc['75%'] + (1.5 * x_iqr))
print()
print('[ q1 - 1.5 * iqr ]')
print(X_describe.loc['25%'] - (1.5 * x_iqr))

[ q3 + 1.5 * iqr ]
cyl      14.000000
disp    633.762500
hp      305.250000
drat      5.180000
wt        5.153125
qsec     21.465000
vs        2.500000
carb      7.000000
dtype: float64

[ q1 - 1.5 * iqr ]
cyl      -2.000000
disp   -186.937500
hp      -28.750000
drat      1.820000
wt        1.038125
qsec     14.045000
vs       -1.500000
carb     -1.000000
dtype: float64


In [31]:
print(X_describe.loc['max'])
print()
print(X_describe.loc['min'])

cyl      50.000
disp    472.000
hp      335.000
drat      4.930
wt        5.424
qsec    100.000
vs        1.000
carb      8.000
Name: max, dtype: float64

cyl      4.000
disp    71.100
hp      52.000
drat     2.760
wt       1.513
qsec     0.100
vs       0.000
carb     1.000
Name: min, dtype: float64


In [32]:
X_describe.loc['max'] > X_describe.loc['75%'] + (1.5 * x_iqr)

cyl      True
disp    False
hp       True
drat    False
wt       True
qsec     True
vs      False
carb     True
dtype: bool

In [33]:
X_describe.loc['min'] < X_describe.loc['25%'] - (1.5 * x_iqr)

cyl     False
disp    False
hp      False
drat    False
wt      False
qsec     True
vs      False
carb    False
dtype: bool

- `cyl`, `hp`, `wt`, `qsec`, `carb` 변수에 대해서 이상치를 처리해주면 되겠다..

In [34]:
# cyl
X.loc[X['cyl'] > 14]

Unnamed: 0,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
14,50.0,472.0,205,2.93,5.25,17.98,0,auto,3,4


In [35]:
# hp
X.loc[X['hp'] > 305.25]

Unnamed: 0,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
30,8.0,301.0,335,3.54,3.57,14.6,0,manual,5,8


In [36]:
X.loc[14, 'cyl'] = 14
X.loc[30, 'hp'] = 305.25

In [37]:
print(X.loc[14, 'cyl'],X.loc[30, 'hp'])

14.0 305.25


#### `-` 평균과 표준편차 활용

$\text{최대 경계값} =  \text{평균} + 1.5 * \text{표준편차}$<br>
$\text{최소 경계값} =  \text{평균} - 1.5 * \text{표준편차}$

In [38]:
def outlier(data, column):
    mean = data[column].mean()
    std = data[column].std()
    lowest = mean - (std * 1.5)
    highest = mean + (std * 1.5)
    print('최소 경계값: ', lowest, '최대경계값:', highest)
    outlier_index = data[column][(data[column]<lowest) | (data[column] > highest) ].index
    return outlier_index

In [39]:
print(outlier(X,'qsec'))
print()
print(X.loc[24,'qsec'])

최소 경계값:  -2.8043094560577657 최대경계값: 42.39618445605777
Int64Index([24], dtype='int64')

100.0


In [40]:
X.loc[24, 'qsec'] = 42.245
X.loc[24, 'qsec']

42.245

In [41]:
# carb
print(outlier(X,'carb'))
print()
print(X.loc[[29,30],'carb'])

최소 경계값:  0.3897000335522218 최대경계값: 5.235299966447778
Int64Index([29, 30], dtype='int64')

29    6
30    8
Name: carb, dtype: int64


In [42]:
# 인덱스 29, 30이고, 열은 carb인 값을 5.245로 변경
X.loc[29, 'carb'] = 5.235
X.loc[30, 'carb'] = 5.235

X.loc[[29,30], 'carb']

29    5.235
30    5.235
Name: carb, dtype: float64

### `5`데이터를 동일한 범위로 맞추기 : 데이터 스케일링
- Standard Scaling
- Min-Max Scaling
- Robust Scaling

In [43]:
from sklearn.preprocessing import StandardScaler

temp = X[['qsec']]
scaler = StandardScaler()
scaler.fit_transform(temp)[:4]

array([[-0.27330047],
       [-0.17334038],
       [ 0.11047486],
       [-3.19356296]])

In [44]:
qsec_s_scaler = pd.DataFrame(scaler.fit_transform(temp))

print(qsec_s_scaler.describe())

                  0
count  3.200000e+01
mean  -2.207436e-16
std    1.016001e+00
min   -3.193563e+00
25%   -2.077017e-01
50%   -6.981029e-02
75%    1.234161e-01
max    4.329326e+00


In [45]:
# mIn-max
from sklearn.preprocessing import MinMaxScaler

temp = X[['qsec']]
scaler = MinMaxScaler()
qsec_m_scaler = pd.DataFrame(scaler.fit_transform(temp))

print(qsec_m_scaler.describe())

               0
count  32.000000
mean    0.424513
std     0.135055
min     0.000000
25%     0.396904
50%     0.415233
75%     0.440918
max     1.000000


In [46]:
# robust : 중앙값이 0, 사분위범위(IQR)가 1인 분포로 변환
from sklearn.preprocessing import RobustScaler

temp = X[['qsec']]
scaler = RobustScaler()

qsec_r_scaler = pd.DataFrame(scaler.fit_transform(temp))
print(qsec_r_scaler.describe())

               0
count  32.000000
mean    0.210832
std     3.068398
min    -9.433962
25%    -0.416442
50%     0.000000
75%     0.583558
max    13.285714


### `6` 데이터 타입 변경
X 데이터의 요약정보를 통해서 각 열별로 범주형 변수의 데이터 타입(object, string)과 연속형 변수의 데이터 타입(int64, float64)으로 적합하게 설정되어 있는지 확인합니다. 만약 범주형 변수가 연속형 타입으로 되어있거나, 그 반대의 경우가 있다면 `astype()` 함수를 통해서 데이터 타입을 재설정 합니다.

In [47]:
print(X.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32 entries, 0 to 31
Data columns (total 10 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   cyl     32 non-null     float64
 1   disp    32 non-null     float64
 2   hp      32 non-null     float64
 3   drat    32 non-null     float64
 4   wt      32 non-null     float64
 5   qsec    32 non-null     float64
 6   vs      32 non-null     int64  
 7   am      32 non-null     object 
 8   gear    32 non-null     object 
 9   carb    32 non-null     float64
dtypes: float64(7), int64(1), object(2)
memory usage: 2.6+ KB
None


In [48]:
X['gear'].value_counts()

3    15
4    12
5     5
Name: gear, dtype: int64

- 확인 결과 전진기어 개수를 의미하는 `gear` 열이 object 타입으로 설정되어 있음을 확인할 수 있다. 따라서 수치형 (int64)으로 변경

### `7` 문자로 구성된 범주형 데이터를 숫자형으로 변경

In [49]:
X['gear'] = X['gear'].astype('int64')
X['gear'].dtype

dtype('int64')

#### 범주형을 수치형으로 변경 : 인코딩(Encoding)
데이터 분석은 컴퓨터에 의해 수행되기 때문에, 주어진 데이터는 컴퓨터가 이해할 수 있는 값이어야 합니다. 따라서 한글이나 영문 등의 문자열 데이터는 컴퓨터가 이해하기 어려우므로 숫자형으로 변경해야 합니다. 이러한 과정을 **인코딩** 이라고 합니다.
- One-Hot Encoding
- Label Encoding
- 수동 인코딩 (Replace)

#### `-` 원-핫 인코딩

In [50]:
# one-hot
print(X.head())
print()
# am열에서 중복 제거한 값 확인
print(X['am'].unique())

   cyl   disp     hp  drat     wt   qsec  vs      am  gear  carb
0  6.0  160.0  110.0  3.90  2.620  16.46   0  manual     4   4.0
1  6.0  160.0  110.0  3.90  2.875  17.02   0  manual     4   4.0
2  4.0  108.0   93.0  3.85  2.320  18.61   1  manual     4   1.0
3  6.0  258.0  110.0  3.08  3.215   0.10   1    auto     3   1.0
4  8.0  360.0  175.0  3.15  3.440  17.02   0    auto     3   2.0

['manual' 'auto']


In [51]:
pd.get_dummies(X['am']).head()

Unnamed: 0,auto,manual
0,0,1
1,0,1
2,0,1
3,1,0
4,1,0


`-` 하나의 열만으로 auto, manual 값 표현하려면? $\to$ `drop_first=True` 옵션추가

In [52]:
pd.get_dummies(X['am'], drop_first=True).head()

Unnamed: 0,manual
0,1
1,1
2,1
3,0
4,0


In [53]:
pd.get_dummies(X, drop_first=True).head()

Unnamed: 0,cyl,disp,hp,drat,wt,qsec,vs,gear,carb,am_manual
0,6.0,160.0,110.0,3.9,2.62,16.46,0,4,4.0,1
1,6.0,160.0,110.0,3.9,2.875,17.02,0,4,4.0,1
2,4.0,108.0,93.0,3.85,2.32,18.61,1,4,1.0,1
3,6.0,258.0,110.0,3.08,3.215,0.1,1,3,1.0,0
4,8.0,360.0,175.0,3.15,3.44,17.02,0,3,2.0,0


#### `-` 라벨인코딩

In [54]:
# 라벨 인코딩
print(X['am'].head())

0    manual
1    manual
2    manual
3      auto
4      auto
Name: am, dtype: object


In [55]:
from sklearn.preprocessing import LabelEncoder

encoder = LabelEncoder()
print(encoder.fit_transform(X['am']))

[1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 1 1 1 1 1 1 1]


In [56]:
# 과일 예제
fruit = ['apple','bananas','grape']

encoder = LabelEncoder()
fruit_new = encoder.fit_transform(fruit)

print(fruit)
print(fruit_new)

['apple', 'bananas', 'grape']
[0 1 2]


#### `-` 수동 인코딩 (Replace)
데이터 값의 종류가 많지 않은 경우는 replace() 함수를 사용해서 인코딩을 수행할 수 있습니다. 예를 들어 합격/불합격 값, 신청/미신청 값, 방문/미방문 등의 이진 데이터라면 수동으로 인코딩 하기 쉽습니다.

In [57]:
# am을 구성하는 manual값은 0, auto값을 1로 변환
X['am_new']=X['am'].replace('manual',0).replace('auto',1)

print(X.head())

   cyl   disp     hp  drat     wt   qsec  vs      am  gear  carb  am_new
0  6.0  160.0  110.0  3.90  2.620  16.46   0  manual     4   4.0       0
1  6.0  160.0  110.0  3.90  2.875  17.02   0  manual     4   4.0       0
2  4.0  108.0   93.0  3.85  2.320  18.61   1  manual     4   1.0       0
3  6.0  258.0  110.0  3.08  3.215   0.10   1    auto     3   1.0       1
4  8.0  360.0  175.0  3.15  3.440  17.02   0    auto     3   2.0       1


In [58]:
# 기존의 am열은 불필요하므로 삭제
X = X.drop(columns=['am'])
print(X.head())

   cyl   disp     hp  drat     wt   qsec  vs  gear  carb  am_new
0  6.0  160.0  110.0  3.90  2.620  16.46   0     4   4.0       0
1  6.0  160.0  110.0  3.90  2.875  17.02   0     4   4.0       0
2  4.0  108.0   93.0  3.85  2.320  18.61   1     4   1.0       0
3  6.0  258.0  110.0  3.08  3.215   0.10   1     3   1.0       1
4  8.0  360.0  175.0  3.15  3.440  17.02   0     3   2.0       1


### `8` 파생변수 만들기
특정한 조건이나 함수에 의해서 새롭게 의미를 부여해서 만드는 변수입니다. 

첫 번째로 만들 파생변수는 무게를 의미하는 wt 열에 따라서 등급을 구분하는 wt_class(무게에 따른 구분)입니다. wt열의 평균값을 기준으로 무게의 등급을 나눌 것입니다. 

In [62]:
import numpy as np
np.round(X['wt'].mean(),2)

3.22

In [63]:
# wt열이 평균보다 작은지 여부
condition = X['wt'] < np.round(X['wt'].mean(),2)

# 조건을 만족하면 0
X.loc[condition, 'wt_class'] = 0

# 조건을 만족하지 않으면 1
X.loc[~condition, 'wt_class'] = 1

In [68]:
X[['wt', 'wt_class']].head()

Unnamed: 0,wt,wt_class
0,2.62,0.0
1,2.875,0.0
2,2.32,0.0
3,3.215,0.0
4,3.44,1.0


In [69]:
# wt열 삭제
X = X.drop(columns = ['wt'])

X.head()

Unnamed: 0,cyl,disp,hp,drat,qsec,vs,gear,carb,am_new,wt_class
0,6.0,160.0,110.0,3.9,16.46,0,4,4.0,0,0.0
1,6.0,160.0,110.0,3.9,17.02,0,4,4.0,0,0.0
2,4.0,108.0,93.0,3.85,18.61,1,4,1.0,0,0.0
3,6.0,258.0,110.0,3.08,0.1,1,3,1.0,1,0.0
4,8.0,360.0,175.0,3.15,17.02,0,3,2.0,1,1.0
