## 데이터 클리닝

In [None]:
%matplotlib inline
import pandas as pd
data = pd.read_csv('../data/OSI_feats.csv')

In [None]:
data.head(n=20)

숫자형 컬럼
- Administrative
- Administritive_Duration
- Informational
- Informational_Duration
- ProductRelated
- ProductRelated_Duration
- BounceRates
- ExitRates
- PageValues
- SpecialDay
- OperatingSystems
- Browser
- Region
- TrafficType

바이너리 컬럼
- Weekend

카테고리 컬럼으로 변환 가능
- Month
- VisitorType

`describe` 함수로 숫자형 컬럼에 대한 정보 확인

In [None]:
data.describe()

숫자값의 분포도 확인

In [None]:
data.select_dtypes(include=['int64', 'float64']).hist(figsize=(16,22))

### 숫자로 변환

#### 바이너리 컬럼

In [None]:
data['Weekend'].value_counts()

In [None]:
data['Weekend'].value_counts().plot(kind='bar')

부울 값을 정수로 변환

In [None]:
data['is_weekend'] = data['Weekend'].apply(lambda row: 1 if row == True else 0)

In [None]:
data[['Weekend', 'is_weekend']].tail()

### Categorical 컬럼

In [None]:
data['VisitorType'].value_counts()

In [None]:
data['VisitorType'].value_counts().plot(kind='bar')

`VisitorType` 컬럼은 세개 카테고리로 구분 가능

pandas 의 `get_dummies` 함수를 이용해서 원핫 엔코딩(one-hot encoding) 수행

In [None]:
help(pd.get_dummies)

In [None]:
colname = 'VisitorType'
visitor_type_dummies = pd.get_dummies(data[colname], prefix=colname)
pd.concat([data[colname], visitor_type_dummies], axis=1).tail(n=10)

같은 방식으로 `Month` 컬럼 인코딩

In [None]:
data['Month'].value_counts()

February 의 빈도가 가장 낮기 때문에 삭제 합니다.

In [None]:
colname = 'Month'
month_dummies = pd.get_dummies(data[colname], prefix=colname)
month_dummies.drop(colname+'_Feb', axis=1, inplace=True)

In [None]:
data = pd.concat([data, month_dummies], axis=1)

In [None]:
data.iloc[0]

In [None]:
data.drop(['Weekend', 'VisitorType', 'Month'], axis=1, inplace=True, errors='ignore')

모든 컬럼이 숫자 타입으로 바뀜

In [None]:
data.dtypes

In [None]:
data.to_csv('../data/OSI_feats_e2.csv', index=False)

#### Target variable

숫자형으로 변환

In [None]:
target = pd.read_csv('../data/OSI_target.csv')
target.head(n=10)

두 개 타입임을 확인하고 바이너리(0, 1)로 변환

In [None]:
target['Revenue'].value_counts()

In [None]:
target['Revenue'].value_counts().plot(kind='bar')

In [None]:
target['Revenue'] = target['Revenue'].apply(lambda row: 1 if row == True else 0)
target.head(n=10)

csv 로 저장

In [None]:
target.to_csv('../data/OSI_target_e2.csv', index=False)