### quiz('data/online_shoppers_intention.csv')

#### 데이터 시각화 및 탐색적 데이터 분석
* Weekend : 평일과 주말중 더 많이 사이트에 방문하는 날 
* Revenue : 쇼핑 웹 사이트에는 방문한 사람들 중 수익을 창출은 얼마나 되는지
* OperatingSystems : 운영체제별 방문자 수 확인
* Browser : 브라우저별 방문자 수 확인
* Region : 어느 지역에서 많이 접근하는지
* Month, VisitorType : 월별 신규방문자 및 기존 방문자 수 
* Month, SpecialDay : 월별 이벤트가 발생한 날

#### 데이터 전처리
* 결측치
* 문자열 데이터
* 이상치
* 중복데이터

#### 피처 엔지니어링
* StandardScaler

#### 데이터 모델링
* 군집 개수 확인

#### 클러스터링
* 군집

#### 컬럼
* Weekend(주말) : True(주말방문), False(평일방문)
* Revenue(수익) : True(수익창출), False(수익없음)
* OperatingSystems(운영체제) : 1 ~ 8 (이름 없음)
* Browser(브라우져) : 1 ~ 13 (이름 없음)
* Region(접속지역) : 1 ~ 9 (이름 없음)
* Month(월) : Feb(2), Mar(3), May(5), June(6), Jul(7), Aug(8), Sep(9), Oct(10), Nov(11),Dec(12)
* VisitorType(방문자 유형) : Returning_Visitor(재방문), New_Visitor(신규), Other(그 외)
* SpecialDay(특별한 날) : 0 ~ 1 ( 이벤트 유형 (이름없음))

In [2]:
import warnings
warnings.filterwarnings("ignore")
import pandas as pd
df = pd.read_csv('data/online_shoppers_intention.csv')
df.head()

Unnamed: 0,SpecialDay,Month,OperatingSystems,Browser,Region,VisitorType,Weekend,Revenue
0,0.0,Feb,1,1,1,Returning_Visitor,False,False
1,0.0,Feb,2,2,1,Returning_Visitor,False,False
2,0.0,Feb,4,1,9,Returning_Visitor,False,False
3,0.0,Feb,3,2,2,Returning_Visitor,False,False
4,0.0,Feb,3,3,1,Returning_Visitor,True,False


In [3]:
df.isnull().sum()

SpecialDay          0
Month               0
OperatingSystems    0
Browser             0
Region              0
VisitorType         0
Weekend             0
Revenue             0
dtype: int64

In [4]:
df.dtypes

# object 변환 해야함

SpecialDay          float64
Month                object
OperatingSystems      int64
Browser               int64
Region                int64
VisitorType          object
Weekend                bool
Revenue                bool
dtype: object

In [6]:
df['Month'].unique()

array(['Feb', 'Mar', 'May', 'Oct', 'June', 'Jul', 'Aug', 'Nov', 'Sep',
       'Dec'], dtype=object)

In [7]:
#여성 0 , 남성 1
df['Month_num'] = df['Month'].map({'Feb':2,'Mar':3,'May':5,'Oct':10,'June':6,'Jul':7,'Aug':8,'Nov':11,'Sep':9,'Dec':12})
df.head(2).T

Unnamed: 0,0,1
SpecialDay,0.0,0.0
Month,Feb,Feb
OperatingSystems,1,2
Browser,1,2
Region,1,1
VisitorType,Returning_Visitor,Returning_Visitor
Weekend,False,False
Revenue,False,False
Month_num,2,2


In [8]:
df.dtypes

SpecialDay          float64
Month                object
OperatingSystems      int64
Browser               int64
Region                int64
VisitorType          object
Weekend                bool
Revenue                bool
Month_num             int64
dtype: object

In [12]:
df['VisitorType'].unique()

array(['Returning_Visitor', 'New_Visitor', 'Other'], dtype=object)

In [13]:
df['VisitorType_num'] = df['VisitorType'].map({'Returning_Visitor':0,'New_Visitor':1,'Other':2})
df.head(2).T

Unnamed: 0,0,1
SpecialDay,0.0,0.0
Month,Feb,Feb
OperatingSystems,1,2
Browser,1,2
Region,1,1
VisitorType,Returning_Visitor,Returning_Visitor
Weekend,False,False
Revenue,False,False
Month_num,2,2
VisitorType_num,0,0


In [14]:
df.columns

Index(['SpecialDay', 'Month', 'OperatingSystems', 'Browser', 'Region',
       'VisitorType', 'Weekend', 'Revenue', 'Month_num', 'VisitorType_num'],
      dtype='object')

In [17]:
columns = ['SpecialDay', 'OperatingSystems', 'Browser', 'Region',
    'Weekend', 'Revenue', 'Month_num', 'VisitorType_num']

for col in columns :
    q1 = df[col].describe().loc['25%']
    q3 = df[col].describe().loc['75%']
    
    iqr = q3 - q1
    
    lowerfence = q1 - iqr*1.5
    upperfence = q3 + iqr*1.5
    print(col)
    print('최저 이상치 :',lowerfence,', 최고 이상치 :',upperfence)
    print('이상치\n',df[(df[col] < lowerfence) | (df[col] > upperfence)])
    print("="*50)
    
    

SpecialDay
최저 이상치 : 0.0 , 최고 이상치 : 0.0
이상치
       SpecialDay Month  OperatingSystems  Browser  Region        VisitorType  \
6            0.4   Feb                 2        4       3  Returning_Visitor   
8            0.8   Feb                 2        2       2  Returning_Visitor   
9            0.4   Feb                 2        4       1  Returning_Visitor   
11           0.4   Feb                 1        1       4  Returning_Visitor   
20           1.0   Feb                 2        2       5  Returning_Visitor   
...          ...   ...               ...      ...     ...                ...   
5439         0.2   May                 2        2       3  Returning_Visitor   
5448         0.6   May                 3        2       3  Returning_Visitor   
5450         0.6   May                 3        2       8  Returning_Visitor   
5453         0.8   May                 2        4       7  Returning_Visitor   
5454         0.8   May                 3        2       3  Returning_Visitor

KeyError: '25%'