# Feature generation

### 기초

* 플레이 한 것 중 min, max, sum, median

### 시계열

* 유저별 8주간 다음의 통계적 값들을 구함
    - median, mean, var(irregularity), skew, kurt
    - 이동평균 (window = 4)
    - 주별 변화량 
    - 8주 기준 2주, 1달 변화량
    - 8주 선형회귀 기울기(Trend)
    - 8주의 autocorrelation

### 도메인 기반

---

# Feature Selection

### 중심성 관련

* 해당 변수에 대하여 클래스의 차이가 집단별로 유의하지 않은 변수 제거.

---

# Activity와 Payment 관련 변수 FE

### 총 37개의 기초 변수가 존재

* 각각의 변수들을 Correlation과 도메인 지식을 바탕으로 그룹화 한 뒤 각각의 그룹별로 적절한 FE 진행

### 1) 현질

* 하위 변수 : payment_amount

__Feature Selection__

#### 기초

* 발생한 것 중 sum, median, range 꽤 의미 있는 파생변수(기본적으로 정규분포 가정이됨)

#### 시계열

* payment_amount: `diff`관련 변수들은 집단 간 차이가 유의하지 않음 $\Longrightarrow$ 제거

### 2) 게임 활동

* 하위 변수 : cnt_dt, play_time,game_combat_time, get_money, cnt_use_buffitem

__Feature Selection__

#### 기초

* cnt_dt - min, max, sum, median
* play_time - sum, median, range
* game_combat_time - min, max, sum, median
* get_money - min, max, sum, median
* cnt_use_buffitem - sum, median, range

#### 시계열

* cnt_dt, play_time : 전체에서 non-zero의 비중이 절반이 넘음. 모든 시계열 관련 피쳐들 유의미
* game_combat_time, get_money, cnt_use_buffitem 전체에서 non-zero의 비중이 32% 이상. 시계열 관련 피쳐 유의미하다고 보는 것이 좋음.

### 3) 소셜 활동

* 하위 변수 :normal_chat, whisper_chat, district_chat, party_chat, guild_chat, faction_chat

#### 기초

* normal_chat - min, max, sum, median
* whisper_chat - min, max, sum, median
* district_chat - range, sum, median
* party_chat - min, max, sum, median
* guild_chat - min, max, sum, median
* faction_chat - binary

#### 시계열

* party_chat - `diff`제외
* whisper_chat - `diff`제외
* normal_chat - `diff`제외
* guild_chat - `diff`제외

__채팅 상관관계__
```
party_chat	guild_chat	0.682104
whisper_chat	party_chat	0.571519
whisper_chat	guild_chat	0.459035
```

### 4) 육성 컨텐츠

* 하위 변수 : npc_exp,npc_hongmun,quest_exp, quest_hongmum, item_hongmun

몇가지 퀘스트...

#### 기초

* npc_exp - range, sum, median
* npc_hongmun - 걍ㄱ 
* quest_exp - 걍ㄱ
* quest_hongmum
* item_hongmun

#### 시계열

* quest_hongmum
* npc_hongmun
* item_hongmun 얘네만

* quest_hongmun ,npc_hongmun - diff뺀거

### 5) pvp 컨텐츠

* 하위 변수 : partybattle_cnt, partybattle_win, duel_cnt, duel_win

__Feature Selection__

* duel : `mean`,`var`,`MA_4`,`MA_5` 만 그나마 의미 있음. $\Longrightarrow$ 좀 더 eda가 필요
<br>
* duel_diff : ` duel_diff_mean`, `duel_diff_var`, `duel_diff_MA_4`, `duel_diff_MA_5` 만 그나마 의미

* partybattle : `MA_2`,`MA_3`, `diff` 관련변수 노의미
<br>
* partybattle_diff : `MA_2`,`MA_3` ,`diff` 관련변수 노의미

$\Longrightarrow$ 좀 더 eda가 필요

### 6) 사냥 컨텐츠

* 하위 변수 : cnt_enter_inzone_solo, cnt_enter_inzone_light, cnt_enter_inzone_skilled, cnt_enter_inzone_normal, cnt_enter_raid, cnt_enter_raid_light, cnt_enter_bam, cnt_clear_inzone_solo, cnt_clear_inzone_light, cnt_clear_inzone_skilled, cnt_clear_inzone_normal, cnt_clear_raid, cnt_clear_raid_light, cnt_clear_bam

__Feature Selection__

#### 기초

* 적은것들 잘 버리는게 중요..

#### 시계열

* inzone_normal.light
....

### 7) 채집, 제작 컨텐츠

* 하위 변수 : gathering_cnt, making_cnt	

* gathering_cnt - binary 
* making_cnt - 이건 그대로...

---

# 특이한 거...

- game_combat_time의 time_series와 관련된 몇몇 변수에 대하여 2month가 다른 클래스와 분포가 좀 다름

- get_money의 time_series와 관련된 몇몇 변수에 대하여 2month가 다른 클래스와 분포가 좀 다름

- 주별 변화량 변수들은... 초반에 크게 차이가 없는듯...

* week인 애들 평균적으로 플레이 타임 많고 버프 사용량도 많은데 돈은 오지게 못범

* 컬럼별 Non-zero row의 비중
```
cnt_dt                      0.550404
play_time                   0.550396
game_combat_time            0.362872
cnt_use_buffitem            0.342230
quest_hongmun               0.328927
get_money                   0.325530
npc_hongmun                 0.290208
cnt_enter_inzone_normal     0.276948
cnt_clear_inzone_normal     0.273496
cnt_enter_inzone_light      0.249311
cnt_clear_inzone_light      0.246900
item_hongmun                0.242510
party_chat                  0.239619
whisper_chat                0.223791
normal_chat                 0.142356
cnt_enter_inzone_solo       0.138679
guild_chat                  0.136079
cnt_clear_inzone_solo       0.134704
making_cnt                  0.132010
cnt_enter_raid_light        0.122938
cnt_clear_raid_light        0.122152
cnt_enter_raid              0.100435
quest_exp                   0.098549
cnt_clear_raid              0.097933
npc_exp                     0.094031
district_chat               0.058037
payment_amount              0.050882
cnt_enter_inzone_skilled    0.049630
cnt_clear_inzone_skilled    0.048365
partybattle_cnt             0.040892
partybattle_win             0.036826
duel_cnt                    0.034980
duel_win                    0.033226
```
---
```
cnt_enter_bam               0.003299
faction_chat                0.002381
cnt_clear_bam               0.001962
gathering_cnt               0.000598
```