# 9장. 범주형
범주형 데이터는 두 종류의 값을 플래그 값, 자료형을 불리언(boolean)형이라고 합니다. <br>
불리언형은 프로그램에서 True 또는 False값으로 나타냅니다.



---------------------------------------------------------------
## 9.1 범주형으로 변환
* 고객 테이블의 성별을 불리언형과 범주형으로 변환

In [3]:
import pandas as pd
import numpy as np

In [4]:
customer_tb=pd.read_csv('./data/customer.csv',encoding='UTF-8')

In [5]:
customer_tb

Unnamed: 0,customer_id,age,sex,home_latitude,home_longitude
0,c_1,41,man,35.092193,136.512347
1,c_2,38,man,35.325076,139.410551
2,c_3,49,woman,35.120543,136.511179
3,c_4,43,man,43.034868,141.240314
4,c_5,31,man,35.102661,136.523797
...,...,...,...,...,...
995,c_996,44,man,34.465648,135.373787
996,c_997,35,man,35.345372,139.413754
997,c_998,32,woman,43.062267,141.272126
998,c_999,48,woman,38.172800,140.464198


In [8]:
# sex가 man일때 TRUE값인 불리언형을 추가한다.
## astype이 아니여도 불리언형으로 변환한다.
customer_tb[['sex_is_man']]=(customer_tb[['sex']]=='man').astype('bool')

In [22]:
# sex를 범주형으로 변환한다.
customer_tb['sex_c']=pd.Categorical(customer_tb['sex'],categories=['man','woman'])    # categories매개변수에 마스터 데이터의 배열을 지정 가능.

In [23]:
(customer_tb['sex_c']).dtype

CategoricalDtype(categories=['man', 'woman'], ordered=False)

In [24]:
# astype함수로도 변환할 수 있다.
customer_tb['sex_c']=customer_tb['sex_c'].astype('category')

In [29]:
# 인덱스 데이터는 codes에 저장된다.
customer_tb['sex_c'].cat.codes

0      0
1      0
2      1
3      0
4      0
      ..
995    0
996    0
997    1
998    1
999    0
Length: 1000, dtype: int8

In [30]:
# 마스터 데이터는 categories에 저장된다.
customer_tb['sex_c'].cat.categories

Index(['man', 'woman'], dtype='object')

---------------------------------------------------------------
## 9.2 더미 변수화
* 더미 변수는 범주의 종류 수만큼 생성한다.
* 머신러닝에서 예측 모델을 만들 때 더미변수를 하나 줄일 수 있어 필요한 학습 데이터를 조금 줄일 수 있지만, <br>
이 방법을 사용하지 않는 편이 좋을 때도 있다.
    * ex) 더미변수를 줄이지 않고 분석하면 더미 변수의 중요도(중회귀 모델의 각 더미 변수의 계수)로 연령대의 이용 금액이 어떠한 영향을 받는지 알 수 있다. <br>
    하지만 더미 변수를 하나 줄이면 남은 더미 변수에 반영되므로 각 연령대의 이용 금액이 어떠한 영향을 받는지 파악하기 어려움.
    
 * 이처럼 각 변줏값의 영향을 분석하고 싶을 때 더미 변수를 줄이는 방법은 좋지 않다.

#### Q1 : 고객 테이블의 성별을 더미 변수로 만들어보자.
* man이면 1, woman 이면 0

In [10]:
# 더미 변수로 만들기 전 범주형으로 변환한다.
customer_tb['sex']=pd.Categorical(customer_tb['sex'])

In [15]:
# drop_first를 False로 하면 범줏값의 모든 종류 값의 더미 플래그를 생성한다.
dummy_vars=pd.get_dummies(customer_tb['sex'],drop_first=False)

In [17]:
dummy_vars.head()

Unnamed: 0,man,woman
0,1,0
1,1,0
2,0,1
3,1,0
4,1,0


---------------------------------------------------------------
## 9.3 범줏값의 집약
범주형을 사용할 때 해당하는 데이터 수가 적은 범줏값이 존재하면, 적은 데이터에서 범줏값의 특성을 학습하게 되므로 과학습이 발생하기 쉽다. <br>
또한 애드폭 분석을 실행할 때 범줏값 종류가 많아지면 집계가 어렵다. <br>
이런 문제가 발생하지 않도록 데이터 수가 극단적으로 적은 범줏값을 다른 범줏값과 묶는 방법이 있다. 

> add_categories() 함수 <br>
* 범주형 마스터 데이터를 추가하는 함수

> remove_unused_categories() 함수
* 범주형 마스터 데이터를 제거하는 함수

#### Q1 : 고객 테이블의 연령을 10세 단위로 구분하여 범주형으로 변환하고, 60세 이상인 경우엔 '60세 이상' 이라는 범줏값으로 변환하자.

In [29]:
# 범주형으로 변환
customer_tb['age_rank']=pd.Categorical(np.floor(customer_tb['age']/10)*10)

In [24]:
np.floor(customer_tb['age']/10)

0      4.0
1      3.0
2      4.0
3      4.0
4      3.0
      ... 
995    4.0
996    3.0
997    3.0
998    4.0
999    3.0
Name: age, Length: 1000, dtype: float64

In [30]:
customer_tb['age_rank']

0      40.0
1      30.0
2      40.0
3      40.0
4      30.0
       ... 
995    40.0
996    30.0
997    30.0
998    40.0
999    30.0
Name: age_rank, Length: 1000, dtype: category
Categories (7, float64): [20.0, 30.0, 40.0, 50.0, 60.0, 70.0, 80.0]

In [31]:
# 마스터 데이터에 '60 이상'을 추가한다.
customer_tb['age_rank'].cat.add_categories(['60 이상'], inplace=True)

In [32]:
# 아래 Categories를 보면 '60 이상' 이라는 카테고리 추가됨.
customer_tb['age_rank']

0      40
1      30
2      40
3      40
4      30
       ..
995    40
996    30
997    30
998    40
999    30
Name: age_rank, Length: 1000, dtype: category
Categories (8, object): [20, 30, 40, 50, 60, 70, 80, 60 이상]

In [43]:
# 집약할 데이터를 변경한다.
# 범주형은 = 또는 !=만 판정할 수 있어 isin 함수 이용.
customer_tb.loc[customer_tb['age_rank'].isin([60.0, 70.0, 80.0]), 'age_rank']='60 이상'

In [46]:
customer_tb['age_rank'][:10]

0       40
1       30
2       40
3       40
4       30
5       50
6       50
7    60 이상
8       30
9       30
Name: age_rank, dtype: category
Categories (8, object): [20, 30, 40, 50, 60, 70, 80, 60 이상]

In [47]:
# 사용되지 않는 마스터 데이터를 제거한다.
customer_tb['age_rank'].cat.remove_unused_categories(inplace=True)

In [50]:
# 기존에 60, 70, 80 카테고리 삭제.
customer_tb['age_rank']

0      40
1      30
2      40
3      40
4      30
       ..
995    40
996    30
997    30
998    40
999    30
Name: age_rank, Length: 1000, dtype: category
Categories (5, object): [20, 30, 40, 50, 60 이상]

-----------------------------------------------------------------------------------------------------
## 9.4 범줏값의 조합
성별과 연령대의 범줏값을 조합하여 '남성 20대', '여성 50대' 등과 같은 새로운 범줏값으로 확장하는 것도 가능. <br>

[ 단점 ]
* 범줏값을 조합하면 더미 변수의 수도 조합한 수에 따라 늘어나게 되어 분석에 필요한 데이터양도 늘어난다.
    * 따라서, 범줏값을 조합할 때는 데이터양을 파악하면서 데이터 종류가 많은 범줏값 조합은 피하는 것이 좋다.

In [13]:
customer_tb.head()

Unnamed: 0,customer_id,age,sex,home_latitude,home_longitude
0,c_1,41,man,35.092193,136.512347
1,c_2,38,man,35.325076,139.410551
2,c_3,49,woman,35.120543,136.511179
3,c_4,43,man,43.034868,141.240314
4,c_5,31,man,35.102661,136.523797


In [60]:
# lambd함수에서 sex와 10세 단위로 구분한 age사이에 _를 추가하여 연결한다.
customer_tb['sex_and_age']=pd.Categorical(\
                                          customer_tb[['sex','age']].apply(lambda x: '{}_{}'.format(x[0], np.floor(x[1]/10)*10),  axis=1 ) \
                                         )

In [62]:
customer_tb['sex_and_age']

0        man_40.0
1        man_30.0
2      woman_40.0
3        man_40.0
4        man_30.0
          ...    
995      man_40.0
996      man_30.0
997    woman_30.0
998    woman_40.0
999      man_30.0
Name: sex_and_age, Length: 1000, dtype: category
Categories (14, object): [man_20.0, man_30.0, man_40.0, man_50.0, ..., woman_50.0, woman_60.0, woman_70.0, woman_80.0]

---------------------------------------------------------------
## 9.5 범주형의 수치화
학습 데이터의 양이 적어 범줏값을 고려한 예측 모델을 만들 때 자주 사용한다. <br>
하지만 범주형을 수치화할 때는 주의해야함. 과학습이 발생하거나 원래 데이터가 지니는 의미를 잃을 수 있다. <br>
따라서 범주 데이터를 수치화하는 방법은 기본적으로 추천하지 않는다. <br>
<br>

수치화 방법은 해당하는 범줏값별로 지표나 범줏값에 대한 극값, 대푯값, 분포를 이용하는 경우가 많다. <br>
예를 들어 제조 레코드 결과물을 수치화할 경우 다음 세 가지가 있다.
1. 결과물 종류별로 레코드에서의 출현 횟수를 세서 범줏값 대신 사용한다.
2. 결과물 종류별로 제조 불량률을 계산하여 범줏값 대신 이용한다.
3. 범줏값별로 제조 불량률을 기준으로 하고 불량률이 높은 순서로 순위를 매겨 범줏값 대신 이용한다.



In [60]:
production=pd.read_csv('./data/production.csv',encoding='UTF-8')

In [68]:
production.head()

Unnamed: 0,type,length,thickness,fault_flg
0,E,274.027383,40.241131,False
1,D,86.319269,16.906715,False
2,E,123.940388,1.018462,False
3,B,175.554886,16.414924,False
4,B,244.93474,29.061081,False


In [63]:
# 제품 종류별 불량률
fault_cnt_per_type=production.query('fault_flg').groupby('type')['fault_flg'].count()

In [67]:
fault_cnt_per_type

type
A    11
B     6
C    16
D     7
E    12
Name: fault_flg, dtype: int64

In [78]:
# 제품 종류별 제조 수
type_cnt=production.groupby(['type'])['fault_flg'].count()

In [79]:
type_cnt

type
A    202
B    175
C    211
D    215
E    197
Name: fault_flg, dtype: int64

In [90]:
fault_cnt_per_type['A']

11

In [93]:
int(True)

1

In [94]:
int(False)

0

In [82]:
production['type_fault_rate']=production[['type','fault_flg']].apply(lambda x: (fault_cnt_per_type[x[0]] - int(x[1]) ) / (type_cnt[x[0]] - 1), axis=1 )

In [84]:
production.head()

Unnamed: 0,type,length,thickness,fault_flg,type_fault_rate
0,E,274.027383,40.241131,False,0.061224
1,D,86.319269,16.906715,False,0.03271
2,E,123.940388,1.018462,False,0.061224
3,B,175.554886,16.414924,False,0.034483
4,B,244.93474,29.061081,False,0.034483


----------------------
## 9.6 범주형의 보완
1. 고정값으로 보완한다.
    * 임의의 값으로 결손값을 보완하는 방법.
2. 집곗값으로 보완한다.
    * 결손이 발생하지 않는 데이터에서 최빈값을 계산하여 결손값의 보완값으로 이용하는 방법. 
        * 단, 지정한 최빈값의 데이터가 극단적으로 늘어나므로 결손값이 많을 때는 추천하지 않음.
3. 결손이 발생하지 않은 데이터에 기반한 예측값으로 보완한다.
    * 결손이 발생하지 않은 열의 값과 일부 결손이 발생한 열의 값과의 관계에서 결손이 발생한 값을 예측하여 보완하는 방법.
    * 예측을 위한 관계는 머신러닝 모델등으로 표현. 
4. 시간 관계로 보완한다.
    * 결손이 발생한 데이터의 앞뒤 데이터에서 결손값을 예측하여 보완하는 방법. 범주형에서는 사용하지 않는다. 
5. 다중대입법으로 보완
6. 최대 가능도로 보완


--------------------------------------------------------------------------------------------------
# KNN 알고리즘 개념

### 모델 개요
> KNN은 새로운 데이터가 주어졌을 때 기존 데이터 가운데 가장 가까운 k개 이웃의 정보로 새로운 데이터를 예측하는 방법론입니다.

#### KNN의 하이퍼파라메터(Hyper parameter)
> * 탐색할 이웃 수(k)
    * k가 작을 경우 데이터의 지역적 특성을 지나치게 반영하게 됩니다(overfitting). 반대로 매우 클 경우 모델이 과하게 정규화되는 경향이 있습니다(underfitting). k의 크기에 따라 분류 경계면이 단순해진다.
> * 거리 측정 방법.

### 거리 지표
> * Euclidean Distance (유클리디언 거리)
    * 가장 흔히 사용하는 거리 척도입니다. 두 관측치 사이의 직선 최단거리를 의미
> * Manhattan Distance (맨하탄 거리)
    * A에서 B로 이동할 때 각 좌표축 방향으로만 이동할 경우에 계산되는 거리입니다. 
> * Mahalanobis Distance (마할라노비스 거리)
    * 변수 내 분산, 변수 간 공분산을 모두 반영하여 거리를 계산하는 방식입니다. 변수 간 상관관계를 고려한 거리 지표입니다.
> * Correlation Distance
    * 데이터의 pearson correlation을 거리 척도로 직접 사용합니다. 개별 관측치 하나하나가 아니라 데이터 전체의 경향성을 비교하기 위한 척도입니다. 
> * Rank Correlation Distance

### combining rule
1-NN을 제외한 KNN은 주변 이웃의 분포에 따라 예측 결과가 충분히 달라질 수 있다.<br>
> * **다수결**
    * 가장 단순한 결정 방식은 다수결(Majority voting)이다. 이웃들 범주 가운데 빈도 기준 제일 많은 범주로 새 데이터의 범주를 예측하는 것.

> * **가중합(weighted voting) 방식**
    * 거리(d)가 가까운(=유사도가 높은) 이웃의 정보에 좀 더 가중치를 줍니다. 1/(1+d), 1/(1+d2), exp(−d) 등 단조감소함수이기만 하면 무엇이든 가중치 산출 함수로 쓸 수 있다고 합니다.
    
### cut-off 기준 설정
범주 간 비율이 불균형한 데이터일 땐 여기에 주의를 해야 합니다. <br>
예로, 제조업 정상/불량 데이터를 분류하는 문제의 경우 학습데이터에선 정상 관측치가 대다수일 겁니다.<br>
여기에서 새 관측치 주변 이웃의 범주 비율 정보가 ‘정상 : 0.8, 불량 : 0.2’이라면 불량으로 판정하는 게 합리적일 것

* 컷오프 기준을 설정할 때 학습데이터 범주의 사전확률(prior probability)을 고려해야 한다는 것입니다.

### KNN 수행시 주의점
* KNN 수행 전 반드시 변수를 정규화(Normalization)해 주어야 합니다. 
    * 예시 : 도시별 정보를 모아서 유사한 환경을 지닌 도시를 뽑는 문제를 풀어봅시다.거리/유사성 측정시 미세먼지농도 정보는 전혀 반영이 되지 않을 겁니다. 인구 변수에 해당하는 숫자가 훨씬 크기 때문입니다. <br>
    따라서 변수별로 평균과 분산을 일치시키는 정규화 작업을 반드시 KNN 적용 전 수행해 주어야 합니다.
    
### KNN의 장단점
**[장점]** <br>

> KNN은 학습데이터 내에 끼어있는 노이즈의 영향을 크게 받지 않으며<br>
학습데이터 수가 많다면 꽤 효과적인 알고리즘이라고 합니다. <br>
* 특히 **마할라노비스 거리**와 같이 데이터의 분산을 고려할 경우 **매우 강건(robust)한 방법론**으로 알려져 있습니다.<br>


**[단점]** <br>

> 그러나 최적 이웃의 수(k)와 어떤 거리척도가 분석에 적합한지 불분명해 <br>
데이터 각각의 특성에 맞게 연구자가 임의로 선정해야 하는 단점이 있습니다.

> 또 새로운 관측치와 각각의 학습 데이터 사이의 거리를 전부 측정해야 하므로 계산 시간이 오래 걸리는 한계점이 존재.

이 때문에 Locality Sensitive Hashing, Network based Indexer, Optimized product quantization 등 KNN의 계산복잡성을 줄이려는 시도들이 여럿 제안되었습니다. 인스턴스 간 거리를 모두 계산하지 않고도 마치 그렇게 한 것처럼 결과를 내는 방법론들입니다. 

In [70]:
from sklearn.neighbors import KNeighborsClassifier

In [129]:
production_missc_tb=pd.read_csv('./data/production_missing_category.csv',encoding='UTF-8')

In [130]:
production_missc_tb.isnull().sum()

type         100
length         0
thickness      0
fault_flg      0
dtype: int64

In [131]:
production_missc_tb.replace('None',np.nan, inplace=True)

In [133]:
production_missc_tb.shape

(1000, 4)

In [134]:
# 결손이 발생하지 않은 데이터
train=production_missc_tb.dropna(subset=['type'],inplace=False)

In [135]:
train.shape

(900, 4)

In [136]:
train.index

Int64Index([  0,   1,   2,   3,   4,   5,   6,   7,   9,  10,
            ...
            988, 989, 990, 991, 993, 994, 995, 997, 998, 999],
           dtype='int64', length=900)

### DataFrame.index.difference함수
* 매개변수의 index와 다른 index를 반환하는 함수. 
    * 즉 호출한 index에만 있는 index를 반환한다.

In [138]:
production_missc_tb.index.difference(train.index)

Int64Index([  8,  26,  30,  36,  41,  42,  44,  58,  93, 105, 117, 125, 126,
            127, 130, 135, 149, 157, 169, 230, 232, 233, 243, 245, 246, 252,
            259, 269, 303, 305, 310, 318, 332, 341, 343, 348, 354, 356, 378,
            380, 384, 403, 431, 443, 506, 516, 527, 529, 532, 535, 557, 581,
            582, 596, 601, 630, 666, 675, 688, 693, 701, 717, 720, 726, 731,
            732, 733, 738, 744, 751, 752, 754, 761, 763, 771, 778, 782, 785,
            796, 798, 805, 813, 844, 850, 858, 881, 885, 892, 904, 906, 920,
            924, 945, 953, 956, 971, 980, 983, 992, 996],
           dtype='int64')

In [139]:
# 결손이 발생한 데이터
test=production_missc_tb.loc[production_missc_tb.index.difference(train.index),:]
test

Unnamed: 0,type,length,thickness,fault_flg
8,,276.386631,29.899611,False
26,,263.844324,34.664251,False
30,,129.364736,21.346752,False
36,,203.378972,30.286454,False
41,,157.463166,11.166165,False
...,...,...,...,...
971,,130.088061,0.207250,False
980,,284.562824,49.211790,False
983,,264.130761,4.560416,False
992,,182.252364,33.314305,False


* knn모델을 생성하고, neighbors는 knn의 k 매개변수이다.

In [140]:
kn=KNeighborsClassifier(n_neighbors=3)

In [141]:
kn.fit(train[['length','thickness']],train['type'])

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=3, p=2,
                     weights='uniform')

In [144]:
test['type']=kn.predict(test[['length','thickness']])
test['type']

8      E
26     E
30     E
36     A
41     E
      ..
971    A
980    E
983    B
992    A
996    A
Name: type, Length: 100, dtype: object