# 범주형 변수 처리

- str타입으로 범주형 타입이 들어가 있으면, 당연히 학습이 될 수가 없다. 
- 그나마 이렇게 들어가도 정상적으로 학습되는 것은 트리계열밖에 없다. 
- 학습이 된다고 해도, 결과를 신뢰할 수 있는가?
- 숫자로 변환을 해도, 적절한 숫자가 아니면 또 잘못 학습된다. 


![4_37.png](../materials/4_37.png)

범주형 변수 판단을 위해서는 

- discrete하거나, 표본공간이 finite한 경우 범주형 변수로 판별한다. 
- 도메인 지식 활용도 필요하다. 
- 데이터 타입 보고 판단하는 것은 절대 말이 안된다. 

![4_37.png](../materials/4_38.png)

가장 일반적인 방법인 더미화. 
1. one-hot 인코딩 해놓으면, 나머지 하나는 추론이 가능하므로, 계산량 감소를 위해 보통 제거한다. 
2. 오히려 제거를 안하면, 특징 간의 상관성이 완벽히 있어서 제거한다. `상관성 제거, 다중공선성 제거를 위해 제거한다는 생각이 옳은 접근`

단점
1. 차원 자체가 너무 커질 수 있다. 차원의 저주 문제로 이어질 수 있다. 
2. 데이터가 굉장히 sparse해 질 수 있다. 희소한 데이터와 연속형 변수가 섞여있는 matrix. 모델링이 쉽지 않을 수 있다. 

![4_37.png](../materials/4_39.png)

- 연속형으로 바뀌면, 정보는 일부 손실되더라도, 차원의 저주 문제는 피할 수 있다. 
- 표본공간이 너무 크면 이 방법 고려해 봐야 한다. 

![4_37.png](../materials/4_40.png)

![4_37.png](../materials/4_41.png)

- variables에 들어간 컬럼은 반드시 str이여야 한다. 
- 마지막 변수 제거 여부. 
- top_categories : 한 범주 변수에 있는 카테고리가 100개면, 100개를 다 쓰기가 어려울 수도 있지. 그 중에 빈도 높은 상위 몇개만 쓰겠다 이런식으로 설정하는 것. 
    - docs : top_categories (int, default=None) – If None, a dummy variable will be created for each category of the variable. Alternatively, top_categories indicates the number of most frequent categories to encode. Dummy variables will be created only for those popular categories and the rest will be ignored. Note that this is equivalent to grouping all the remaining categories in one group. 상위 N개 제외하고, 나머지는 다 한 그룹으로 묶는다. 



![4_37.png](../materials/4_42.png)

[reference: curse of dimension](https://www.mygreatlearning.com/blog/understanding-curse-of-dimensionality/)

Another facet of curse of dimensionality is ‘Distance Concentration’. Distance concentration refers to the problem of all the pairwise distances between different samples/points in the space converging to the same value as the dimensionality of the data increases. Several machine learning models such as clustering or nearest neighbours’ methods use distance-based metrics to identify similar or proximity of the samples. Due to distance concentration, the concept of proximity or similarity of the samples may not be qualitatively relevant in higher dimensions. Figure 3 shows this aspect graphically [1]. A fixed number of random points are generated from a uniform distribution on a ‘d’ dimensional torus. The ‘d’ here corresponds to the number of dimensions considered at a time.

![4_43.png](../materials/4_43.png)
![4_43.png](../materials/4_44.png)

In [2]:
import pandas as pd
import os
os.chdir(r"/Users/sanghyuk/Documents/preprocessing_python/lecture_source/Part 4. 머신러닝을 위한 필수 전처리/데이터/")

In [3]:
df = pd.read_csv("car-good.csv")

In [4]:
# 특징과 라벨 분리
X = df.drop('Class', axis = 1)
Y = df['Class']

In [5]:
# 학습 데이터와 평가 데이터 분리
from sklearn.model_selection import train_test_split
Train_X, Test_X, Train_Y, Test_Y = train_test_split(X, Y)

In [6]:
Train_Y.value_counts()

negative    630
positive     18
Name: Class, dtype: int64

In [7]:
# 문자 라벨을 숫자로 치환 
Train_Y.replace({"negative":-1, "positive":1}, inplace = True)
Test_Y.replace({"negative":-1, "positive":1}, inplace = True)

In [8]:
Train_X.head() # Buying, Maint, Lug_boot, safety 변수가 범주형 변수로 판단됨

Unnamed: 0,Buying,Maint,Doors,Persons,Lug_boot,Safety
533,med,high,4,4,small,high
114,vhigh,med,2,2,big,low
747,low,high,4,4,small,low
279,high,high,2,4,small,low
550,med,med,2,4,small,med


In [9]:
# 자세한 범주형 변수 판별 => 모든 변수가 범주형임을 확인
# Doors, Persons같은 것을 조심해야 함. 

for col in Train_X.columns:
    print(col, len(Train_X[col].unique()))

Buying 4
Maint 4
Doors 3
Persons 2
Lug_boot 3
Safety 3


#### 더미화를 이용한 범주 변수 처리

In [10]:
Train_X = Train_X.astype(str) # 모든 변수가 범주이므로, 더미화를 위해 전부 string 타입으로 변환

In [17]:
# !pip3 install feature-engine
!pip3 install feature-engine



In [21]:
from feature_engine.encoding import OneHotEncoder as OHE
dummy_model = OHE(variables = Train_X.columns.tolist(),
                 drop_last = True)

dummy_model.fit(Train_X)

d_Train_X = dummy_model.transform(Train_X)
d_Test_X = dummy_model.transform(Test_X)

In [23]:
d_Train_X.head()

Unnamed: 0,Buying_med,Buying_vhigh,Buying_low,Maint_high,Maint_med,Maint_low,Doors_4,Doors_2,Persons_4,Lug_boot_small,Lug_boot_big,Safety_high,Safety_low
533,1,0,0,1,0,0,1,0,1,1,0,1,0
114,0,1,0,0,1,0,0,1,0,0,1,0,1
747,0,0,1,1,0,0,1,0,1,1,0,0,1
279,0,0,0,1,0,0,0,1,1,1,0,0,1
550,1,0,0,0,1,0,0,1,1,1,0,0,0


In [24]:
# 더미화를 한 뒤의 모델 테스트
from sklearn.neighbors import KNeighborsClassifier as KNN
model = KNN().fit(d_Train_X, Train_Y)
pred_Y = model.predict(d_Test_X)

from sklearn.metrics import f1_score
f1_score(Test_Y, pred_Y)

0.0

#### 연속형 변수로 치환

In [35]:
Train_df = pd.concat([Train_X, Train_Y], axis = 1)
Train_df.head()

Unnamed: 0,Buying,Maint,Doors,Persons,Lug_boot,Safety,Class
533,med,high,4,4,small,high,-1
114,vhigh,med,2,2,big,low,-1
747,low,high,4,4,small,low,-1
279,high,high,2,4,small,low,-1
550,med,med,2,4,small,med,-1


In [37]:
Train_df = pd.concat([Train_X, Train_Y], axis = 1)
for col in Train_X.columns: # 보통은 범주 변수만 순회
    temp_dict = Train_df.groupby(col)['Class'].mean().to_dict() # col에 따른 Class의 평균을 나타내는 사전 (replace를 쓰기 위해, 사전으로 만듦)
    print(temp_dict)
    Train_df[col] = Train_df[col].replace(temp_dict) # 변수 치환    
    Test_X[col] = Test_X[col].astype(str).replace(temp_dict) # 테스트 데이터도 같이 치환해줘야 함 (나중에 활용하기 위해서는 저장도 필요)

{'high': -1.0, 'low': -0.8571428571428571, 'med': -0.9141104294478528, 'vhigh': -1.0}
{'high': -1.0, 'low': -0.8481012658227848, 'med': -0.927710843373494, 'vhigh': -1.0}
{'2': -0.9380530973451328, '3': -0.9516908212560387, '4': -0.9441860465116279}
{'2': -1.0, '4': -0.8905775075987842}
{'big': -0.9509803921568627, 'med': -0.9317073170731708, 'small': -0.9497907949790795}
{'high': -0.9033816425120773, 'low': -1.0, 'med': -0.9295154185022027}


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  Test_X[col] = Test_X[col].astype(str).replace(temp_dict) # 테스트 데이터도 같이 치환해줘야 함 (나중에 활용하기 위해서는 저장도 필요)


In [38]:
Train_df.head()

Unnamed: 0,Buying,Maint,Doors,Persons,Lug_boot,Safety,Class
533,-0.91411,-1.0,-0.944186,-0.890578,-0.949791,-0.903382,-1
114,-1.0,-0.927711,-0.938053,-1.0,-0.95098,-1.0,-1
747,-0.857143,-1.0,-0.944186,-0.890578,-0.949791,-1.0,-1
279,-1.0,-1.0,-0.938053,-0.890578,-0.949791,-1.0,-1
550,-0.91411,-0.927711,-0.938053,-0.890578,-0.949791,-0.929515,-1


In [39]:
Train_X = Train_df.drop('Class', axis = 1)
Train_Y = Train_df['Class']

In [43]:
Train_X.head()

Unnamed: 0,Buying,Maint,Doors,Persons,Lug_boot,Safety
533,-0.91411,-1.0,-0.944186,-0.890578,-0.949791,-0.903382
114,-1.0,-0.927711,-0.938053,-1.0,-0.95098,-1.0
747,-0.857143,-1.0,-0.944186,-0.890578,-0.949791,-1.0
279,-1.0,-1.0,-0.938053,-0.890578,-0.949791,-1.0
550,-0.91411,-0.927711,-0.938053,-0.890578,-0.949791,-0.929515


In [45]:
Test_X.head()

Unnamed: 0,Buying,Maint,Doors,Persons,Lug_boot,Safety
842,-0.8571428571428571,-0.8481012658227848,-0.9516908212560388,-0.8905775075987842,-0.9317073170731708,-0.9033816425120772
651,-0.8571428571428571,-1.0,-0.9380530973451328,-1.0,-0.9317073170731708,-1.0
615,-0.9141104294478528,-0.8481012658227848,-0.9516908212560388,-1.0,-0.9317073170731708,-1.0
775,-0.8571428571428571,-0.927710843373494,-0.9516908212560388,-1.0,-0.9497907949790796,-0.9295154185022028
196,-1.0,-0.8481012658227848,-0.9516908212560388,-0.8905775075987842,-0.9509803921568628,-0.9295154185022028


In [42]:
# 치환한 뒤의 모델 테스트
model = KNN().fit(Train_X, Train_Y)
pred_Y = model.predict(Test_X)

f1_score(Test_Y, pred_Y)


# 라벨을 고려한 전처리이므로 더미화보다 좋은 결과가 나왔음 => 차원도 줄고 성능 상에 이점이 있으나, 

0.4761904761904762