## 9장 범주형
데이터 분석에서 수치형 다음으로 많이 다루는 것이 범주형 입니다.
범주형은 가질 수 있는 값의 종류가 정해진 값을 의미합니다.
예를들어, 우리나라의 행정구역이 있고, 회원, 비회원 구분도 있습니다.

# 범주형으로 변환
범주형은 데이터의 크기를 줄이는 데 유용합니다. 범줏값의 마스터 데이터와 각 데이터의 범줏값 인덱스 데이터로 나누어 데이터를 보존합니다.

In [5]:
import pandas as pd
customer_tb = pd.read_csv('c://Users/User/daejeon/customer.csv')
customer_tb

Unnamed: 0,customer_id,age,sex,home_latitude,home_longitude
0,c_1,41,man,35.092193,136.512347
1,c_2,38,man,35.325076,139.410551
2,c_3,49,woman,35.120543,136.511179
3,c_4,43,man,43.034868,141.240314
4,c_5,31,man,35.102661,136.523797
...,...,...,...,...,...
995,c_996,44,man,34.465648,135.373787
996,c_997,35,man,35.345372,139.413754
997,c_998,32,woman,43.062267,141.272126
998,c_999,48,woman,38.172800,140.464198


In [6]:
customer_tb[['sex_is_man']] = (customer_tb[['sex']] == 'man').astype(bool)
customer_tb['sex_is_man']

0       True
1       True
2      False
3       True
4       True
       ...  
995     True
996     True
997    False
998    False
999     True
Name: sex_is_man, Length: 1000, dtype: bool

In [7]:
customer_tb['sex_c'] = pd.Categorical(customer_tb['sex'], categories=['man', 'woman'])
customer_tb['sex_c']

0        man
1        man
2      woman
3        man
4        man
       ...  
995      man
996      man
997    woman
998    woman
999      man
Name: sex_c, Length: 1000, dtype: category
Categories (2, object): ['man', 'woman']

pandas의 Categorical 함수를 이용한 범주화 입니다.

다른 방법으론 astype 함수를 이용가능합니다.

그러나 astype 함수를 이용시에는 마스터 데이터를 지정할 수 없습니다.

In [8]:
customer_tb['sex_c'] = customer_tb['sex_c'].astype('category')
customer_tb['sex_c']

0        man
1        man
2      woman
3        man
4        man
       ...  
995      man
996      man
997    woman
998    woman
999      man
Name: sex_c, Length: 1000, dtype: category
Categories (2, object): ['man', 'woman']

In [9]:
customer_tb['sex_c'].cat.codes

0      0
1      0
2      1
3      0
4      0
      ..
995    0
996    0
997    1
998    1
999    0
Length: 1000, dtype: int8

cat함수 이용시 범주화 시킬 데이터가 들어있습니다.

여기에 codes 함수를 이용시 각 범주의 인덱스로 구성된 Series를 반환합니다.

예를들어 이번의 경우 남자는 0, 여자는 1로 해서 각 인덱스마다 코드를 반환받습니다.

# 더미 변수화
더미변수화 라는 것은 범주형 변수를 연속형 변수로 바꾸는 것입니다.

이러한 처리를 통해 연속형 변수로만 가능한 분석기법을 범주형 변수에 사용가능하게 해줍니다.

즉 예를 들어 남녀 성을 더미 변수화 하는 경우, 남성이 아니면, 무조건 여성입니다.

그러나 더미 변수화를 통해 남성의 경우 0, 여성의 경우 1을 가지는 더미 변수화를 하여 수치화를 진행하는 경우

이를 선형회귀에 이용가능합니다.

선형회귀에는 남성, 여성 대입을 하는 것은 안되지만, 0, 1을 넣는 것은 가능하기때문입니다.

In [10]:
customer_tb['sex'] = pd.Categorical(customer_tb['sex'])

dummy_vars = pd.get_dummies(customer_tb['sex'], drop_first=False)
dummy_vars

Unnamed: 0,man,woman
0,1,0
1,1,0
2,0,1
3,1,0
4,1,0
...,...,...
995,1,0
996,1,0
997,0,1
998,0,1


여기서 drop_first = True 의 의미를 대략설명하자면,

중학교 범주화에서 1 : 저학년 2 : 중간학년, 3 : 고학년 이렇게 구분가능한거를

1,2 ,'둘다 아닌 거' 이렇게 세개로 구분합니다.

중학교의 경우 1학년, 2학년 아니면 자동으로 3학년을 결정되기 때문입니다.

# 범줏값의 집약
범주형을 통해 더미 데이터화를 할 경우 일반적인 경우보다 적은 특성을 학습하므로, 과적합 발생확률이 높습니다.

따라서 데이터 개수를 늘려주기 위해 비슷한 범주값들 끼리 묶어 데이터 개수를 늘리는 방법이 있습니다.

In [11]:
import numpy as np

In [12]:
customer_tb['age_rank'] = pd.Categorical(np.floor(customer_tb['age']/10)*10)
customer_tb['age_rank']

  for val, m in zip(values.ravel(), mask.ravel())


0      40.0
1      30.0
2      40.0
3      40.0
4      30.0
       ... 
995    40.0
996    30.0
997    30.0
998    40.0
999    30.0
Name: age_rank, Length: 1000, dtype: category
Categories (7, float64): [20.0, 30.0, 40.0, 50.0, 60.0, 70.0, 80.0]

카테고리화 하여서 값의 경우가 20대부터 80대가 있습니다.

우리의 목표는 60, 70, 80을 60대 이상으로 묶는 것입니다.

In [13]:
customer_tb['age_rank'].cat.add_categories(['60 이상'], inplace = True)
customer_tb['age_rank']

0      40.0
1      30.0
2      40.0
3      40.0
4      30.0
       ... 
995    40.0
996    30.0
997    30.0
998    40.0
999    30.0
Name: age_rank, Length: 1000, dtype: category
Categories (8, object): [20.0, 30.0, 40.0, 50.0, 60.0, 70.0, 80.0, '60 이상']

add_categories는 범주형 마스터 데이터를 추가하는 함수입니다.

In [14]:
customer_tb.loc[customer_tb['age_rank'].isin([60.0, 70.0, 80.0]), 'age_rank'] = '60 이상'
customer_tb['age_rank']

0      40.0
1      30.0
2      40.0
3      40.0
4      30.0
       ... 
995    40.0
996    30.0
997    30.0
998    40.0
999    30.0
Name: age_rank, Length: 1000, dtype: category
Categories (8, object): [20.0, 30.0, 40.0, 50.0, 60.0, 70.0, 80.0, '60 이상']

isin()함수를 이용할 경우 60대 이상인 범주값들에 대해 있는 경우 true가 반환됩니다.

그리고 loc[]은 안에 boolean 타입의 Series를 대입시켜 True 인 것들의 row를 반환해줍니다.

In [15]:
customer_tb['age_rank'].cat.remove_unused_categories(inplace = True)
customer_tb['age_rank']

  res = method(*args, **kwargs)


0      40.0
1      30.0
2      40.0
3      40.0
4      30.0
       ... 
995    40.0
996    30.0
997    30.0
998    40.0
999    30.0
Name: age_rank, Length: 1000, dtype: category
Categories (5, object): [20.0, 30.0, 40.0, 50.0, '60 이상']

remove_unused_categories()함수를 통해 쓰지않는 범주형 마스터 데이터를 제거합니다.

# 범주값의 조합
범주값을 줄이는 방법도 있지만, 조합하여 새로운 범주값을 추가하는 방법도 있습니다.

예를들어 20대와 남성을 합치면 20대 남성 이라는 새로운 범주값을 추가할 수 있습니다.

그러나 조합을 이용할 경우 더미 데이터의 경우의 수도 늘어나 처리할 데이터의 종류도 늘어납니다.

In [16]:
customer_tb['sex and age'] = pd.Categorical(customer_tb[['sex', 'age']]
                                           .apply(lambda x: '{}_{}'.format(x[0], np.floor(x[1]/10) * 10),
                                                 axis = 1))
customer_tb['sex and age']

0        man_40.0
1        man_30.0
2      woman_40.0
3        man_40.0
4        man_30.0
          ...    
995      man_40.0
996      man_30.0
997    woman_30.0
998    woman_40.0
999      man_30.0
Name: sex and age, Length: 1000, dtype: category
Categories (14, object): ['man_20.0', 'man_30.0', 'man_40.0', 'man_50.0', ..., 'woman_50.0', 'woman_60.0', 'woman_70.0', 'woman_80.0']

# 범주형의 수치화
예를들어 특정 물건에 대한 불량률을 계산하고 싶은경우, 전체 물건 종류에 대한 개수를 구하고,

그 다음 불량인 물건의 개수에 대해 구한다음, 두번째 값에 대해 첫 번째 값을 나눠주면 불량율이 나옵니다.

즉 범주형 데이터로 다른 수치형 데이터를 뽑아낸 것 입니다.

In [17]:
production = pd.read_csv('c:/Users/User/daejeon/production.csv')
production

Unnamed: 0,type,length,thickness,fault_flg
0,E,274.027383,40.241131,False
1,D,86.319269,16.906715,False
2,E,123.940388,1.018462,False
3,B,175.554886,16.414924,False
4,B,244.934740,29.061081,False
...,...,...,...,...
995,C,363.214163,48.369483,False
996,D,134.773797,26.861665,False
997,B,231.174985,7.087471,False
998,D,81.613510,5.716271,False


In [18]:
fault_cnt_per_type = production.query('fault_flg').groupby('type')['fault_flg'].count()
(fault_cnt_per_type)

type
A    11
B     6
C    16
D     7
E    12
Name: fault_flg, dtype: int64

query 함수를 통해 fault_flg가 true 인거를 추출했습니다.

즉 결함이 있는 것만 뽑았습니다.

그다음 type 별로 묶어준다음 true인 개수를 세었습니다.

In [19]:
type_cnt = production.groupby('type')['fault_flg'].count()
type_cnt

type
A    202
B    175
C    211
D    215
E    197
Name: fault_flg, dtype: int64

전체의 개수 입니다.

즉 여기서 먼저 구한 거에 나중에 구한 거를 나눠주면 type별 불량품의 개수가 나오게 됩니다.

In [20]:
production['type_fault_rate'] = production[['type', 'fault_flg']].apply(lambda x:
                                                                       (fault_cnt_per_type[x[0]] - int(x[1]))/
                                                                       (type_cnt[x[0]] - 1), axis = 1)

production['type_fault_rate']

0      0.061224
1      0.032710
2      0.061224
3      0.034483
4      0.034483
         ...   
995    0.076190
996    0.032710
997    0.034483
998    0.032710
999    0.071429
Name: type_fault_rate, Length: 1000, dtype: float64

# 범주형의 보완
범주형의 경우 일정한 수치값을 가지고 있는 것이 아니기 때문에 결손값의 보완도 군집으로 접근하여야 합니다.

이중 많이 사용되는 방법이 KNN 기법이고, sklearn을 이용하여 처리합니다.

In [27]:
from sklearn.neighbors import KNeighborsClassifier
production_missc_tb = pd.read_csv('c:/Users/User/daejeon/production_missing_category.csv')
production_missc_tb.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   type       900 non-null    object 
 1   length     1000 non-null   float64
 2   thickness  1000 non-null   float64
 3   fault_flg  1000 non-null   bool   
dtypes: bool(1), float64(2), object(1)
memory usage: 24.5+ KB


In [23]:
production_missc_tb.replace('None', np.nan, inplace=True)

결측치를 처리하기 위해선 컴퓨터에 결측치 라는 것을 가르쳐주기 위해 넘파이에서 nan함수를 이용하여

비어있는 곳에 'None'이라고 값을 넣어준다.

In [26]:
train = production_missc_tb.dropna(subset=['type'], inplace=False)
train.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 900 entries, 0 to 999
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   type       900 non-null    object 
 1   length     900 non-null    float64
 2   thickness  900 non-null    float64
 3   fault_flg  900 non-null    bool   
dtypes: bool(1), float64(2), object(1)
memory usage: 29.0+ KB


결손이 없는 데이터을 뽑기 위해 dropna 함수를 통해 없는 값들을 전부 버려주었습니다.

subset = [column]을 해줄경우 열에 대해 값이 없는 경우만 삭제합니다.

In [28]:
test = production_missc_tb.loc[production_missc_tb.index.difference(train.index),:]
test

Unnamed: 0,type,length,thickness,fault_flg
8,,276.386631,29.899611,False
26,,263.844324,34.664251,False
30,,129.364736,21.346752,False
36,,203.378972,30.286454,False
41,,157.463166,11.166165,False
...,...,...,...,...
971,,130.088061,0.207250,False
980,,284.562824,49.211790,False
983,,264.130761,4.560416,False
992,,182.252364,33.314305,False


In [29]:
kn = KNeighborsClassifier(n_neighbors=3)

kn.fit(train[['length', 'thickness']], train['type'])

KNeighborsClassifier(n_neighbors=3)

KNN방식은 길이를 측정하는 방식으로 군집도를 결정하는 방식으로 무엇의 길이를 잴지 정해주어야 합니다.

In [31]:
test['type'] = kn.predict(test[['length', 'thickness']])

In [32]:
test

Unnamed: 0,type,length,thickness,fault_flg
8,E,276.386631,29.899611,False
26,E,263.844324,34.664251,False
30,E,129.364736,21.346752,False
36,A,203.378972,30.286454,False
41,E,157.463166,11.166165,False
...,...,...,...,...
971,A,130.088061,0.207250,False
980,E,284.562824,49.211790,False
983,B,264.130761,4.560416,False
992,A,182.252364,33.314305,False
