## 9장 범주형
데이터 분석에서 수치형 다음으로 많이 다루는 것이 범주형 입니다.
범주형은 가질 수 있는 값의 종류가 정해진 값을 의미합니다.
예를들어, 우리나라의 행정구역이 있고, 회원, 비회원 구분도 있습니다.

# 범주형으로 변환
범주형은 데이터의 크기를 줄이는 데 유용합니다. 범줏값의 마스터 데이터와 각 데이터의 범줏값 인덱스 데이터로 나누어 데이터를 보존합니다.

In [1]:
import pandas as pd
customer_tb = pd.read_csv('customer.csv')
customer_tb

FileNotFoundError: [Errno 2] No such file or directory: 'customer.csv'

In [None]:
customer_tb[['sex_is_man']] = (customer_tb[['sex']] == 'man').astype(bool)
customer_tb['sex_is_man']

In [None]:
customer_tb['sex_c'] = pd.Categorical(customer_tb['sex'], categories=['man', 'woman'])
customer_tb['sex_c']

pandas의 Categorical 함수를 이용한 범주화 입니다.

다른 방법으론 astype 함수를 이용가능합니다.

그러나 astype 함수를 이용시에는 마스터 데이터를 지정할 수 없습니다.

In [None]:
customer_tb['sex_c'] = customer_tb['sex_c'].astype('category')
customer_tb['sex_c']

In [None]:
customer_tb['sex_c'].cat.codes

cat함수 이용시 범주화 시킬 데이터가 들어있습니다.

여기에 codes 함수를 이용시 각 범주의 인덱스로 구성된 Series를 반환합니다.

예를들어 이번의 경우 남자는 0, 여자는 1로 해서 각 인덱스마다 코드를 반환받습니다.

# 더미 변수화
더미변수화 라는 것은 범주형 변수를 연속형 변수로 바꾸는 것입니다.

이러한 처리를 통해 연속형 변수로만 가능한 분석기법을 범주형 변수에 사용가능하게 해줍니다.

즉 예를 들어 남녀 성을 더미 변수화 하는 경우, 남성이 아니면, 무조건 여성입니다.

그러나 더미 변수화를 통해 남성의 경우 0, 여성의 경우 1을 가지는 더미 변수화를 하여 수치화를 진행하는 경우

이를 선형회귀에 이용가능합니다.

선형회귀에는 남성, 여성 대입을 하는 것은 안되지만, 0, 1을 넣는 것은 가능하기때문입니다.

In [None]:
customer_tb['sex'] = pd.Categorical(customer_tb['sex'])

dummy_vars = pd.get_dummies(customer_tb['sex'], drop_first=False)
dummy_vars

여기서 drop_first = False 의 의미를 대략설명하자면,

중학교 범주화에서 1 : 저학년 2 : 중간학년, 3 : 고학년 이렇게 구분가능한거를

1,2 ,'둘다 아닌 거' 이렇게 세개로 구분합니다.

중학교의 경우 1학년, 2학년 아니면 자동으로 3학년을 결정되기 때문입니다.

# 범줏값의 집약
범주형을 통해 더미 데이터화를 할 경우 일반적인 경우보다 적은 특성을 학습하므로, 과적합 발생확률이 높습니다.

따라서 데이터 개수를 늘려주기 위해 비슷한 범주값들 끼리 묶어 데이터 개수를 늘리는 방법이 있습니다.

In [None]:
import numpy as np

In [None]:
customer_tb['age_rank'] = pd.Categorical(np.floor(customer_tb['age']/10)*10)
customer_tb['age_rank']

카테고리화 하여서 값의 경우가 20대부터 80대가 있습니다.

우리의 목표는 60, 70, 80을 60대 이상으로 묶는 것입니다.

In [None]:
customer_tb['age_rank'].cat.add_categories(['60 이상'], inplace = True)
customer_tb['age_rank']

add_categories는 범주형 마스터 데이터를 추가하는 함수입니다.

In [None]:
customer_tb.loc[customer_tb['age_rank'].isin([60.0, 70.0, 80.0]), 'age_rank'] = '60 이상'
customer_tb['age_rank']

isin()함수를 이용할 경우 60대 이상인 범주값들에 대해 있는 경우 true가 반환됩니다.

그리고 loc[]은 안에 boolean 타입의 Series를 대입시켜 True 인 것들의 row를 반환해줍니다.

In [None]:
customer_tb['age_rank'].cat.remove_unused_categories(inplace = True)
customer_tb['age_rank']

remove_unused_categories()함수를 통해 쓰지않는 범주형 마스터 데이터를 제거합니다.

# 범주값의 조합
범주값을 줄이는 방법도 있지만, 조합하여 새로운 범주값을 추가하는 방법도 있습니다.

예를들어 20대와 남성을 합치면 20대 남성 이라는 새로운 범주값을 추가할 수 있습니다.

그러나 조합을 이용할 경우 더미 데이터의 경우의 수도 늘어나 처리할 데이터의 종류도 늘어납니다.

In [None]:
customer_tb['sex and age'] = pd.Categorical(customer_tb[['sex', 'age']]
                                           .apply(lambda x: '{}_{}'.format(x[0], np.floor(x[1]/10) * 10),
                                                 axis = 1))
customer_tb['sex and age']

# 범주형의 수치화
예를들어 특정 물건에 대한 불량률을 계산하고 싶은경우, 전체 물건 종류에 대한 개수를 구하고,

그 다음 불량인 물건의 개수에 대해 구한다음, 두번째 값에 대해 첫 번째 값을 나눠주면 불량율이 나옵니다.

즉 범주형 데이터로 다른 수치형 데이터를 뽑아낸 것 입니다.

In [None]:
production = pd.read_csv('production.csv')
production

In [None]:
fault_cnt_per_type = production.query('fault_flg').groupby('type')['fault_flg'].count()
fault_cnt_per_type

query 함수를 통해 fault_flg가 true 인거를 추출했습니다.

즉 결함이 있는 것만 뽑았습니다.

그다음 type 별로 묶어준다음 true인 개수를 세었습니다.

In [None]:
type_cnt = production.groupby('type')['fault_flg'].count()
type_cnt

전체의 개수 입니다.

즉 여기서 먼저 구한 거에 나중에 구한 거를 나눠주면 type별 불량품의 개수가 나오게 됩니다.

In [None]:
production['type_fault_rate'] = production[['type', 'fault_flg']].apply(lambda x:
                                                                       (fault_cnt_per_type[x[0]] - int(x[1]))/
                                                                       (type_cnt[x[0]] - 1), axis = 1)

production['type_fault_rate']

# 범주형의 보완
범주형의 경우 일정한 수치값을 가지고 있는 것이 아니기 때문에 결손값의 보완도 군집으로 접근하여야 합니다.

이중 많이 사용되는 방법이 KNN 기법이고, sklearn을 이용하여 처리합니다.

In [None]:
from sklearn.neighbors import KNeighborsClassifier
production_missc_tb = pd.read_csv('production_missing_category.csv')
production_missc_tb

In [None]:
production_missc_tb.replace('None', np.nan, inplace=True)

결측치를 처리하기 위해선 컴퓨터에 결측치 라는 것을 가르쳐주기 위해 넘파이에서 nan함수를 이용하여

비어있는 곳에 'None'이라고 값을 넣어준다.

In [None]:
train = production_missc_tb.dropna(subset=['type'], inplace=False)
train.index

결손이 없는 데이터을 뽑기 위해 dropna 함수를 통해 없는 값들을 전부 버려주었습니다.

subset = [column]을 해줄경우 열에 대해 값이 없는 경우만 삭제합니다.

In [None]:
test = production_missc_tb.loc[production_missc_tb.index.difference(train.index),:]
test

In [None]:
kn = KNeighborsClassifier(n_neighbors=3)

kn.fit(train[['length', 'thickness']], train['type'])

KNN방식은 길이를 측정하는 방식으로 군집도를 결정하는 방식으로 무엇의 길이를 잴지 정해주어야 합니다.

In [None]:
test['type'] = kn.predict(test[['length', 'thickness']])

In [None]:
test