# 범주형 데이터 처리

## 범주형 데이터의 정의
- `카테고리 데이터 category` : 종류를 표시하는 데이터
    - 성별 : 남자, 여자
    - 혈액형 : A, B, AB, O
    - 이름 : 홍길동, 성춘향 ....
    - 주소 : 서울, 부산, 대전 ....
- 반드시 문자만 범주형 데이터에 해당하지 않는다. 
    - 1반, 2반, 1등급, 2등급 등의 표현도 해당된다.
    - 여기에서 사용 된 1, 2 등의 숫자의 의미는 숫자로서의 의미가 없다. 
    - 2라는 값이 1이라는 값보다 2배 더 크다는 의미가 아니기때문.

## 카테고리값
- 컴퓨터가 다룰 수 있는 데이터 : 숫자, 카테고리값(=범주형 값)
- `카테고리값 category` : 숫자가 아닌 주로 기호로 표시되고 비연속적인 데이터이다.
- 숫자와 카테고리값의 차이 : 크기나 가치 혹은 순서를 비교할 수 있는가?
    - 10cm vs 20cm : 크기 비교 가능 : 숫자 데이터
    - "개" vs "고양이" : 크기 비교 불가 : 카테고리 데이터
- `클래스 class` : 카테고리값이 가질 수 있는 경우의 수
    - 동전 던지기 : 앞면, 뒷면 : **이진 클래스 binary class**
    - 주사위 던지기 : 1~6 : 세 개이상의 경우의 수 : **다중 클래스 multi class**
- 카게고리값이어도 숫자 처럼 비교가 가능한 경우도 있다. 성적, 등급, 평점 등과 같은 경우 기호로 표시 되지만 크기나 순서를 비교할 수 있다. 이러한 경우는 숫자로 바꾸어서 표시하기도 하지만 일반적인 카테고리 값으로 표시하기도 한다.

## 범주형 데이터의 변형
- 데이터 분석 모형은 숫자만 입력으로 받을 수 있으므로 범주형 데이터는 숫자로 변환해야 한다. 
    - 컴퓨터가 다룰 수 있는 데이터는 숫자와 카테고리값이다.
    - 그 중에서도 데이터 분석 모형은 숫자 입력 데이터를 사용해야한다.
- 범주형 데이터를 숫자로 변환하는 방법
    - `더미변수화`
    - `카테고리 임베딩`

## 더미변수화
- `더미변수 dummy variable` : 0 또는 1만 가지는 값. 어떤 특징이 존재하는가 존재하지 않는가를 표시하는 값
    - 이진지시자 Boolean indicator
    - 이진변수 binary variable
    - 지시변수 indicator variable
    - 설계변수 design variable
    - 처치 treatment
- 1~K 개의 값을 가질 수 있는 범주형값을 K개의 **더미변수 벡터**로 표시할 수 있다.
    - 각각의 더미변수는 특정한 하나의 카테고리값인가 아닌가를 나타내는 **지시자(indicator)**가 된다.
    - 성별 x : x=남자 -> d1 = 1, d2 = 0 / x=여자 -> d1 = 0, d2 = 1
    - 더미변수 d1은 남자이면 1, 여자이면 0이 되는 값이다.
    - 더미변수 d2는 남자이면 0, 여자이면 1이 되는 값이다.
- 풀랭크(full-rank) 방식, 축소랭크 (reduce-rank) 방식    

### patsy 패키지를 사용한 더미변수화
- dmatrix() 함수 : 데이터 프레임의 문자열의 범주값을 더미변수로 바꿔준다.
- formula 문자열에 +0 항상 추가해야 한다. 
    - +0이 빠지면 더미변수화가 아닌 다른 방식의 변형인 축소랭크 reduce-rank 방식이 된다.

In [1]:
df1 = pd.DataFrame(["Male", "Female"], columns=["x"])
df1

Unnamed: 0,x
0,Male
1,Female


In [2]:
from patsy import dmatrix

In [3]:
dmatrix("x + 0", df1)

DesignMatrix with shape (2, 2)
  x[Female]  x[Male]
          0        1
          1        0
  Terms:
    'x' (columns 0:2)

In [4]:
df2 = pd.DataFrame(["A", "B", "C", "D"], columns=["x"])
df2

Unnamed: 0,x
0,A
1,B
2,C
3,D


In [5]:
dmatrix("x + 0", df2)

DesignMatrix with shape (4, 4)
  x[A]  x[B]  x[C]  x[D]
     1     0     0     0
     0     1     0     0
     0     0     1     0
     0     0     0     1
  Terms:
    'x' (columns 0:4)

#### 데이터가 범주형 값이지만 숫자로 표시된 경우
- C() 연산자를 사용하여 범주형값이라는 것을 명시해 준다.

In [6]:
df3 = pd.DataFrame([1, 2, 3, 4], columns=["x"])
df3

Unnamed: 0,x
0,1
1,2
2,3
3,4


In [8]:
dmatrix("C(x) + 0", df3)

DesignMatrix with shape (4, 4)
  C(x)[1]  C(x)[2]  C(x)[3]  C(x)[4]
        1        0        0        0
        0        1        0        0
        0        0        1        0
        0        0        0        1
  Terms:
    'C(x)' (columns 0:4)

#### 더미변수의 순서 변경
- C() 사용 : level 인수에 원하는 순서대로 카테고리값을 입력해준다.
    - C(컬럼명, levels=["카테고리값", "카테고리값", ...]) + 0
- 카테고리값 그대로 순서를 바꿔서 입력해야한다.

In [12]:
df2

Unnamed: 0,x
0,A
1,B
2,C
3,D


In [23]:
df2.columns

Index(['x'], dtype='object')

In [25]:
dm = dmatrix("C(x, levels=['A', 'B', 'D', 'C']) + 0", df2)
dm

DesignMatrix with shape (4, 4)
  Columns:
    ["C(x, levels=['A', 'B', 'D', 'C'])[A]",
     "C(x, levels=['A', 'B', 'D', 'C'])[B]",
     "C(x, levels=['A', 'B', 'D', 'C'])[D]",
     "C(x, levels=['A', 'B', 'D', 'C'])[C]"]
  Terms:
    "C(x, levels=['A', 'B', 'D', 'C'])" (columns 0:4)
  (to view full data, use np.asarray(this_obj))

In [26]:
np.asarray(dm)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 0., 1.],
       [0., 0., 1., 0.]])

### 축소랭크 방식
- `축소랭크 방식 reduce rank` : 특정한 하나의 범주값을 기준값(reference, baseline)으로 하고 기준값에 대응하는 **더미변수의 가중치는 항상 1로 놓는다.**
    - dmatrix()의 formula에 +0을 빼고 더미변수를 만드는 방식이다.
    - 기준 더미변수 이름 Intercept
    - 알파벳순서로 가장 앞의 값이 축소랭크의 기준 더미변수가 된다.
    - 기준 범주값을 바꾸려면 Treatment() 함수 사용

In [27]:
dmatrix("x", df1)

DesignMatrix with shape (2, 2)
  Intercept  x[T.Male]
          1          1
          1          0
  Terms:
    'Intercept' (column 0)
    'x' (column 1)

In [28]:
dmatrix("C(x, Treatment('Male'))", df1)

DesignMatrix with shape (2, 2)
  Intercept  C(x, Treatment('Male'))[T.Female]
          1                                  0
          1                                  1
  Terms:
    'Intercept' (column 0)
    "C(x, Treatment('Male'))" (column 1)

In [29]:
dmatrix("x", df2)

DesignMatrix with shape (4, 4)
  Intercept  x[T.B]  x[T.C]  x[T.D]
          1       0       0       0
          1       1       0       0
          1       0       1       0
          1       0       0       1
  Terms:
    'Intercept' (column 0)
    'x' (columns 1:4)

In [31]:
df2

Unnamed: 0,x
0,A
1,B
2,C
3,D


In [32]:
dmatrix("C(x, Treatment('D'))", df2)

DesignMatrix with shape (4, 4)
  Columns:
    ['Intercept',
     "C(x, Treatment('D'))[T.A]",
     "C(x, Treatment('D'))[T.B]",
     "C(x, Treatment('D'))[T.C]"]
  Terms:
    'Intercept' (column 0), "C(x, Treatment('D'))" (columns 1:4)
  (to view full data, use np.asarray(this_obj))

### 두 개의 범주형 변수가 있는 경우
- 두가지 방식을 사용하여 더미 변수화 할 수 있다.
    - `통합 축소형 방식` : 각각의 변수를 축소형으로 기준값을 더미변수화 해준다. 더미변수는 변수의 갯수와 상관없이 하나로 통합
    - `상호작용 방식` : 두 범주형 변수를 곱해서 각각의 변수의 조합을 나타내는 새로운 범주형 변수를 만드는 방식

In [33]:
df4 = pd.DataFrame([["A", "X"], ["B", "X"], ["A", "Y"], ["B", "Y"]], 
                  columns=["x1", "x2"])
df4

Unnamed: 0,x1,x2
0,A,X
1,B,X
2,A,Y
3,B,Y


#### 통합 축소형 방식
- 아래 반환결과에서 intercept가 d1에 해당한다.
- d1 : x1=A, x2=X 
- d2 : x1=B
- d3 : x2=Y


In [34]:
dmatrix("x1 + x2", df4)

DesignMatrix with shape (4, 3)
  Intercept  x1[T.B]  x2[T.Y]
          1        0        0
          1        1        0
          1        0        1
          1        1        1
  Terms:
    'Intercept' (column 0)
    'x1' (column 1)
    'x2' (column 2)

#### 상호작용 방식
- 반환 결과에서 컬럼의 이름을 보면 각 변수들이 곱해졌다는 것을 알 수 있다.
    - A, B, X, Y 라는 범주값의 조합
    - AX, BX, AY, BY

In [35]:
dmatrix("x1:x2 + 0", df4)

DesignMatrix with shape (4, 4)
  x1[A]:x2[X]  x1[B]:x2[X]  x1[A]:x2[Y]  x1[B]:x2[Y]
            1            0            0            0
            0            1            0            0
            0            0            1            0
            0            0            0            1
  Terms:
    'x1:x2' (columns 0:4)

### 카테고리 임베딩
- `카테고리 임베딩 category embedding` : 범주값 대신 범주값의 특성을 나타내는 연속값 혹은 연속값 벡터를 사용하는 방법
    - 운동선수의 이름 : 운동선수의 나이, 연봉, 신체능력치 등으로 대신 사용
    - 지역명 : 해당 지역의 면적, 인구수 등으로 대신 사용
- 임베딩 방법은 데이터 분석의 목적에 맞게 범주값의 특징을 선택해 주어야 하고, 현재 가지고 있는 데이터 외에 추가적인 데이터를 조사해야 하는 부담이 있다.    