더미 : 실제 표기할 때는 통제요인 or 통제 변수

# 더미변수

## 더미변수의 이해

명복현 변수를 연속형 변수st로 변환한 것

카테고리 형태의 데이터를 0,1,2 등의 연속형 숫자로 변환한 형태다.

ex) 남자, 여자 -> 0,1

기존의 범주형 변수를 이진 변수로 대체하여 모델에 적용할 수 있다.

일반적으로 머신러닝 알고리즘들은 연속적인 숫자를 다루는데 더 효과적이기 때문에 더미변수 변환이 필요하다

In [28]:
from pandas import read_excel, DataFrame
from patsy import dmatrix
import numpy as np
import pandas as pd


In [2]:
df = read_excel("https://data.hossam.kr/C02/dum.xlsx")
df.head()

Unnamed: 0,성별,비만도
0,남자,정상
1,여자,경도
2,여자,정상
3,남자,고도
4,남자,정상


## 더미변수 생성

### 성별에 대한 처리

더미변수 만들기

남자와 여자에 대해서 더미변수를 생성한 결과 , 

여자인 경우 1로 표시되는 하나의 더미변수가 생성된다. 


In [5]:
dv = dmatrix('성별',df)
dv

DesignMatrix with shape (20, 2)
  Intercept  성별[T.여자]
          1         0
          1         1
          1         1
          1         0
          1         0
          1         0
          1         0
          1         1
          1         1
          1         0
          1         1
          1         1
          1         1
          1         0
          1         1
          1         1
          1         0
          1         1
          1         1
          1         1
  Terms:
    'Intercept' (column 0)
    '성별' (column 1)

생성된 변수의 이름만 추출

In [6]:
dv.design_info.column_names

['Intercept', '성별[T.여자]']

값만 추출

In [7]:
dmarray = np.asarray(dv)
dmarray

array([[1., 0.],
       [1., 1.],
       [1., 1.],
       [1., 0.],
       [1., 0.],
       [1., 0.],
       [1., 0.],
       [1., 1.],
       [1., 1.],
       [1., 0.],
       [1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 0.],
       [1., 1.],
       [1., 1.],
       [1., 0.],
       [1., 1.],
       [1., 1.],
       [1., 1.]])

### 데이터프레임으로 변환
데이터프레임 생성 후 절편인 Intercept 필드 제거

In [12]:
dummy_df = DataFrame(np.asarray(dv),columns=dv.design_info.column_names) 
dummy_df.drop('Intercept',axis=1,inplace=True)
dummy_df.head()

Unnamed: 0,성별[T.여자]
0,0.0
1,1.0
2,1.0
3,0.0
4,0.0


## 성별에 대해 모든 경우의 수에 대한, 더미변수를 생성하는 경우

더미 변수들은 서로 상관관계가 있으므로 다중공산성이 발생할 수 있다.

이러한 문제를 피하기 위해 일반적으로는 N-1 개의 더미 변수를 생성한다.(어차피 남은건 추론할 수 있으니까)

예를 들어 성별의 경우 남성/여성 두가지 범주만 있으므로 한 개의 더미변수만 생성하고 다른 하나는 자동으로 포함시키지 않는다.

그러므로 이 방법은 필요한 경우가 아닌 이상 사용하지 않는 것이 좋다. 

### 더미변수 생성 및 데이터프레임 구성

컬럼 이름을 지정하는 문자열에 항상 +0을 추가해야 한다. 

In [18]:
dv = dmatrix('성별 + 0', df)
dummy_df = DataFrame(np.asarray(dv), columns=dv.design_info.column_names)
dummy_df.head()

Unnamed: 0,성별[남자],성별[여자]
0,1.0,0.0
1,0.0,1.0
2,0.0,1.0
3,1.0,0.0
4,1.0,0.0


### 비만도에 대한 더미변수 생성

N-1개의 변수 생성

데이터 프레임 생성 후 Intercept 필드 삭제 필요

In [20]:
dv = dmatrix('비만도',df)
dummy_df = DataFrame(np.asarray(dv), columns=dv.design_info.column_names)
dummy_df.drop('Intercept',axis=1,inplace=True)
dummy_df.head()

Unnamed: 0,비만도[T.고도],비만도[T.정상]
0,0.0,1.0
1,0.0,0.0
2,0.0,1.0
3,1.0,0.0
4,0.0,1.0


N 개의 변수 생성

표현식에 +0 추가

데이터프레임 생성 후 Intercept 필드 삭제 안함

In [21]:
dv = dmatrix('비만도 +0',df)
dummy_df = DataFrame(np.asarray(dv), columns=dv.design_info.column_names)
dummy_df.head()

Unnamed: 0,비만도[경도],비만도[고도],비만도[정상]
0,0.0,0.0,1.0
1,1.0,0.0,0.0
2,0.0,0.0,1.0
3,0.0,1.0,0.0
4,0.0,0.0,1.0


성별 + 비만도

N - 1개


In [22]:
dv = dmatrix('성별:비만도',df)
dummy_df = DataFrame(np.asarray(dv), columns=dv.design_info.column_names)
dummy_df.drop('Intercept',axis=1,inplace=True)
dummy_df.head()

Unnamed: 0,비만도[T.고도],비만도[T.정상],성별[T.여자]:비만도[경도],성별[T.여자]:비만도[고도],성별[T.여자]:비만도[정상]
0,0.0,1.0,0.0,0.0,0.0
1,0.0,0.0,1.0,0.0,0.0
2,0.0,1.0,0.0,0.0,1.0
3,1.0,0.0,0.0,0.0,0.0
4,0.0,1.0,0.0,0.0,0.0


N개

In [23]:
dv = dmatrix('성별:비만도 +0',df)
dummy_df = DataFrame(np.asarray(dv), columns=dv.design_info.column_names)
dummy_df.head()

Unnamed: 0,성별[남자]:비만도[경도],성별[여자]:비만도[경도],성별[남자]:비만도[고도],성별[여자]:비만도[고도],성별[남자]:비만도[정상],성별[여자]:비만도[정상]
0,0.0,0.0,0.0,0.0,1.0,0.0
1,0.0,1.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0,1.0
3,0.0,0.0,1.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,1.0,0.0


## 원본데이터가 라벨링 되어 있는 경우

#### 예지를 위해 원본데이터 라벨링 수행

In [24]:
df2 = df.copy()

# 컬럼을 구분하지 않고 모든 값을 변경
df2.replace("남자", 0, inplace=True)
df2.replace("여자", 1, inplace=True)

# 성별 컬럼에서만 변경
df2.replace({"비만도": "정상"}, 0, inplace=True)
df2.replace({"비만도": "경도"}, 1, inplace=True)
df2.replace({"비만도": "고도"}, 2, inplace=True)
df2.head()

Unnamed: 0,성별,비만도
0,0,0
1,1,1
2,1,0
3,0,2
4,0,0


### 라벨링 된 데이터의 더미변수화 

표현식에 범주형(category)임을 의미하는 C를 표기

In [26]:
dm = dmatrix('C(성별):C(비만도)',df2)
dummy_df = DataFrame(np.asarray(dm),columns=dm.design_info.column_names)
dummy_df.drop('Intercept',axis=1,inplace=True)
dummy_df

Unnamed: 0,C(비만도)[T.1],C(비만도)[T.2],C(성별)[T.1]:C(비만도)[0],C(성별)[T.1]:C(비만도)[1],C(성별)[T.1]:C(비만도)[2]
0,0.0,0.0,0.0,0.0,0.0
1,1.0,0.0,0.0,1.0,0.0
2,0.0,0.0,1.0,0.0,0.0
3,0.0,1.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,0.0
5,1.0,0.0,0.0,0.0,0.0
6,0.0,1.0,0.0,0.0,0.0
7,0.0,1.0,0.0,0.0,1.0
8,1.0,0.0,0.0,1.0,0.0
9,0.0,1.0,0.0,0.0,0.0


### 추가 : pandas get_nummies() 사용

get_dummies 함수는 동작을 상세하게 조정하기 위해 여러 매개 변수를 가지고 있습니다. 이 매개 변수들의 간단한 개요는 다음과 같습니다:

- data: 더미 변수를 생성할 입력 DataFrame 또는 Series입니다.
- prefix: 더미 변수의 열 이름에 지정할 선택적인 문자열 접두사입니다.
- prefix_sep: 접두사와 열 이름 사이에 사용할 선택적인 문자 구분 기호입니다. 기본값은 _입니다.
- dummy_na: Boolean 값으로, NaN을 나타내는 열을 추가할지 여부를 결정합니다. False인 경우 NaN은 무시됩니다. 기본값은 False입니다.
- columns: 더미 변수로 변환할 열 이름의 선택적인 목록입니다. 지정하지 않으면 모든 개체 및 범주 dtype 열이 변환됩니다.
- sparse: True이면 SparseDataFrame을 반환하고, False이면 일반 DataFrame을 반환합니다. 기본값은 False입니다.
- drop_first: 첫 번째 수준을 제거하여 k 범주 수준 중 k-1 더미를 가져오는 데 사용되는 부울 변수입니다. 이는 다중공선성을 방지합니다. 기본값은 False입니다.

In [27]:
df = read_excel("https://data.hossam.kr/C02/dum.xlsx")
df.head()

Unnamed: 0,성별,비만도
0,남자,정상
1,여자,경도
2,여자,정상
3,남자,고도
4,남자,정상


In [33]:
더미즈 = pd.get_dummies(df)
더미즈

Unnamed: 0,성별_남자,성별_여자,비만도_경도,비만도_고도,비만도_정상
0,True,False,False,False,True
1,False,True,True,False,False
2,False,True,False,False,True
3,True,False,False,True,False
4,True,False,False,False,True
5,True,False,True,False,False
6,True,False,False,True,False
7,False,True,False,True,False
8,False,True,True,False,False
9,True,False,False,True,False


In [29]:
pd.get_dummies(df['성별'])

Unnamed: 0,남자,여자
0,True,False
1,False,True
2,False,True
3,True,False
4,True,False
5,True,False
6,True,False
7,False,True
8,False,True
9,True,False


In [30]:
pd.get_dummies(df['비만도'])

Unnamed: 0,경도,고도,정상
0,False,False,True
1,True,False,False
2,False,False,True
3,False,True,False
4,False,False,True
5,True,False,False
6,False,True,False
7,False,True,False
8,True,False,False
9,False,True,False


In [31]:
# 결측값 제외
pd.get_dummies(df['비만도'],dummy_na=True)

Unnamed: 0,경도,고도,정상,NaN
0,False,False,True,False
1,True,False,False,False
2,False,False,True,False
3,False,True,False,False
4,False,False,True,False
5,True,False,False,False
6,False,True,False,False
7,False,True,False,False
8,True,False,False,False
9,False,True,False,False
