# 명목형 변수의 처리

수치형 데이터가 아닌 경우를 의미하는 것으로 반드시 데이터 타입이 `category`형일 필요는 없다.

## #01. 준비과정

### [1] 패키지 참조

In [1]:
from pandas import read_excel, crosstab

In [6]:
origin = read_excel("https://data.hossam.kr/pydata/score.xlsx")
origin

Unnamed: 0,gender,score
0,M,A
1,M,C
2,M,B
3,M,B
4,W,A
5,W,C
6,W,C
7,W,B


# #02. 빈도수

값의 종류별 데이터 수에 대한 집계

### [1] 데이터프레임 전체에 대한 빈도수

하나의 행이 완벽하게 일치하는 데이터를 집계한다.

In [8]:
origin.value_counts()

gender  score
M       B        2
W       C        2
M       A        1
        C        1
W       A        1
        B        1
Name: count, dtype: int64

### [2] 컬럼에 대한 빈도수

In [9]:
origin['gender'].value_counts()

gender
M    4
W    4
Name: count, dtype: int64

In [10]:
origin['score'].value_counts()

score
C    3
B    3
A    2
Name: count, dtype: int64

## #03. 교차표(crosstab)

범주형 자료를 갖는 데이터에 대해 각 범주별로 빈도수를 계산하여 표현한 표

### [1] 교차표 만들기

index 파라미터와 columns 파라미터를 지정한다.

In [11]:
crosstab(index=origin['gender'], columns=origin['score'])

score,A,B,C
gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
M,1,2,1
W,1,1,2


### [2] 파라미터 설정

| 파라미터 | 설명 |
|---|---|
| rownames | 인덱스의 이름 설정 |
| colnames | 컬럼의 이름 설정 |
| margins | 집계 결과 포함 여부(True/False) |

In [12]:
crosstab(index=origin['gender'], columns=origin['score'],
         rownames=['성별'], colnames=['점수'], margins=True)

점수,A,B,C,All
성별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
M,1,2,1,4
W,1,1,2,4
All,2,3,3,8


### [3] 비율 표시

- `normalize=True` 파라미터 사용

In [13]:
crosstab(index=origin['gender'], columns=origin['score'],
         rownames=['성별'], colnames=['점수'], margins=True,
         normalize=True)

점수,A,B,C,All
성별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
M,0.125,0.25,0.125,0.5
W,0.125,0.125,0.25,0.5
All,0.25,0.375,0.375,1.0
