# 범주형 데이터 처리

범주형 데이터 Categorical Data
* 명목형 자료(nominal data) 
    * 숫자로 바꾸어도 그 값이 크고 작음을 나타내는 것이 아니라 단순히 범주를 표시
    * 예) 성별(주민번호), 혈액형
* 순서형 자료(ordinal data)
    * 범주의 순서가 상대적으로 비교 가능, 
    * 예) 비만도(저체중, 정상, 과체중, 비만, 고도비만), 학점,선호도
    * 대부분 수치형 자료를 그룹화 하여 순서형 자료로 바꿀수 있다.


In [35]:
import pandas as pd

### 샘플데이터 


In [36]:
df = pd.DataFrame({"id":[1,2,3,4,5,6], "raw_grade":['A', 'B', 'B', 'A', 'A', 'F']})
df

Unnamed: 0,id,raw_grade
0,1,A
1,2,B
2,3,B
3,4,A
4,5,A
5,6,F


### 범주형 데이터로 변환
가공하지 않은 성적을 범주형 데이터로 변환합니다.

In [37]:
df["grade"] = df["raw_grade"].astype("category")
df

Unnamed: 0,id,raw_grade,grade
0,1,A,A
1,2,B,B
2,3,B,B
3,4,A,A
4,5,A,A
5,6,F,F


In [38]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype   
---  ------     --------------  -----   
 0   id         6 non-null      int64   
 1   raw_grade  6 non-null      object  
 2   grade      6 non-null      category
dtypes: category(1), int64(1), object(1)
memory usage: 334.0+ bytes


### 범주 확인 및 범주의 이름 변경
범주에 더 의미 있는 이름을 붙일 수 있다.   
Series.cat.categories로 할당하는 것이 적합하다.

In [39]:
df["grade"].cat.categories

Index(['A', 'B', 'F'], dtype='object')

In [33]:
df["grade"].cat.categories = ["very good", "good", "very bad"]
df

Unnamed: 0,id,raw_grade,grade
0,1,A,very good
1,2,B,good
2,3,B,good
3,4,A,very good
4,5,A,very good
5,6,F,very bad


In [32]:
df["grade"]

0    very good
1         good
2         good
3    very good
4    very good
5     very bad
Name: grade, dtype: category
Categories (3, object): [very good, good, very bad]

### 새로운 범주의 설정
범주의 순서를 바꾸고 동시에 누락된 범주를 추가한다.  
cat.set_categories() 함수에 리스트 형식으로 인자를 넣어줘야 한다.  
Series.cat에 속하는 메소드는 기본적으로 새로운 Series를 리턴한다.

In [24]:
df["grade"] = df["grade"].cat.set_categories(["very bad", "bad", "medium", "good", "very good"])

df

Unnamed: 0,id,raw_grade,grade
0,1,A,very good
1,2,B,good
2,3,B,good
3,4,A,very good
4,5,A,very good
5,6,F,very bad


### 범주형 데이터의 정렬
정렬은 사전 순서(ABC순서)가 아닌, 해당 범주에서 지정된 순서대로 배열된다.

very bad, bad, medium, good, very good 의 순서로 기재되어 있기 때문에 정렬 결과도 해당 순서대로 배열된다.

In [25]:
df.sort_values(by="grade")

Unnamed: 0,id,raw_grade,grade
5,6,F,very bad
1,2,B,good
2,3,B,good
0,1,A,very good
3,4,A,very good
4,5,A,very good


### 범주형 데이터의 그룹화
범주의 열을 기준으로 그룹화하면 빈 범주도 표시된다.

In [26]:
df.groupby("grade").size()

grade
very bad     1
bad          0
medium       0
good         2
very good    3
dtype: int64

## Binning

수치형 데이터를 범주형 데이터로 변환할 수 있다.  숫자데이터를 카테고리화 하는 기능을 가지고 있다.
* pd.cut() : 나누는 구간의 경계값을 지정하여 구간을 나눈다.
* pd.qcut() : 구간 경계선을 지정하지 않고 데이터 갯수가 같도록 지정한 수의 구간으로 나눈다. 



In [41]:
ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]
bins = [18, 25, 35, 60, 100]

### pd.cut() - 동일 길이로 나누어서 범주 만들기(equal-length buckets categorization)

* pd.cut()함수는 인자로 (카테고리화 숫자데이터, 구간의 구분값)를 넣어 쉽게 카테고리화 할 수 있다.
* pd.cut()함수로 잘린 데이터는 카테고리 자료형 Series로 반환되게 된다.


ages가 5개의 구간 분값에 의해 4구간의 카테고리 자료형으로 반환된다.

In [42]:
# 18 ~ 25 / 25 ~ 35 / 35 ~ 60 / 60 ~ 100 이렇게 총 4구간
cats = pd.cut(ages,bins)
cats

[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (25, 35], (60, 100], (35, 60], (35, 60], (25, 35]]
Length: 12
Categories (4, interval[int64]): [(18, 25] < (25, 35] < (35, 60] < (60, 100]]

cats.codes 를 통해, ages의 각 성분이 몇번째 구간에 속해있는지 정수index처럼 표시되는 것을 알 수 있다.  
 20은 0=첫번째 구간에, 27은 1=두번째 구간에 속한다는 것을 알 수 있다.

In [43]:
cats.codes

array([0, 0, 0, 1, 0, 0, 2, 1, 3, 2, 2, 1], dtype=int8)

cats.value_counts() 를 통해서, 값x 각 구간에 따른 성분의 갯수를 확인할 수 있다.  
value_counts()는 카테고리 자료형(Series)에서 각 구간에 속한 성분의 갯수도 파악할 수 있다.

In [44]:
cats.value_counts()

(18, 25]     5
(25, 35]     3
(35, 60]     3
(60, 100]    1
dtype: int64

 pd.cut()을 호출시, labes = [ 리스트]형식으로 인자를 추가하면 각 카테고리명을 직접 지정해 줄 수 있다.

In [48]:
group_names = ["Youth", "YoungAdult", "MiddleAged", "Senior"]

pd.cut(ages, bins, labels= group_names)

[Youth, Youth, Youth, YoungAdult, Youth, ..., YoungAdult, Senior, MiddleAged, MiddleAged, YoungAdult]
Length: 12
Categories (4, object): [Youth < YoungAdult < MiddleAged < Senior]

#### pd.cut() 구간의 개수로 나누기
2번째 인자에서 각 구간 구분값(bins)이 리스트형식으로 넣어줬던 것을 –>
나눌 구간의 갯수만 입력해준다.  
(성분의 최소값 ~ 최대값를 보고 동일 간격으로 구간을 나눈다.)

In [64]:
import numpy as np

data = np.random.rand(20)
data

array([0.01151654, 0.08489604, 0.13273552, 0.77069924, 0.30712367,
       0.52751617, 0.87232724, 0.06763211, 0.63793124, 0.46247029,
       0.42941492, 0.16516972, 0.41835361, 0.9408463 , 0.65019111,
       0.97424579, 0.60060685, 0.27364627, 0.15431855, 0.57369417])

In [66]:
# 20개의 data성분에 대해, 동일한 길이의 구간으로 4개를 나누었고, 
# 기준은 소수2번째 자리까지를 기준으로 한다.
pd.cut(data, 4, precision = 2 )

[(0.011, 0.25], (0.011, 0.25], (0.011, 0.25], (0.73, 0.97], (0.25, 0.49], ..., (0.73, 0.97], (0.49, 0.73], (0.25, 0.49], (0.011, 0.25], (0.49, 0.73]]
Length: 20
Categories (4, interval[float64]): [(0.011, 0.25] < (0.25, 0.49] < (0.49, 0.73] < (0.73, 0.97]]

### pd.qcut() - 동일 개수로 나누어서 범주 만들기 (equal-size buckets categorization)

pandas에서는 qcut이라는 함수도 제공한다.  
* 지정한 갯수만큼 구간을 정의한다. 
* pd.cut() 함수는 최대값 쵯소값만 고려해서 구간을 나눈 것에 비해
* pd.qcut() 함수는 데이터 분포를 고려하여 각 구간에 동일한 양의 데이터가 들어가도록 분위 수를 구분값으로 구간을 나누는 함수다.

In [53]:
data2 = np.random.randn(100)
data2

array([ 0.07095008, -0.28460341, -1.1113178 , -0.46064165,  0.29755175,
       -0.14465886, -0.38970629,  0.15637227,  0.0930421 , -0.64750559,
       -1.35338068, -0.87789751, -0.16446036, -1.2284163 ,  0.79399828,
       -0.0986112 , -0.53979637,  0.60120078,  0.84113324, -0.59075662,
       -2.63405623,  0.84687628,  0.3657227 , -1.30073757, -1.09361804,
        0.36392042, -0.7421156 , -0.07018914, -0.88991558,  0.35655254,
       -2.31540819,  1.30243755,  0.61987412,  0.31261493, -0.73515476,
       -0.06419485, -2.31949037,  0.64464294,  0.79415647,  0.71466014,
       -0.75980899,  1.60338082, -0.3107026 , -1.45908298,  1.820238  ,
        0.88263722, -0.62180006,  0.66719326,  0.40984178, -1.58485655,
        1.14359054, -1.79395456,  1.77910843, -0.66423495,  1.03885404,
       -0.31954981,  2.13922388,  0.51627027,  0.58441777, -0.9717766 ,
        0.9760148 , -1.01139416,  1.32686224,  0.6390049 , -0.4795768 ,
       -0.49000739, -1.99251677,  0.97939676, -0.90858316, -0.30

In [54]:
cats = pd.qcut(data2, 4)

* cats = pd.qcut(data2, 4)를 통해 4개의 구간을 나눈다.
* 최소값<—>최대값 사이를 4등분 하는 것이 아니라, 분포까지 고려해서 4분위로 나눈 다음, 구간을 결정하게 된다.
* cut함수와 달리, 각 구간의 길이가 동일하다고 말할 수 없다.

In [55]:
cats

[(-0.0905, 0.666], (-0.737, -0.0905], (-2.6439999999999997, -0.737], (-0.737, -0.0905], (-0.0905, 0.666], ..., (0.666, 2.139], (-0.737, -0.0905], (-0.0905, 0.666], (-0.0905, 0.666], (-0.0905, 0.666]]
Length: 100
Categories (4, interval[float64]): [(-2.6439999999999997, -0.737] < (-0.737, -0.0905] < (-0.0905, 0.666] < (0.666, 2.139]]

# 실습하기

다음과 같은 실습 데이터를 생성하고 실습을 진행하시오.

In [74]:
import numpy as np

np.random.seed(7)
df = pd.DataFrame(np.random.randint(160, 190, 100), columns=['height'])
df

Unnamed: 0,height
0,175
1,164
2,185
3,182
4,163
...,...
95,179
96,178
97,178
98,181


**문제1**  
level1 이라는 이름의 컬럼을 추가하는데 height를 3개의 구간으로 나누어 A, B, C 등급으로 표현하시오.

### 문제2
```
titanic = pd.read_csv('../data/titanic.csv')
```
titanic 데이터셋에서 `Age` 컬럼을 pd.cut()을 이용해 같은 길이의 구간을 가지는 다섯 개의 그룹을 만들어 보자.

### 문제 3
위에서 나눈 나이 구간별 생존율을 구하시오.(hint. groupby(['AgeBand']) )