**단계 1:** 전처리에 사용할 패키지 로드

In [1]:
import numpy as np
import pandas as pd
from pandas import DataFrame

In [4]:
# 이산화에 사용할 데이터를 생성합니다.

np.random.seed(10)

df = DataFrame({'C1': np.random.randn(20),
'C2': ['a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a',
'b', 'b', 'b', 'b', 'b', 'b', 'b', 'b', 'b', 'b']})

df

Unnamed: 0,C1,C2
0,1.331587,a
1,0.715279,a
2,-1.5454,a
3,-0.008384,a
4,0.621336,a
5,-0.720086,a
6,0.265512,a
7,0.108549,a
8,0.004291,a
9,-0.1746,a


**단계 2:** 연속형 변수의 이산화

In [5]:
# numpy.linspace(start, stop, num)은 start~stop 구간을 num개로 균일하게 나누는 함수입니다.
# 여기서는 bins에 C1.min()부터 C1.max() 까지의 구간을 10개의 균일간 구간으로 나눕니다.

bins = np.linspace(df.C1.min(), df.C1.max(), 10)
bins

array([-1.54540029, -1.20874059, -0.87208089, -0.53542119, -0.19876149,
        0.1378982 ,  0.4745579 ,  0.8112176 ,  1.1478773 ,  1.484537  ])

In [6]:
# numpy.digitize(data, bins)는 bins의 구간에 맞춰 연속형 변수를 이산화 합니다.
# 이때의 이산화는 연속적인 데이터를 몇개의 범주로 나누는 것을 의미합니다.

df['C1_bin'] = np.digitize(df['C1'], bins)
df

Unnamed: 0,C1,C2,C1_bin
0,1.331587,a,9
1,0.715279,a,7
2,-1.5454,a,1
3,-0.008384,a,5
4,0.621336,a,7
5,-0.720086,a,3
6,0.265512,a,6
7,0.108549,a,5
8,0.004291,a,5
9,-0.1746,a,5


**단계 3:** 조건을 활용한 연속형 변수의 이산화

In [6]:
# numpy.where(조건)을 사용하여 조건을 부여한 이산화, 범주화가 가능합니다.
# 예제에서는 연속형 변수 C1의 평균을 기준으로 평균 이상이면 'high' 아니면 'low'로 결정합니다.
# 이러한 결과는 DataFrame의 'high_low' 속성에 저장되도록 합니다.
# numpy.where(조건)의 조건은 조건이 나오고, '참일때 값', '거짓일때 값' 순으로 기록합니다.

df['high_low'] = np.where(df['C1'] >= df.C1.mean(), 'high', 'low')
df

Unnamed: 0,C1,C2,C1_bin,high_low
0,1.331587,a,9,high
1,0.715279,a,7,high
2,-1.5454,a,1,low
3,-0.008384,a,5,low
4,0.621336,a,7,high
5,-0.720086,a,3,low
6,0.265512,a,6,high
7,0.108549,a,5,low
8,0.004291,a,5,low
9,-0.1746,a,5,low


In [8]:
# pandas.groupby(기준) 함수는 기준을 사용하여 데이터를 그룹화 합니다.
# pandas.groupby ('C1_bin')['C1'].size()는 ‘C1_bin’을 기준으로 C1데이터의 종류별 크기를 분류화 합니다.
# 여기서는 high와 low 각각에 대한 값이 출력됩니다.

df.groupby('high_low')['C1'].size()


high_low
high    11
low      9
Name: C1, dtype: int64

In [9]:
# high_low를 기준으로 C1의 평균값을 계산합니다.

df.groupby('high_low')['C1'].mean()


high_low
high    0.717408
low    -0.613011
Name: C1, dtype: float64

In [10]:
# high_low를 기준으로 C1의 표준편차를 계산합니다.

df.groupby('high_low')['C1'].std()


high_low
high    0.473769
low     0.607895
Name: C1, dtype: float64

**단계 4:** 복 조건을 활용한 연속형 변수의 이산화

In [None]:
# numpy.where()을 사용하여 복잡한 조건을 표현하는 것이 가능합니다.
# 이때 복잡한 조건은 if-else가 아니라 if-elseif-elseif-else와 같은 조건을 의미합니다.
# numpy.percentile(data, percent)를 사용하여 데이터를 정렬했을때, 해당 백분위에 있는 값을 사용하는 것도 가능합니다.

# Q1은 25%, Q3는 75%에 해당되는 백분위 값 입니다.
Q1 = np.percentile(df['C1'], 25)
Q3 = np.percentile(df['C1'], 75)

# 'C1'속성의 값이 Q3모다 크다면, '01_high', Q1의 값보다 크다면 '02_medium' 아니면 'o3_low'로 합니다.
df['h_m_l'] = np.where(df['C1'] >= Q3, '01_high',
np.where(df['C1'] >= Q1, '02_medium', '03_low'))

df
