## KBinsDiscretizer

In [1]:
# discretize numeric input variables
from sklearn.datasets import make_classification # 가상데이터 만든다
from sklearn.preprocessing import KBinsDiscretizer  # 연속형 변수를 일정 기준으로 그룹핑할 때 사용한다


In [2]:
# define dataset
X, y = make_classification(n_samples=1000, n_features=5, random_state=1)  
# X, y라는 두개의 가상 변수를 만들겠다. make_classification() 속에 있는 기준에 맞춰서.
# 1000개의 샘플, 5개의 독립변수 기준, random_state=1 샘플 발생시키되 씨드를 1 기준으로 발생시킬 것
# 1000개 넘는 데이터를 만들었으므로 어느정도는 대수의 법칙이 적용됩니다.
# random_state는 random 함수의 seed 값을 고정시키기 때문에 여러번 수행하더라도 같은 레코드를 추출합니다. 서로 다른 컴퓨터에서도 같은 숫자를 사용하면 같은 값이 나옵니다. 보통은 42를 많이 사용합니다. 
# 단톡방에 있는 사람들끼리 랜덤스테이트를 같은 숫자를 넣고 만들어보시면 이해 되실거여요!! 

# summarize data before the transform
print(X[:3, :])

[[-1.39087601  0.62478042  3.4809096   2.3823372   0.38622388]
 [-0.48529475  0.30051483  1.33915253  0.84620081  1.17745439]
 [-0.73504687  0.13412273  1.54350554  1.22343943 -0.62879943]]


---

### * 참고 : make_classification

#### make_classification함수는 설정에 따른 분류용 가상 데이터를 생성하는 명령이다. 이 함수의 인수와 반환값은 다음과 같다.

### 인수:
```
- n_samples : 표본 데이터의 수, 디폴트 100
- n_features : 독립 변수의 수, 디폴트 20
- n_informative : 독립 변수 중 종속 변수와 상관 관계가 있는 성분의 수, 디폴트 2
- n_redundant : 독립 변수 중 다른 독립 변수의 선형 조합으로 나타나는 성분의 수, 디폴트 2
- n_repeated : 독립 변수 중 단순 중복된 성분의 수, 디폴트 0
- n_classes : 종속 변수의 클래스 수, 디폴트 2
- n_clusters_per_class : 클래스 당 클러스터의 수, 디폴트 2
- weights : 각 클래스에 할당된 표본 수
- random_state : 난수 발생 시드
- 반환값: 
    X : [n_samples, n_features] 크기의 배열 (독립 변수)
    y : [n_samples] 크기의 배열 (종속 변수)
```
- 출처 : https://datascienceschool.net/03%20machine%20learning/09.02%20%EB%B6%84%EB%A5%98%EC%9A%A9%20%EA%B0%80%EC%83%81%20%EB%8D%B0%EC%9D%B4%ED%84%B0%20%EC%83%9D%EC%84%B1.html
---

우리는 지도 학습을 위한 가상데이터를 생성하기 위해 X, y를 함께 생성했다고 가정합시다.<br>
지도 학습은 컴퓨터에게 정답(Label)이 무엇인지 알려주면서 컴퓨터를 학습을 하는 방법입니다.<br>
예를 들어 3x5=15, 6x4=24 등을 학습시킨 후 9x3=?? 등의 주어진 문제를 해결하는 학습 방법입니다.<br>
그러니까 X(특징데이터, feature)만 있으면 안 되겠죠. y(타겟데이터, target, 정답)도 같이 줘야겠죠.<br>
참고자료: https://mong9data.tistory.com/9
---

In [3]:
X.shape # 훈련데이터. 제대로 만들어졌는지 확인. X는 이미 주어진 독립변수라서 상수처럼 취급하기에 대문자 X로 표기. (ax + b = y 생각하면 쉬움)

(1000, 5)

In [4]:
type(X)

numpy.ndarray

In [5]:
X.dtype

dtype('float64')

In [6]:
X

array([[-1.39087601,  0.62478042,  3.4809096 ,  2.3823372 ,  0.38622388],
       [-0.48529475,  0.30051483,  1.33915253,  0.84620081,  1.17745439],
       [-0.73504687,  0.13412273,  1.54350554,  1.22343943, -0.62879943],
       ...,
       [-0.82358043, -1.67277753, -1.02365026,  1.04002816, -0.11854175],
       [ 0.98789408,  2.10104553,  1.37063331, -1.23037436, -0.56362206],
       [ 0.63522093,  1.25870523,  0.74197203, -0.8078796 , -0.9128101 ]])

In [7]:
y.shape # 결과데이터. 제대로 만들어졌는지 확인. y는 종속변수라서 X 값에 의해 변하므로 소문자로 표기. X를 넣었을 때 y값을 함께 제시함으로서 둘 사이의 연관관계를 찾아내도록 하는 지도학습에서 주로 쓰임. (신라면 예시 생각하시면 됩니다)

(1000,)

In [8]:
type(y)

numpy.ndarray

In [9]:
y.dtype

dtype('int32')

In [10]:
y # 1(맞음), 0(틀림) 밖에 없음 

array([1, 1, 1, 1, 0, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0,
       1, 1, 1, 0, 0, 1, 0, 1, 0, 1, 1, 0, 0, 0, 1, 1, 1, 0, 1, 1, 1, 0,
       1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 1,
       0, 1, 0, 0, 1, 0, 1, 1, 0, 1, 0, 0, 1, 1, 0, 1, 0, 1, 1, 0, 0, 0,
       0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 1, 0, 1,
       1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 1,
       0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 1, 1, 1, 1,
       0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0,
       1, 0, 1, 0, 1, 0, 0, 1, 0, 0, 1, 0, 1, 0, 1, 1, 0, 0, 1, 1, 1, 1,
       1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 0,
       0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 0,
       1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 1, 1,
       1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0,
       1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 1,

In [11]:
# X와 y는 현재 이런식으로 1:1로 매칭되어있는 거여요.
print(X[0,:], y[0])

[-1.39087601  0.62478042  3.4809096   2.3823372   0.38622388] 1


In [12]:
# define the transform
trans = KBinsDiscretizer(n_bins=10, encode='ordinal', strategy='uniform') 
# transform하기 위한 변수이기 때문에 trans 라는 변수명 지정
# 이번 tranns KBinsDiscretizer를 이용해서 연속형 변수를 범주화하겠다는 의미 
# n_bins = 10 : 10개로 범주화할거다
# encoding 방식 : ordinal(순서대로 - 숫자면 작은거-큰거, 영어면 알파벳순) - 선택가능한 종류는  {'onehot', 'onehot-dense', 'ordinal'}
# 추천자료 : https://techblog-history-younghunjo1.tistory.com/99
# https://runebook.dev/ko/docs/scikit_learn/modules/generated/sklearn.preprocessing.kbinsdiscretizer
# strategy 방식 : uniform(동일 간격으로) - 선택 가능한 종류: uniform - 각 피처의 모든 빈은 너비가 동일, quantile - 각 기능의 모든 구간에는 동일한 개수, kmeans - 각 구간의 값은 1D k- 평균 군집의 가장 가까운 중심

In [13]:
type(trans) 

sklearn.preprocessing._discretization.KBinsDiscretizer

In [14]:
# transform the data
X_discrete = trans.fit_transform(X) # fit_transform(X)를 통해 X를 연속형 게별 숫자들-> 범주형으로 변경해서 그 순서에 맞는 숫자로 치환할거임

In [15]:
X[0, :] # 범주가 잘 묶였나 확인

array([-1.39087601,  0.62478042,  3.4809096 ,  2.3823372 ,  0.38622388])

---
가상 데이터가 잘 만들어졌는지는 확인했는데, 만들고 보니 굳이 1000개나 되는 각각의 특성 샘플로 구분할 필요는 없는 거 같습니다.<br>
KBinsDiscretizer를 통해 데이터들을 구간화해서 10개 정도로 추리면 X의 각 숫자가 n_bins로 나눈 구간 안에 들어가는 숫자로 치환됩니다.<br>
사람마다 발사이즈는 다른데 5mm 구간으로 끊어서 신발 사이즈가 나오는 걸로 생각하시면 되겠습니다.
예시: 220~225 사이 -> 225mm, 245~250 사이 -> 250mm  
현재 예시에서는 0에서 9의 10개 구간 사이 값으로 매겨진 구간에 따라 치환됩니다.
---

In [16]:
print(X_discrete[0, :])

[3. 6. 9. 7. 5.]


In [17]:
print(X_discrete[1, :])

[4. 6. 6. 5. 6.]


In [18]:
X_discrete

array([[3., 6., 9., 7., 5.],
       [4., 6., 6., 5., 6.],
       [4., 5., 7., 5., 3.],
       ...,
       [4., 4., 3., 5., 4.],
       [7., 8., 6., 3., 3.],
       [6., 7., 6., 3., 3.]])

In [19]:
X_discrete.shape

(1000, 5)

In [20]:
X_discrete.dtype

dtype('float64')

In [21]:
X_discrete.ndim

2

In [41]:
# X_discrete을 pandas로 옮겨서 pandas DataFrame에만 제공하는 툴로 형태 보기 
import pandas as pd
data = pd.DataFrame(X)
# data.describe().round()
data.describe()

Unnamed: 0,0,1,2,3,4
count,1000.0,1000.0,1000.0,1000.0,1000.0
mean,0.002207,-0.0054,-0.012181,-0.004581,-0.015281
std,0.973405,1.627238,1.412777,1.354849,0.973626
min,-3.167257,-5.458709,-4.03367,-3.761544,-3.064141
25%,-0.747775,-1.087399,-1.07813,-1.052429,-0.704875
50%,0.163975,0.153949,0.149589,-0.170901,-0.014043
75%,0.767555,1.404251,1.014005,1.003103,0.659843
max,2.569775,3.880047,3.747581,4.636961,3.740249


In [48]:
# X_discrete을 pandas로 옮겨서 pandas DataFrame에만 제공하는 툴로 형태 보기 
import pandas as pd
data_discrete = pd.DataFrame(X_discrete)
# data.describe().round()
data_discrete.describe()

Unnamed: 0,0,1,2,3,4
count,1000.0,1000.0,1000.0,1000.0,1000.0
mean,5.025,5.342,4.67,3.982,3.981
std,1.710351,1.754456,1.824947,1.625521,1.460401
min,0.0,0.0,0.0,0.0,0.0
25%,4.0,4.0,3.0,3.0,3.0
50%,5.0,6.0,5.0,4.0,4.0
75%,6.0,7.0,6.0,5.0,5.0
max,9.0,9.0,9.0,9.0,9.0


In [54]:
type(data_discrete)

pandas.core.frame.DataFrame

In [56]:
pd.unique(data_discrete[0]) 

array([3., 4., 6., 5., 1., 2., 7., 0., 8., 9.])

In [24]:
# summarize data after the transform
print(X_discrete[:3, :]) 

[[3. 6. 9. 7. 5.]
 [4. 6. 6. 5. 6.]
 [4. 5. 7. 5. 3.]]


In [25]:
X.min()

-5.4587088411371845

In [26]:
X.max()

4.636961158177204

In [27]:
y.mean() # y는 X의 결과로 파생된 결과값 1000개로 구성된 세트입니다. 1(맞음), 0(틀림)의 결과값을 평균했을 때 0.5가 나왔으니 이것도 대수의 법칙!

0.496

In [4]:
sum =0 
for i in range(1,10) :
    for k in range (0, 10, 2) :
        sum +=1
print(sum)

45
