`X, y = make_classification(
    n_samples=100, n_features=20, n_informative=2, 
    n_redundant=2, n_repeated=0, n_classes=2, 
    n_clusters_per_class=2, weights=None, random_state=None)`
- n_samples : 표본 데이터의 수
- n_features : 독립 변수의 수
- n_informative : 독립 변수 중 종속 변수와 상관관계가 있는 성분의 수
- n_redundant : 독립 변수 중 다른 독립 분수의 선형 조합으로 나타나는 성분의 수
- n_repeated : 독립 변수 중 단순 중복된 성분의 수
- n_clusters_per_class : 클래스 당 클러스터의 수
- weights : 각 클래스에 할당된 표본 수
- random_state : 난수 발생 시드

In [3]:
from sklearn.datasets import make_classification


x가 1차원인 얘들입니다. 하나있는데 그것이 종속변수와 상관관계가 잇는, 즉 informative한 것입니다.. 각 클래스당 클러스터는 각각 1개씩입니다. 

In [4]:
X, y = make_classification(n_features=1, n_informative=1, 
                           n_redundant=0, n_clusters_per_class=1, random_state=4)
plt.scatter(X, y, marker='o', c=y, 
            s=100, edgecolor="k", linewidth=2)
plt.show()

<IPython.core.display.Javascript object>

x 데이터가 2차원입니다. y값은 색깔로 나타내고 있습니다. 실제로 쓸모가 있는 데이터는 2개중에 1개입니다. 위의 표에서는 x2가 informative합니다. (분류가 가능)

In [5]:
plt.title("One informative feature, one cluster per class")
X, y = make_classification(n_features=2, n_informative=1, n_redundant=0, 
                           n_clusters_per_class=1, random_state=4)
plt.scatter(X[:, 0], X[:, 1], marker='o', c=y, 
            s=100, edgecolor="k", linewidth=2)
plt.show()

<IPython.core.display.Javascript object>

2차원 데이터에 informative data가 x1,x2 모두입니다. 즉 어떠한 차원 각으로 보아도 분류가 가능합니다.

In [12]:
plt.title("Two informative features, one cluster per class")
X, y = make_classification(n_features=2, n_informative=2, n_redundant=0, 
                           n_clusters_per_class=1, random_state=6)
plt.scatter(X[:, 0], X[:, 1], marker='o', c=y, 
            s=100, edgecolor="k", linewidth=2)
plt.show()

<IPython.core.display.Javascript object>

위와 같은 조건이지만 하나의 조건이 추가되었는데 바로 imbalanced case입니다. 즉, 검정색의 데이터가 0.9 흰 데이터가 0.1로 훨씬 많습니다. imbalance 문제가 따로 있지만 추후에 다시 다루겠습니다.

In [13]:
plt.title("Two informative features, one cluster per class, different weight")
X, y = make_classification(n_features=2, n_informative=2, n_redundant=0, 
                           n_clusters_per_class=1, weights=[0.9, 0.1], random_state=6)
plt.scatter(X[:, 0], X[:, 1], marker='o', c=y, 
            s=100, edgecolor="k", linewidth=2)
plt.show()

<IPython.core.display.Javascript object>

클래스 당 클러스터의 수를 2개로 늘린 것입니다. 아래의 표는 Two informative features, two clusters per class라고 나와있는데, 이전에 배웠던 Guassian mixtures model과 같이 하나의 클래스에 두 개의 probabiltiy distribution이 mixed되어 있다는 뜻입니다.

In [14]:
plt.title("Two informative features, two clusters per class")
X2, Y2 = make_classification(n_features=2, n_informative=2, n_redundant=0, 
                             random_state=2)
plt.scatter(X2[:, 0], X2[:, 1], marker='o', c=Y2, 
            s=100, edgecolor="k", linewidth=2)
plt.show()

<IPython.core.display.Javascript object>

하나의 클래스에 세 개의 클러스터가 할당되어 있는 상태입니다.

In [15]:
plt.title("Multi-class, two informative features, one cluster")
X, y = make_classification(n_features=2, n_informative=2, n_redundant=0, 
                           n_clusters_per_class=1, n_classes=3)
plt.scatter(X[:, 0], X[:, 1], marker='o', c=y, 
            s=100, edgecolor="k", linewidth=2)
plt.show()

<IPython.core.display.Javascript object>

classification을 할 때 사용하는 모델링 메소드로써, 아래의 그림과 같이 클러스터를 생성합니다.

In [16]:
from sklearn.datasets import make_blobs


In [17]:
plt.title("Three blobs")
X1, Y1 = make_blobs(n_features=2, centers=3)
plt.scatter(X1[:, 0], X1[:, 1], marker='o', c=Y1, s=100,
            edgecolor="k", linewidth=2)
plt.show()

<IPython.core.display.Javascript object>