In [None]:
import pandas as pd
from sklearn.datasets import load_iris

In [None]:
# """ Irisデータを読み込む """

# iris = load_iris()
# iris_df = pd.DataFrame(iris.data, columns=iris.feature_names)
# # iris_df["target"] = iris.target
# iris_df["species"] = iris.target_names[iris.target]

# iris_df

In [None]:
# """ データセットをCSVファイルに保存する """
# iris_df.to_csv("./datasets/iris.csv", index=False)

In [None]:
""" データセットを読み込む """
iris_df = pd.read_csv("./datasets/iris.csv")

In [None]:
"""speciesごとにデータを分割する"""

iris_setosa_df = iris_df[iris_df["species"] == "setosa"]
iris_versicolor_df = iris_df[iris_df["species"] == "versicolor"]
iris_virginica_df = iris_df[iris_df["species"] == "virginica"]

In [None]:
"""Irisデータを可視化する"""
import matplotlib.pyplot as plt
import seaborn as sns

sns.set()
sns.pairplot(iris_df, hue="species", height=2.5)

In [None]:
""" 10.2 非階層型クラスタリング （K-平均法）
"""

In [None]:
"""k-means法でクラスタリング
https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html
"""
from sklearn.cluster import KMeans

wcss = []  # Within-Cluster Sum of Squares（クラスタ内誤差平方和）

# クラスタ数1から10までで、k-means法のモデルを作成して、クラスタ内誤差平方和を計算する
for i in range(1, 11):
    kmeans = KMeans(
        n_clusters=i, init="k-means++", n_init=10, max_iter=300, random_state=42
    )
    x = iris_df[
        [
            "sepal length (cm)",
            "sepal width (cm)",
            "petal length (cm)",
            "petal width (cm)",
        ]
    ]
    kmeans.fit(x)
    iris_df[f"n_clusters:{i}"] = kmeans.labels_
    wcss.append(kmeans.inertia_)

In [None]:
iris_df

In [None]:
"""WCSSを描画してエルボー図を作成"""

sns.lineplot(x=range(1, 11), y=wcss)
plt.xlabel("Number of Clusters")
plt.ylabel("WCSS")
plt.show()

In [None]:
"""クラスタリング3の結果を可視化する"""

# 不要な列を削除する。 今回はクラスタ3の結果のみを残す。
drop_cols = [
    "species",
    "n_clusters:1",
    "n_clusters:2",
    # "n_clusters:3",
    "n_clusters:4",
    "n_clusters:5",
    "n_clusters:6",
    "n_clusters:7",
    "n_clusters:8",
    "n_clusters:9",
    "n_clusters:10",
]
sns.pairplot(iris_df.drop(columns=drop_cols), hue="n_clusters:3", height=2.5)

In [None]:
"""クラスタリング結果を可視化する"""

from cProfile import label

sns.scatterplot(
    x="sepal length (cm)", y="sepal width (cm)", hue="n_clusters:3", data=iris_df
)
plt.title("sepal length (cm) vs sepal width (cm)")
plt.show()

sns.scatterplot(
    x="petal length (cm)", y="petal width (cm)", hue="n_clusters:3", data=iris_df
)
plt.title("petal length (cm) vs petal width (cm)")
plt.show()