In [None]:
import pandas as pd
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
from sklearn.metrics import silhouette_score

# 聚类

In [None]:
# 读取数据，四张表
# 读取了订单和产品的关联
prior = pd.read_csv("./data/instacart/order_products__prior.csv")
print(prior.head())
print()
# 产品id和产品名称的对应
products = pd.read_csv("./data/instacart/products.csv")
print(products.head())
print()
# 订单id和用户id的对应
orders = pd.read_csv("./data/instacart/orders.csv")
print(orders.head())
print()
# 超市的过道/过道放的产品品类
aisles = pd.read_csv("./data/instacart/aisles.csv")
print(aisles.head())
print()

# 合并四张表成一张表（用户-物品类别）
_mg = pd.merge(prior, products, on=['product_id', 'product_id'])
_mg = pd.merge(_mg, orders, on=['order_id', 'order_id'])
mt = pd.merge(_mg, aisles, on=['aisle_id', 'aisle_id'])
print(mt.head())
print(mt.shape)
print()

# 交叉表（特殊的分组工具）
cross = pd.crosstab(mt['user_id'], mt['aisle'])
print(cross.head())
print(cross.shape)
print()

# 数据截取
table = cross[:100]

# 特征工程(pca)
# 主成分分析进行特征降维
# n_components:小数 业界选择 90~95%
# n_components:整数 减少到的特征数量
pca = PCA(n_components=0.9)
data = pca.fit_transform(table)  # 聚类是无监督学习，没有目标值

# 机器学习（k-means）
# 假设用户一共分为四个类别
km = KMeans(n_clusters=4,random_state=22)
km.fit(data)

# 模型预测
predict = km.predict(data)
print(predict)
print(len(predict))

# 模型评估
silhouette_score(data, predict)

# 显示聚类的结果
plt.figure(figsize=(20, 20))
color = ['orange', 'green', 'blue', 'purple']
col = [color[i] for i in predict]
# 取任意两个特征看聚类的图
plt.scatter(x[:,2], x[:,20], color=col)
plt.show()

# n_clusters分为2个类别时
km = KMeans(n_clusters=2, random_state=22)
km.fit(data)
predict = km.predict(data)
silhouette_score(data, predict)

# n_clusters分为3个类别时
km = KMeans(n_clusters=3, random_state=22)
km.fit(data)
predict = km.predict(data)
silhouette_score(data, predict)