### 半监督学习

In [1]:
# 半监督学习：样本集部分有标注，部分无标注（常远大于有标注样本）
# 目标是：试图根据有标注的样本和样本总体的分布情况给没有标注的样本打上标注。
# 产生的原因：
    # 1.获取标注的成本比较大
    # 2.无标注的样本可能很容易获得
# 算法思路
    # 1.生成模型：先计算出样本特征总体的联合分布，就可以根据生成模型思想将所有有标注的样本计算出一个分布，然后将没有标注的样本放入这个分布中，看根据这个分布，它该如何被标注。
    # 2.物以类聚（判别思路）：
        # 标签传播算法（LabelPropagation）：根据没有标注的样本和周围有标注的样本进行相似度的比较，相似度高的就被标注成临近的标注
            # kernel:{'knn', 'rbf', callable} 使用的方法
            # gamma:float  rbf中的方法 
            # n_neighbors:integer>0  knn中的方法

In [18]:
import numpy as np
from sklearn import datasets

# 引入鸢尾花数据集
iris = datasets.load_iris()
# print(iris)
# 获取label
labels = np.copy(iris.target)
# print(len(labels))
# 标签传播算法中要求未标注的数据的label为-1
# 构造一些值将label设置为-1
random_unlabeled_points = np.random.rand(len(iris.target))
# 将random_unlabeled_points转换成0和1的数 小于0.3返回1  大于等于0.3返回0
random_unlabeled_points = random_unlabeled_points<0.3
# 转换之前的值
Y = labels[random_unlabeled_points]
# 将标签为1的数换成-1
labels[random_unlabeled_points] = -1
# 打印无标注数据
print("Unlabeled Number:", list(labels).count(-1))
# 引入半监督学习算法 LabelPropagation
from sklearn.semi_supervised import LabelPropagation
label_prop_model = LabelPropagation()
# 拟合包含非标注的labels
label_prop_model.fit(iris.data, labels)
# 进行预测
Y_pred = label_prop_model.predict(iris.data)
# 取原来被标注过-1的那部分数据
Y_pred = Y_pred[random_unlabeled_points]
# 引入评价方法，准确率，召回率，F分值
from sklearn.metrics import accuracy_score, recall_score, f1_score
print("ACC:", accuracy_score(Y, Y_pred))
# micro 将分对的单独拿出来计算REC
print("REC:", recall_score(Y, Y_pred, average="micro"))
print("F-Score:", f1_score(Y, Y_pred, average="micro"))

Unlabeled Number: 47
ACC: 0.9787234042553191
REC: 0.9787234042553191
F-Score: 0.9787234042553191
