## Difusión de etiquetas para aprendizaje semi-supervisado

Es importante destacar que el conjunto de datos de entrenamiento proporcionado al ajuste() La función debe incluir ejemplos etiquetados que estén codificados ordinalmente (como es normal) y ejemplos no etiquetados marcados con una etiqueta de -1.
A continuación, el modelo determinará una etiqueta para los ejemplos sin etiqueta como parte del ajuste del modelo.
Una vez que se ajusta el modelo, las etiquetas estimadas para los datos etiquetados y no etiquetados en el conjunto de datos de entrenamiento están disponibles a través de transducción_

In [1]:
# evaluar la distribución de etiquetas en el conjunto de datos de aprendizaje semi-supervisado
import numpy as np
from numpy import concatenate
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import precision_score
from sklearn.semi_supervised import LabelSpreading
from sklearn.linear_model import LogisticRegression

import matplotlib.pyplot as plt
%matplotlib inline

np.random.seed(42)

In [2]:
#import sys
#sys.path.append( '../..' )
#from utils import labels_train, labels_test

In [3]:
# definir conjunto de datos
X, y = make_classification (n_samples = 1000, n_features = 2, n_informative = 2, n_redundant = 0, random_state = 1)
# dividir en entrenar y probar
X_train, X_test, y_train, y_test = train_test_split (X, y, test_size = 0.50, random_state = 1, stratify = y)
# dividir el tren en etiquetado y sin etiquetar
X_train_lab, X_test_unlab, y_train_lab, y_test_unlab = train_test_split (X_train, y_train, test_size = 0.50, random_state = 1, stratify = y_train)
# crear la entrada del conjunto de datos de entrenamiento
X_train_mixed = concatenate ((X_train_lab, X_test_unlab))
# crear nolabel para datos sin etiquetar
nolabel = [-1 for _ in range(len(y_test_unlab))]
# recombinar etiquetas de conjuntos de datos de entrenamiento
y_train_mixed = concatenate ((y_train_lab, nolabel))

In [4]:
# definir modelo
model = LabelSpreading ()
# ajuste del modelo en el conjunto de datos de entrenamiento
model.fit (X_train_mixed, y_train_mixed)
# hacer predicciones en el conjunto de prueba de espera
yhat = model.predict (X_test)

In [5]:
# calcular el score para el conjunto de prueba
score = precision_score (y_test, yhat)
# mostrar score
print ('Precisión:% .3f'% (score * 100))

Precisión: 85.317


In [6]:
# obtener etiquetas para todo el conjunto de datos de entrenamiento
tran_labels = model.transduction_

In [7]:
tran_labels

array([0, 0, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 1, 0, 1, 1, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 1, 1, 1, 0,
       0, 0, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0,
       0, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 0, 0, 1, 1, 0, 1,
       0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1,
       0, 1, 1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1,
       1, 1, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0,
       1, 1, 0, 1, 1, 0, 0, 0, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 0, 1, 1, 0,
       0, 1, 1, 0, 1, 0, 1, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 1, 0, 0, 1,
       1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0,
       0, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0,
       0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0,
       1, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 0, 0, 1,
       0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0,

Luego, podemos usar estas etiquetas, junto con todos los datos de entrada, para entrenar y evaluar un algoritmo de aprendizaje supervisado, como un modelo de regresión logística.

In [8]:
# definir el modelo de aprendizaje supervisado
model2 = LogisticRegression()
# ajuste del modelo de aprendizaje supervisado en todo el conjunto de datos de entrenamiento
model2.fit (X_train_mixed, tran_labels)
# hacer predicciones en el conjunto de prueba de espera
yhat = model2.predict (X_test)
# calcular la puntuación para el conjunto de prueba
score = precision_score (y_test, yhat)
# mostrar score
print ('Precisión:% .3f'% (score * 100))

Precisión: 83.582
