# Question 7

Pesquise e apresente um trabalho sobre redes neurais/deep learning com aprendizagem semi-supervisionada.

Authors: 
  - [Morsinaldo de Azevedo Medeiros](https://github.com/Morsinaldo)
  - [Thaís de Araújo de Medeiros](https://github.com/thaisaraujo2000)

Adapted from [BROWNLEE, Jason. Semi-Supervised Learning With Label Propagation](https://machinelearningmastery.com/semi-supervised-learning-with-label-propagation/)

A aprendizagem semi-supervisionada se refere a algoritmos que tentam utilizar tanto dados de treinamento rotulados quanto não rotulados.

Os algoritmos de aprendizagem semi-supervisionada são diferentes dos algoritmos de aprendizagem supervisionada, que só conseguem aprender a partir de dados de treinamento rotulados.

Uma abordagem popular para a aprendizagem semi-supervisionada é criar um grafo que conecta exemplos no conjunto de dados de treinamento e propagar os rótulos conhecidos através das arestas do grafo para rotular exemplos não rotulados. Um exemplo dessa abordagem para a aprendizagem semi-supervisionada é o algoritmo de propagação de rótulos (Label Propagation Algorithm) para modelagem preditiva de classificação.

Com isso em vista, o presente estudo é dividido em três partes:

1. Label Propagation Algorithm
2. Semi-Supervised Classification Dataset
3. Label Propagation for Semi-Supervised Learning

## 1 Label Propagation Algorithm

O Label Propagation é um algoritmo proposto no relatório técnico de 2002 por Xiaojin Zhu e Zoubin Ghahramani intitulado "[Learning From Labeled And Unlabeled Data With Label Propagation](http://pages.cs.wisc.edu/~jerryzhu/pub/CMU-CALD-02-107.pdf)" (Aprendendo a partir de Dados Rotulados e Não Rotulados com Propagação de Rótulos).

A intuição por trás do algoritmo é que um grafo é criado para conectar todos os exemplos (linhas) no conjunto de dados com base em sua distância, como a [distância euclidiana](https://machinelearningmastery.com/distance-measures-for-machine-learning/). Os nós no grafo então possuem rótulos suaves ou distribuição de rótulos com base nos rótulos ou distribuições de rótulos dos exemplos conectados nas proximidades no grafo.

## 2 Semi-Supervised Classification Dataset

Nesta seção, vamos definir um conjunto de dados para aprendizagem semi-supervisionada e estabelecer uma linha de base de desempenho no conjunto de dados.

Primeiro, podemos definir um conjunto de dados de classificação sintético usando a função [make_classification()](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_classification.html).

Vamos definir o conjunto de dados com duas classes (classificação binária), duas variáveis de entrada e 1.000 exemplos.

### Importação das bibliotecas

In [None]:
# import libraries
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.linear_model import LogisticRegression

### Importação dos dados

In [None]:
# define dataset
X, y = make_classification(n_samples=1000, n_features=2, n_informative=2, n_redundant=0, random_state=1)

In [None]:
print(X)

[[ 0.86341137 -0.91235445]
 [-0.53099717  0.90118241]
 [ 0.98277596 -1.59111159]
 ...
 [ 1.33019532  3.72180951]
 [-1.01084076  0.42633933]
 [-1.00873243  1.24540194]]


In [None]:
print(y)

[1 0 0 0 1 1 1 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 1 1 1 1 1 0 0 0 0 0 0 1 1 0 0
 1 1 1 1 0 0 1 0 0 0 1 1 1 1 1 0 1 1 1 1 0 0 0 0 1 1 0 1 1 0 1 1 0 1 1 0 0
 0 1 1 1 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 1 0 1 0 0 0 0 1 1 1 1 1 1 0 1 0 1 0
 0 1 1 1 1 1 1 1 1 1 0 1 0 1 0 0 1 0 0 0 0 1 1 0 1 0 1 1 1 1 0 0 0 1 1 0 0
 0 1 0 0 1 1 1 1 0 1 0 0 1 0 1 1 1 1 1 0 0 0 0 0 0 1 0 1 1 0 1 0 1 0 1 0 0
 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 1 1 0 1 0
 0 0 1 0 1 0 1 0 1 0 0 0 1 1 0 0 1 0 0 1 1 1 1 0 1 1 0 0 0 0 1 0 0 0 1 0 1
 1 0 0 1 0 0 0 1 0 1 0 0 1 1 1 0 1 0 1 1 1 1 0 0 0 0 1 0 0 1 0 0 1 1 1 1 0
 0 0 0 1 0 0 0 1 0 1 0 1 0 1 0 1 1 0 0 1 0 0 0 0 1 0 0 1 0 0 1 1 1 0 1 0 1
 0 1 0 0 1 1 0 1 1 0 1 0 0 0 1 0 0 0 1 1 1 1 1 1 1 1 1 0 1 0 1 1 1 1 0 1 1
 0 0 1 1 0 1 0 1 1 0 1 1 1 1 0 1 1 0 0 1 0 0 0 1 0 0 0 1 0 0 1 1 0 0 1 0 0
 1 0 0 0 1 1 1 0 1 1 0 1 1 0 0 1 0 1 1 0 0 1 1 1 1 1 1 0 1 0 1 1 1 1 0 0 0
 1 1 0 0 0 0 0 0 1 0 1 1 1 1 0 0 0 1 0 1 1 0 0 0 0 0 1 0 1 1 1 0 1 0 0 0 1
 1 1 1 1 0 0 1 0 1 0 0 1 

In [None]:
len(X), len(y)

(1000, 1000)

A seguir, vamos dividir o conjunto de dados em treinamento e teste com uma proporção de 50-50 (500 observações em cada).

### Train Test Split

In [None]:
# split into train and test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.50, random_state=1, stratify=y)

Por fim, vamos dividir o conjunto de treinamento novamente em uma porção que possui rótulos e uma porção que não contém, isto é, um conjunto de validação. A propoção seguida foi a mesma da divisão anterior.

In [None]:
# split train into labeled and unlabeled
X_train_lab, X_test_unlab, y_train_lab, y_test_unlab = train_test_split(X_train, y_train, test_size=0.50, random_state=1, stratify=y_train)

Executando a célula de código abaixo, podemos observar que temos apenas 250 observações rotuladas, 250 não rotuladas no conjunto de validação (Unlabeled Train) e 500 no conjunto de teste.

In [None]:
# summarize training set size
print('Labeled Train Set:', X_train_lab.shape, y_train_lab.shape)
print('Unlabeled Train Set:', X_test_unlab.shape, y_test_unlab.shape)
# summarize test set size
print('Test Set:', X_test.shape, y_test.shape)

Labeled Train Set: (250, 2) (250,)
Unlabeled Train Set: (250, 2) (250,)
Test Set: (500, 2) (500,)


Um algoritmo de aprendizagem semi-supervisionada terá as 250 linhas rotuladas, bem como as 250 linhas não rotuladas, que podem ser usadas de várias maneiras para melhorar o conjunto de dados de treinamento rotulado.

Em seguida, podemos estabelecer uma linha de base de desempenho no conjunto de dados de aprendizagem semi-supervisionada usando um algoritmo de aprendizagem supervisionada ajustado apenas nos dados de treinamento rotulados.

Isso é importante porque esperamos que um algoritmo de aprendizagem semi-supervisionada supere um algoritmo de aprendizagem supervisionada ajustado apenas nos dados rotulados. Se isso não acontecer, significa que o algoritmo de aprendizagem semi-supervisionada não possui habilidade.

Neste caso, usaremos um algoritmo de regressão logística ajustado na parte rotulada do conjunto de dados de treinamento.

### Train

In [None]:
# define model
model = LogisticRegression()
# fit model on labeled dataset
model.fit(X_train_lab, y_train_lab)

### Predictions

In [None]:
# make predictions on hold out test set
yhat = model.predict(X_test)

In [None]:
# calculate score for test set
score = accuracy_score(y_test, yhat)

# summarize score
print('Accuracy: %.3f' % (score*100))

Accuracy: 84.800


## 3 Label Propagation for Semi-Supervised Learning

O algoritmo de Propagação de Rótulos está disponível na biblioteca de aprendizado de máquina em Python, scikit-learn, por meio da classe [LabelPropagation](https://scikit-learn.org/stable/modules/generated/sklearn.semi_supervised.LabelPropagation.html).

O modelo pode ser ajustado da mesma forma que qualquer outro modelo de classificação, chamando a função `fit()`, e pode ser usado para fazer previsões para novos dados por meio da função `predict()`.

### Import Libraries

In [None]:
# import librarires
from numpy import concatenate
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.semi_supervised import LabelPropagation

### Importação dos dados

In [None]:
# define dataset
X, y = make_classification(n_samples=1000, n_features=2, n_informative=2, n_redundant=0, random_state=1)

### Train Test Split

In [None]:
# split into train and test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.50, random_state=1, stratify=y)
# split train into labeled and unlabeled
X_train_lab, X_test_unlab, y_train_lab, y_test_unlab = train_test_split(X_train, y_train, test_size=0.50, random_state=1, stratify=y_train)

### Preparação dos dados

Primeiro, nós precisamos concatenar os dados de treinamento com e se rótulo em apenas um array.

In [None]:
# create the training dataset input
X_train_mixed = concatenate((X_train_lab, X_test_unlab))

Para os dados sem rótulo, nós podemos atribuir o valor -1, por exemplo, e concatenar no `y_train_lab`.

In [None]:
# create "no label" for unlabeled data
nolabel = [-1 for _ in range(len(y_test_unlab))]

# recombine training dataset labels
y_train_mixed = concatenate((y_train_lab, nolabel))

### Treinamento

In [None]:
# define model
model = LabelPropagation()
# fit model on training dataset
model.fit(X_train_mixed, y_train_mixed)

### Predictions

In [None]:
# make predictions on hold out test set
yhat = model.predict(X_test)
# calculate score for test set
score = accuracy_score(y_test, yhat)
# summarize score
print('Accuracy: %.3f' % (score*100))

Accuracy: 85.600


### Combinando os dois modelos

Outra abordagem que podemos usar com o modelo semi-supervisionado é tomar os rótulos estimados para o conjunto de dados de treinamento e ajustar um modelo de aprendizado supervisionado.

Lembrando que podemos recuperar os rótulos para todo o conjunto de dados de treinamento a partir do modelo de propagação de rótulos da seguinte maneira:

In [None]:
# get labels for entire training dataset data
tran_labels = model.transduction_

Em seguida, podemos usar esses rótulos juntamente com todos os dados de entrada para treinar e avaliar um algoritmo de aprendizado supervisionado, como um modelo de regressão logística.

A esperança é que o modelo de aprendizado supervisionado ajustado em todo o conjunto de dados de treinamento alcance um desempenho ainda melhor do que o modelo de aprendizado semi-supervisionado sozinho.

In [None]:
# define supervised learning model
model2 = LogisticRegression()
# fit supervised learning model on entire training dataset
model2.fit(X_train_mixed, tran_labels)
# make predictions on hold out test set
yhat = model2.predict(X_test)
# calculate score for test set
score = accuracy_score(y_test, yhat)
# summarize score
print('Accuracy: %.3f' % (score*100))

Accuracy: 86.200


Nesse caso, podemos observar que essa abordagem hierárquica do modelo semi-supervisionado seguido pelo modelo supervisionado alcança uma precisão de classificação de cerca de 86,2% no conjunto de dados de teste, ainda melhor do que o aprendizado semi-supervisionado utilizado isoladamente, que obteve uma precisão de cerca de 85,6%.