# Introdu√ß√£o (n√£o-extensiva) a Online Learning


**Saulo Martiello Mastelini** (mastelini@usp.br)

Outras redes:

- [Github](https://github.com/smastelini)
- [Linkedin](https://www.linkedin.com/in/smastelini/) (eu deveria, mas n√£o atualizo frequentemente -- para ser sincero, est√° muito desatualizado)
- [ResearchGate](https://www.researchgate.net/profile/Saulo-Mastelini)

MBA em Ci√™ncia de Dados<br>
Universidade de S√£o Paulo, S√£o Carlos, Brasil<br>
Copyright (c) 2021

---

**Disclaimer**

Como o t√≠tulo j√° diz, essa n√£o √©, de forma alguma, uma introdu√ß√£o extensiva ao tema. √â apenas a minha humilde tentativa de dar um panorama geral de d√©cadas de pesquisa em uma √°rea que est√° em constante expans√£o e inova√ß√£o.

---


## Sum√°rio
1. Online learning? Why?
2. Batch vs. Online
3. Estruturas necess√°rias: exemplo
    - Mean
    - Var
    - Quantile
4. Por que usar dicion√°rios?
    - Exemplos com dados faltantes
5. Como avaliar um modelo?
    - `progressive_val_score`
    - label delay
6. Exemplos de algoritmos
    1. Classifica√ß√£o
        1. Logistic regression
        2. Hoeffding Tree
        3. Naive Bayes
        4. Adaptive Random Forest
        5. Streaming Random Patches
    2. Regress√£o
        1. Linear Regression
        2. Hoeffding Tree
        3. Stochastic Gradient Trees
        4. AMRules
        5. Adaptive Random Forest
        6. Streaming Random Forest
    3. Clustering
        1. k-Means
        2. CluStream
        3. DenStream
        4. DBSTREAM
    4. Anomaly detection
        1. Half-space Trees
7. Expert module
8. Pipelines e pr√©-processamento
    - Encoding
    - Scaling
    - Filtragem e Sele√ß√£o
    - Aritm√©tica com Pipelines
    - Visualizando as coisas
9. Exemplo completo
    - processamento em tempo real
    - inspe√ß√£o de modelos

# 1. Online Learning? Why?

Por que algu√©m deveria se preocupar em atualizar modelos a todo tempo? N√£o √© s√≥ treinar e sair usando?

R: sim! Em grande parte dos casos isso √© verdade.

Mas imagine que:

- A quantidade de dados produzidas √© enorme
- N√£o √© poss√≠vel armazenar tudo
- Existe limita√ß√£o no poder computacional para treinamento dos modelos
    - processador
    - mem√≥ria
    - bateria
- Os dados s√£o n√£o-estacion√°rios e/ou evoluem com o tempo

Nesses casos, posso usar aprendizado de m√°quina tradicional? R: sim!!

√â poss√≠vel usar aprendizado de m√°quina tradicional se:
- Os dados s√£o estacion√°rios (uma amostra representativa dos dados √© suficiente)

ou

- A velocidade de produ√ß√£o dos dados n√£o √© t√£o alta (batch-incremental e os recursos computacionais s√£o suficientes

## 1.1 Batch-incremental


Um modelo tradicional de aprendizado de m√°quina √© re-treinado de tempos em tempos. Para tal, uma janela para treinamento precisa ser definida.

Tipos de janelamento dos dados:


<img src="time_windows.png">

**Fonte:** Adaptado de:

> Carnein, M. and Trautmann, H., 2019. Optimizing data stream representation: An extensive survey on stream clustering algorithms. Business & Information Systems Engineering, 61(3), pp.277-297.

- *Landmarks* s√£o a escolha mais comum em estrat√©gias batch-incremental. √â preciso definir o tamanho da janela de forma adequada.
    - O modelo pode ficar defasado se a janela for muito grande 
    - Ou o modelo pode n√£o capturar os padr√µes se a janela for muito pequena
    - Concept-drift √© um problema e tanto
    
**Aten√ß√£o**: batch-incremental != mini-batch.
Redes neurais podem ser treinadas de forma incremental ou progressiva. No entanto, quest√µes como "esquecimento catastr√≥fico" s√£o problem√°ticas. Esse e outros tipos de desafios s√£o tratados na √°rea de pesquisa chamada **continual learning**.

## 1.2 Importante lembrar

Data streams n√£o s√£o, necessariamente, s√©ries temporais! ü§Ø

Mas qual √© a diferen√ßa, ent√£o?

Basicamente, em streams n√£o necessariamente temos depend√™ncias temporais expl√≠citas como em s√©ries temporais. Por exemplo: rede de sensores.

Os dados chegam temporalmente organizados, mas cada sensor tem uma taxa de transmiss√£o espec√≠fica, ou um delay espec√≠fico. Alguns sensores pode falhar... outros serem adicionados. E assim por diante.

A ordem de chegada n√£o importa... tanto, mas importa.

# 2. Batch vs. Online

Uma boa introdu√ß√£o acerca da "migra√ß√£o" de batch para online est√° dispon√≠vel no [site](https://riverml.xyz/latest/examples/batch-to-online/) do River. Aqui eu s√≥ quero dar uma vis√£o bem geral das diferen√ßas. Entraremos em mais detalhes posteriormente nas min√∫cias de avalia√ß√£o de modelos em Online Learning.


Uma poss√≠vel valida√ß√£o de um modelo tradicional de aprendizado de m√°quina poderia ter essa "cara":

In [2]:
from sklearn.datasets import load_wine
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold
from sklearn.tree import DecisionTreeClassifier

data = load_wine()

X, y = data.data, data.target
kf = KFold(shuffle=True, random_state=8, n_splits=10)

accs = []

for train, test in kf.split(X):
    X_tr, X_ts = X[train], X[test]
    y_tr, y_ts = y[train], y[test]
    
    dt  = DecisionTreeClassifier(max_depth=5, random_state=93)
    dt.fit(X_tr, y_tr)
    
    accs.append(accuracy_score(y_ts, dt.predict(X_ts)))

print(f"Acur√°cia m√©dia: {sum(accs) / len(accs)}")

Acur√°cia m√©dia: 0.9045751633986928


Reparem que todo o conjunto de dados est√° dispon√≠vel e carregado em mem√≥ria. O algoritmo de √°rvore de decis√£o pode percorrer os dados de treino quantas vezes forem necess√°rias. Os dados de teste (valida√ß√£o, no nosso caso) nunca s√£o utilizados para treino.

No fim das contas, usar√≠amos o conjunto completo para treinar um modelo final (supondo que j√° encontramos um conjunto adequado de hiper-par√¢metros). Uma vez treinado, esse modelo seria utilizado para fazer predi√ß√µes para novas amostras (de vinhos, nesse caso).

In [16]:
from river import metrics
from river import stream
from river import tree


acc = metrics.Accuracy()
ht = tree.HoeffdingTreeClassifier(max_depth=5, grace_period=20)

for x, y in stream.iter_sklearn_dataset(load_wine()):
    # M√©trica atualizada antes do treinamento
    acc.update(y, ht.predict_one(x))
    # Modelo treinado amostra-a-amostra
    ht.learn_one(x, y)

print(f"Acur√°cia: {acc.get()}")

Acur√°cia: 0.9269662921348315


Aqui, estamos percorrendo cada exemplo do conjunto de dados de forma sequencial. Os exemplos poderiam ser carregados diretamente do disco, de algum webservice, ou de onde sua imagina√ß√£o te levar, sem a necessidade de salvar em mem√≥ria nada.

Cada amostra √© primeiramente utilizada para teste e depois passada para o modelo. Tudo √© atualizado uma amostra por vez. Notem que n√£o podemos comparar diretamente os desempenhos obtidos porque a estrat√©gia de avalia√ß√£o foi diferente nos dois casos.

Poder√≠amos ainda (pseudo) embaralhar os dados antes de passar para o modelo, se temos plena confian√ßa que os dados s√£o estacion√°rios.

# 3. Estruturas necess√°rias: exemplo

In [1]:
import numpy as np
from river import stats

Dado esse choque inicial, vamos prosseguir com calma e primeiramente pensar em alguns aspectos importantes antes de vermos os algoritmos de aprendizado de m√°quina online.

## 3.1. Um exemplo, para aquecimento cerebral

Vamos supor que queremos calcular estat√≠sticas para dados que chegam a todo momento:

- M√©dia
- Vari√¢ncia
- ...

Hora de simular:

In [2]:
import random

rng = random.Random(42)

In [3]:
%%time

valores = []
stds_batch = []

for _ in range(50000):
    v = rng.gauss(5, 3)
    valores.append(v)
    
    stds_batch.append(np.std(valores))

CPU times: user 1min, sys: 27.5 ms, total: 1min
Wall time: 1min


Por padr√£o o numpy calcula o desvio padr√£o populacional! Para usar a vers√£o amostral precisamos passar `ddof=1` como par√¢metro.

In [4]:
rng = random.Random(42)

In [5]:
%%time

stds_incr = []
var = stats.Var(ddof=0)

for _ in range(50000):
    v = rng.gauss(5, 3)
    var.update(v)
    stds_incr.append(var.get() ** 0.5)

CPU times: user 107 ms, sys: 0 ns, total: 107 ms
Wall time: 106 ms


Ser√° que d√° alguma diferen√ßa? E ser√° que funciona?

In [6]:
s_erros = 0

for batch, incr in zip(stds_batch, stds_incr):
    s_erros += (batch - incr)

s_erros, s_erros / len(stds_batch)

(4.301100448023121e-10, 8.602200896046241e-15)

Ok... parece convincente. Mas e se o cen√°rio fosse diferente? Se ao inv√©s de calcularmos o desvio padr√£o e irmos aumentando a quantidade de dados, quisessemos descobrir um percentil das √∫ltimas `N` amostras?

In [7]:
rng = random.Random(42)

tam = 10000

In [8]:
%%time


buffer = []
percs75_batch = []

for _ in range(100000):
    v = rng.uniform(-100, 100)
    buffer.append(v)
    if len(buffer) <= tam:
        continue
        
    percs75_batch.append(np.quantile(buffer, q=0.75))
    buffer.pop(0)

CPU times: user 54.1 s, sys: 27.4 ms, total: 54.1 s
Wall time: 54.1 s


Podemos fazer um pouco melhor que isso.

In [11]:
rng = random.Random(42)

In [12]:
%%time

qtl = stats.RollingQuantile(window_size=tam, q=0.75)
percs75_incr = []

for _ in range(100000):
    v = rng.uniform(-100, 100)
    qtl.update(v)
    if len(qtl) <= tam:
        continue
        
    percs75_incr.append(qtl.get())

CPU times: user 5.55 s, sys: 0 ns, total: 5.55 s
Wall time: 5.56 s


In [13]:
s_erros = 0

for batch, incr in zip(percs75_batch, percs75_incr):
    s_erros += (batch - incr)

s_erros

0

Espero t√™-los convencido! O [m√≥dulo](https://riverml.xyz/dev/api/overview/#stats) `stats` do River tem v√°rias fun√ß√µes √∫teis para sumariza√ß√£o de dados de forma incremental. Vale a pena checar! üßê

A raz√£o pela qual eu quis mostrar tudo isso √© porque v√°rios desses algoritmos s√£o os "tijolos" que comp√µem os algoritmos de aprendizado de m√°quina. Uma receita breve para online learning:

- A jun√ß√£o de m√©tricas estat√≠sticas incrementais
- Algumas grandezas probabil√≠sticas
- Algumas teorias de aprendizado de m√°quina que s√£o gen√©ricas e n√£o limitadas ao cen√°rio in-batch
- Gradiente descendente
- *otras cositas*

Com isso tudo √© poss√≠vel formar boa parte dos algoritmos de aprendizado incremental. Mas isso √© extremamente gen√©rico de se dizer, n√£o √©? Bom, no fim das contas, o aprendizado de m√°quina tradicional tamb√©m "se resume" a algumas coisas pontuais, mas que s√£o extremamente abrangentes por si s√≥.

Que tal entendermos um pouco de como os exemplos anteriores funcionam e por que eles funcionam?

## 3.2. Uma (extremamente) breve reflex√£o sobre complexidade dos algoritmos

Quanto custa para calcular a vari√¢ncia (no caso, desvio padr√£o) e o percentil nos exemplos anteriores?

**Modo batch**

Vari√¢ncia:  $\dfrac{\sum_i^N (x_i - \bar{x})}{N - 1}$

- M√©dia √© calculada com o custo $O(n)$ -> todos os elementos devem ser somados e divididos pelo total de observa√ß√µes
- Com a m√©dia em m√£os, precisamos calcular o desvio de cada elemento para a m√©dia e somar tais desvios: $O(n)$
- No fim das contas, o custo final √© $O(n)$ (na nota√ß√£o assint√≥tica), mas tivemos que percorrer todos os dados duas vezes (e, consequentemente, armazen√°-los).
- Esse algoritmo tamb√©m apresenta problemas de estabilidade, quando o n√∫mero de observa√ß√µes √© muito grande. Pode gerar erros num√©ricos de aproxima√ß√£o.

Percentil:

- Pegue um exemplo novo e remova o mais antigo
- Ordene os dados: algo em torno de $O(n\log n)$ (n √© o tamanho do buffer)
- Encontre a posi√ß√£o correta, interpole e retorne

Se esse processo √© repetido v√°rias e v√°rias vezes...

**Modo incremental**


Vari√¢ncia (algoritmo de Welford):

- Precisamos de algumas vari√°veis:
    - $n$: n√∫mero de observa√ß√µes
    - $\overline{x}_n$: a m√©dia da amostral, ap√≥s $n$ observa√ß√µes
    - $M_{2, n}$: estat√≠stica de segunda ordem que gerar√° a vari√¢ncia
- As atualiza√ß√µes das estat√≠sticas se d√£o na seguinte forma:
    - $\overline{x}_n = \overline{x}_{n-1} + \dfrac{x_n - \overline{x}_{n-1}}{n}$
    - $M_{2,n} = M_{2,n-1} + (x_n - \overline{x}_{n-1})(x_n - \overline{x}_n)$
- E as estat√≠sticas s√£o inicializadas da seguinte forma:
    - $\overline{x}_{0} \leftarrow 0$
    - $M_{2,0} \leftarrow 0$
- Para obter a vari√¢ncia amostral basta usar: $s_n^2 = \dfrac{M_{2,n}}{n-1}$, para todo $n > 1$
- De brinde, obtemos um preditor robusto para a m√©dia ü§ì


Percentil:

- Mantemos dois buffers
   - Um com os dados na ordem em que chegam
   - Outro com os dados ordenados: o custo de inser√ß√£o de um novo ponto em um vetor j√° ordenado √© $O(\log n)$
   - A remo√ß√£o de um valor no buffer ordenado √© $O(n)$. No buffer n√£o-ordenado √© $O(1)$
   - O c√°lculo do percentil usa o buffer ordenado
   
No fim das contas, sempre buscamos que cada atualiza√ß√£o em uma m√©trica ou modelo de aprendizado tenha um custo constante ($O(1)$). Se isso n√£o for poss√≠vel, ent√£o um custo sub-linear √© o objetivo!

---

Antes de prosseguirmos, vou mostrar mais uma aplica√ß√£o legal de m√©tricas incrementais, com requintes de processamento distribuido.

**Situa√ß√£o hipot√©tica:**

E se estiv√©ssemos calculando estat√≠sticas de alguma coisa, mas a coleta era feita de forma separada? Por exemplo, estamos calculando a vari√¢ncia de alguma coisa a n√≠vel estadual, mas a coleta √© feita por munic√≠pio?

(Eu sou paranaense)

In [14]:
rng = random.Random(7)

In [17]:
dados_ca = [rng.gauss(1500, 200) for _ in range(15000)]
dados_lndrn = [rng.gauss(2500, 500) for _ in range(600000)]

np.var(dados_ca), np.var(dados_lndrn)

(39670.63602877245, 250112.88479177756)

E se quisermos calcular a vari√¢ncia (ou m√©dia) total de todos os munic√≠pios?

In [18]:
dados_parana = []

# dados_parana.extend(dados_abati√°)
# ...
dados_parana.extend(dados_ca)
# ...
dados_parana.extend(dados_lndrn)
# ...
# dados_parana.extend(dados_xambr√™)

len(dados_parana)

615000

In [21]:
np.var(dados_parana)

268873.83428214735

In [20]:
np.mean(dados_parana)

2475.850834856662

N√≥s j√° sabemos como fazer esse mesmo processo de forma incremental:

In [22]:
# estou considerando que todos os dados foram coletados, mas poderia usar o padr√£o, ddof=1
var_ca = stats.Var(ddof=0)
var_lndrn = stats.Var(ddof=0)

for p in dados_ca:
    var_ca.update(p)
    
for p in dados_lndrn:
    var_lndrn.update(p)

In [23]:
var_ca.get(), var_lndrn.get()

(39670.63602877236, 250112.88479177424)

Posso usar `stats.Mean` para obter a m√©dia. Mas se lembrarmos bem, o algoritmo de Welford tem um preditor de m√©dia "l√° no meio", n√£o tem?

Voil√†!

In [25]:
var_ca.mean.get(), np.mean(dados_ca)

(1498.2274459163768, 1498.227445916374)

Agora vem a parte mais legal üôÉ

Como obtemos as estat√≠sticas para o estado inteiro?

In [27]:
# Imagine que temos um for somando as estat√≠sticas de todos os estados

var_parana = var_ca + var_lndrn  # + os outros municipios

var_parana.get(), np.var(dados_parana)

(268873.83428214834, 268873.83428214735)

In [28]:
var_parana.mean.get(), np.mean(dados_parana)

(2475.8508348567498, 2475.850834856662)

E se a bela e formosa cidade de C√¢ndido de Abreu tivesse sido esquecida? Os dados tivessem sido perdidos, sei l√°...

(quando eu era crian√ßa, minha cidade nem aparecia nos mapas impressos do Paran√°, vai saber...)

In [29]:
var_ca_backup = var_parana - var_lndrn  # - os outros municipios

In [30]:
var_ca.get(), var_ca_backup.get()

(39670.63602877236, 39670.63602878291)

In [31]:
var_ca.mean.get(), var_ca_backup.mean.get()

(1498.2274459163768, 1498.2274459163825)

No fim das contas, sempre existe um trade-off entre mem√≥ria e tempo de processamento (e a quantidade de "passadas" nos dados) e a precis√£o dos resultados obtidos. Muitos dos algor√≠tmos de online learning incluem um par√¢metro ($\delta$) que indica a porcentagem de "certeza" que voc√™ deseja ter nos seus resultados. Em geral, quanto mais certeza, mais tempo leva para tomar as decis√µes.


# 4. Por que usar dicion√°rios (ou, por que usar uma representa√ß√£o esparsa)?

# 5. Como avaliar um modelo?

# 6. Exemplos de algoritmos

## 6.1. Classifica√ß√£o

## 6.2. Regress√£o

## 6.3. Clustering

## 6.4. Anomaly detection

# 7. Expert stuff

# 8. Pipelines e pr√©-processamento

# 9. Exemplo completo