# Leitura de dados binários - um exemplo de otimização em Python
> As atividades de monitoramento do espectro de radiofrequência na ANATEL, especificamente aquelas que utilizam estações remotas de monitoramento, geram centenas de GB de dados. Um dos primeiros desafios para a utilização mais eficiente desses dados é a sua leitura eficiente. Nesse artigo é detalhada as iterações realizadas para resolver esse problema, primeiramente tornar essa leitura viável e posteriormente os passos de otimização aplicados no algoritmo para decodificar os dados de arquivos comprimidos 

- toc: true
- branch: master
- badges: true
- comments: true
- categories: [spectrum monitoring, profiling, numpy, cython]
- image: images/multiplication.jpg
- hide_binder_badge: true
- author: Ronaldo S.A. Batista

![](images/knuth.jpeg "Crédito: https://twitter.com/lpolovets/status/816117631572807680")

O objeto desse artigo são arquivos binários com extensão `.bin` - gerados pela aplicação `Logger` embarcada nas estações de monitoramento do tipo [Rfeye Node 20-6](http://agc.com.br/produto/rfeye-node/).

Estes arquivos armazenam diversos metadados sobre a medição e blocos com informação numérica, que são as medidas em si, chamadas aqui de _dados de espectro_ ou _dados espectrais_. 

A versão recente da aplicação `Logger` gera dados comprimidos de maneira muito eficiente, o que torna a descompressão desafiadora para arquivos com muitos dados e bastante demorada caso seja feita de maneira "ingênua".

Mesmo que essa o problema apresentado aqui pareça obscuro, as técnicas de otimização podem ser aplicadas em outros contextos que sejam relevantes para quem lê.

> Note: Nos parágrafos a seguir irei passar por cima deliberadamente ( por não serem relevantes para a otimização e por pouco conhecimento no assunto ) de explicações sobre a parte de física / engenharia de telecomunicações e irei focar mais no problema específico de decodificação dos arquivos.

## Explorando o arquivo `.bin`

Cada arquivo `.bin` possui dados distintos em um mesmo arquivo, em dois níveis `blocos` e `thread_id`.

* Um `bloco` determina o tipo de dado: espectro, gps, dados textuais etc...
* O `thread_id` nada mais é que um identificador da faixa específica de varredura armazenada naquele bloco.

A função a seguir `parse_bin` encapsula a leitura do arquivo e seus metadados e retorna um dicionário cujas chaves são as diferentes combinações de `blocos` e `thread_id` e os valores são listas com os blocos. 

> Note: Cada bloco é uma classe python contendo seus atributos. Os detalhes de implementação dessa função podem ser ignorados, o que nos interessa aqui é uma vez que temos os bytes de dados com os valores de níveis como o lemos de maneira eficiente.

> Tip: A biblioteca `rfpy` criada para o processamento desses arquivos faz amplo uso da biblioteca [fastcore](https://fastcore.fast.ai/). Esta expande as funcionalidades da linguagem python inspirada em atributos muito úteis de outras linguagens. Recomendo fortemente para quem deseja expandir o seu inventário de ferramentas python

In [None]:
#hide
%load_ext autoreload
%load_ext line_profiler
%load_ext cython
%autoreload 2 

In [None]:
import sys, os
from tqdm.notebook import tqdm
from fastcore.xtras import Path
# Insert in Path Project Directory
sys.path.insert(0, str(Path().cwd().parent))
from multiprocessing import set_start_method, Pool
try:
    set_start_method("spawn")
except RuntimeError:
    pass
import gc
import warnings
with warnings.catch_warnings():
    warnings.simplefilter("ignore")
from rfpy.parser import parse_bin
from rfpy.utils import public_attrs
from fastcore.foundation import L
import numpy as np
import pandas as pd
from pprint import pprint as pp
from IPython.display import display
import gc

In [None]:
blocks = parse_bin('binfiles/rfeye002092_210223_T163131_MaskBroken.bin')
blocks = blocks['blocks']

for k,v in blocks.items():
    print(f'Tipo de Bloco: {k[0]}, Thread_ID: {k[1]}, Nº de blocos {len(v)}, Exemplo de Blocos: {v[0]}')

Tipo de Bloco: 68, Thread_ID: 331, Nº de blocos 734, Exemplo de Blocos: ((764, 955), <rfpy.blocks.DType68 object at 0x0000023F4EF7A288>)
Tipo de Bloco: 68, Thread_ID: 301, Nº de blocos 133932, Exemplo de Blocos: ((1584, 2071), <rfpy.blocks.DType68 object at 0x0000023F4BF68388>)
Tipo de Bloco: 68, Thread_ID: 311, Nº de blocos 11464, Exemplo de Blocos: ((2792, 3035), <rfpy.blocks.DType68 object at 0x0000023F4A9BEF88>)
Tipo de Bloco: 40, Thread_ID: 1, Nº de blocos 18462, Exemplo de Blocos: ((3708, 3763), <rfpy.blocks.DType40 object at 0x0000023F4EF7A748>)
Tipo de Bloco: 68, Thread_ID: 341, Nº de blocos 44, Exemplo de Blocos: ((7431196, 7431599), <rfpy.blocks.DType68 object at 0x0000023F5D06F7C8>)
Tipo de Bloco: 68, Thread_ID: 321, Nº de blocos 46, Exemplo de Blocos: ((40308884, 40309551), <rfpy.blocks.DType68 object at 0x0000023F62D21D48>)


Vemos que esse arquivo tem diferentes tipos de blocos, à direita é mostrado uma tupla contendo outra tupla com 2 valores numéricos e 1 objeto. A tupla com valores numéricos mostra a posição de início e fim dos bytes de dados ( os demais bytes são metadados encapsulados no objeto ) e o objeto nada mais é que uma classe python que armazenada os atributos do bloco.

O que nos interessa aqui são os blocos de espectro, blocos do tipo 68.

Temos 5 diferentes blocos do tipo 68, vamos observar o que os diferencia:

In [None]:
b301 = blocks[(68,301)][0][1] 
b321 = blocks[(68,321)][0][1]
b331 = blocks[(68,331)][0][1]
b341 = blocks[(68,341)][0][1]

In [None]:
b301.start_mega, b301.stop_mega

(108, 137)

In [None]:
b321.start_mega, b321.stop_mega

(320, 340)

In [None]:
b331.start_mega, b331.stop_mega

(400, 410)

In [None]:
b341.start_mega, b341.stop_mega

(960, 1219)

Vemos portanto que o quê diferencia diferentes blocos do mesmo tipo mas com diferentes `thread_id` é a faixa de frequência de varredura. 

O primeiro tipo de bloco mostrado, o bloco do tipo `68` e thread_id `301`, é o mais numeroso do arquivo com 133932 blocos. 

A faixa desse arquivo é muito importante e de grande enfoque nas monitorações da Anatel - 108MHz a 137MHz. Essa faixa é a do Serviço Limitado Móvel Aeronáutico, dedicada a comunicações entre aeronaves com as torres de comando e entre si.

Cada bloco é uma medição num intervalo de tempo específico dessa faixa, no caso 108MHz a 137MHz, dividida em várias amostras ( recortes ) da faixa. Portanto temos `133932` medições.

In [None]:
b301.data[b301.start:b301.stop]

b'\xff\xfaF\xff\xfaH\xff\xfaH\xff\xfaE\xff\xfaA\xff\xfaB\xff\xfaA\xff\xfa>\xff\xfa>\xff\xfa=\xff\xfa<\xff\xfa;\xff\xfa;\xff\xfa;\xff\xfa;\xff\xfa;\xff\xfa5\xff\xfa5\xff\xfa6\xff\xfa7\xff\xfa8\xff\xfa7\xff\xfa6\xff\xfa4\xffv`d`\xff\xfa6\xff\x9bamm`\xff\xfa6\xff\xfa8\xff\xfa8\xff\xfa8\xff\xfa8\xff\xfa7\xff\xfa6\xff\xfa5\xff\x8ba\xff\xfa4\xff\xfa6\xff\xfa4\xff\xfa5\xff\xfa5\xff\x97g|\x82{f\xff\xfa5\xff\xfa5\xff\xfa7\xff\xfa7\xff\xfa8\xff\xfa6\xff\xfa6\xff\xfa6\xff\xfa8\xff\xfa7\xff\xfa8\xff\xfa8\xff\xfa9\xff\xfa<\xff\xfa>\xff\xfa>\xff\xfaA\xff\xfaAB'

O Atributo `data` são os bytes brutos, i.e. não decodificados. Os atributos `start` e `stop` recortam os bytes nos pontos correspondentes às medidas de nível do arquivo binário, os demais pontos do arquivo, os metadados, são decodificados como atributos da classe, um exemplo foi mostrado acima com os atributos `start_mega` e `stop_mega`.

O restante desse artigo é dedicado a decodificação dessas medidas de nível.

## Codificação Espectral
Dada estação faz uma medição de potência, para dada frequência, em dBm ( lê-se 'de-bê-eme' ), uma escala logarítmica com valores tipicamente negativos. A escala de valores que a estação armazena é a seguinte `Intervalo = [offset - 127.5, offset]`, onde `offset` (*deslocamento*) é um valor pré-estabelecido. Se a medida estiver fora desse intervalo, os valores são truncados. Um típico valor de `offset` é -*20dBm*

Assim tendo o valor medido `d` em dBm ele é codificado e salvo no arquivo como um valor `b`:

$$b = 2(d - offset) + 255$$

Ao inserir os valores extremos do intervalo acima nessa fórmula:

Para `d = offset - 127.5`:

$$ \therefore b = 2[(offset - 127.5) - offset] + 255 = 2 (-127.5) + 255 \implies b = 0$$

Para `d = offset`:
$$\therefore b = 2(offset - offset) + 255 = 2 * 0 + 255 \implies b = 255$$

Portanto o intervalo de valores possíveis ao serem codificados com a fórmula acima é `[0,255]`, justamente o intervalo de valores possíveis em 8 bits ou 1 byte, sem sinal. Assim, os dados de espectro truncados e codificados dessa maneira permitem um armazenamento extremamente econômico, ocupando somente 1 byte (`uint8` em python ou `unsigned char` na linguagem C.)

Para decodificar tal valor, basta fazer o procedimento inverso  da fórmula acima. Ao isolar o valor `d` temos:
$$d = \frac{b}{2} + offset - 127.5$$

## Compressão de Dados
Como dados de espectro são extremamente ruidosos ( índice sinal-ruído muito baixo ), isto é, a maioria do que observamos numa dada "janela" do espectro é simplesmente ruído. A aplicação `Logger` comprime esses dados de maneira engenhosa. Como mencionado, a cada instante de tempo a estação faz a medição dos níveis de determinada faixa, para tal ela divide a faixa em diversos intervalos e mede o nível da frequência central daquele intervalo. Quanto maior o número de intervalos mais granulosa ou detalhada serão essas medidas.

**Algoritmo de Compressão**

* No script é definido um limiar `threshold`, abaixo do qual tudo é considerado ruído
* Para cada intervalo medido `i`, é verificado se o valor está abaixo do limiar
* Caso afirmativo esse processo se repete para os intervalos vizinhos `i+1, i+2, etc...`
* Esses intervalos são contados, até que apareça um ponto acima do limiar ou o máximo de `250` pontos seja atingido
  * Nesse ponto é gravado no arquivo um byte marcador `RUN=255` indicando que o próximo byte armazena a contagem de pontos abaixo do limiar
  * Nesse procedimento é ocupado somente 2 bytes, podendo ter sido comprimido o limite de 250 bytes no melhor dos casos.

Um problema que pode ocorrer no algoritmo acima é se nos dados de medição tivermos o valor máximo medido `d=offset` assim o valor a ser gravado será `b=255`, o mesmo valor usado como marcador. 

Nesses casos temos o valor literal no ponto e não queremos que isso seja interpretado como marcador. 

Para lidar com esse caso é definido um segundo marcador `ESC=254`, esse marcador informa o algoritmo de decodificação que a medida seguinte é literal e não se trata de um marcador.

Com alguns exemplos a seguir ficará mais claro o funcionamento do algoritmo. O algoritmo original de codificação ( escrito em C ) é apresentado a seguir:

```c
int run_length_encode(unsigned char *dest, unsigned char *src, int nsrc, int thresh) { 
    unsigned char ib; 
    int di = 0, si, nunder = 0; 
    for(si = 0; si < nsrc; si++){ 
        ib = src[si]; 
        if ((ib < thresh) && (si < (nsrc-1)) && (nunder < 250)) { 
            nunder += 1; 
        } else { 
            if (nunder > 0) { 
                dest[di++] = RUN; 
                dest[di++] = nunder; 
                nunder = 0; 
            } if ((ib == RUN) || (ib == ESC)) {
                dest[di++] = ESC; 
                dest[di++] = ib; 
            } else { 
                dest[di++] = ib; 
            } 
        } 
    } return di; 
}
```

O algoritmo é bastante legível mesmo para quem não conhece C, exceto talvez por algumas coisas estranhas como ponteiros `*` e a incrementação de variáveis dentro dos arrays. 
Vamos escrevê-lo em python tentando manter o estilo em C e comentando para decifrarmos melhor seu propósito. 

In [None]:
RUN = 255
ESC = 254
def run_length_encode(destino, origem, n_origem, limiar):
    
    conta_origem, conta_destino = 0,0 # si, and di
    
    num_under = 0
    for si in range(n_origem): # percorro as posições do arquivo de origem
        
        byte_atual = origem[si] # leio o byte do arquivo fonte correspondente à posição si
        
        # Se o byte está abaixo do limiar e não atingi o fim do arquivo ou a contagem máxima
        if (byte_atual < limiar) and (si < n_origem - 1) and (num_under < 250):
            
            num_under += 1 # incremento o contador de valor abaixo do limiar
        else:
            if num_under > 0: # valor atual está acima do limiar mas até o momento estávamos contando valores abaixo do limiar
                
                destination[conta_destino] = RUN # insiro o marcador de contagem de valores abaixo do limiar na posição atual do arquivo de destino
                
                conta_destino += 1 # incremento o contador do arquivo de destino
                
                destination[conta_destino] = num_under # coloco a contagem em si na próxima posição
                
                conta_destino += 1 # incremento o contador do arquivo de destino
                
                num_under = 0 # zero o contador de valores abaixo do limiar
                
            if (byte_atual == RUN) or (byte_atual == ESC): # checo se o valor lido atual corresponde a um dos valores utilizados como marcador
                
                destination[conta_destino] = ESC # coloco o marcador que o valor a seguir lido é literal
                
                conta_destino += 1 # incremento o contador do arquivo de destino
                
                destination[conta_destino] = byte_atual
                
                conta_destino += 1 # incremento o contador do arquivo de destino
                
            else: # caso o valor medido não corresponda a um dos valores reservador de marcador eu simplesmente guardo esse valor na posição atual
                
                destination[conta_destino] = byte_atual
                
                conta_destino += 1 # incremento o contador do arquivo de destino
                
    return destination            

O algoritmo está propositalmente "não-pythônico", mais ao estilo de C para ficar o mais próximo do original e espaçado por conta dos vários comentários.  

Como sempre as coisas ficam mais claras com um exemplo

**Exemplo 1 - Somente valores abaixo do limiar, i.e. somente ruído**

In [None]:
destination = [0] * 10 #lista com 10 valores 0
offset = -20
limiar = -80
medidas = [-100] * 10 #lista com 10 valores com nível -100

Como vimos acima esses valores de medida antes de serem codificados são transformados com seguinte fórmula: $b = 2(d - offset) + 255$. 

Portanto para as medidas acima, nosso arquivo de origem gravado fica:

In [None]:
origem = [int(2 * (d - offset) + 255) for d in medidas] ; origem

[95, 95, 95, 95, 95, 95, 95, 95, 95, 95]

In [None]:
limiar_encoded = 2 * (limiar - offset) + 255 

In [None]:
run_length_encode(destination, origem, len(origem), limiar_encoded)

[255, 9, 95, 0, 0, 0, 0, 0, 0, 0]

Temos 10 valores, todos abaixo do limiar, então o algoritmo armazena o marcador `RUN=255` mais a contagem de valores a seguir. Era esperado que a contagem fosse 10 e não 9. No entanto pela implementação do algoritmo o último valor é armazenado literalmente, mesmo estando abaixo do limiar. Esse é um caso limite no qual todos os valores do espectro estão abaixo do limiar. Perceba que nesse caso limite 3 bytes foram ocupados dos 10 originais

**Exemplo 2 - Ruído mais valores normais**

In [None]:
destination = [0] * 10 #lista com 10 valores 0
offset = -20
limiar = -80
medidas = [-100, -100, -100, -100, -100, -75, -62, -22, -30, -78]
origem = [int(2 * (d - offset) + 255) for d in medidas]
limiar_encoded = 2 * (limiar - offset) + 255 
origem

[95, 95, 95, 95, 95, 145, 171, 251, 235, 139]

In [None]:
run_length_encode(destination, origem, len(origem), limiar_encoded)

[255, 5, 145, 171, 251, 235, 139, 0, 0, 0]

Temos 5 valores abaixo do limiar então é armazenado o marcador `RUN=255` seguido da contagem `[255,5...]` e em seguida são armazenados os valores literais que estão acima do limiar. Para esse caso ocupados 7 bytes dos 10 originais, os valores 0 ao final mostram bytes que não foram ocupados.

**Exemplo 3 - Ruído, Valores Normais e valores extremos igual ao `offset`**

In [None]:
destination = [0] * 10 #lista com 10 valores 0
offset = -20
limiar = -80
medidas = [-100, -100, -100, -100, -100, -20, -20.5, -22, -30, -78]
origem = [int(2 * (d - offset) + 255) for d in medidas]
limiar_encoded = 2 * (limiar - offset) + 255 
origem

[95, 95, 95, 95, 95, 255, 254, 251, 235, 139]

In [None]:
run_length_encode(destination, origem, len(origem), limiar_encoded)

[255, 5, 254, 255, 254, 254, 251, 235, 139, 0]

Os valores medidos igual ou próximos ao offset `-20, -20.5` ao serem transformados viram `255 e 254`, os valores utilizados como marcador. Nesse caso teremos duas sinalizações de valor literal com o marcador `ESC=254`. 
* `[255,5...]` temos 5 valores abaixo do limiar
* `[...254,255...]` temos o valor literal `255`
* `[...254,254...]` temos o valor literal `254`
* `[...251,235,139]` valores de medição literal

Nesse caso economizamos somente 1 byte, denotado pelo valor 0 ao final da lista. Esses exemplos com poucos valores não fazem jus ao algoritmo, o poder de compressão aparece quando temos milhares de dados como veremos a seguir.

**Algoritmo de Descompressão**

O Algoritmo de descompressão original em C é mostrado a seguir:

```c
#define RUN 255 
#define ESC 254 
int run_length_decode(unsigned char *dest, unsigned char *src, int nsrc, int thresh) { 
    int si=0,di=0,nrun; 
    unsigned char ib; 
    while (si < nsrc) { 
        ib = src[si++]; 
        if (ib == RUN) { 
            nrun = src[si++];
            while(nrun-- >0){ 
                dest[di++] = thresh; }
        } else if (ib == ESC) {
            /* next value is literal */ 
            dest[di++] = src[si++];
        } else {
            /* value */ 
            dest[di++] = ib; 
        } 
    } return di; 
}
```

Vamos escrevê-lo em python.

In [None]:
def run_length_decode(src, nsrc, thresh, offset):
    dest = [] # creates an empty destination list
    si = 0 #counter source
    di = 0 #counter destination 
    while si < nsrc: #while we didn't read the whole file
        ib = src[si] # read current position
        si+=1 # counter go to the next position
        if ib == RUN: # if current position is equal to marker RUN
            nrun = src[si] # next position indicates number of points below thresh
            si+=1
            while nrun > 0:
                dest.append(thresh) # we keep thresh in the destination nrun times
                di+=1
                nrun-=1
        elif ib == ESC: # next value is literal
            dest.append(src[di]/2 + offset - 127.5)
            di+=1 ; si+=1
        else:
            # value
            dest.append(ib/2 + offset - 127.5) # If there isn't a marker I'll just keep the current value
            di+=1
    return dest

O algoritmo basicamente faz:
* Percorre o arquivo codificado fonte e lê byte a byte
* Se o byte é igual ao marcador `RUN=255` é sabido que o byte seguinte armazena a contagem de quantas vezes foi medido um valor abaixo do limiar
* Um loop com essa contagem é efetuado e a cada rodada é armazenado o valor do limiar na lista de destino
* Caso seja identificado o outro marcador `ESC=254` é armazenado o valor seguinte literal
* Caso nenhum dos casos anteriores ocorra simplesmente é armazenado o valor atual

## Teste de Velocidade do Algoritmo Original
A motivação para a otimização da leitura desses arquivos comprimidos foi por conta de arquivos da ordem de 100MB, que ao serem descomprimidos geram por volta de 8GB de dados. 
Utilizamos um desses arquivos como exemplo.

Eu li e ouvi de mais de uma vez que não se faz otimização sem "profiling", isto é, não comece a otimizar as coisas antes de saber exatamente o quê  toma o tempo do seu código. 

Para nos ajudar nisso vamos usar a extensão da biblioteca `line_profiler` que mostra a execução linha a linha de dada função que passarmos como argumento.

In [None]:
compressed_blocks = blocks[(68,301)].itemgot(1)

In [None]:
RUN = 255
ESC = 254    

In [None]:
def size_in_gb(obj):
    print(f'{sys.getsizeof(obj)/1e6:.2f} GB')

A função a seguir testa o algoritmo original acima.

In [None]:
def test_orig(blocks, debug=False):
    decoded = []
    if debug:
        blocks = blocks[:1]
    for block in tqdm(blocks):
        src = block.data[block.start:block.stop]
        nsrc = len(src)
        thresh = block.thresh       
        offset = block.offset
        decoded.append(run_length_decode(src, nsrc, thresh, offset))
    return decoded

Vamos checar o perfil de uma chamada da função `run_length_decode`, isso é alcançado chamando a função acima com o argumento `debug=True`. 
Assim executamos somente 1 bloco em vez de 133932.

In [None]:
%lprun -f run_length_decode test_orig(compressed_blocks, debug=True)

  0%|          | 0/1 [00:00<?, ?it/s]

Timer unit: 3.52617e-07 s

Total time: 0.0275278 s
File: <ipython-input-19-0e35b2a102ae>
Function: run_length_decode at line 1

Line #      Hits         Time  Per Hit   % Time  Line Contents
     1                                           def run_length_decode(src, nsrc, thresh, offset):
     2         1          5.0      5.0      0.0      dest = [] # creates an empty destination list
     3         1          2.0      2.0      0.0      si = 0 #counter source
     4         1          1.0      1.0      0.0      di = 0 #counter destination 
     5       131        198.0      1.5      0.3      while si < nsrc: #while we didn't read the whole file
     6       130        175.0      1.3      0.2          ib = src[si] # read current position
     7       130        227.0      1.7      0.3          si+=1 # counter go to the next position
     8       130        234.0      1.8      0.3          if ib == RUN: # if current position is equal to marker RUN
     9        60         68.0      1.1 

Vemos que 98.3% do tempo a função passa somente no loop `while` interno. Vamos ver o que isso significa para 133932 blocos.

In [None]:
%%time
d = test_orig(compressed_blocks)

  0%|          | 0/133932 [00:00<?, ?it/s]

Isso no contexto de uso do dia a dia do fiscal da Anatel é um tempo extenso, porque pode haver vários arquivos e essas análises podem ser recorrentes.

In [None]:
len(d), len(d[0])

In [None]:
size_in_gb(d)

In [None]:
del d
gc.collect()

### Loop `while` Eliminado
Vemos que o loop while acima simplesmente adiciona o mesmo valor `thresh` por `nrun` vezes. 

> Note: Em python, para eliminarmos o loop basta extendermos a lista de uma só vez, adicionando a ela uma outra lista de tamanho `nrun` povoada com valores `thresh`.

In [None]:
def run_length_decode2(dest, src, nsrc, thresh, offset):
    si = 0 #counter source
    di = 0 #counter destination 
    while si < nsrc: #while we didn't read the whole file
        ib = src[si] # read current position
        si+=1 # counter go to the next position
        if ib == RUN: # if current position is equal to marker RUN
            nrun = src[si] # next position indicates number of points below thresh
            si+=1
            di+=nrun # Full incremental
            dest.extend([thresh]*nrun) #Extend the resulted list in a pythonic way 
        elif ib == ESC: # next value is literal
            dest.append(src[di]/2 + offset - 127.5)
            di+=1 ; si+=1
        else:
            # value
            dest.append(ib/2 + offset - 127.5) # If there isn't a marker I'll just keep the current value
            di+=1
    return dest

Substituímos:

```python
while nrun > 0:
    dest.append(thresh)
    di+=1
    nrun-=1
```
por
```python
di+=nrun
dest.extend([thresh]*nrun)
```

In [None]:
def test_no_while(blocks, debug=False):
    decoded = []
    if debug:
        blocks= blocks[:1]
    for block in tqdm(blocks):
        dest = []
        src = block.data[block.start:block.stop]
        nsrc = len(src) #block.stop - block.start
        thresh = block.thresh       
        offset = block.offset
        decoded.append(run_length_decode2(dest, src, nsrc, thresh, offset))
    return decoded

In [None]:
%lprun -f run_length_decode2 test_no_while(compressed_blocks, debug=True)

Timer unit: 3.52617e-07 s

Total time: 0.00316897 s
File: <ipython-input-35-d484ae5f5462>
Function: run_length_decode2 at line 1

Line #      Hits         Time  Per Hit   % Time  Line Contents
     1                                           def run_length_decode2(dest, src, nsrc, thresh, offset):
     2         1          5.0      5.0      0.1      si = 0 #counter source
     3         1          4.0      4.0      0.0      di = 0 #counter destination 
     4       131        237.0      1.8      2.6      while si < nsrc: #while we didn't read the whole file
     5       130        159.0      1.2      1.8          ib = src[si] # read current position
     6       130        198.0      1.5      2.2          si+=1 # counter go to the next position
     7       130        159.0      1.2      1.8          if ib == RUN: # if current position is equal to marker RUN
     8        60         76.0      1.3      0.8              nrun = src[si] # next position indicates number of points below thre

  0%|          | 0/1 [00:00<?, ?it/s]

O tempo caiu de `0.027` para `0.0032`, ainda passamos a maior parte do tempo, `87.8%`, extendendo a lista original, no entanto isso é feito uma única vez por byte.

Vamos ver como isso se traduz ao executarmos a função para todos os blocos.

In [None]:
%%time
d = test_no_while(compressed_blocks)

  0%|          | 0/133932 [00:00<?, ?it/s]

Wall time: 1min 8s


Passamos de 4min e 49s para 1min e 8s.

In [None]:
len(d), len(d[0])

(133932, 14633)

In [None]:
size_in_gb(d)

1.17 GB


In [None]:
del d
gc.collect()

135497

### Trocar de Listas para arrays pré-alocados
Como a maioria do tempo dispendido na função anterior ainda é na extensão da lista original com a lista de valores threshold. 
Para cada bloco a lista é extendida com uma sublista povoada com os valores de limiar `thresh`. Isso demanda que a memória seja alocada toda vez que extendemos a lista. 

Nessa alocação os endereços de memória não necessariamente estão adjacentes, isso certamente gera um gargalo no tempo de execução. 

Para sanarmos isso vamos trocar lista por um numpy array nulo, assim a memória é prealocada na memória.

In [None]:
def run_length_decode3(dest, src, nsrc, thresh, offset):
    i = 0
    j = 0
    while i < nsrc:
        ib = src[i] 
        i+=1
        if ib == RUN:
            nrun = src[i] 
            i+=1
            dest[j:j+nrun] = thresh #dest is now a numpy array
            j+=nrun
        elif ib == ESC:
            # next value is literal
            dest[j] = src[i]/2. + offset - 127.5
            i+=1 ; j+=1
        else:
            # value
            dest[j] = ib/2. + offset - 127.5
            j+=1
    return dest

In [None]:
#slow
def test_prealloc_np(blocks):
    decoded = np.empty((len(blocks), blocks[0].norig), dtype=np.float16)
    for b, block in enumerate(tqdm(blocks)):
        src = block.data[block.start:block.stop]
        nsrc = len(src)
        thresh = block.thresh
        offset = block.offset
        dest = np.empty(blocks[0].norig, dtype=np.float16)
        decoded[b] = run_length_decode3(dest, src, nsrc, thresh, offset)
    return decoded

Também declaramos os dados como sendo do tipo, `np.float16`, dado que os valores de nível do espectro possuem precisão de no máximo 1 casa decimal, o valor`np.float16` é o suficiente para armazená-los

In [None]:
%lprun -f run_length_decode3 test_prealloc_np(compressed_blocks[:1])

  0%|          | 0/1 [00:00<?, ?it/s]

Timer unit: 3.52617e-07 s

Total time: 0.000581113 s
File: <ipython-input-62-ed9d17e9d6ad>
Function: run_length_decode3 at line 1

Line #      Hits         Time  Per Hit   % Time  Line Contents
     1                                           def run_length_decode3(dest, src, nsrc, thresh, offset):
     2         1          4.0      4.0      0.2      i = 0
     3         1          3.0      3.0      0.2      j = 0
     4       131        168.0      1.3     10.2      while i < nsrc:
     5       130        177.0      1.4     10.7          ib = src[i] 
     6       130        211.0      1.6     12.8          i+=1
     7       130        214.0      1.6     13.0          if ib == RUN:
     8        60         77.0      1.3      4.7              nrun = src[i] 
     9        60         77.0      1.3      4.7              i+=1
    10        60        304.0      5.1     18.4              dest[j:j+nrun] = thresh #dest is now a numpy array
    11        60         78.0      1.3      4.7         

Vamos checar agora o desempenho com todos os blocos

In [None]:
%%time
d = test_prealloc_np(compressed_blocks)

  0%|          | 0/133932 [00:00<?, ?it/s]

Wall time: 28.9 s


Temos uma queda de `1min e 8s` para `28.9s`. Saímos de quase 5 minutos simplesmente eliminando um loop e posteriormente modificando a estrutura de dados. 
Agora que temos array em vez de listas podemos visualizá-los melhor:

In [None]:
display(d[-1])

array([-100. , -100. , -100. , ..., -100. , -117.5, -118.5], dtype=float16)

Poderíamos parar por aqui se quiséssemos mas veremos o quanto conseguimos otimizar.

In [None]:
del d
gc.collect()

25674

Ao iterarmos sobre os diferentes blocos `b`, prealocamos o array `dest` com um array vazio, passamos este para a função `run_length_decode3` e atribuimos o bloco de retorno à linha `b` da matriz:
```python
dest = np.empty(blocks[0].norig, dtype=np.float16)
decoded[b] = run_length_decode3(dest, src, nsrc, thresh, offset)
```

Podemos em vez de prealocar o array `dest` podemos simplesmente passar a linha `b` da matriz para a função e esta altera diretamente a linha da matriz de destino sem retornar nada:
```python
run_length_decode4(decoded[b], src, nsrc, thresh, offset)
```

Os valor de `thresh` e`offset` são fixos, definidos para todos os blocos no script de geração desses dados, então não precisamos extraí-los toda vez, basta armazená-los uma única vez e repassá-los para a função.


In [None]:
def run_length_decode4(dest, src, nsrc, thresh, offset):
    i = 0
    j = 0
    while i < nsrc:
        ib = src[i] 
        i+=1
        if ib == RUN:
            nrun = src[i] 
            i+=1
            dest[j:j+nrun] = thresh
            j+=nrun
        elif ib == ESC:
            # next value is literal
            dest[j] = src[i]/2. + offset - 127.5
            i+=1 ; j+=1
        else:
            # value
            dest[j] = ib/2. + offset - 127.5
            j+=1  
    #return dest A linha da matriz é alterada diretamente, portanto nossa função nada retorna

In [None]:
#slow
def test_prealloc_np2(blocks):
    thresh = blocks[0].thresh
    decoded = np.empty((len(blocks), blocks[0].norig), dtype=np.float16)
    offset = blocks[0].offset 
    for b, block in enumerate(tqdm(blocks)):
        src = block.data[block.start:block.stop]
        nsrc = len(src)
        run_length_decode4(decoded[b], src, nsrc, thresh, offset)
    return decoded

In [None]:
%%time
d = test_prealloc_np2(compressed_blocks)

  0%|          | 0/133932 [00:00<?, ?it/s]

Wall time: 22.8 s


Conseguimos mais uma vez reduzir o tempo de `28.9s` para `22.8s`.

Vamos revisar o que fizemos até o momento:

1. Retira os atributos `thresh` e `offset` do primeiro bloco somente, visto que são iguais para todos os blocos.
2. Prealoca a matriz `decoded` com valores nulos.
3. Percorre os blocos, extrai os bytes de dados de cada bloco `src` e o comprimento desse bytes de dados `nsrc`
4. Passa esses dados e a linha referente da matriz de destino que deve ser modificada

Para cada byte de dados, o algoritmo de decodificação somente tem 3 tipos de atribuição possíveis para nossa matriz de destino:
1. Caso o byte atual tenha o valor `RUN=255`, pega o valor armazenado no byte seguinte `nrun` e atribui o valor `thresh` para `nrun` bytes da matriz
2. Caso o byte atual tenha o valor `ESC=254`, atribui o valor literal do byte seguinte
3. Atribui o valor literal do byte caso seja distinto de `RUN` ou `ESC`

No entanto, conforme vimos o valor `thresh` é fixo e único para todos os blocos, pois é um atributo injetado no script de geração desses dados. É definido como limiar, ou seja, pode ser considerado o valor mínimo dos nossos dados ( piso de ruído ). Portanto podemos simplesmente prealocar nossa matriz já com esse valor `thresh` em vez de criarmos uma matriz nula onde esses valores serão repetidamente atribuídos. Assim eliminamos o passo 1 acima de atribuição porque nossa matriz original já estará povoada de valores `thresh`. 

Algumas melhorias sutis adicionais que reduzem a redundância:

* A operação `+ offset - 127.5` constitui uma soma e subtração de valores fixos então pode ser reduzida a somente 1 operação com valor fixo: `MIN = offset - 127.5`. Em vez de passarmos o offset para a função, passamos diretamente o `MIN`.


In [None]:
def run_length_decode5(dest, src, nsrc, MIN):
    i = 0
    j = 0
    while i < nsrc:
        ib = src[i] 
        i+=1
        if ib == RUN:
            nrun = src[i]
#             dest[j:j+nrun] = thresh  # Redundante
            i+=1
            j+=nrun
        elif ib == ESC:
            # next value is literal
            dest[j] = src[i]/2. + MIN
            i+=1 ; j+=1
        else:
            # value
            dest[j] = ib/2. + MIN
            j+=1  

In [None]:
def test_prealloc_np3(blocks):
    thresh = blocks[0].thresh
    decoded = np.full((len(blocks), blocks[0].norig), thresh, dtype=np.float16) #prealocamos a matrix com os valores de limiar thresh
    offset = blocks[0].offset 
    MIN = offset - 127.5
    for b, block in enumerate(tqdm(blocks)):
        src = block.data[block.start:block.stop]
        nsrc = len(src)
        run_length_decode5(decoded[b], src, nsrc, MIN)
    return decoded

In [None]:
%lprun -f run_length_decode5 test_prealloc_np3(compressed_blocks[:1])

Timer unit: 3.52617e-07 s

Total time: 0.000419967 s
File: <ipython-input-97-d159f56d66de>
Function: run_length_decode5 at line 1

Line #      Hits         Time  Per Hit   % Time  Line Contents
     1                                           def run_length_decode5(dest, src, nsrc, MIN):
     2         1          6.0      6.0      0.5      i = 0
     3         1          2.0      2.0      0.2      j = 0
     4       131        144.0      1.1     12.1      while i < nsrc:
     5       130        147.0      1.1     12.3          ib = src[i] 
     6       130        244.0      1.9     20.5          i+=1
     7       130        155.0      1.2     13.0          if ib == RUN:
     8        60         68.0      1.1      5.7              nrun = src[i]
     9                                           #             dest[j:j+nrun] = thresh  # Redundante
    10        60         68.0      1.1      5.7              i+=1
    11        60         72.0      1.2      6.0              j+=nrun
    12    

  0%|          | 0/1 [00:00<?, ?it/s]

In [None]:
del d
gc.collect()

86819

In [None]:
%%time
d = test_prealloc_np3(compressed_blocks)

  0%|          | 0/133932 [00:00<?, ?it/s]

Wall time: 13.4 s


Com uma prealocação mais inteligente e eliminando uma atribuição redundante diminuímos de `22.8s` para `13.4s`!

In [None]:
display(d[5000])

array([ -96.5,  -96.5,  -95.5, ..., -100. , -100. , -100. ], dtype=float16)

### Processamento Paralelo dos Blocos
Como estamos iterando os vários blocos e aplicando a função de decodificação, outra otimização que vêm em mente é paralelizar essa chamada de função. No entanto já estamos com o tempo bastante otimizado para quase 2 bilhões de pontos e multiprocessamento tem um "overhead" embutido na chamada, mas não custa testar.

Para tal temos que modificar a função de decodificação que irá receber agora uma parcela dos blocos e dentro dela agora deve ser iterado os blocos, assim conseguimos paralelizar a chamada de função.

In [None]:
def run_length_decode6(index, decoded, blocks, MIN):
    block = blocks[index]
    src = block.data[block.start:block.stop]
    nsrc = len(src)
    i = 0
    j = 0
    while i < nsrc:
        ib = src[i] 
        i+=1
        if ib == RUN:
            nrun = src[i] 
            i+=1
            j+=nrun
        elif ib == ESC:
            # next value is literal
            decoded[index, j] = src[i]/2. + MIN
            i+=1 ; j+=1
        else:
            # value
            decoded[index, j] = ib/2. + MIN
            j+=1

In [None]:
#hide
from rfpy.parser import run_length_decode6

In [None]:
# from functools import partial
# from fastcore.utils import parallel
# def test_prealloc_mp(blocks):
#     thresh = blocks[0].thresh
#     decoded = np.full((len(blocks), blocks[0].norig), thresh, dtype=np.float16)
#     offset=blocks[0].offset
#     items = list(range(len(blocks)))
#     func = partial(run_length_decode6, decoded=decoded, blocks=blocks)
#     with Pool(processes=os.cpu_count()) as pool:
#         pool.map(run_length_decode6, items)
#     return decoded

In [None]:
del d ; gc.collect()

34110

In [None]:
# %%time
# d = test_prealloc_mp(compressed_blocks)

## Functional Programming - Much Worse
Elimination of loops doesn't necessarily really eliminates them. `filter` and `map` run along the array

In [None]:
#slow
def test_prealloc_functional(blocks):
    decoded = np.full((len(blocks), blocks[0].norig), MIN, dtype=np.float16)
    MAX = blocks[0].norig
    for b, block in enumerate(tqdm(blocks)):
        src = block.data[block.start:block.stop]
        threshold = block.thresh
        dest = np.concatenate(L(src.split(b'\xff')).filter(lambda o: o != b'').map(lambda o: np.concatenate([np.repeat(threshold,o[0]),  np.fromiter(o[1:].replace(b'\xfe', b''), dtype=np.float16, count=len(o[1:]))])))
        decoded[b][:dest.shape[0]] = dest[:MAX]
    return decoded

In [None]:
%%cython --annotate

cimport cython

import numpy as np
cimport numpy as np

ctypedef np.float32_t DTYPE_t

@cython.boundscheck(False)
@cython.wraparound(False)
cpdef np.ndarray[DTYPE_t, ndim=2] cy_decode_blocks(list data, int rows, int cols, int thresh, float MIN):
    cdef np.ndarray[DTYPE_t, ndim=2] decoded = np.full((rows, cols), thresh, np.float32)
    cdef const unsigned char[:] src
    cdef int RUN = 255
    cdef int ESC = 254
    cdef int NRSC
    cdef int i
    cdef int j
    cdef int ib
    cdef int nrun
    cdef Py_ssize_t row   
    for row in range(rows):
        src = data[row]
        nsrc = len(src)
        i = 0
        j = 0
        while i < nsrc:
            ib = src[i]
            i+=1
            if ib == RUN:
                nrun = src[i] 
                i+=1
                j+=nrun
            elif ib == ESC:
                # next value is literal
                decoded[row, j] = MIN + src[i]/2.
                i+=1 ; j+=1
            else:
                # value
                decoded[row, j] = MIN + ib/2.
                j+=1
    return decoded

In [None]:
offset = compressed_blocks[0].offset
MIN = offset - 127.5
cols = compressed_blocks[0].norig
thresh = compressed_blocks[0].thresh
rows = len(compressed_blocks)
data_blocks = [b.data[b.start:b.stop] for b in compressed_blocks]

In [None]:
del d ; gc.collect()

In [None]:
%%time
d = cy_decode_blocks(data_blocks, rows, cols, thresh, MIN)

Wall time: 2.87 s
