In [None]:
#hide
%load_ext autoreload
%autoreload 2    
import warnings

with warnings.catch_warnings():
    warnings.simplefilter("ignore")

In [None]:
#export
import rfpy
from pprint import pprint
from rfpy.parser import get_files, export_bin_meta, export_bin_level, file2block, META
from nbdev.showdoc import *
from fastcore.test import *
from fastcore.xtras import Path

# RFPY - Extração otimizada dos dados de arquivos `.bin` provenientes do script Logger executados nas estações de Monitoramento CRFS RFeye Node.
> Este módulo tem como objetivo o processamento e extração otimizada de dados dos arquivos `.bin` de monitoramento do espectro. Para talt utilizamos as várias funcionalidades da biblioteca [fastcore](https://fastcore.fast.ai/basics.html), que expande e otimiza as estruturas de dados da linguagem python. 

## Instalação
`pip install rfpy`

## Como utilizar
Abaixo mostramos as funcionalidades principais dos módulos, utilizando-os dentro de algum outro script ou `REPL`

Precisamos necessariamente de um diretório de entrada, contendo um ou mais arquivos `.bin` e um diretório de saída no qual iremos salvar os arquivos processados. 
> Note: Mude os caminhos abaixo para suas pastas locais caso for executar o exemplo.

Ao utilizar o script `process_bin`, as pastas `entrada` e `saída` esses serão repassadas como parâmetros na linha de comando.

In [None]:
VERBOSE = True
entrada = Path(r'D:\OneDrive - ANATEL\Backup_Rfeye_SP\RPO\PMEC2020\Ribeirao_Preto_SP\SLMA')
saida = Path(r'C:\Users\rsilva\Downloads\saida')

## Leitura de Arquivos

No módulo `parser.py`, há funções auxiliares para lidar com os arquivos `.bin`, pastas e para processar tais arquivos em formatos úteis. Nesse caso utilizaremos a função `get_files` que busca de maneira recursiva arquivos de dada extensão, inclusive links simbólicos se existirem
O caráter recursivo e a busca em links, `recurse` e `followlinks` simbólicos pode ser desativados por meio dos parâmetros e opcionalmente pode ser varrido somente o conjunto de pastas indicado em `folders` 

In [None]:
show_doc(get_files)

<h4 id="get_files" class="doc_header"><code>get_files</code><a href="https://github.com/ronaldokun/rfpy/tree/master/rfpy/parser.py#L64" class="source_link" style="float:right">[source]</a></h4>

> <code>get_files</code>(**`path`**, **`extensions`**=*`None`*, **`recurse`**=*`True`*, **`folders`**=*`None`*, **`followlinks`**=*`True`*)

Get all the files in `path` with optional `extensions`, optionally with `recurse`, only in `folders`, if specified.

In [None]:
arquivos = get_files(entrada, extensions=['.bin']) ; arquivos

(#255) [Path('D:/OneDrive - ANATEL/Backup_Rfeye_SP/RPO/PMEC2020/Ribeirao_Preto_SP/SLMA/rfeye002304_SLMA_bimestral_occ15min_200317_232233.bin'),Path('D:/OneDrive - ANATEL/Backup_Rfeye_SP/RPO/PMEC2020/Ribeirao_Preto_SP/SLMA/rfeye002304_SLMA_bimestral_occ15min_200318_225525.bin'),Path('D:/OneDrive - ANATEL/Backup_Rfeye_SP/RPO/PMEC2020/Ribeirao_Preto_SP/SLMA/rfeye002304_SLMA_bimestral_occ15min_200318_225535.bin'),Path('D:/OneDrive - ANATEL/Backup_Rfeye_SP/RPO/PMEC2020/Ribeirao_Preto_SP/SLMA/rfeye002304_SLMA_bimestral_occ15min_200318_225556.bin'),Path('D:/OneDrive - ANATEL/Backup_Rfeye_SP/RPO/PMEC2020/Ribeirao_Preto_SP/SLMA/rfeye002304_SLMA_bimestral_occ15min_200318_225615.bin'),Path('D:/OneDrive - ANATEL/Backup_Rfeye_SP/RPO/PMEC2020/Ribeirao_Preto_SP/SLMA/rfeye002304_SLMA_bimestral_occ15min_200410_183001.bin'),Path('D:/OneDrive - ANATEL/Backup_Rfeye_SP/RPO/PMEC2020/Ribeirao_Preto_SP/SLMA/rfeye002304_SLMA_bimestral_occ15min_200423_162327.bin'),Path('D:/OneDrive - ANATEL/Backup_Rfeye_SP/RPO/

> Important: O Objeto retornado `L` é uma extensão da lista python com funcionalidades adicionais, uma delas como  podemos ver é que a representação da lista impressa mostra o comprimento da lista. Esse objeto pode ser usado de maneira idêntica à uma lista em python e sem substituição desta.

Temos 255 arquivos bin na pasta entrada. Podemos filtrar por pasta também

In [None]:
arquivos_bin = get_files(entrada, extensions=['.bin'], folders='tmp') ; arquivos_bin

(#1) [Path('D:/OneDrive - ANATEL/Backup_Rfeye_SP/RPO/PMEC2020/Ribeirao_Preto_SP/SLMA/tmp/rfeye002304_SLMA_bimestral_PEAK_200829_234902.bin')]

Nesse caso dentro da pasta 'tmp' há somente 1 arquivo `.bin`

In [None]:
bin_file = arquivos_bin[0] ; bin_file.name

'rfeye002304_SLMA_bimestral_PEAK_200829_234902.bin'

## Processamento dos blocos
A função seguinte `file2block` recebe um arquivo `.bin` e mapeia os blocos contidos nele retornando um dicionário que tem como chave o tipo de bloco e os valores como uma lista com os blocos extraídos sequencialmente.

In [None]:
show_doc(file2block)

<h4 id="file2block" class="doc_header"><code>file2block</code><a href="https://github.com/ronaldokun/rfpy/tree/master/rfpy/parser.py#L113" class="source_link" style="float:right">[source]</a></h4>

> <code>file2block</code>(**`file`**:`Union`\[`str`, `Path`\])

Receives a path to a bin file and returns a defaultdict with unique block types as keys and a list of the Class Blocks as values
:param file: A string or pathlib.Path like path to a `.bin`file generated by CFRS - Logger
:return: A Dictionary with block types as keys and a list of the Class Blocks available as values

In [None]:
block = file2block(bin_file)

In [None]:
block.keys()

dict_keys([1413563424, 21, 41, 24, 40, 63])

Exceto o primeiro bloco, que é simplesmente ignorado, os demais blocos são conhecidos e tratados individualmente.

In [None]:
block[63]

(#6605) [<rfpy.blocks.DType63 object at 0x000002B54F47F940>,<rfpy.blocks.DType63 object at 0x000002B54F47FAC0>,<rfpy.blocks.DType63 object at 0x000002B54F47FBE0>,<rfpy.blocks.DType63 object at 0x000002B54F47FD00>,<rfpy.blocks.DType63 object at 0x000002B54F47FE20>,<rfpy.blocks.DType63 object at 0x000002B54F47FF40>,<rfpy.blocks.DType63 object at 0x000002B5482300A0>,<rfpy.blocks.DType63 object at 0x000002B5482301C0>,<rfpy.blocks.DType63 object at 0x000002B5482302E0>,<rfpy.blocks.DType63 object at 0x000002B548230400>...]

Temos nesse arquivo 6605 blocos do tipo 63 - Bloco contendo dados de espectro.

In [None]:
bloco = block[63][0]

In [None]:
pprint([d for d in dir(bloco) if not d.startswith('_')])

['agc_array',
 'banda_mega',
 'banda_mili',
 'block_data',
 'bw',
 'channel',
 'count',
 'data',
 'data_points',
 'date',
 'datetime_stamp',
 'default',
 'frequencies',
 'global_error_code',
 'global_flags_code',
 'group_id',
 'id_antenna',
 'index',
 'len_agc',
 'len_padding',
 'len_tunning_info',
 'level_offset',
 'nanosecs',
 'num_meas',
 'passo',
 'processing',
 'rbw',
 'size',
 'spent_time_microsecs',
 'start_mega',
 'start_mili',
 'stop_mega',
 'stop_mili',
 'thread_id',
 'time',
 'trailer',
 'tunning_info_array',
 'type',
 'unit']


Esses são os atributos do Bloco de Espectro acima do tipo 63. Todos podem ser acessados por meio da notação `.`

In [None]:
bloco.data_points

14848

In [None]:
bloco.start_mega

108

In [None]:
bloco.stop_mega

137

In [None]:
bloco.level_offset

-20

O bloco se comporta como um objeto python do tipo lista. 

In [None]:
bloco[0], bloco[-1]

((108.0, -75.0), (137.0, -96.5))

Podemos selecionar items da lista, é retornado uma tupla com a frequência em `MHz` e o nível medido em `dBm / dBuV/m` 

In [None]:
for freq, nível in bloco:
    print(freq, nível)
    break

108.0 -75.0


Podemos iterar as medidas num loop

In [None]:
len(bloco)

14848

Esse é o mesmo valor do atributo `data_points`

A função seguinte extrai os metadados `META` definidos no cabeçalho do arquivo `parser.py` e retorna um DataFrame.

In [None]:
show_doc(export_bin_meta)

<h4 id="export_bin_meta" class="doc_header"><code>export_bin_meta</code><a href="https://github.com/ronaldokun/rfpy/tree/master/rfpy/parser.py#L179" class="source_link" style="float:right">[source]</a></h4>

> <code>export_bin_meta</code>(**`map_block`**:`Mapping`\[`int`, `L`\])

Receives a Mapping with the different `. bin` Blocks and extracts the metadata listed in [`META`](/rfpy/parser.html#META) in a dataframe format
    

In [None]:
%%time
meta = export_bin_meta(block)
meta.tail(10)

Wall time: 585 ms


Unnamed: 0,Block_Number,Latitude,Longitude,Altitude,Initial_Time,Sample_Duration,Start_Frequency,Stop_Frequency,Vector_Length,Trace_Type,Antenna_Type,Equipement_ID
6595,6595,-21.228973,-47.759907,623.5,2020-09-03 13:45:01.833424,60428,108,137,14848,peak,1,rfeye002304
6596,6596,-21.228973,-47.759933,621.5,2020-09-03 13:46:00.811335,60514,108,137,14848,peak,1,rfeye002304
6597,6597,-21.228977,-47.759914,623.0,2020-09-03 13:47:01.501244,60358,108,137,14848,peak,1,rfeye002304
6598,6598,-21.228973,-47.759907,625.0,2020-09-03 13:48:00.511332,60397,108,137,14848,peak,1,rfeye002304
6599,6599,-21.228964,-47.759922,620.0,2020-09-03 13:49:01.191148,60476,108,137,14848,peak,1,rfeye002304
6600,6600,-21.228956,-47.759922,620.5,2020-09-03 13:50:01.891165,60218,108,137,14848,peak,1,rfeye002304
6601,6601,-21.228941,-47.759911,621.0,2020-09-03 13:51:00.811174,60443,108,137,14848,peak,1,rfeye002304
6602,6602,-21.228968,-47.759907,619.0,2020-09-03 13:52:01.501244,60415,108,137,14848,peak,1,rfeye002304
6603,6603,-21.228954,-47.759907,620.5,2020-09-03 13:53:00.411253,60307,108,137,14848,peak,1,rfeye002304
6604,6604,-21.228962,-47.759907,618.0,2020-09-03 13:54:01.091231,60272,108,137,14848,peak,1,rfeye002304


In [None]:
meta.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6605 entries, 0 to 6604
Data columns (total 12 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Block_Number     6605 non-null   uint16        
 1   Latitude         6605 non-null   float32       
 2   Longitude        6605 non-null   float32       
 3   Altitude         6605 non-null   float16       
 4   Initial_Time     6605 non-null   datetime64[ns]
 5   Sample_Duration  6605 non-null   uint16        
 6   Start_Frequency  6605 non-null   uint32        
 7   Stop_Frequency   6605 non-null   uint32        
 8   Vector_Length    6605 non-null   uint16        
 9   Trace_Type       6605 non-null   category      
 10  Antenna_Type     6605 non-null   category      
 11  Equipement_ID    6605 non-null   category      
dtypes: category(3), datetime64[ns](1), float16(1), float32(2), uint16(3), uint32(2)
memory usage: 226.1 KB


Os metadados de um arquivo `.bin` de cerca de `100MB` ocupa somente `226KB`

A função seguinte extrai as frequências e nível num formato de Tabela Dinâmica:
* Colunas: Frequências (MHz)
* Índice: Números de Bloco
* Valores: Níveis (dBm ou dBuV/m)

In [None]:
show_doc(export_bin_level)

<h4 id="export_bin_level" class="doc_header"><code>export_bin_level</code><a href="https://github.com/ronaldokun/rfpy/tree/master/rfpy/parser.py#L156" class="source_link" style="float:right">[source]</a></h4>

> <code>export_bin_level</code>(**`map_block`**:`Mapping`\[`int`, `L`\], **`pivoted`**:`bool`=*`True`*, **`freq_dtype`**:`str`=*`'float32'`*)

Receives a mapping `map_block` and returns the Matrix with the Levels as values, Frequencies as columns and Block Number as index.
:param pivoted: If False, optionally returns an unpivoted version of the Matrix

In [None]:
%%time
levels = export_bin_level(block) ; levels.head()

Wall time: 7.37 s


Unnamed: 0,108.000000,108.001953,108.003907,108.005860,108.007813,108.009766,108.011720,108.013673,108.015626,108.017579,...,136.982421,136.984374,136.986327,136.988280,136.990234,136.992187,136.994140,136.996093,136.998047,137.000000
0,-75.0,-75.5,-76.5,-77.0,-77.5,-78.5,-79.0,-80.5,-80.5,-80.5,...,-95.0,-93.5,-95.0,-93.5,-91.5,-92.0,-98.0,-99.0,-97.5,-96.5
1,-66.0,-70.5,-74.0,-75.5,-75.5,-76.0,-77.0,-77.5,-75.0,-75.5,...,-93.5,-95.0,-94.0,-91.0,-92.0,-94.0,-96.0,-96.5,-96.5,-96.5
2,-83.5,-84.5,-89.5,-81.5,-84.5,-87.0,-85.5,-83.0,-84.5,-87.5,...,-93.5,-93.5,-92.5,-92.0,-92.5,-93.5,-97.5,-98.0,-98.5,-96.5
3,-87.5,-87.5,-91.5,-69.5,-85.5,-85.5,-89.0,-90.5,-88.5,-87.0,...,-93.5,-93.5,-94.0,-93.5,-93.0,-93.0,-98.5,-96.5,-94.5,-95.0
4,-80.5,-75.5,-72.5,-71.5,-73.0,-76.5,-73.0,-74.0,-79.5,-87.5,...,-95.0,-95.0,-94.0,-94.0,-93.5,-93.0,-96.5,-96.5,-95.5,-96.0


In [None]:
levels.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6605 entries, 0 to 6604
Columns: 14848 entries, 108.0 to 137.0
dtypes: float16(14848)
memory usage: 187.1 MB


Essa matriz com mais de 98 milhões de valores ocupa somente `187.1MB` de memória

Caso o parâmetro `pivoted = False` é retornada a versão tabular empilhada. No entanto o processamento é muito mais lento tendo em vista a redundância de dados que é adicionada.

In [None]:
%%time
levels = export_bin_level(block, pivoted=False) ; levels.head()

Wall time: 14.4 s


Unnamed: 0,Block_Number,Frequency(MHz),Nivel(dBm)
0,0.0,108.0,-75.0
1,0.0,108.001953,-75.5
2,0.0,108.003907,-76.5
3,0.0,108.00586,-77.0
4,0.0,108.007813,-77.5


In [None]:
levels.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 98071040 entries, 0 to 98071039
Data columns (total 3 columns):
 #   Column          Dtype   
---  ------          -----   
 0   Block_Number    category
 1   Frequency(MHz)  category
 2   Nivel(dBm)      float16 
dtypes: category(2), float16(1)
memory usage: 562.6 MB


Como não vamos fazer cálculos com essa matriz, somente extração e armazenamento, podemos manipular e salvar os valores como o tipo `category` do pandas. que ocupa o mesmo que um `int16` nesse caso.

In [None]:
levels.tail()

Unnamed: 0,Block_Number,Frequency(MHz),Nivel(dBm)
98071035,14847.0,136.992187,-94.0
98071036,14847.0,136.99414,-98.5
98071037,14847.0,136.996093,-98.5
98071038,14847.0,136.998047,-99.0
98071039,14847.0,137.0,-98.5


In [None]:
%%time
levels.to_feather(saida / 'file_b.fth')

Wall time: 970 ms
