# Função get_dataframe

Com as informações dos arquivos de namelist do SCANTEC carregados, o próximo passo é ler as tabelas geradas na avaliação com o SCANTEC e transformá-las em dataframes do Pandas. Para isso, o usuário deverá utilizar a função `get_dataframe` do módulo `scanplot`.

Da mesma forma como foi feito com a função `read_namelists`, pode-se digitar o comando `print(funcao.__doc__)` ou simplesmente, `help(funcao)` para descobrir como a função deve ser utilizada:

In [6]:
help(scanplot.get_dataframe)

Help on function get_dataframe in module data_structures:

get_dataframe(dataInicial, dataFinal, Stats, Exps, outDir, **kwargs)
    get_dataframe
    
    Esta função transforma a(s) tabela(s) do SCANTEC em dataframe(s).
    
    Parâmetros de entrada
    ---------------------
        dataInicial : objeto datetime com a data inicial do experimento;
        dataFinal   : objeto datetime com a data final do experimento;
        Stats       : lista com os nomes das estatísticas a serem processadas;
        Exps        : lista com os nomes dos experimentos;
        outDir      : string com o diretório com as tabelas do SCANTEC.
    
    Parâmetros de entrada opcionais
    -------------------------------
        series : valor Booleano para ler uma série temporal das tabelas do SCANTEC:
                 * series=False (valor padrão), lê as tabelas do SCANTEC geradas para a avaliação de um período;
                 * series=True, lê as tabelas do SCANTEC geradas para a avaliação dos dias den

A função `get_dataframe` recebe uma série de parâmetros de entrada e retorna um dicionário com uma ou mais tabelas que já estarão na estrutura de dataframe do Pandas. Na célula a seguir, serão definidos os valores de entrada da função `get_dataframe` a partir dos dicionários `data_conf` e `data_vars`, criados anteriormente.

Observe que os parâmetros `Vars` e `Stats` são atribuídos de formas diferentes dos demais. O parâmetro `Stats` é uma lista que deve possuir pelo menos um elemento e ele sempre deve possuir a forma `Stat = [...]`. Na versão atual do SCANPLOT, o usuário pode escolher as estatísticas `ACOR` (correlação de anomalias), `RMSE` (raiz do erro quadrático médio) e `VIES` (viés), em qualquer ordem ou combinação entre elas. 

O parâmetro `Vars` também é uma lista, mas é definido de forma diferente. O usuário deve observar que no dicionário `data_vars`, para cada índice está associada uma tupla do tipo `('VAR:LEV', 'Nome da Variável @ Nível hPa [unidade]')`.  Isto foi feito para facilitar ao usuário a escolha da variável, pois ao invés de se digitar o nome da variável, basta escolher pelo menos um dos índices do dicionário `data_vars` que deseja, da seguinte forma `Vars = list(map(data_vars.get,[1,2,3,...]`. 

In [7]:
dataInicial = data_conf['Starting Time']
dataFinal = data_conf['Ending Time']
Vars = list(map(data_vars.get,[11,12,13])) # ou [*map(data_vars.get,[12,14])]
Stats = ['ACOR', 'RMSE', 'VIES']
Exps = list(data_conf['Experiments'].keys()) # ou [*data_conf["Experiments"].keys()]
outDir = data_conf['Output directory']
figDir = outDir + '/figs'

Com a definição dos parâmetros de entrada da função `get_dataframe`, a sua utilização é feita da seguinte forma:

In [8]:
dTable = scanplot.get_dataframe(dataInicial,dataFinal,Stats,Exps,outDir,series=False)

Na chamada da função `get_dataframe`, o objeto `dTable` é um dicionário que deverá conter as tabelas escolhidas pelo usuário a partir do ajuste dos parâmetros de entrada da função. Para inspecionar o conteúdo do dicionário `dTable`, basta digitar no prompt:

In [9]:
dTable

{'ACORX126_20200601002020081500T.scan':     %Previsao  psnm:000  temp:850  temp:500  temp:250  umes:925  umes:850  \
 0           0     0.999     0.997     1.000     0.999     0.250     0.154   
 1          24     0.981     0.986     0.997     0.992     0.228     0.137   
 2          48     0.964     0.978     0.994     0.985     0.216     0.123   
 3          72     0.937     0.968     0.989     0.977     0.203     0.108   
 4          96     0.906     0.959     0.983     0.968     0.196     0.098   
 5         120     0.868     0.949     0.976     0.958     0.190     0.090   
 6         144     0.829     0.942     0.970     0.950     0.187     0.085   
 7         168     0.791     0.934     0.964     0.942     0.184     0.081   
 8         192     0.753     0.929     0.958     0.936     0.182     0.077   
 9         216     0.718     0.924     0.953     0.930     0.182     0.076   
 10        240     0.691     0.921     0.949     0.926     0.179     0.075   
 11        264     0.672 

No dicionário `dTable`, observe que foram carregadas as tabelas referente às estatísticas escolhidas (`VIES`, `RMS` e `ACOR`). Para visualizar o dataframe da tabela, basta passar o nome da tabela como argumento do dicionário dTable, como em `dTable['NOME_TABELA']`. Veja o exemplo a seguir:

In [10]:
dTable['ACORX126_20200601002020081500T.scan']

Unnamed: 0,%Previsao,psnm:000,temp:850,temp:500,temp:250,umes:925,umes:850,umes:500,agpl:925,zgeo:850,zgeo:500,zgeo:250,uvel:850,uvel:500,uvel:250,vvel:850,vvel:500,vvel:250
0,0,0.999,0.997,1.0,0.999,0.25,0.154,0.071,0.997,1.0,1.0,1.0,0.991,0.997,0.998,0.984,0.995,0.997
1,24,0.981,0.986,0.997,0.992,0.228,0.137,0.069,0.984,0.996,0.999,1.0,0.923,0.97,0.979,0.871,0.948,0.958
2,48,0.964,0.978,0.994,0.985,0.216,0.123,0.064,0.964,0.99,0.997,0.998,0.888,0.943,0.955,0.806,0.897,0.908
3,72,0.937,0.968,0.989,0.977,0.203,0.108,0.059,0.941,0.979,0.994,0.996,0.84,0.906,0.922,0.726,0.826,0.837
4,96,0.906,0.959,0.983,0.968,0.196,0.098,0.053,0.917,0.965,0.988,0.993,0.787,0.86,0.882,0.629,0.733,0.743
5,120,0.868,0.949,0.976,0.958,0.19,0.09,0.047,0.896,0.947,0.982,0.988,0.734,0.809,0.838,0.532,0.626,0.638
6,144,0.829,0.942,0.97,0.95,0.187,0.085,0.042,0.878,0.928,0.974,0.984,0.683,0.758,0.795,0.444,0.52,0.534
7,168,0.791,0.934,0.964,0.942,0.184,0.081,0.037,0.862,0.909,0.967,0.979,0.637,0.71,0.752,0.372,0.419,0.425
8,192,0.753,0.929,0.958,0.936,0.182,0.077,0.033,0.849,0.89,0.96,0.974,0.595,0.668,0.717,0.302,0.322,0.324
9,216,0.718,0.924,0.953,0.93,0.182,0.076,0.029,0.838,0.871,0.953,0.97,0.56,0.63,0.684,0.243,0.235,0.234
