# TCC - Victor Gonçalves
## Instruções de obtenção de dados
Autor: Prof. Dr. Reginaldo Gonçalves Leão Junior


### Verificação do status INMET

Consiste na chamada à função `statusINMET()` que verifica a disponibilidade de séries anuais climatológicas no recurso `/dadoshistoricos` do portal, exibe um compilado deste estatus no terminal e retorna um dicionário com a estrutura:

```
Dict{Int16, String} with n entries:
  "20XX" => "https://portal.inmet.gov.br/uploads/dadoshistoricos/20XX.zip"
```

no qual as chaves são os anos disponíveis na base no formato de um inteiro de 32 bits e os valores uma String contendo o link para download do zip file das séries para o respectivo ano.

Antes de qualquer verificação, deve-se fazer a instalação do pacote em desenvolvimento, ou verificação por atualizações.
Sendo o primeiro uso do pacote em uma determinada instalção deve-se executar as instruções do comentário `i)`, nas demais, atualizações devem ser checadas por meio das instruções do comentário `ii)`. A instrução `using Pkg` é apenas uma chamada ao módulo `Pkg` responsável pela gerência dos pacotes.

In [None]:
# i) Ativação local do pacote
# using Pkg
# Pkg.activate("/home/reginaldo/Insync/Trabalho/IFMG/IFMG_ARCOS/TCCs/TCCVitinho/SolarPowerForecastingIFMG.jl")

# ii) Na primeira execução do pacote
#using Pkg
#Pkg.add(url="https://github.com/GESESC/SolarPowerForecastingIFMG.jl")

# iii) A cada nova adição de funcionalidade
#using Pkg
#Pkg.update("SolarPowerForecastingIFMG")

Após a instalação ou atualização o pacote deve ser carregado no *kernel* em execução, em seguida a verificação do status no INMET pode ser imediatamente realizada.

In [None]:
using SolarPowerForecastingIFMG: statusINMET, obter_dados
using DataFrames

In [None]:
fonte_dados = statusINMET();

Após a execução a variável `fonte_dados` é um dicionário que contém os links para a obtenção das tabelas CSV de cada ano.

In [None]:
@show fonte_dados[2000];
@show fonte_dados[2010];
@show fonte_dados[2022];

### Raspagem de Dados
A extração de dados em si se dá por meio da função `obter_dados` cuja documentação pode ser vista àbaixo:

In [None]:
?obter_dados

No exemplo abaixo utilizamos a função `obter_dados` para a `fonte_dados` requerendo estes para a cidade de Formiga e o ano de 2010.
Note como esses parâmetros foram passados na forma de vetores, de forma tal que, mais de uma cidade, ou mesmo, mais que um ano de estudo podem ser selcionados. 

In [None]:
dados = obter_dados(fonte_dados, ["FORMIGA"], [2010]);

In [None]:
dados

Quando `dados` é exibido, se vê um problema de codificação no nome das colunas como por exemplo `PRECIPITA\xc7\xc3O` na terceira coluna, isto é uma falha de codificação na fonte dos dados. 
A lista de nomes das colunas pode ser inspecioanda utilizando-se a função name no objeto do tipo `dataset` pertencente à `mutable struct EstruturaDeCaptura`.

In [None]:
names(dados.serie[1].dataset)

A estrtura de captura de dados no submódulo `RaspagemDeDadosINMET.jl` é organizada na forma:
```Julia
mutable struct EstruturaDeCaptura
    cidade::Union{String, Nothing}
    ano::Union{Int, String, Nothing}
    dataset::Union{DataFrame, Nothing}
end

mutable struct SerieCidades 
    serie::AbstractVector{EstruturaDeCaptura}
end
```
Na qual a `mutable struct SerieCidades` é utilizada para armazenar os dados das múltiplas cidades desejadas para o estudo, e a `mutable struct EstruturaDeCaptura` cotém o nome de cada cidade, e o nome de cada ano de estudo, além dos dados proprieamente ditos na forma de `DataFrame` do tipo `DataFrames.jl`.

Em nosso caso, as seguintes colunas precisam de ajuste de codificação de caractere:

3. `PRECIPITA\xc7\xc3O TOTAL, HOR\xc1RIO (mm)` para `PRECIPITACAO TOTAL, HORARIA (mm)`;
5. `PPRESS\xc3O ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB)` para `PRESSAO ATMOSFERICA MAX.NA HORA ANT.(AUT) (mB)`;
6. `PPRESS\xc3O ATMOSFERICA MIN.NA HORA ANT. (AUT) (mB)` para `PRESSAO ATMOSFERICA MIN.NA HORA ANT.(AUT) (mB)`;
7. `RADIACAO GLOBAL (KJ/m\xb2)` para `RADIACAO GLOBAL (KJ/m²)`;
8. `TEMPERATURA DO AR - BULBO SECO, HORARIA (\xb0C)` para `TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)`;
9. `TEMPERATURA DO PONTO DE ORVALHO (\xb0C)` para `TEMPERATURA DO PONTO DE ORVALHO (°C)`;
10. `TEMPERATURA M\xc1XIMA NA HORA ANT. (AUT) (\xb0C)` para `TEMPERATURA MAXIMA NA HORA ANT.(AUT) (°C)`;
11. `TEMPERATURA M\xcdNIMA NA HORA ANT. (AUT) (\xb0C)` para `TEMPERATURA MINIMA NA HORA ANT.(AUT) (°C)`;
12. `TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (\xb0C)` para `TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C)`;
13. `TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (\xb0C)` para `TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C)`;
18. `VENTO, DIRE\xc7\xc3O HORARIA (gr) (\xb0 (gr))` para `VENTO, DIRECAO HORARIA (gr) (°(gr))`;

Para automatizar o processo cria-se um dicionário com os índices das colunas a serem modificadas e os novos nomes seguido do ajuste iterativo sobre `dados.serie[1].dataset`

In [None]:
columns_change = (
    3=>"PRECIPITACAO TOTAL, HORARIA (mm)",
    5=>"PRESSAO ATMOSFERICA MAX.NA HORA ANT.(AUT) (mB)",
    6=>"PRESSAO ATMOSFERICA MIN.NA HORA ANT.(AUT) (mB)",
    7=>"RADIACAO GLOBAL (KJ/m²)",
    8=>"TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)",
    9=>"TEMPERATURA DO PONTO DE ORVALHO (°C)",
    10=>"TEMPERATURA MAXIMA NA HORA ANT.(AUT) (°C)",
    11=>"TEMPERATURA MINIMA NA HORA ANT.(AUT) (°C)",
    12=>"TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C)",
    13=>"TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C)",
    17=>"VENTO, DIRECAO HORARIA (gr) (°(gr))"
)
for col in columns_change
       rename!(dados.serie[1].dataset, col)
end

Evento que corrije o problema de codificação conforme pode ser verificado pelo código abaixo. Alguma abordagem funcional usando `map` ou `foreach` também pode ser usada, inclusive talvez até com maior desempenho. 

In [None]:
names(dados.serie[1].dataset)

## Aquisições múltiplas
A função `obter_dados` ainda possibilita a aquisição múltipla de dados, tanto para múltiplas cidades, quanto para distintos intervalos de tempo, veja os exemplos abaixos.

### Aquisição de dados para múltiplas cidades
Na caso da aquisição para várias cidades basta declarar quais aquelas desejadas para estudo no segundo parâmetro da função, como no exemplo abaixo. É importante considerar que as cidades declaras devem constar dentre aquelas onde o INMET mantém coleta de dados. Futuramente a função `statusINMET` checará essa informações de maneira automatizada para disponibilizar aos usuários.

In [None]:
dados = obter_dados(fonte_dados, ["FORMIGA", "BAMBUI"], [2020]);

Neste caso veja como os dados ficam organizados em `dados`.
Como já dito a variável é do tipo `SerieCidades` e possui o campo `serie` que contém um vetor do tipo `Vector{SolarPowerForecastingIFMG.EstruturaDeCaptura}`.

In [None]:
@show typeof(dados)
@show typeof(dados.serie)

O comprimento do vetor armazenado no campo `serie` pode ser exibido fazendo-se:

In [None]:
length(dados.serie)

Onde o primeiro elemento se refere à primeira cidade declarada em `obter_dados` e o segundo à segunda.

In [None]:
println("Primeira cidade: ", dados.serie[1].cidade)
println("Ano da série: ", dados.serie[1].ano)

println("Segunda cidade: ", dados.serie[2].cidade)
println("Ano da série: ", dados.serie[2].ano)

### Aquisição de dados para múltiplos períodos

A aquisição para diversos anos está habilitada em dois modos distintos, o primeiro deles, declarando o 
terceiro parâmetro de `obter_dados` como um vetor com vários elementos como no exemplo abaixo:
```Julia
dados = obter_dados(fonte_dados, cidades, intervtemp=[2019, 2020, 2021, 2022])
```

Digamos que se queira obter os dados metereológicos para a cidade de Formiga nos anos 2010, 2015 e 2020, isto pode ser feito como:

In [None]:
dados = obter_dados(fonte_dados, ["FORMIGA"], [2010, 2015, 2020]);

As múltiplas séries exigem que a correção de codificação seja feita para cada ano o que exige um *loop* superior àquele mostrado anteriormente.

In [None]:
columns_change = (
    3=>"PRECIPITACAO TOTAL, HORARIA (mm)",
    5=>"PRESSAO ATMOSFERICA MAX.NA HORA ANT.(AUT) (mB)",
    6=>"PRESSAO ATMOSFERICA MIN.NA HORA ANT.(AUT) (mB)",
    7=>"RADIACAO GLOBAL (KJ/m²)",
    8=>"TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)",
    9=>"TEMPERATURA DO PONTO DE ORVALHO (°C)",
    10=>"TEMPERATURA MAXIMA NA HORA ANT.(AUT) (°C)",
    11=>"TEMPERATURA MINIMA NA HORA ANT.(AUT) (°C)",
    12=>"TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C)",
    13=>"TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C)",
    17=>"VENTO, DIRECAO HORARIA (gr) (°(gr))"
)
for idx_ano in 1:length([2010, 2015, 2020])
    for col in columns_change
       rename!(dados.serie[idx_ano].dataset, col)
    end
end

In [None]:
println("Serie do ano $(dados.serie[1].ano) para a cidade de $(dados.serie[1].cidade)")
dados.serie[1].dataset

In [None]:
println("Serie do ano $(dados.serie[2].ano) para a cidade de $(dados.serie[2].cidade)")
dados.serie[2].dataset

In [None]:
println("Serie do ano $(dados.serie[3].ano) para a cidade de $(dados.serie[3].cidade)")
dados.serie[3].dataset

### Aquisição de dados para múltiplos períodos

Como existe alta probabilidade, principalmente por tratar-se de séries temporais, que as aquisições se refiram a períodos sequenciais (adjacentes) a determinação do período total também pode ser realizada via `UnitRange` (vide: 
[https://docs.julialang.org/en/v1/base/collections/#Base.UnitRange]). Nestes casos o parâmetro `intervtemp` pode ser escrito como uma sequência de forma bastante reduzida. Veja o exemplo:

In [None]:
interv_temp = 2010:2014 #intervado de dados entre 2010 à 2014
dados = obter_dados(fonte_dados, ["FORMIGA"], interv_temp); 
columns_change = (
    3=>"PRECIPITACAO TOTAL, HORARIA (mm)",
    5=>"PRESSAO ATMOSFERICA MAX.NA HORA ANT.(AUT) (mB)",
    6=>"PRESSAO ATMOSFERICA MIN.NA HORA ANT.(AUT) (mB)",
    7=>"RADIACAO GLOBAL (KJ/m²)",
    8=>"TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)",
    9=>"TEMPERATURA DO PONTO DE ORVALHO (°C)",
    10=>"TEMPERATURA MAXIMA NA HORA ANT.(AUT) (°C)",
    11=>"TEMPERATURA MINIMA NA HORA ANT.(AUT) (°C)",
    12=>"TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C)",
    13=>"TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C)",
    17=>"VENTO, DIRECAO HORARIA (gr) (°(gr))"
)
for idx_ano in 1:length(interv_temp)
    for col in columns_change
       rename!(dados.serie[idx_ano].dataset, col)
    end
end

Os dados podem então ser acessados diretamente pelo campo `dataset`. Aqui usa-se a função `first` para exibir apenas as primeiras cinco linhas de cada série. 

In [None]:
println("Serie do ano $(dados.serie[1].ano) para a cidade de $(dados.serie[1].cidade)")
first(dados.serie[1].dataset, 5)

In [None]:
println("Serie do ano $(dados.serie[2].ano) para a cidade de $(dados.serie[2].cidade)")
first(dados.serie[2].dataset, 5)

In [None]:
println("Serie do ano $(dados.serie[3].ano) para a cidade de $(dados.serie[3].cidade)")
first(dados.serie[3].dataset, 5)

In [None]:
println("Serie do ano $(dados.serie[4].ano) para a cidade de $(dados.serie[4].cidade)")
first(dados.serie[4].dataset, 4)

In [None]:
println("Serie do ano $(dados.serie[5].ano) para a cidade de $(dados.serie[5].cidade)")
first(dados.serie[5].dataset, 5)

**Autor:** Reginaldo Gonçalves Leão Junior (prof.reginaldo.leao@gmail.com)

*Todos os direitos reservados*