# Python #

## - Pacote NETCDF4 - ##

### 0) Referências: ###


- http://unidata.github.io/netcdf4-python/#section1
- http://unidata.github.io/netcdf4-python/#netCDF4.Dataset
- https://netcdf4-python.googlecode.com/svn/trunk/docs/netCDF4-module.html


É uma biblioteca do Python com a qual é possível criar, ler e alterar arquivos no formato netcdf. 

Pacotes Requeridos:

In [None]:
import netCDF4 as nc
%matplotlib inline

**%matplorlib inline** , serve para mostrar logo após a célula de código, o resultado gerado a partir dela.
### 1) Criando / Abrindo / Fechando um arquivo netCDF: ###

   No pacote netCDF4 existe o construtor (classe) chamado **Dataset**. Ele é utilizado para abrir, ler e alterar arquivos. O Dataset de um arquivo netCDF contém informações em dimensões, variáveis, grupos e atributos. Juntos eles descrevem o significado dos dados e as relações entre os dados armazenados no arquivo netCDF. Arquivos netCDF vêm em 5 formatos; **NETCDF3_CLASSIC, NETCDF3_64BIT_OFFSET, NETCDF3_64BIT_DATA, NETCDF4_CLASSIC,** e **NETCDF4**.   
   O modulo netCDF4 pode ler e alterar arquivos em qualquer um desses formatos. Quando criar um novo arquivo, o formato pode ser especificado usando a keyword **format** do Dataset. O formato padrão é o NETCDF4. Para ver qual é o formato de um dado arquivo, você pode usar o atributo __data_model__. Para fechar o arquivo netCDF, use o método close do Dataset.
   
   Segue um exemplo:

In [None]:
arquivo = nc.Dataset("brleste_oc_20160303.nc", "r")

In [None]:
print(arquivo.data_model)
arquivo.close()

Note que por causa da linha '<code> arquivo.close()</code>', quando essa célula for rodada novamente ocorrerá um erro e será necessário abrir novamente o arquivo pela célula acima para então conseguir o formato do netCDF.

#### - Keywords do Dataset - ####
def __init__(	self, filename, mode="r", clobber=True, diskless=False, persist=False, weakref=False, format='NETCDF4')

Analisando item a item, temos que:

 1. **filename**: nome do arquivo que contém o Dataset.
 
 2. **mode**: é o modo de acesso, que pode ser: 

 **r** : significa somente ler. Nenhum dado pode ser alterado.
 
 **w** : significa _write_ , escrever. Ele cria um novo arquivo e o arquivo com o mesmo nome é deletado.
 
 **a** ou **r+** : significa _append_; O arquivo existente é aberto para ser lido e alterado.
  
 3. **clobber**: Se estiver **True**(default), ao abrir um arquivo com o modo 'w' irá sobrepujar um arquivo existente com o mesmo nome. Caso esteja **False**, uma exceção será se o arquivo com o mesmo nome existir.
 
 _clobber definition (eng): to defeat someone very easily in a way that is embarrassing for the team that loses._ 
  
 5. **diskless**: caso **"True"**, cria um arquivo na memória ao invés do disco rígido.
  
 6. **persist**: se **"diskless=True"**, mantém o arquivo no disco quando ele é fechado. (default **False**)

 4. **format**: é o formato do arquivo netCDF( um deles: 'NETCDF4', 'NETCDF4_CLASSIC', 'NETCDF3_CLASSIC', 'NETCDF3_64BIT_OFFSET' ou 'NETCDF3_64BIT_DATA'). Só é relevante quando estiver no modo "**w**", caso contrário, o formato é automaticamente detectado.
  
 7. **keepweakref**: if True, child Dimension and Variable instances will keep weak references to the parent Dataset or Group object. Default is False, which means strong references will be kept. Having Dimension and Variable instances keep a strong reference to the parent Dataset instance, which in turn keeps a reference to child Dimension and Variable instances, creates circular references. Circular references complicate garbage collection, which may mean increased memory usage for programs that create may Dataset instances with lots of Variables. Setting keepweakref=True allows Dataset instances to be garbage collected as soon as they go out of scope, potential reducing memory usage. However, in most cases this is not desirable, since the associated Variable instances may still be needed, but are rendered unusable when the parent Dataset instance is garbage collected.
 
 #### - Variáveis do Dataset -

- **data_model**: describes the netCDF data model version, one of NETCDF3_CLASSIC, NETCDF4, NETCDF4_CLASSIC, NETCDF3_64BIT_OFFSET or NETCDF3_64BIT_DATA.

In [None]:
print (arquivo.data_model)

- **dimensions**: The dimensions dictionary maps the names of dimensions defined for the Group or Dataset to instances of the Dimension class. 

In [None]:
print(arquivo.dimensions)

- **variables**: The variables dictionary maps the names of variables defined for this Dataset or Group to instances of the Variable class.

In [None]:
print (arquivo.variables)

- **groups**: The groups dictionary maps the names of groups created for this Dataset or Group to instances of the Group class (the Dataset class is simply a special case of the Group class which describes the root group in the netCDF4 file).

In [None]:
print (arquivo.groups)

- **vltypes**: The vltypes dictionary maps the names of variable-length types defined for the Group or Dataset to instances of the VLType class.

In [None]:
print (arquivo.vltypes)

- **path**: path shows the location of the Group in the Dataset in a unix directory format (the names of groups in the hierarchy separated by backslashes). A Dataset instance is the root group, so the path is simply '/'.

In [None]:
print (arquivo.path)

- **parent**: parent is a reference to the parent Group instance. None for the root group or Dataset instance.

In [None]:
print (arquivo.parent)

- **disk_format**: disk_format describes the underlying file format, one of NETCDF3, HDF5, HDF4, PNETCDF, DAP2, DAP4 or UNDEFINED. Only available if using netcdf C library version >= 4.3.1, otherwise will always return UNDEFINED.

In [None]:
print(arquivo.disk_format)

- **enumtypes**: The enumtypes dictionary maps the names of Enum types defined for the Group or Dataset to instances of the EnumType class.

In [None]:
print (arquivo.enumtypes)

- **cmptypes**: The cmptypes dictionary maps the names of compound types defined for the Group or Dataset to instances of the CompoundType class.

In [None]:
print(arquivo.cmptypes)

### 2) Grupos em um arquivo netCDF ###

Os grupos em um netCDF (na versão 4) funcionam como diretórios no Sistema Operacional (SO). Os grupos servem como containers para variáveis, dimensões e atributos, assim como outros grupos. O Dataset cria um grupo especial, chamado 'root group', que é similar ao diretório raiz em um sistema operacional. 

Para criar um grupo, use o método <code> createGroup </code> do Dataset. O <code> createGroup </code> requer um único argumento, uma  string do python contendo o nome do novo grupo. 

In [None]:
rootgrp = nc.Dataset("teste.nc", "w", format='NETCDF4')
rootgrp.close()

In [None]:
rootgrp = nc.Dataset("teste.nc","a")
fcastgrp = rootgrp.createGroup("forecasts")
analgrp = rootgrp.createGroup("analyses")

In [None]:
print(rootgrp.groups)

Grupos podem existir dentro de grupos em um Dataset, como pastas existem dentro de pastas. Cada instância tem um atributo **<code>groups</code>** contendo todos os grupos que se encontram dentro daquele grupo.

Cada instância de um grupo também tem um atributo **<code> path </code>** que contém uma espécie de path de um diretório unix para esse grupo. 

Observe o exemplo: 

In [None]:
fcastgrp1 = rootgrp.createGroup("/forecasts/model1")
fcastgrp2 = rootgrp.createGroup("/forecasts/model2")
print(rootgrp.groups)

- ** Obs.: **Note que o atributo <code> groups </code> agora contém os crupos criados dentro de /forecast.     
<code>      
        OrderedDict([('forecasts', <class 'netCDF4._netCDF4.Group'>
        group /forecasts:
            dimensions(sizes): 
            variables(dimensions): 
            groups: model1, model2)
        
</code>

In [None]:
rootgrp.close()

### 3) Dimensões em um arquivo netCDF ###

netCDF define os tamanhos de todas as variáveis em termos de dimensões, então antes de qualquer variável ser criada as dimensões que elas usam devem ser  criadas antes. Um caso especial, pouco usado na prática, é o de uma variável escalar, que não tem dimensão.

Uma dimensão é criada usando o método <code> createDimension</code> do Dataset ou Grupo. Uma string do Python é usada para atribuir o nome da dimensão e um numero inteiro é usado para atribuir o tamanho. Para criar uma dimensão ilimitada (uma dimensão que possa ser adicionada - _appended to_), o valor do tamanho é configurado como <code> None </code> ou <code> 0 </code>.

Neste exemplo, tanto as dimensões **<code>time</code>** e **<code>level</code>** são ilimitadas. Ter mais de uma dimensão ilimitada é uma característica do netCDF4, nos arquivos netCDF3 só poderia haver uma, e ela deveria ser a primeira dimensão da variável.


In [None]:
rootgrp = nc.Dataset("teste.nc","a")

In [None]:
level = rootgrp.createDimension("level", None)
time = rootgrp.createDimension("time",None)
lat = rootgrp.createDimension("latitude", 73)
lon = rootgrp.createDimension("longitude",144)

Todas as dimensões foram armazenadas em um dicionário python.

In [None]:
print(rootgrp.dimensions)

Usando a função <code>len</code> com uma dimensão retorna o tamanho atual daquela dimensão. O método <code>isunlimited</code> de uma dimensão pode ser usado para determinar se a dimensão é ilimitada, ou _appendable_.


In [1]:
print(len(lon))

NameError: name 'lon' is not defined

In [None]:
print(lat.isunlimited())

In [None]:
print(time.isunlimited())

"Printar" o <code>Dimension object</code> (dimobj) fornece informação resumida, incluindo o nome e o tamanho da dimensão, além de informar se são ilimitadas.

In [None]:
for dimobj in rootgrp.dimensions.values():
    print(dimobj)

O nome de Dimensões pode ser alterado usando o método **<code>netCDF4.Datatset.renameDimension</code>** de um Dataset ou Group.

### 4) Variáveis em um arquivo netCDF ###

Variáveis do netcdf se comportam como um array multidimensionais de objetos do python, fornecido pelo módulo numpy. Entretanto, diferentemente dos arrays do numpy, as variáveis do netcdf4 podem ser _appended_ a uma ou mais dimensões 'ilimitadas'.
Para criar uma variável netCDF, use o método **<code>createVariable</code>** do Dataset ou Grupo. Este método tem dois argumentos mandatórios,o nome da variável (uma string), e o datatype da variável. A dimensão da variável é dada por uma tupla contendo os nomes das dimensões (definidas previamente com o **<code>createDimension</code>**). Para criar uma variável escalar, 
simplismente deixe de lado a keyword dimensions. 

Os datatypes primitivos da variável correspondem ao atributo dtype de um array do numpy. Você pode especificar o datatype como um objeto dtype do numpy, ou qualquer coisa que possa ser convertida para um objeto dtype do numpy. Os especificadores de datatype incluem: 'f4' (32-bit floating point), 'f8' (64-bit floating point), 'i4' (32-bit signed integer), 'i2' (16-bit signed integer), 'i8' (64-bit singed integer), 'i1' (8-bit signed integer), 'u1' (8-bit unsigned integer), 'u2' (16-bit unsigned integer), 'u4' (32-bit unsigned integer), 'u8' (64-bit unsigned integer), ou 'S1' (single-character string).

Os typecodes antigos com um caracter unico ('f','d','h', 's','b','B','c','i','l'), correspondendo a ('f4','f8','i2','i2','i1','i1','S1','i4','i4'), também vão funcionar. Os tipos 'unsigned interger' e '64-bit interger' só podem ser usados se o formato do arquivo for NETCDF4. 

As dimensões por si só são geralmente definidas como variáveis, chamadas de variáveis coordenadas. O método **<code>createVariable</code>** retorna uma instancia da classe Variable cujos métodos podem ser usados mais tarde para acessar e configurar os dados da variável e seus atributos. 



In [None]:
times = rootgrp.createVariable("time","f8",("time",))                         

In [None]:
levels = rootgrp.createVariable("level", "i4",("level",))

In [None]:
latitudes = rootgrp.createVariable("latitude","f4",("latitude",))

In [None]:
longitudes = rootgrp.createVariable("longitude","f4",("longitude",))

In [None]:
temp = rootgrp.createVariable("temp","f4",("time","level","latitude","longitude",))

Para ter um resumo da variável numa sessão interativa, basta <code>print(var)</code>

In [None]:
print(temp)

Um caminho pode ser usado para criar uma Variavel dentro de uma hierarquia de grupos.

In [None]:
ftemp = rootgrp.createVariable("/forecasts/model1/temp","f4",("time","level","latitude","longitude"))

Caso algum dos grupos não tenha sido criado até o momento, ele será assim o comando for dado.

Você também pode questionar sobre um Dataset ou Grupo diretamente para obter as suas instancias usando caminhos.

In [None]:
print(rootgrp["/forecasts/model1"])

In [None]:
print(rootgrp["/forecasts/model1/temp"])

As variáveis no Dataset ou em um Grupo são armazenadas em um dicionário, da mesma forma que as dimensões.

In [None]:
print(rootgrp.variables)

O nome das variáveis pode ser alterado utilizando o método **<code>renameVariable</code>** de um Dataset.

### 5) Atributos de um arquivo netCDF

Há dois tipos de atributos em arquivo netCDF, global e variable. Atributos globais fornecem informações sobre um grupo, ou um dataset como um todo. Atributos de variável fornecem informações sobre uma das variáveis em um grupo.

Atributos global são configurados ao designar valores para as variáveis de um Dataset ou Grupo. Atributos variable são configurados ao designar valores as variáveis de variáveis. Atributos podem ser strings, numeros ou sequencias. 



In [None]:
import time
rootgrp.description = "bogus example script"
rootgrp.history = "Created " + time.ctime(time.time())
rootgrp.source = "netCDF4 python module tutorial"
latitudes.units = "degrees north"
longitudes.units = "degrees east"
levels.units = "hPa"
temp.units = "K"
times.units = "hours since 0001-01-01 00:00:00.0"
times.calendar = "gregorian"

O método <code>ncattrs</code> de um Dataset, Grupo ou Variável pode ser usado para recuperar os nomes de todos os atributos do netCDF. Este método é tido como conveniente, já que usando a função embutida do Python <code>dir</code> irá retornar um amontoado de métodos privados e atributos que não podem (ou não devem) ser modificados pelo usuário.

In [None]:
for name in rootgrp.ncattrs():
    print("Global attr", name, "=", getattr(rootgrp,name))

O atributo **<code>\__dict__</code>** de um Dataset, Grupo ou Variável fornece todos os pares de atributos nome/valor em um dicionário Python.

In [None]:
print (rootgrp.__dict__)

Atributos podem ser deletados de um Dataset, Grupo ou Variável de um arquivo netCDF usando a declaração do python <code>del</code>. 

**<code>>>> del grp.foo </code>** 

O comando acima irá remover o atributo foo do grupo grp.

### 6) Adicionando dados a um arquivo e acessando dados de um arquivo netCDF

Agora que você tem a Variavel netCDF, como acrescentar dados a ela?  Você pode simplismente tratá-la como um array e adicionar dados a ela.


In [None]:
import numpy

In [None]:
lats = numpy.arange(-90,91,2.5)
lons = numpy.arange(-180,180,2.5)

In [None]:
help(numpy.arange)

Diferentemente dos Arrays de objetos do Numpy, variáveis com dimensões ilimitadas vão crescer ao longo dessas dimensões se dados forem alocados além da _range_ de indices definidas.

In [None]:
nlats = len(rootgrp.dimensions["latitude"])
nlons = len(rootgrp.dimensions["longitude"])
print("temp shape antes de adicionar dados = ", temp.shape)
 

In [None]:
from numpy.random import uniform

Caso tenha alguma dúvida sobre a função uniform, utilize a função <code>help(uniform)</code> na célula abaixo. 

In [None]:
help(uniform)


In [None]:
temp[0:5,0:10,:,:] = uniform(size=(5,10,nlats,nlons))
print("temp shape depois de adicionar dados = ", temp.shape)

A dimensão levels aumentou,  mas nenhum dado foi alocado a variavel.

In [None]:
print("levels shape depois de adicionar dados de pressão = ", levels.shape)

Note que o tamanho da variavel levels aumentou quando dados foram acrescidos ao longo da dimensão level da variavel temp, mesmo nenhum dado tendo sido adicionado a levels.
Agora, vamos alocar dados a variavel dimensão levels.

In [None]:
levels[:] = [1000.,850.,700.,500.,300.,250.,200.,150.,100.,50.]

Contudo, há algumas diferenças entre as regras de fatiar(_slice_) de variáveis do NumPy e netCDF. _Slices_ funcionam como sempre, sendo especificado o tripé inínio:fim:intervalo(como feito para <code>lats = numpy.arange(-90,91,2.5)</code>). Ao usar o interger scalar index, **i** pega o **i**ésimo elemento e reduz a posição do output do array em um. Array Booleana e sequência de inteiros se comportam de forma diferente para variáveis netCDF e arrays do numpy. Somente arrays booleanos 1-d e sequencias de inteiros são permitidos, e estes indices funcionam independentemente ao longo de cada dimensão (similar a forma de vetores subscripts no fortran). Isto significa que


**<code>>>>temp[0, 0, [0,1,2,3], [0,1,2,3]]
</code>**


retorna um array de shape (4,4) quando der um _slice_ no arquivo netCDF. Mas para um array do numpy isto retorna um array de shape (4,). De maneira similar, uma variavel netCDF de shape (2,3,4,5) indexada com [0, array([True, False, True]), array([False, True, True, True]),:] retornaria um array (2,3,5). No Numpy, isto retornaria um erro desde que isto seria equivalente a [0, [0,1], [1,2,3], :]. Quando fatiar sequencias de inteiros, os índices não precisam ser ordenados e podem conter duplicatas (ambos são novas características na versão 1.2.1). Mesmo que este comportamento possa causar alguma confusão para os acostumados com as regras de indexação do Numpy, ele fornece uma maneira poderosíssima de extrair dados de uma variavel netCDF multidimensional usando operações lógicas nos arrays de dimensão para criar os *slices*.

Por exemplo:

In [None]:
tempdat = temp[::2, [1,3,6], lats>0, lons>0]

<code>tempdat</code> vai extrair os indices 0,2 e 4, níveis de pressão 850, 500 e 200 hPa, todas as latitudes positivas(Hemisfério Norte) e as longitudes positivas (Oriente), resultando num array de shape (3,3,36,71).

In [4]:
print"shape of fancy temp slice =", tempdat.shape

SyntaxError: invalid syntax (<ipython-input-4-ca25802d9450>, line 1)

Para variáveis escalares: Para extrair dados de uma variável escalar v sem dimensão associada, use **<code>np.asarray(v)</code>** ou **<code>
v[...]</code>**
. O resultado vai ser um array do numpy de escalares. 


### 7) Lidando com coordenadas de tempo:

Valores de coordenadas de tempo se tornam um desafio especial para os usuários de netCDF. A maioria dos padrões de metadados (como CF) especificam que o tempo deve ser medido relativamente a uma data fixa usando um certo calendário, com unidades especificadas como **hours since YY:MM:DD hh-mm-ss**.  Estas unidades podem ser estranhas de se lidar, sem algo para converter os valores para/de datas de calendários. A função chamada **<code>num2date</code>** e **<code>date2num</code>** portam este pacote para fazer justamente isto. Aqui vai um exemplo de como podem ser usados:

In [None]:
from datetime import datetime, timedelta
from netCDF4 import num2date, date2num

In [None]:
dates = [datetime(2001,3,1)+n*timedelta(hours=12) for n in range(temp.shape[0])]

In [None]:
times[:] = date2num (dates,units=times.units,calendar=times.calendar)

In [None]:
print("time values (in %s):" %times.units+"\n",times[:])

In [None]:
dates = num2date(times[:],units=times.units,calendar=times.calendar)

In [None]:
print ("dates corresponding to time values:\n",dates)

In [None]:
print(dates)

**<code>num2date</code>** converte valores numéricos de tempo na unidade especificada e calendário para objetos datetime, e **<code>date2num</code>** faz o contrário. Todos os calendários definidos atualmente são aceitos. A função chamada **<code>date2index</code>**  retorna os indices de uma variavel tempo de um arquivo netCDF correnpondendo a uma sequencia de instâncias datetime.

### 8) Lendo dados de vários arquivos (MFDataset - Multi File Dataset)

Caso você queira ler dados de uma variavel que aparece em vários arquivos netCDF, uma opção a ser usada é a classe **MFDataset** - Multi File Dataset - que lê os dados como se fosse um único arquivo. Ao invés de usar um único filename para criar o Dataset,  crie o MFDataset instance ou com uma lista de filenames, ou com uma string com uma wildcard (que depois é convertida em uma lista ordenada de arquivos usando o modulo [**glob**](https://docs.python.org/2/library/glob.html#module-glob) do Python. Variaveis na lista de arquivos que compartilham a mesma dimensão ilimitada são agregados e podem ser fatiados ao longo de multiplos arquivos. Para ilustrar isso, antes vamos criar um amontoado de aruivos netCDF com a mesma variável (com a mesma dimensão ilimitada). Os arquivos **DEVEM estar nos formatos: "NETCDF3_64BIT_OFFSET, NETCDF3_64BIT_DATA, NETCDF3_CLASSIC ou NETCDF4_CLASSIC"** (MF Dataset não suporta arquivos no formato NETCDF4) 

In [None]:
from netCDF4 import Dataset

In [None]:
for nf in range(0,10,1):
    f = Dataset("mftest{}.nc".format(nf),"w", format='NETCDF4_CLASSIC')
    f.createDimension("x",0)
    x = f.createVariable("x","i",("x",))
    x[0:10] = numpy.arange(nf*10,10*(nf+1))
    f.close()

Agora, leia todos os arquivos de uma só vez com o MFDataset.

In [None]:
from netCDF4 import MFDataset

In [None]:
a = MFDataset("mftest*.nc")

In [None]:
print(a.variables["x"][:])

### 9) Compressão eficiente de variáveis em um arquivo netCDF

Dados guardados em objetos de uma variavel netCDF podem ser comprimidos e descomprimidos em andamento -_ "on the fly", que significa 'while in motion or progress')_. Os parâmetros para a compressão são determinados pelos keywords arguments **zlib, complevel e shuffle** do método <code>createVariable</code>. Para ativar a compressão, ajuste **<code>zlib=True</code>**. A keyword **<code>complevel</code>** regula a velocidade de compressão (sendo 1 a mais rápida, porém com menor taxa de compressão, 9 sendo a mais lenta porém a mais eficiente). <code>complevel</code> padrão é 4. Ao ajustar **<code>shuffle=False</code>** irá desativar o filtro shuffle do HDF5 que desfaz a interligação de um bloco de dados antes da compressão ao reorganizar os bytes. O shuffle filter pode melhorar significativamente