In [2]:
# importando pacotes/módulos
# funções para interagir com o sistema operacional
import os
import sys
import subprocess

# confere se dentro do modulos do sistem existe o modulo 'google.colab'
in_colab = 'google.colab' in sys.modules # True se o modulo existe, caso contrario, False
if in_colab:
    # importa a classe/função drive do módulo google.colab
    from google.colab import drive
    # acessa o google drive e o coloca em /content/drive
    drive.mount('/content/drive')
    # muda para a pasta onde temos o repositorio dos códigos
    path = "/content/drive/MyDrive/Shared/tide_prediction_luiscorreia/tide_prediction_luiscorreia"
    os.chdir(path) # chdir => change directory (mudar de pasta)
    # instala o hvplot com o pip (plots interativos)
    subprocess.check_call([sys.executable, "-m", "pip", "install", "hvplot"])

Mounted at /content/drive


In [3]:
# import módulos
import pandas as pd # leitura e análise de dados tabulares (excel)
import json # ler e salvar dados de texto estruturados como JSON https://en.wikipedia.org/wiki/JSON
from glob import glob # listar arquivos em um diretório/pasta
from datetime import datetime # funções para trabalhar com dados de tempo
import numpy as np # funções para trabalhar com matrizes (matlab)
import xarray as xr # módulo para dados multidimensionais
import matplotlib.pyplot as plt # módulo para fazer gráficos/figuras
from scipy.signal import detrend # função de remover tendências https://en.wikipedia.org/wiki/Linear_trend_estimation
from scipy.optimize import curve_fit # função de ajuste de funções https://en.wikipedia.org/wiki/Curve_fitting
import hvplot.xarray # módulo de gráficos interativos usando o xarray

# código para fazer funcionar gráficos interativos no colab
if in_colab:
    #################################################
    import holoviews as hv
    def _render(self, **kw):
        hv.extension('bokeh')
        return hv.Store.render(self)
    hv.core.Dimensioned._repr_mimebundle_ = _render
    #################################################

In [4]:
# lista todos os arquivos na pasta external/ que é uma subpasta da pasta data/
fnames = glob("data/external/*")
fnames.sort() # ordeno de forma alfabética

fname_train, fname_test = fnames # primeiro arquivo é de treinamento e segundo de teste

In [5]:
tref = np.datetime64("1960-01-01") # tempo de referência
# função de interpretar dados de tempo em formato de texto
# '%d/%m/%Y %H:%M' => dia/mes/ano hora:minuto, e.g. 01/12/1995 10:40
parser = lambda x: datetime.strptime(x, '%d/%m/%Y %H:%M')
# def parser(x):
#     return datetime.strptime(x, '%d/%m/%Y %H:%M')

# dicionário com variáveis para ler os dados do marégrafo
kw = dict(
    header = 11, # tamanho do cabeçalho (11 linhas)
    sep = ';', # separador das colunas de dados
    encoding = 'Latin-1', # codificação dos dados
    usecols = [0, 1], # usa apenas as duas primeiras colunas de dado
    names = ["time", "h"], # nomeia a primeira coluna como 'time' e a segunda como 'h'
    parse_dates = ["time"], # informa que a coluna 'time' contem dados de tempo
    date_parser = parser, # fornece a função de interpretação dos dados de tempo
    index_col = "time" # coluna que vai ser usada como índice para os dados
)

def load(fname, kw = kw):
    '''
    Função de leitura dos dados de marégrafo.
    fname (texto) => caminho correspondente ao arquivo dos dados
    kw (dicionário) => propriedades usadas para a leitura dos dados
    '''
    # lê os dados usando a função read_csv do pandas com os argumentos do dicionário 'kw'
    data = pd.read_csv(fname, **kw).to_xarray() # .to_xarray() converte de pandas para xarray

    # adiciona uma nova variável chamada 'hd' que é o 'h' depois de remover a tendência
    data = data.assign(hd = ("time", detrend(data["h"])))
    data = data.rename(time = "dtime") # renomeia a coordenada time para dtime

    # cria uma nova coordenada chamada time que é, em horas, o tempo em relação a referência tref
    data = data.assign_coords(time = (data.dtime - tref) / np.timedelta64(1, "h"))

    return data

# usa a função load para carregar os dados de treinamento e teste
train = load(fname_train)
test = load(fname_test)

# apresenta os dados
print("Dados de treinamento:")
display(train)

print("Dados de teste:")
display(test)

Dados de treinamento:


Dados de teste:


In [6]:
train.h.hvplot(x = "dtime")

In [7]:
# dicionário que define o período em horas para cada componente de maré
# https://en.wikipedia.org/wiki/Theory_of_tides
tide_constituents = {
    "M2": 12.4206012,
    "S2": 12,
    "N2": 12.65834751,
    "K1": 23.93447213,
    "O1": 25.81933871,
    "M4": 6.210300601,
    "M6": 4.140200401,
    "MK3": 8.177140247,
    "S4": 6,
    "MN4": 6.269173724
}

def estimate_tide(t, *amplitudes, tide_constituents = tide_constituents):
    '''
    Função de estimar a maré, dado o tempo, amplitudes e componentes
    t (numpy.array) => tempo, em horas
    amplitudes (numpy.array/lista) => amplitude de cada componente de maré
    tide_constituents (dicionário) => período, em horas, para cada componente de maré
    '''
    # separa as amplitudes em dois, sendo a primeira parte as amplitudes do cosseno
    # e a segunda parte as amplitudes do seno
    a, b = np.array_split(amplitudes, 2)

    h = t * 0 # cria uma variável para a altura que inicia como 0
    # loop para cada componente de maré e cada amplitude a e b
    for k, ai, bi in zip(tide_constituents, a, b):
        # calcula a frequência da onda
        w = 2 * np.pi / tide_constituents[k]
        # calcula a componente de maré e soma ao 'h'
        h = h + ai * np.cos(w * t) + bi * np.sin(w * t)
    return h

In [8]:
# primeiro palpite para as amplitudes são valores randômicos
initial_amplitudes = np.random.rand(len(tide_constituents))
# multiplica a série em dois para ter amplitudes para os cossenos e senos
initial_amplitudes = np.hstack(2 * [initial_amplitudes])

In [9]:
# ajusta as amplitudes para a função estimate_time usando os dados de treinamento
# e fornecendo o primeiro palpite (p0) para as amplitudes
params, _ = curve_fit(estimate_tide, train.time, train.hd, p0 = initial_amplitudes)
best_amplitudes = params

# calcula a amplitude de cada onda como o modulo de a + ib
amp = {k: np.abs(a + 1j*b) for k, a, b in zip(tide_constituents, *np.array_split(best_amplitudes, 2))}
display(amp)

{'M2': 104.005053636163,
 'S2': 34.407185109252346,
 'N2': 21.859960512381438,
 'K1': 9.568293452338636,
 'O1': 8.512927585237138,
 'M4': 1.0910837023668394,
 'M6': 0.8205839866467298,
 'MK3': 0.5679816673845491,
 'S4': 0.34575056398848414,
 'MN4': 0.020347962706389878}

In [10]:
amp = {k: (a, b) for k, a, b in zip(tide_constituents, *np.array_split(best_amplitudes, 2))}

# abre um aquivo novo em json para salvar (w) os dados de amplitude
with open('data/processed/amplitudes.json', 'w') as fname:
    # usa json.dump para salvar os dados do dicionario amp
    json.dump(amp, fname, indent=4)

In [17]:
# converter de dicionario para lista com [a1, a2, ..., an, b1, b2, ..., bn]
amplitudes = [amp[k][0] for k in amp] + [amp[k][1] for k in amp]

# adiciona as predições nos dados de treinamento e teste
train = train.assign(fit = estimate_tide(train.time, *amplitudes))
test = test.assign(fit = estimate_tide(test.time, *amplitudes))

# funções para calcular o error médio quadrático e correlação
rmse = lambda ds: np.sqrt(np.nanmean((ds.hd - ds.fit) ** 2))
rho = lambda ds: np.corrcoef(ds.hd, ds.fit)[0,1]

# adiciona o erro médio quadrático e correlação nos dados
train.attrs = dict(rmse = rmse(train), rho = rho(train))
test.attrs = dict(rmse = rmse(test), rho = rho(test))

In [18]:
def plot(ds):
    '''
    Função que plota os dados do marégrafo e ajuste harmônico
    com a correlação e erro médio quadrático no título
    '''
    kw = dict(
        x = "dtime",
        title = f"rmse = {ds.rmse:.01f} cm | corr = {ds.rho:.02f}",
        ylabel = "height [cm]", xlabel = "time", alpha = 0.9
    )
    return (ds.hd.hvplot(**kw) * ds.fit.hvplot(**kw))

In [19]:
display(plot(train))

In [20]:
plot(test)