---
title: 'Artigo 2: Finding Local Groupings of Time Series'
page-layout: full
crossref:
    lof-title: "List of Figures"
format: 
    html:
        code-fold: true
jupyter: python3
execute:
    freeze: true
---


# 1. Introdu√ß√£o

O estudo e a an√°lise de s√©ries temporais desempenham um papel crucial em uma ampla gama de campos, desde o monitoramento do varejo at√© a detec√ß√£o de anomalias de seguran√ßa. Ao longo do tempo, observa√ß√µes cont√≠nuas capturam nuances e padr√µes que podem revelar insights valiosos sobre o comportamento de sistemas complexos. Neste contexto, a capacidade de agrupar s√©ries temporais com base em padr√µes similares torna-se fundamental para extrair conhecimento significativo.

## 1.1 Contextualiza√ß√£o do Problema 

A motiva√ß√£o por tr√°s dessa abordagem √© multifacetada. No setor de varejo a identifica√ß√£o de tend√™ncias locais de compra, como picos de vendas durante per√≠odos festivos, pode ser crucial para otimizar estrat√©gias de marketing e estoque. Da mesma forma, em an√°lises financeiras, compreender as tend√™ncias de mercado pode orientar decis√µes de investimento. Em setores como sa√∫de e biomedicina, a an√°lise de varia√ß√µes sazonais e padr√µes de sono pode contribuir para o desenvolvimento de tratamentos mais eficazes. Al√©m disso, o planejamento de recursos, a detec√ß√£o de anomalias de seguran√ßa e a an√°lise de dados ambientais e clim√°ticos tamb√©m se beneficiam significativamente da capacidade de identificar e compreender padr√µes em s√©ries temporais. 

Neste contexto, este artigo aborda a import√¢ncia do agrupamento de s√©ries temporais, com foco no algoritmo Z-Grouping. Exploraremos como esse m√©todo oferece uma perspectiva √∫nica para a identifica√ß√£o de grupos locais em s√©ries temporais, destacando sua relev√¢ncia e aplicabilidade em diversas √°reas de estudo e pr√°tica. Entender melhor o Z-Grouping nos permite fazer an√°lises mais precisas e obter insights mais profundos em diferentes √°reas.

## 1.2 Relacionamento com M√©todos Cl√°ssicos

O algoritmo Z-Grouping n√£o possui comparativos diretos. No entanto, existem alguns m√©todos cl√°ssicos que realizam tarefas compar√°veis:

* K-means: Este m√©todo particiona s√©ries temporais em k grupos, onde estes representam grupos locais an√°logos aos encontrados pelo Z-Grouping. 

* Agrupamento Hier√°rquico: Neste m√©todo, as s√©ries temporais s√£o hierarquicamente divididas com base em uma m√©trica de similaridade. Os grupos resultantes s√£o compar√°veis aos grupos locais identificados pelo Z-Grouping. 

Contudo, √© importante ressaltar que esses algoritmos n√£o s√£o diretamente compar√°veis, pois se limitam a encontrar similaridades dentro de uma √∫nica s√©rie temporal, n√£o considerando rela√ß√µes entre diferentes s√©ries. 

J√° em rela√ß√£o aos algoritmos de minera√ß√£o de sequ√™ncias, fica evidente que ambos compartilham diversas caracter√≠sticas fundamentais. Ambos os m√©todos t√™m a capacidade de identificar padr√µes sequenciais em conjuntos de dados, baseando-se na frequ√™ncia de ocorr√™ncia. Al√©m disso, ambos utilizam o conceito de suporte para filtrar padr√µes menos frequentes, priorizando aqueles que s√£o mais relevantes para a an√°lise. 

Entretanto, ao analisar as diferen√ßas entre o Z-Grouping e seus equivalentes na minera√ß√£o de sequ√™ncia, destacam-se aspectos distintivos que delineiam a aplica√ß√£o espec√≠fica do Z-Grouping em contextos de s√©ries temporais. Enquanto muitos algoritmos de minera√ß√£o de sequ√™ncia s√£o aplic√°veis a diversos tipos de dados, o Z-Grouping √© especialmente projetado para lidar com s√©ries temporais. Sua funcionalidade principal reside na capacidade de agrupar sequ√™ncias temporais em grupos locais, visando identificar associa√ß√µes significativas entre os padr√µes temporais presentes nos dados. Essa abordagem mais focalizada confere ao Z-Grouping uma vantagem significativa em cen√°rios onde a compreens√£o das rela√ß√µes temporais √© crucial para a an√°lise e interpreta√ß√£o dos dados. 

## 1.3 Impacto Social e Potenciais Aplica√ß√µes 

Ser√£o examinados tr√™s casos espec√≠ficos que destacam a versatilidade e utilidade do Z-Grouping: o agrupamento de s√©ries temporais de consumo de energia el√©trica em resid√™ncias, a an√°lise da rela√ß√£o entre manejos madeireiros e desmatamento usando agrupamento de s√©ries temporais, e a an√°lise de consumo de medicamentos para otimiza√ß√£o da log√≠stica de distribui√ß√£o. Cada uma dessas aplica√ß√µes oferece uma perspectiva √∫nica sobre como o Z-Grouping pode ser empregado para abordar desafios complexos e promover impactos significativos em diversos setores.

### 1.3.1 Agrupamento de s√©ries temporais de consumo de energia el√©trica em resid√™ncias

O agrupamento de s√©ries temporais de consumo de energia el√©trica em resid√™ncias √© uma aplica√ß√£o-chave das redes inteligentes, impulsionadas pela converg√™ncia de sistemas computacionais, de medi√ß√£o e de comunica√ß√£o. Os medidores inteligentes, respons√°veis por capturar e transmitir dados de consumo em intervalos regulares, geram uma quantidade substancial de informa√ß√µes. A an√°lise desses dados, conhecida como agrupamento de curvas de carga, √© crucial para descobrir informa√ß√µes importantes. Neste contexto, o Z-Grouping e outros algoritmos semelhantes emergem como ferramentas valiosas. 

As implica√ß√µes dessa aplica√ß√£o s√£o diversas: 

* Previs√£o de demanda de energia: Identificar padr√µes de consumo semelhantes entre diferentes regi√µes possibilita prever com mais precis√£o a demanda futura de energia. Isso facilita o planejamento da produ√ß√£o e distribui√ß√£o de eletricidade pelas empresas de energia. 

* Detec√ß√£o de anomalias: Ao conhecer os padr√µes de consumo t√≠picos, torna-se mais f√°cil detectar anomalias que possam indicar falhas nos equipamentos, problemas de efici√™ncia energ√©tica ou atividades suspeitas, como roubo de energia. 

* Potencial para discrimina√ß√£o: O uso das informa√ß√µes sobre padr√µes de consumo para segmentar clientes ou estabelecer tarifas diferenciadas pode levar √† discrimina√ß√£o. Alguns grupos demogr√°ficos podem ser penalizados ou exclu√≠dos, aumentando as desigualdades. 

* Risco de monop√≥lio: Empresas de distribui√ß√£o de energia com acesso a recursos computacionais avan√ßados para an√°lise de dados t√™m uma vantagem competitiva significativa. Isso pode resultar em um desequil√≠brio de mercado, com grandes empresas dominando e marginalizando empresas menores.

Essas consequ√™ncias ressaltam a import√¢ncia n√£o apenas da aplica√ß√£o eficaz de algoritmos de agrupamento de s√©ries temporais, como o Z-Grouping, mas tamb√©m da considera√ß√£o cuidadosa dos impactos sociais e √©ticos das decis√µes baseadas em dados no setor de energia el√©trica.

### 1.3.2 An√°lise da rela√ß√£o entre manejos madeireiros e desmatamento usando agrupamento de s√©ries temporais 

A an√°lise da rela√ß√£o entre manejos madeireiros e desmatamento na Amaz√¥nia, por meio do agrupamento de s√©ries temporais, destaca-se como uma aplica√ß√£o vital dessa t√©cnica anal√≠tica. Ao examinar as mudan√ßas no √≠ndice de cobertura vegetal ao longo do tempo, √© poss√≠vel identificar padr√µes e tend√™ncias cruciais para o monitoramento e preven√ß√£o do desmatamento, bem como para o planejamento estrat√©gico de pol√≠ticas de conserva√ß√£o. 

As consequ√™ncias potenciais desse enfoque s√£o variadas:

* Monitoramento e preven√ß√£o eficazes do desmatamento: O uso do agrupamento de s√©ries temporais pode melhorar substancialmente as estrat√©gias de preven√ß√£o do desmatamento, identificando √°reas em risco e facilitando interven√ß√µes preventivas. 

* Planejamento de pol√≠ticas de conserva√ß√£o: A identifica√ß√£o de √°reas com alto risco de desmatamento possibilita o direcionamento eficiente de recursos e esfor√ßos para medidas preventivas, como programas de educa√ß√£o ambiental e refor√ßo da fiscaliza√ß√£o. 

* Riscos √† privacidade: O monitoramento detalhado pode levantar preocupa√ß√µes de privacidade, revelando informa√ß√µes sens√≠veis sobre padr√µes de vida e comportamentos das comunidades locais. 

* Desigualdade e discrimina√ß√£o: Restri√ß√µes ao uso da terra e acesso limitado √†s ferramentas de an√°lise podem resultar em desigualdades na distribui√ß√£o de recursos para a conserva√ß√£o. 

* Impacto nos meios de subsist√™ncia locais: As pol√≠ticas de conserva√ß√£o devem considerar os impactos nas comunidades locais, garantindo que sejam justas e equitativas. 

Essas considera√ß√µes destacam a import√¢ncia de uma abordagem √©tica e abrangente no uso do agrupamento de s√©ries temporais para a an√°lise da rela√ß√£o entre manejos madeireiros e desmatamento na Amaz√¥nia. 

### 1.3.3 An√°lise de consumo de medicamentos para otimiza√ß√£o da log√≠stica de distribui√ß√£o 

A aplica√ß√£o do m√©todo Z-Grouping na an√°lise do consumo e distribui√ß√£o de medicamentos apresenta uma oportunidade significativa para aprimorar a gest√£o de recursos farmac√™uticos, especialmente sob a perspectiva da sa√∫de p√∫blica, com foco na atua√ß√£o da Ag√™ncia Nacional de Vigil√¢ncia Sanit√°ria (ANVISA). Ao identificar padr√µes temporais e regionais no uso de medicamentos, essa abordagem oferece insights valiosos para interven√ß√µes estrat√©gicas na log√≠stica de distribui√ß√£o. 

As aplica√ß√µes pr√°ticas dessa an√°lise s√£o amplas: 

* Refinamento da Log√≠stica de Distribui√ß√£o: A identifica√ß√£o de agrupamentos locais de consumo permite ajustes precisos na cadeia de suprimentos, garantindo a disponibilidade adequada de medicamentos essenciais nas regi√µes com maior demanda, o que √© crucial para garantir a continuidade dos tratamentos, especialmente em contextos de doen√ßas cr√¥nicas ou surtos de doen√ßas infecciosas. 

* Proje√ß√£o de Demandas Futuras: O Z-Grouping possibilita a proje√ß√£o de demandas com base em tend√™ncias hist√≥ricas, permitindo a antecipa√ß√£o de necessidades, como vacinas ou medicamentos antivirais. Essa capacidade preditiva √© fundamental para evitar escassez ou excesso de estoques, possibilitando uma resposta eficiente √†s flutua√ß√µes do mercado e demandas emergentes. 

* Diagn√≥stico de Desperd√≠cios e Inefici√™ncias: Al√©m disso, essa abordagem revela padr√µes de subutiliza√ß√£o ou desperd√≠cio de medicamentos, indicando √°reas potenciais para otimiza√ß√£o das pol√≠ticas de distribui√ß√£o e uso racional de recursos farmac√™uticos.

Entretanto, a implementa√ß√£o dessas an√°lises n√£o est√° isenta de desafios e consequ√™ncias, como: 

* Integridade e Seguran√ßa dos Dados: A gest√£o cuidadosa da integridade e seguran√ßa dos dados √© essencial para prevenir riscos de comprometimento das an√°lises, garantindo o cumprimento das normativas de prote√ß√£o de dados, como a LGPD. 

* Justi√ßa na Distribui√ß√£o de Medicamentos: H√° o risco de que an√°lises baseadas em dados n√£o reflitam com precis√£o a distribui√ß√£o demogr√°fica, resultando em aloca√ß√µes de recursos que perpetuam desequil√≠brios existentes. Portanto, √© crucial que as decis√µes de pol√≠tica farmac√™utica considerem profundamente as necessidades locais. 

* Riscos da Depend√™ncia de Modelos Quantitativos: Apesar da robustez do Z-Grouping, sua aplica√ß√£o deve ser complementada por an√°lises qualitativas e conhecimento especializado em sa√∫de p√∫blica para evitar decis√µes que n√£o considerem a complexidade dos padr√µes de sa√∫de espec√≠ficos. 

Essas considera√ß√µes destacam a import√¢ncia de uma abordagem hol√≠stica e cuidadosa na utiliza√ß√£o do Z-Grouping para an√°lise de consumo de medicamentos e sua distribui√ß√£o, visando garantir benef√≠cios significativos sem comprometer a integridade dos dados ou perpetuar desigualdades existentes. 


# 2. Desenvolvimento 

## 2.1 Conceitos Chave 

Para compreender o algoritmo Z-Grouping, √© fundamental dominar alguns conceitos fundamentais.

In [None]:
from zgrouping.zgrouping import grouping, syntheticGenerator, utils

import matplotlib.pyplot as plt

I) S√©ries Temporais: Uma s√©rie temporal consiste em observa√ß√µes coletadas sequencialmente ao longo do tempo. Cada observa√ß√£o est√° vinculada a um instante espec√≠fico, sendo a ordem das observa√ß√µes de crucial import√¢ncia.
Exemplo: Uma s√©rie temporal pode registrar as vendas di√°rias de um produto ao longo de um per√≠odo, como as vendas di√°rias de um modelo de smartphone em uma loja.


In [None]:
tc = 50
tl = 365
c = 20
no_outliers = 10
outlier_size = 10

# GROUPING GENERATION
n_bins = 5
alpha = 0.9
eta = 1.5

X_raw, y = syntheticGenerator.createSyntheticData(tc = tc, tl=tl, c = c, no_outliers = no_outliers, outlier_size=outlier_size)
plt.plot(X_raw[0])

II) Abstra√ß√£o Temporal: A abstra√ß√£o temporal √© o processo de simplificar ou extrair caracter√≠sticas mais significativas de uma s√©rie temporal, facilitando sua an√°lise. Exemplo: A aplica√ß√£o do Symbolic Aggregate Approximation (SAX) para converter uma s√©rie temporal de vendas di√°rias em uma sequ√™ncia de s√≠mbolos que representam padr√µes de vendas ao longo do tempo.

III) Eventos em S√©ries Temporais: Um evento em uma s√©rie temporal √© uma ocorr√™ncia distinta ou uma caracter√≠stica identific√°vel nos dados ao longo do tempo, como picos, vales, transi√ß√µes ou padr√µes recorrentes. 

IV) R√≥tulos de Eventos: Os r√≥tulos de eventos s√£o atributos simb√≥licos ou categoriza√ß√µes aplicadas aos eventos em uma s√©rie temporal para represent√°-los de maneira simplificada e compreens√≠vel. Exemplo: Os r√≥tulos podem ser escolhidos de um conjunto discreto de s√≠mbolos ou categorias, como letras, n√∫meros ou outros identificadores. 

V) Matriz de Sequ√™ncia de Eventos: Uma matriz que representa a sequ√™ncia de r√≥tulos de eventos derivados das s√©ries temporais ap√≥s a abstra√ß√£o temporal. Cada entrada na matriz representa um evento em uma s√©rie temporal espec√≠fica. 

VI) Agrupamento Local: O agrupamento local refere-se √† identifica√ß√£o de subconjuntos de s√©ries temporais que exibem padr√µes semelhantes em intervalos espec√≠ficos de tempo. No contexto do Z-Grouping, os agrupamentos locais s√£o identificados em cada canal de r√≥tulo de evento. 

VII) Associa√ß√£o de Agrupamentos Locais: Associa√ß√µes s√£o identificadas entre agrupamentos locais consecutivos ou sobrepostos que compartilham inst√¢ncias de s√©ries temporais semelhantes. O objetivo √© descobrir padr√µes mais amplos e complexos que n√£o seriam detectados apenas nos agrupamentos locais individuais. 

VIII) Semigeometric Tiling: Um algoritmo utilizado para identificar padr√µes ou agrupamentos em matrizes bin√°rias, considerando combina√ß√µes de intervalos de tempo e contagens de eventos. 

![Fonte:  Z. Lee et al. (2022)](https://media.springernature.com/lw685/springer-static/image/chp%3A10.1007%2F978-3-319-46128-1_21/MediaObjects/431503_1_En_21_Fig2_HTML.gif){fig-align="center"}

IX) Matriz de Associa√ß√£o e Valida√ß√£o: Uma representa√ß√£o matricial usada para identificar e validar associa√ß√µes entre agrupamentos locais. Essa matriz registra as rela√ß√µes entre os agrupamentos locais e os agrupamentos globais pr√©-definidos. 

![Fonte:  Z. Lee et al. (2022)](./imgs/grouping.png){fig-align="center"}

## 2.2 Apresenta√ß√£o do Algoritmo 

O algoritmo Z-Grouping √© composto por quatro passos distintos, cada um focado em uma etapa espec√≠fica do processo de an√°lise de s√©ries temporais. S√£o eles: 

(@) Gera√ß√£o da Matriz de Sequ√™ncia de Eventos

    Neste passo, uma cole√ß√£o de s√©ries temporais √© convertida em uma matriz de eventos, utilizando t√©cnicas de abstra√ß√£o temporal como o m√©todo SAX. Isso permite uma representa√ß√£o mais simplificada dos dados, facilitando a an√°lise subsequente.


In [None]:
X = utils.znorm(X_raw)
X_sax = utils.SAXify(X, n_bins = 5)
X_sax[0]

In [None]:
plt.plot(X_raw[0])
plt.plot(X_sax[0])
plt.show()

(@) Cria√ß√£o de canais de r√≥tulos

    A matriz de eventos em seguida √© subdividida em uma matriz bin√°ria de mesmo tamanho para cada r√≥tulo


In [None]:
matrices = utils.createChannels(X_sax)
matrices[0]

(@) Gera√ß√£o de Agrupamentos Locais

    O pr√≥ximo passo envolve a identifica√ß√£o de agrupamentos locais em cada canal de r√≥tulo de evento da matriz de eventos. Esse processo √© conduzido pelo algoritmo de semigeometric tiling, que busca candidatos a agrupamentos locais com base na contagem de eventos em intervalos de tempo espec√≠ficos. Al√©m disso, o algoritmo utiliza um par√¢metro ùù∞, variando de 0 a 1, para determinar a pureza de um agrupamento local. Por exemplo, ao definir ùù∞ como 0.75, estamos estabelecendo que pelo menos 75% dos elementos do agrupamento devem conter o evento analisado.

(@) Identifica√ß√£o de Associa√ß√µes entre Agrupamentos Locais 

    Nesta etapa, o algoritmo procura associa√ß√µes entre os agrupamentos locais identificados. Isso √© feito atrav√©s da an√°lise de candidatos a associa√ß√µes consecutivas, verificando a proximidade entre elas e identificando inst√¢ncias de s√©ries temporais compartilhadas. 

(@) Valida√ß√£o dos Agrupamentos Locais 

    Por fim, os agrupamentos locais s√£o validados em rela√ß√£o aos agrupamentos globais pr√©-definidos. Isso √© feito calculando uma pontua√ß√£o de validade com base na propor√ß√£o de inst√¢ncias de s√©ries temporais em comum e utilizando um par√¢metro de densidade para controlar a validade dos agrupamentos locais. 

![Fonte:  Z. Lee et al. (2022)](https://i.postimg.cc/6QRyPGWH/algoritmo.png)

::: {#fig-steps fig-align='center'}
![Fonte:  Z. Lee et al. (2022)](https://i.postimg.cc/sgjQv2Jx/figura-1-steps.png){fig-align="center"}

Um exemplo dos quatro passos do Z-grouping
::: 

## 2.3 Metodologia Experimental

A metodologia experimental da pesquisa visa avaliar o desempenho do m√©todo Z-Grouping na identifica√ß√£o de agrupamentos locais em s√©ries temporais. Para isso, foi utilizada uma abordagem abrangente que inclui a an√°lise de conjuntos de dados reais de diferentes setores, bem como um conjunto de dados sint√©tico para investiga√ß√£o detalhada dos par√¢metros do m√©todo. Al√©m disso, alguns m√©todos foram adaptados para efeitos de compara√ß√£o. Abaixo, √© fornecida uma descri√ß√£o mais detalhada da metodologia utilizada. 

(@) **Datasets:** Os conjuntos de dados reais utilizados abrangem tr√™s setores diferentes: ind√∫stria de varejo, mercado de a√ß√µes e epidemias de COVID-19. Al√©m disso, um conjunto de dados sint√©tico foi gerado para investiga√ß√£o detalhada dos par√¢metros do m√©todo. Este conjunto de dados sint√©tico simula a presen√ßa de similaridade local em meio a padr√µes sinusoidais com diferentes frequ√™ncias e amplitudes, al√©m de incorporar ru√≠do e outliers para refletir cen√°rios do mundo real.

(@) **Concorrentes:** Como n√£o existe um concorrente direto para o problema, foram feitas adapta√ß√µes nos m√©todos semigeometric tiling, kmeans, kmeans-FLEX e kNN para identificar agrupamentos locais em s√©ries temporais. 

(@) **Protocolo do Experimento:** Para avaliar o desempenho do m√©todo Z-Grouping, foi desenvolvido um protocolo de experimento que envolve a divis√£o dos dados em conjuntos de treinamento e teste. Durante a fase de treinamento, os agrupamentos locais s√£o identificados nos dados de treinamento. Na fase de teste, o objetivo √© determinar se os agrupamentos identificados podem identificar padr√µes de similaridade local em novas inst√¢ncias n√£o vistas. Para cada amostra de teste, o agrupamento global correspondente √© usado como refer√™ncia. Isso simula situa√ß√µes do mundo real, como identificar padr√µes de vendas de um novo produto com base em produtos existentes. 

(@) **M√©tricas de Avalia√ß√£o:** Os resultados s√£o avaliados em termos de erros de predi√ß√£o, como erro quadr√°tico m√©dio (MSE) e erro absoluto m√©dio (MAE), bem como a cobertura dos agrupamentos, ou seja, a fra√ß√£o de s√©ries temporais cobertas pelos agrupamentos identificados.  


## 2.4 An√°lise Cr√≠tica dos Resultados 

Em rela√ß√£o aos resultados alcan√ßados, todos foram validados 10 vezes, e os seguintes par√¢metros foram utilizados: 

**Œ±:** Este √© um par√¢metro que controla o n√≠vel de "pureza" dos agrupamentos.  

**Œª:** Este par√¢metro controla o n√∫mero de r√≥tulos de abstra√ß√£o que o algoritmo pode usar. 

**Œ∑:** Este par√¢metro define o n√∫mero m√≠nimo de amostras necess√°rias para que um agrupamento seja considerado v√°lido. 

**w:** Este √© o intervalo de tempo (em n√∫mero de amostras) que esses algoritmos usam para identificar os agrupamentos locais. 

**k:** Este √© o n√∫mero de agrupamentos (clusters) que esses algoritmos tentam formar. 

**Corte de silhueta:** Este √© um par√¢metro que define um valor de corte para a m√©trica de silhueta.

Os algoritmos testados utilizaram os seguintes par√¢metros: 

**Z-Grouping:** Œ± = {0.8, 0.9, 1}, Œª = {3, 5, 10}, e Œ∑ = {1, 1.5, 2}. 

**Semigeometric:** Œ± = {0.8, 0.9, 1}, e Œ∑ = {1, 1.5, 2}. 

**kmeans:** intervalo de tempo w = {30, 60, 180} e k = {3, 5, 10}. 

**kNN:** intervalo de tempo w = {30, 60, 180} e k = {3, 5, 10}. 

**kmeans-FLEX:** corte de silhueta de 0,1 at√© falha em detectar quaisquer agrupamentos v√°lidos.

Em rela√ß√£o aos resultados no conjunto de dados sint√©ticos, pode-se analisar atrav√©s da tabela 2 os erros de teste m√©dios do Z-Grouping e seus quatro competidores. Atrav√©s dela podemos chegar a algumas conclus√µes:

* O Z-Grouping sempre consegue encontrar agrupamentos locais v√°lidos de baixos erros considerando MSE e MAE; 

* Semigeometric sofre com sua falta de poder de representa√ß√£o com uma forte suposi√ß√£o bin√°ria superado pelo Z-Grouping em rela√ß√£o aos agrupamentos locais; 

* kNN atinge seu melhor escore com {w: 180, k: 3};  

* kmeans n√£o mostra diferen√ßas not√°veis com v√°rias configura√ß√µes de par√¢metros e √© geralmente pior do que seus concorrentes;

* Kmeans-FLEX tem seu MSE mais baixo sendo apenas 3,4% menor que o do kmeans; 

* Semigeometric, kmeans, kNN e kmeans-FLEX s√£o piores do que o Z-Grouping em todas as situa√ß√µes. 

Al√©m disso, utilizando os dados de UCR o Z-Grouping apresentou dificuldade para encontrar padr√µes para o agrupamento, performando de forma semelhante aos competidores devido a perda de informa√ß√£o pelo SAX em conjuntos mais uniformes. 

J√° em rela√ß√£o aos resultados no conjunto de dados reais, com os dados de GARMENT e STOCK o Z-Grouping apresentou resultados com diferen√ßa de 44.3% (MSE) e 25.2% (MAE) com cobertura de 88% dos dados, sendo superior aos competidores. Com os dados da COVID pode-se perceber que o trade-off de minimiza√ß√£o do erro por perda de cobertura acabou levando o algoritmo a desempenhar com pouca melhora, sacrificando bastante da cobertura, cobrindo apenas 40% dos dados.

Por fim, ao analisarmos o efeito dos par√¢metros, um Œª maior pode levar a uma menor cobertura, um Œ± maior leva a agrupamentos mais puros o que permite um n√∫mero menor de r√≥tulos de evento diferentes e um Œ∑ maior exige mais amostras no agrupamento local para validade resultando em menos agrupamentos. Os par√¢metros mais altos fazem com que o algoritmo perca sua capacidade de crescer mostrando aproximadamente s√≥ 10% de cobertura, al√©m de gerar erros mais altos devido √† aus√™ncia de pontos de dados para compara√ß√£o. Por isso as associa√ß√µes dos agrupamentos s√£o utilizadas para aumentar a cobertura preenchendo as lacunas criadas pelos altos valores dos par√¢metros.

::: {#tbl-steps tbl-align='center'}
![Fonte:  Z. Lee et al. (2022)](https://i.postimg.cc/wjwtJdWV/tabela-teste.png){tbl-align="center"}

Erros m√©dios de teste dos algoritmos no banco de dados Sint√©tico (CV: Covarege(%))
:::

# 3. Conclus√£o 

Este artigo revela dois problemas in√©ditos no √¢mbito de minera√ß√£o de agrupamentos de s√©ries temporais, abrangendo tanto agrupamentos locais quanto globais, e prop√µe o Z-Grouping como o algoritmo estado-da-arte na solu√ß√£o de ambos. Os problemas evidenciados, bem como a solu√ß√£o proposta no artigo, apresentam aplicabilidade pr√°tica em m√∫ltiplas √°reas, como a preven√ß√£o do desmatamento, o manejo de demandas de consumo de energia el√©trica e a distribui√ß√£o de medicamentos.  

Al√©m disso, duas vantagens significativas de aplicabilidade do m√©todo Z-Grouping devem ser destacadas. Primeiramente, o m√©todo permite a an√°lise das s√©ries temporais ao longo do tempo, sem a necessidade de ter a s√©rie completa de dados de uma vez. Isso significa que √© poss√≠vel analisar os dados √† medida que eles se tornam dispon√≠veis, o que √© especialmente √∫til em cen√°rios onde os dados s√£o gerados continuamente. Em segundo lugar, o m√©todo n√£o exige conhecimento pr√©vio sobre quais dados investigar, ele √© capaz de identificar agrupamentos locais e globais nas s√©ries temporais sem a necessidade de informa√ß√µes pr√©vias sobre padr√µes ou caracter√≠sticas espec√≠ficas dos dados. Com isso, o Z-Grouping emerge como uma ferramenta poderosa para a descoberta de padr√µes temporais em diferentes √°reas de pesquisa e ind√∫strias.

## 3.1 Sum√°rio dos Resultados 

O Z-Grouping foi testado contra quatro solu√ß√µes alternativas para o problema de agrupamentos locais, baseadas em adapta√ß√µes para o problema espec√≠fico proposto no artigo de abordagens utilizadas de maneira geral em agrupamentos de s√©ries temporais. Os cinco foram avaliados em tr√™s datasets com dados do mundo real, um dataset gerado sinteticamente e os 128 datasets cl√°ssicos de s√©ries temporais da UCR (University of California, Riverside). O resultado dos experimentos constatou que o Z-Grouping atingiu taxas de erro menores do que seus competidores, e ao mesmo tempo gerou agrupamentos locais sem limita√ß√µes no tamanho dos intervalos de tempo, o que n√£o pode ser feito utilizando as demais abordagens.

## 3.2 Considera√ß√µes Finais e Sugest√µes para Futuras Pesquisas

Poss√≠veis abordagens de pesquisas futuras podem incluir o uso de outras fun√ß√µes de abstra√ß√£o temporal (al√©m da SAX, utilizada no artigo), a aplica√ß√£o de t√©cnicas e heur√≠sticas de otimiza√ß√£o global na cria√ß√£o dos agrupamentos locais e o estudo de adapta√ß√µes do algoritmo para s√©ries temporais multivariadas, isto √©, para a gera√ß√£o de agrupamentos multidimensionais.

# 4. Refer√™ncias

LEE, Z.; TRINCAVELLI, M.; PAPAPETROU, P. Finding Local Groupings of Time Series. In: AMINI, M.R.; CANU, S.; FISCHER, A.; GUNS, T.; KRALJ NOVAK, P.; TSOUMAKAS, G. (eds). Machine Learning and Knowledge Discovery in Databases. ECML PKDD 2022. Lecture Notes in Computer Science, vol 13718. Cham: Springer, 2023. Dispon√≠vel em: https://doi.org/10.1007/978-3-031-26422-1_5. Acesso em: data de acesso.

ALMEIDA, Dayse S.; NONATO, Luis Gustavo. An√°lise da rela√ß√£o entre manejos madeireiros e desmatamento usando agrupamento de s√©ries temporais. Anais, 2021.  

SILVA, P. L. P. Um Estudo sobre o Agrupamento de S√©ries Temporais e sua Aplica√ß√£o em Curvas de Carga Residenciais. Universidade Federal de Minas Gerais, 2016.  


# 5. Ap√™ndice: Roteiro de Instala√ß√£o do Z-Grouping

O Z-Grouping √© uma ferramenta poderosa para an√°lise de s√©ries temporais, oferecendo uma implementa√ß√£o eficiente e robusta dispon√≠vel no reposit√≥rio oficial dos autores do artigo: https://github.com/zedshape/zgrouping/. 

## 5.1 Instala√ß√£o

Para utilizar o Z-Grouping, √© necess√°rio ter instaladas as extens√µes [numba](https://numba.pydata.org/), [numpy](https://numpy.org/), [pyts](https://pyts.readthedocs.io/en/stable/) e o [Python](https://www.python.org/) em sua vers√£o 3.7 ou superior. Devido √†s depend√™ncias utilizadas, recomenda-se a utiliza√ß√£o do Python 3.8 ou superior para evitar conflitos de vers√£o. 

Para instalar o Python 3.8, siga os passos abaixo: 

1. Instale as depend√™ncias necess√°rias:
```Bash
sudo apt-get install libsqlite3-dev ## (ou sqlite-devel dependendo do SO). 
cd /opt/ 
sudo wget https://www.python.org/ftp/python/3.8.3/Python-3.8.3.tgz 
sudo tar -xzf Python-3.8.3.tgz 
cd Python-3.8.3 
sudo ./configure --enable-optimizations --enable-loadable-sqlite-extensions 
sudo make altinstall 
```
2. Ative o ambiente com Python 3.8:
```Bash
python3.8 -m venv ./.venv 
source .venv/bin/activate 
pip install --upgrade pip 
pip install numba numpy==1.19.5 pyts matplotlib==3.3.1 
```
3. Por fim, para instalar o Z-Grouping, siga estas instru√ß√µes:
```Bash
git clone https://github.com/zedshape/zgrouping.git 
cd zgrouping 
```

Certifique-se de seguir esses passos com aten√ß√£o para garantir uma instala√ß√£o bem-sucedida do Z-Grouping em seu ambiente de desenvolvimento. 

## 5.2 Utiliza√ß√£o do Algoritmo Z-Grouping

O algoritmo pode ser facilmente executado importando o m√©todo createGroupings do reposit√≥rio fornecido: 

```python
from zgrouping.syntheticGenerator import createSyntheticData 
```

Ele recebe os seguintes par√¢metros: 
* `matrices`: matriz de labels de evento. Essa matriz pode ser gerada utilizando o m√©todo `utils.createChannel` sobre as s√©ries temporais de entrada. 
* `alpha`: o limiar de pureza. 
* `debug`: op√ß√µes de _print_ e debug. 
* `accept`: habilita a fun√ß√£o de valida√ß√£o da qualidade dos agrupamentos. 

## 5.3 _Datasets_

O reposit√≥rio do Z-Grouping j√° cont√©m bases de dados para teste e avalia√ß√£o do algoritmo, localizadas na pasta `datasets`. Algumas das bases de dados incluem: 
* `Covid-19`: Base de dados referente ao continente do pa√≠s, pa√≠s e contagem de casos de covid no pa√≠s de 22/01/2020 at√© 30/09/2021. 
* `Stocks`: Base de dados de a√ß√µes contendo informa√ß√µes como data do registro, valor de abertura do dia, maior valor no dia, menor valor no dia, volume e TAG (nome) da a√ß√£o. 

Al√©m disso, o reposit√≥rio inclui um gerador de bases de dados sint√©ticas, que cria padr√µes entre s√©ries temporais. Este gerador pode ser utilizado importando o m√©todo `createSyntheticData` do reposit√≥rio: 

```python
from zgrouping.syntheticGenerator import createSyntheticData
```

O m√©todo `syntheticGenerator.createSyntheticData` requer os seguintes argumentos: 
* `c`: N√∫mero de agrupamentos globais. 
* `tc`: N√∫mero de membros da inst√¢ncia por agrupamento. 
* `tl`: Tamanho de cada s√©rie temporal. 
* `no_outliers`: N√∫mero de outliers. 
* `outlier_size`: Tamanho do outlier. 
* `amp`: Amplitude. 
* `lineranges`: Comprimento de linhas retas. 
* `lineheights`: Altura das linhas retas. 

Esses _datasets_ sint√©ticos podem ser utilizados como substitutos para os _datasets_ reais mencionados anteriormente. No entanto, ainda √© necess√°rio passar essas bases pelo m√©todo de cria√ß√£o de canais, que √© o dado de entrada para o algoritmo de agrupamento.

## 5.4 Exemplo de Uso

Para ilustrar o uso do Z-Grouping, apresentamos a seguir um exemplo pr√°tico de execu√ß√£o do algoritmo. Os passos a seguir demonstram como gerar dados sint√©ticos, aplicar transforma√ß√µes e finalmente executar o Z-Grouping para obter os agrupamentos desejados.

Ap√≥s a gera√ß√£o e transforma√ß√£o dos dados, ser√° obtida uma matriz com padr√µes simb√≥licos, representando s√©ries temporais. A seguir, √© apresentado um exemplo dos dados antes e depois da transforma√ß√£o. 


In [None]:
from zgrouping.zgrouping import grouping, syntheticGenerator, utils 
import matplotlib.pyplot as plt 

# Synthetic generator 
tc = 50 
tl = 365 
c = 20 
no_outliers = 10 
outlier_size = 10 

# Grouping generation 
n_bins = 5 
alpha = 0.9 
eta = 1.5 

X_raw, y = syntheticGenerator.createSyntheticData(tc=tc, tl=tl, c=c, no_outliers=no_outliers, outlier_size=outlier_size) 

# Normaliza√ß√£o e Transforma√ß√£o 
X = utils.znorm(X_raw)  
X_sax = utils.SAXify(X, n_bins=5) 

# Visualiza√ß√£o dos dados 
plt.plot(X_raw[150], label='antes') 
plt.plot(X_sax[150], label='depois')
plt.title('Dados sint√©ticos antes e depois da transforma√ß√£o')
plt.legend()
plt.show()
print(X_sax[150]) 

Ap√≥s a prepara√ß√£o dos dados, eles ser√£o utilizados como entrada para a cria√ß√£o dos canais do Z-Grouping. A matriz resultante deve ter dimens√µes $S \times T$, onde $S$ √© o n√∫mero de s√©ries temporais e $T$ √© o tamanho de cada s√©rie temporal. Isso significa que cada linha da matriz representa uma s√©rie temporal e cada coluna representa o valor daquela s√©rie temporal em um determinado tempo. 


In [None]:
matrices = utils.createChannels(X_sax)

Com os canais devidamente criados, ser√° utilizado o Z-Grouping para obter os agrupamentos desejados. O c√≥digo a seguir demonstra como executar o algoritmo e obter os agrupamentos: 


In [None]:
groupings, associations = grouping.createGroupings(matrices, alpha=alpha, accept=False, debug=True) 

A vari√°vel `groupings` resultante √© uma lista de objetos, onde cada objeto representa um agrupamento detectado. Cada agrupamento cont√©m dois campos importantes: 
* `members`: um vetor de booleanos indicando se uma s√©rie temporal pertence ou n√£o a esse agrupamento, funcionando como uma m√°scara. 
* `range`: o intervalo de tempo no qual o padr√£o se repete entre as s√©ries temporais. 

 Agora, para melhor visualiza√ß√£o dos resultados, foi feita uma fun√ß√£o que desenha os gr√°ficos de algumas das s√©ries temporais pertencentes a um determinado agrupamento e destaca o padr√£o detectado. 


In [None]:
importrandom

defprint_3_examples(data, grouping, numberPrints): 
   mask = [(index, value) for (index, value) in enumerate(grouping['members'])] 
   members = list(filter(lambda tuple : tuple[1], mask)) 
   
   randIndexList = [random.randint(0, len(members) -1) for i in range(numberPrints)] 
   choosedMembers = [members[index][0] for index in randIndexList] 
   
   interval = grouping['range'][0:numberPrints] 

   fig, axs = plt.subplots(nrows=numberPrints, ncols=1) 
   fig.set_figheight(15) 
   i = 0 
   for ax, i in zip(axs, choosedMembers): 
       thisData = data[i] 
       patternData = list(filter(lambda tuple: interval[0] <= tuple[0] <= interval[1], enumerate(thisData))) 
       patternX = [pattern[0] for pattern in patternData] 
       patternY = [pattern[1] for pattern in patternData] 
       ax.plot(thisData) 
       ax.plot(patternX, patternY, 'r') 
       i += 1 

   plt.subplots_adjust(hspace=0.0) 
   plt.show() 

   print(choosedMembers) 


print_3_examples(X_raw,groupings[13], 6)