# Estudo de cintilações ionosféricas via regra de associação

## Sobre cintilação ionosférica

_"A cintilação ionosférica é uma variação rápida de amplitude e fase dos sinais de ondas de rádio e ocorrem quando estes sinais atravessam as irregularidades ionosféricas ou bolhas de plasma. As bolhas são geradas no equador magnético apos o pôr-do-sol devido às instabilidades do plasma. Elas tendem a se mover para para o alto e mapeiam ao longo das linhas do campo magnético e atingem 20 graus de latitude norte e latitude sul."_

- [Projeto Scintec](http://www.inpe.br/scintec/pt/scintilPt.php).

<p align = "center">
  <img width="40%" src = "https://github.com/AbnerErnaniADSFatec/computational-statistics-data/raw/main/img/cintilacao-ionosferica.jpg">
</p>

A cintilação ionosférica é um dos efeitos que ocorre na atmosfera terrestre e que acaba por degradar o sinal eletromagnético que por ela refrata devido às variações na quantidade de elétrons livres e, consequentemente, na formação do campo magnético nos pontos por onde os sinais se propagam. Quando o campo magnético é, portanto, alterado durante a passagem do sinal, este pode sofrer variações diretamente proporcionais à intensidade dessas mudanças. A imagem acima representa uma ilustração das cintilações ionosféricas, onde ocorre uma falha em uma camada específica representada na imagem em um espectro de cores, e esta falha pode influenciar diretamente em sinais de rádio provindos das camadas baixas do planeta Terra demonstrado na imagem abaixo.

<p align = "center">
  <img width="45%" src = "https://github.com/AbnerErnaniADSFatec/computational-statistics-data/raw/main/img/signal_ionospheric.png">
</p>

A investigação dos efeitos e das causas da cintilação tem sido um assunto muito abordado no campo da Geodésia e Aeronomia, visto que seu comportamento varia significantemente, dependendo da região da Terra que se observa. De uma forma geral, estudos apontam algumas formas de se realizar a mitigação dos efeitos da cintilação. Entre as estratégias mais utilizadas, destacam-se a modelagem estatística dos dados e também melhorias no hardware dos receptores.

## Regras de Associação

As regras de associação têm como premissa básica encontrar elementos que implicam na presença de outros elementos em uma mesma transação, ou seja, encontrar relacionamentos ou padrões frequentes entre conjuntos de dados. O termo transação indica quais itens foram consultados em uma determinada operação de consulta.

Existem diversos algoritmos que realizam buscas de regras de associação em bases de dados, neste estudo serão analisados dois algoritmos **Apriori** e **FPGrowth**.

### Apriori

O algoritmo apriori é um algoritmo de aprendizado de máquina usado para obter informações sobre as relações estruturadas entre os diferentes itens envolvidos. A aplicação prática mais proeminente do algoritmo é recomendar produtos com base nos produtos já presentes no carrinho do usuário.

### FPGrowth

Um dos pontos que enfraquece o potencial do algoritmo Apriori, está na geração e teste do conjunto de candidatos. Esse problema foi tratado ao introduzir uma estrutura de dados nova e compacta, chamada árvore de padrões frequentes, ou FP-Tree. Baseado nessa nova estrutura foi proposto por Han et. al. (2000), o algoritmo FP-growth, que utiliza uma abordagem diferente do Apriori. Segundo testes realizados por Han et. al. (2000), dentre outros pesquisadores, tais como, Borgelt (2005), Gyorodi et. al. (2004) e Nandi et. al. (2015), o algoritmo FP-growth obteve maior eficiência, em termos de memória e de tempo de execução, do que o algoritmo Apriori.

## Aplicação

Para este trabalho foi proposto o estudo das cintilações ionosféricas via regra de associação para os dois algoritmos **Apriori** e **FPGrowth**, com o objetivo de visualizar as regras de associação entre as camadas da ionosfera.

### Importação das bibliotecas

Para este trabalho foram utilizados as seguintes bibliotecas para a visualização e pré-processamento dos dados.

In [None]:
import math
import pandas as pd
import seaborn as sn
import numpy as np
import matplotlib.pyplot as plt
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori, fpgrowth, association_rules
from sklearn.tree import DecisionTreeClassifier

path = "/kaggle/input/cap417trabalhofinalabneranjos/"

fpgrowth?

## Definição dos métodos a serem utilizados

Foram definidos os métodos a seguir para visualizar os dados gerados pelos dois algoritmos **Apriori** e **FPGrowth** em forma de um gráfico de barras e pela matriz de confusão.

In [None]:
def _plotItemset(itemset, title):
    _x = itemset['itemsets']
    _y = itemset['support']
    x = []
    for item in _x:
        x.append(str(list(item)))
    y = _y
    sn.set(font_scale=0.9)
    plt.figure(figsize=(20,5))
    plt.title(f"\n{title}\n")
    plt.ylabel("$Support$", fontsize='large')
    plt.xticks(list(range(0, len(x))), x, rotation=45)
    plt.bar(x, y, color='#9AE7FF')
    plt.plot(x, y, color='#0066FB')
    plt.show()
    
def _confusionMatrix(array, labels, title, size=(15, 10)):
    df_cm = pd.DataFrame(array, labels, labels)
    plt.figure(figsize=size)
    plt.title(f"\n{title}\n")
    sn.set(font_scale=1.5)
    sn.heatmap(df_cm, annot=True, annot_kws={"size": 16})
    plt.ylabel("$Antecedent$\n", fontsize='large')
    plt.xlabel("\n$Consequent$", fontsize='large')
    plt.show()

## Leitura dos dados das cintilações ionosféricas

O conjunto de dados que foi utilizado para o trabalho é um conjunto de detectores das cintilações ionosféricas catalogadas em rótulos (D, E, F1, F2) para cada camada ionosférica como descrito abaixo e demonstrado na imagem.

### As Camadas da Ionosfera

- **Camada F2:** Esta é a mais alta das camadas ionosfericas, existindo entre os 200 e os 400km. Esta camada representa o principal meio de reflexão ionosferica para comunicações em ondas curtas a distancias muito elevadas, distancia esta que pode variar ao longo do dia, com a época do ano e ainda com o ciclo solar. Estas variações são provocadas pelo grau de ionização assim como também com a altitude da camada. A camada F2 aparece cerca do nascer do sol quando a camada F se decompõe para dar origem à F2 e à F1.

- **Camada F1:** Esta camada existe logo abaixo da camada F2 e como a F2 também ela só existe durante as horas diurnas. Por vezes esta camada pode servir de reflectora a determinadas frequências., mas normalmente a energia electromagnética que atravessa a camada E também atravessa esta, acabando por se reflectir na camada F2. O mais normal é esta camada provocar uma absorção adicional nos sinais que atravessam a "E" antes de se reflectirem na F2.

- **Camada E:** Esta camada situa-se por baixo das camadas F2 e F1 e praticamente só existe durante as horas diurnas, desaparecendo praticamente durante a noite. Todavia e muito raramente podem-se observar vestígios dela durante a noite. A altitude desta camada é entre os 80 e os 100km. O máximo de actividade da camada é ao quando os raios solares incidem perpendicularmente à superfície da mesma. Esta camada possibilita as comunicações em HF a medias distancias, e também é responsável pela propagação das frequências abaixo de 1,5 MHz durante a noite a distancias consideráveis.

- **Camada D:** Esta é a mais baixa de todas as camadas situando-se entre os 50 e os 80 km e a que aparentemente apresenta mais absorção à energia radioeléctrica durante o período da sua existência e que se situa praticamente apenas durante as horas diurnas desaparecendo com o por do sol. É também a mais desconhecida de todas as camadas ionosféricas e a que menos grau de ionização apresenta. Acredita-se que esta camada é a responsável pela absorção das ondas de rádio em HF e MF durante as horas diurnas.

<p align = "center">
  <img width="40%" src = "https://github.com/AbnerErnaniADSFatec/computational-statistics-data/raw/main/img/ionospheric_layers.gif">
</p>


O dado apresenta a camada em cintilação e a ausência dela para cada detector indexado com a trilha, este conjunto de dados das cintilações ionosféricas foram observadas pelo Chinese Beidou Navigation Satellite System (BDS) em 2017:

In [None]:
dataset = pd.read_csv(
    path + "DF_BDS002_2017.csv",
    sep=','
)
dataset.head(5)

### Pré-processamento dos dados

Antes de passar os dados para a leitura do algoritmo precisamos organizá-los de forma que os algoritmos entendam ou seja um conjunto de sequências de existência e não existência do objeto.

Utilizaremos a biblioteca `TransactionEncoder()` para traduzir os dados neste tipo de visualização.

Vamos primeiro listar os detectores disponíveis no conjunto de dados:

In [None]:
labels = list(dataset.keys())
labels.remove('Track')
labels

Agora com a lista de detectores das cintilações podemos organizar o conjunto de dados em uma lista de sequências de cintilações e armazenar o conjunto de camadas ionosféricas disponíveis no conjunto total de dados.

Nosso objetivo é encontrar associações entre a cintilação de uma camada e a outra, quais as formas de associação uma possui com a outra.

In [None]:
_dataset = []
_aux = []
layers = []
for label in labels:
    for i in range(len(dataset)):
        value = dataset[label][i]
        if value.isnumeric() and len(_aux) != 0:
            print(_aux)
            _dataset.append(_aux)
            _aux = []
        elif not value.isnumeric():
            layers.append(value)
            _aux.append(value)     
layers = list(set(layers))
layers.sort()
print(f'\nTotal Layers: {layers}')

Com a biblioteca `TransactionEncoder()` conseguimos converter a lista de sequências acima em forma de um `DataFrame` pandas com cada coluna simbolizando uma camada ionosférica , sendo os valores da existência ou não da cintilação, respectivamente 1 ou 0 (True or False).

In [None]:
te = TransactionEncoder()
te_ary = te.fit(_dataset).transform(_dataset)
df = pd.DataFrame(te_ary, columns=te.columns_)
df.head(10)

Agora com os dados pré-processados e organizados de forma padronizada podemos iniciar o estudo de cada algoritmo com base neste dataset.

## Algoritmos para identificar regras de associação

Para entender o funcionamento destes algoritmos vamos produzir um linha de raciocínio, por exemplo:

Todos vão no supermercado, digamos que eu queira fazer um bolo de aniversário, e a geladeira está vazia.

No supermercado, procuro pela manteiga, leite, ovos, fermento e farinha. Entendendo a associação destes items podemos prever o item seguinte. Se estou procurando por manteiga, leite e ovos, o próximo item da lista seria a farinha ou o fermento.

Trazendo esta analogia para este trabalho, temos uma lista com as camadas ionosféricas e a ordem das cintilações, a pergunta é: **Qual regra de associação que estas camadas seguem?** A partir de uma sequência podemos prever qual camada irá cintilação.

Bom para os dois algoritmos precisamos definir alguns conceitos importantes;

> - **Suporte (_support_):** este número é a popularidade do item no conjunto de dados estudado (dataset). Sendo assim esse número é definido pela quantidade de vezes que o item apareceu em uma transação, dividido pela quantidade de transações existentes no dataset, cujos resultados variam de 0 a 1.
>
> $Support(item) = (Ntransactions / views) / (totaltransactions)$
>
> - Algo importante a ser citado neste momento é o _support treshold_. Este número irá expressar a quantidade mínima que o suporte de um item (ou conjunto de itens) deve aparecer para ele se tornar significante.
>
> - **Confiança (_confidence_):** A confiança é um número que expressa a possibilidade de um item ser escolhido, ou no nosso exemplo, comprado quando outro item é correlato a este, os resultados variam de 0 a 1.
>
> $Conf(X -> Y) = Support(X U Y) / Support(X)$
>
> - **_Lift_:** Esta medida calcula também a possibilidade de um item ser escolhido em relação a outro item. Porém, esta medida considera a popularidade de ambos os itens, os resultados variam de 0 a infinito.
>
> $Lift(X -> Y) = Conf(X U Y) / Support(Y)$
> 
> - Para este valor é feita a seguinte associação _lift_ > 1 existe uma relação entre dois itens, já se _lift_ < 1 é pouco provável a relação.
>
> - **_Leverage_:** Este valor é resultado do cálculo da diferença entre a frequência observada de A e C aparecendo juntos e a frequência que seria esperada se A e C fossem independentes. Um valor de alavancagem de 0 indica independência, os resultados variam de -1 a 1.
>
> $Leverage(X -> Y) = Support(X U Y) - Support(A) * Support(Y)$
>
> - **Convicção (conviction):** essa medida expressa a convicção interpretada pela razão da frequência esperada que X ocorre sem Y, a frequência que a regra faz uma predição incorreta. Se X e Y fossem independentes divididos pela frequência observada de predições incorretas. Os resultados para este cálculo podem variar de 0 a infinito.
>
> $Conv(X -> Y) = 1 - Support(Y) / 1 - Conf(X -> Y)$
>
> - Um valor de convicção alto significa que o consequente é altamente dependente do antecedente. Por exemplo, no caso de uma pontuação de confiança perfeita, o denominador torna-se 0 (devido a 1 - 1) para o qual a pontuação de convicção é definida como 'inf'. Semelhante ao valor de _lift_, se os itens forem independentes, a convicção é 1.

### Algoritmo Apriori

O algoritmo Apriori é muito utilizado na mineração de dados para identificar regras de associação.

O algoritmo Apriori produz padrões frequentes, gerando conjuntos de itens e descobrindo o conjunto de itens mais frequente acima de um limite de “contagem de suporte mínimo”.

Para a prática com o algoritmo vamos definir o _support threshold_ para 5% ou 0.05 para um valor mínimo para significar algo entre as relações (foram utilizados valores maiores, porém não foram obtidos relações interessantes).

In [None]:
limit = 0.05 # support threshold == min_support
_apriori = apriori(df, min_support=limit, use_colnames=True)
_apriori

> Podemos também visualizar este dados gerado pelo algoritmo de forma gráfica como no exemplo abaixo

In [None]:
_plotItemset(_apriori, "Itemsets for Apriori Algorthm")

> Com a execução do algoritmo Apriori podemos visualizar as regras de associação entre as camadas ionosféricas.

In [None]:
rules_apriori = association_rules(_apriori, metric="lift", min_threshold=limit)
rules_apriori

> Analisando os valores de lift podemos verificar se os itens possuem alguma associação verdadeira conforme a interpretação vista anteriormente:
>
> - $Lift < 1$: bem improvável uma associação;
> - $Lift >= 1$: bem provável a existência da associação.
>
> Análise do valor da convicção:
>
> Quanto maior a convicção, maior a probabilidade da associação significar algo.

In [None]:
rules_apriori_real = rules_apriori[rules_apriori['lift'] >= 1]
rules_apriori_real = rules_apriori_real.sort_values("conviction", ascending=False)
rules_apriori_real

**Analisando a matriz de confusão**
 
> **Matriz de Confusão:** No campo do aprendizado de máquina e especificamente no problema de classificação estatística, uma matriz de confusão, também conhecida como matriz de erro, é um layout de tabela específico que permite a visualização do desempenho de um algoritmo, tipicamente de aprendizado supervisionado (em aprendizagem não supervisionada geralmente é chamada de matriz de correspondência). Cada linha da matriz representa as instâncias em uma classe real, enquanto cada coluna representa as instâncias em uma classe prevista, ou vice-versa - ambas as variantes são encontradas na literatura. O nome vem do fato de que torna mais fácil ver se o sistema está confundindo duas classes (ou seja, comumente rotulando uma como a outra).

Para fins de estudo vamos criar uma matriz de confusão para explorar os valores de convicção, sendo estruturada pela transação de apenas um item a outro por causa das muitas variações das sequências tanto para antecedentes quanto para consequentes, então para matriz de confusão abaixo foi feita a análise por meio de combinações com as camadas inosféricas disponíveis. Na matriz o eixo y representa o antecendente e o eixo x representa o consequente e foram atribuídos valores médios de convicção para uma transação D -> E ou F1 -> F2, e assim em diante (antecedente -> consequente), desta forma a matriz representa os valores médios de convicção para _Antecedente x Consequente_.

In [None]:
value_label = 'conviction'
response = rules_apriori_real
confusion_array = []
for a in layers:
    lines = []
    for c in layers:
        _values = []
        for i in list(response.index):
            if a in list(response['antecedents'][i]) and c in list(response['consequents'][i]):
                value = response[value_label][i]
                if math.isinf(value):
                    _values.append(1e2)
                else:
                    _values.append(value)
        _mean = 0
        if len(_values) != 0:
            _mean = np.mean(np.array(_values))
        lines.append(_mean)
    confusion_array.append(lines)
_confusionMatrix(confusion_array, layers, f"Apriori Confusion Matrix by Relation\n{value_label} Mean", size=(10,8))

#### Conclusão do algoritmo Apriori

> Podemos concluir a partir da resposta do algoritmo, que pela regra de associação após a ocorrência de uma cintilação na camada ionosférica _E_ haverá uma cintilação na camada _F1_ e vice versa.
>
> A matriz de confusão do algoritmo Apriori apresentou um valor médio de convicção muito significativo para transações como D -> F1, E -> F1 e D -> E, então podemos concluir que estas camadas possuem uma relação significativa.
>
> A sequência também pode ser descrita por _F1_, _F2_ e _D_ possui como consequência a cintilação na camada _F2_.

### Algoritmo FPGrowth

<p align = "center">
  <img width="60%" src = "https://github.com/AbnerErnaniADSFatec/computational-statistics-data/raw/main/img/fp-growth.gif">
</p>

FP-Growth _Frequent Pattern Growth_ é uma versão aprimorada do Algoritmo Apriori que é amplamente usado para mineração de regra de associação. É utilizado como um processo analítico que encontra padrões ou associações frequentes de conjuntos de dados. A imagem acima representa o algoritmo em execução para um dado exemplo.

Em consequência o algoritmo Apriori possui uma desvantagem muito característica que exige varreduras contínuas no banco de dados para verificar a contagem de suporte de cada item e conjunto de itens. Para o pior caso em um banco de dados massivo, o algoritmo precisa percorrer por todos os itens existentes, isto custaria muito poder computacional e de armazenamento.

Portanto, o algoritmo FP-Growth foi criado para superar esta deficiência. Este algoritmo faz uma varredura simples no banco de dados e produz uma estrutura de árvore FP-Tree para armazenar as informações coletadas durante a varredura.

A raiz representa nulo, cada nó representa um item, enquanto a associação dos nós são os conjuntos de itens com a ordem mantida durante a formação da árvore.

Uma vez que a árvore é construída, ela utiliza uma abordagem recursiva de dividir e conquistar para extrair os conjuntos de itens frequentes.

Vamos executar o algoritmo FP-Growth com os mesmos parâmetros que foram utilizados no exemplo do Apriori para questões de estudo para os dois algoritmos.

In [None]:
_fpgrowth = fpgrowth(df, min_support=limit, use_colnames=True)
_fpgrowth

> Podemos visualizar estes dados de forma gráfica como feito anteriormente.

In [None]:
_plotItemset(_fpgrowth, "Itemsets for FPGrowth Algorthm")

> Podemos visualizar as regras de associação para o algoritmo FPGrowth.

In [None]:
rules_fpgrowth = association_rules(_fpgrowth, metric="lift", min_threshold=limit)
rules_fpgrowth

> Analisando os valores de lift podemos verificar se os itens possuem alguma associação verdadeira conforme a interpretação vista anteriormente:
>
> - $Lift < 1$: bem improvável uma associação;
> - $Lift >= 1$: bem provável a existência da associação.
>
> Análise do valor da convicção:
> Quanto maior a convicção, maior a probabilidade da associação significar algo.

In [None]:
rules_fpgrowth_real = rules_fpgrowth[rules_fpgrowth['lift'] >= 1]
rules_fpgrowth_real = rules_fpgrowth_real.sort_values("conviction", ascending=False)
rules_fpgrowth_real

**Analisando a matriz de confusão**
 
Conforme realizado para o algoritmo Apriori, vamos visualizar a resposta do algoritmo FPGrowth na matriz de confusão, nesta matriz o eixo y representa o antecendente e o eixo x representa o consequente e foram atribuídos valores médios de convicção para uma transação D -> E ou F1 -> F2, e assim em diante (antecedente -> consequente), desta forma a matriz representa os valores médios de convicção para _Antecedente x Consequente_.

In [None]:
value_label = 'conviction'
response = rules_fpgrowth_real
confusion_array = []
for a in layers:
    lines = []
    for c in layers:
        _values = []
        for i in list(response.index):
            if a in list(response['antecedents'][i]) and c in list(response['consequents'][i]):
                value = response[value_label][i]
                if math.isinf(value):
                    _values.append(1e2)
                else:
                    _values.append(value)
        _mean = 0
        if len(_values) != 0:
            _mean = np.mean(np.array(_values))
        lines.append(_mean)
    confusion_array.append(lines)
_confusionMatrix(confusion_array, layers, f"FPGrowth Confusion Matrix by Relation\n{value_label} Mean", size=(10,8))

#### Conclusão do algoritmo FPGrowth

> Podemos concluir a partir do dado, a resposta do algoritmo, que pela regra de associação após a ocorrência de uma cintilação na camada ionosférica _E_ haverá uma cintilação na camada _F1_ e vice versa.
>
> A matriz de confusão do algoritmo FPGrowth também apresentou um valor médio de convicção muito significativo para transações como D -> F1, e -> F1 e D -> E, então podemos concluir que estas camadas possuem uma relação significativa e verdadeira.
>
> Podemos notar que para a resposta dos dois algoritmos há uma regra de associação entre as camadas ionosféricas _E_ e _F1_.

## Referências

 - **Fonte dos dados:** Chinese Beidou Navigation Satellite System (BDS), 2017;

 - Mendonça, Marco Aurelio Moraes de. M496i Investigação da cintilação ionosférica no Brasil e seus efeitos no posicionamento por GNSS / Marco Aurelio Moraes de Mendonça. - Presidente Prudente : [s.n], 2013 144 f;
 
 - HAN, Jiawei; PEI, Jian; YIN, Yiwen. Mining frequent patterns without candidate generation. In: ACM sigmod record. ACM, 2000. p. 1-12.
 
 - Agrawal, Rakesh, and Ramakrishnan Srikant. "Fast algorithms for mining association rules." Proc. 20th int. conf. very large data bases, VLDB. Vol. 1215. 1994.