## Análise de explosões solares
------



Neste trabalho foi utilizado a biblioteca [SunPy](http://adsabs.harvard.edu/abs/2015CS%26D....8a4009S) para obtenção de imagens e séries temporais de raio-X do Sol.


# 1. Testes

O código abaixo é idêntico ao mostrado [aqui](https://docs.sunpy.org/en/latest/_downloads/3a8b152e871f5ccd2772588a970a8202/goes_hek_m25.py). O objetivo é apenas testar a biblioteca SunPy. 

In [1]:
%matplotlib notebook
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

import sunpy.map
import calendar
from datetime import datetime
from sunpy.timeseries import TimeSeries
from sunpy.time import TimeRange, parse_time
from sunpy.net import hek, Fido, attrs as a

In [3]:
#Voce nao deveria rodar esta celula!
import warnings
warnings.filterwarnings("ignore")
#Nao funciona...

In [3]:
tr = TimeRange(['2011-06-07 04:00', '2011-06-07 12:00'])
results = Fido.search(a.Time(tr), a.Instrument('XRS'))

files = Fido.fetch(results)
goes = TimeSeries(files)

HBox(children=(IntProgress(value=0, description='Files Downloaded', max=1, style=ProgressStyle(description_wid…




In [4]:
df = goes.data
plt.semilogy(df)
plt.xticks(rotation=45)
plt.show()

<IPython.core.display.Javascript object>

## 1.1 Instrumentos de observação
------
Há diversos instrumentos de observação da atividade solar disponíveis. A lista completa de instrumentos está descrita [aqui](https://sdac.virtualsolar.org/cgi/show_details?keyword=INSTRUMENT).

O exemplo abaixo mostra um exemplo de imagem


In [5]:
tr = TimeRange(['2011-06-07 04:00', '2011-06-07 04:01'])
results = Fido.search(a.Time(tr), a.Instrument("aia"))

files = Fido.fetch(results)

HBox(children=(IntProgress(value=0, description='Files Downloaded', max=42, style=ProgressStyle(description_wi…




In [6]:
img = sunpy.map.Map(files[0])
img.peek()

  source=self)
  source=self)
  source=self)


<IPython.core.display.Javascript object>

-----
## 1.2 Catálogo de explosões solares

Há diversos catálogos de explosões solares, cada um com um conjunto de propriedades diferentes. O catálogo do projeto [Hinode](https://hinode.isee.nagoya-u.ac.jp/flare_catalogue/) foi utilizado neste projeto.

Para simplificar o problema, uma versão csv do catálogo foi salva na pasta 'data/Hinode_Flare_Catalogue.csv'. Este catálogo é constantemente atualizado, e portanto, é interessante sempre atualizar o arquivo.

In [4]:
catalogo = pd.read_csv("data/Hinode_Flare_Catalogue.csv", sep = ",",engine="python")
catalogo

Unnamed: 0,Event number,start,peak,end,AR location,X-ray class,FG,SP,XRT,EIS,DARTS,RHESSI,Suzaku/WAM,NoRH
0,160620,2017/09/06 11:53,2017/09/06 12:02,2017/09/06 12:10,S09W34,X9.3,0,6,158,7,,50-100,,
1,2750,2006/12/05 10:18,2006/12/05 10:35,2006/12/05 10:45,S06E59,X9.0,0,0,0,0,,25-50,4.820000e+02,
2,161170,2017/09/10 15:35,2017/09/10 16:06,2017/09/10 16:31,S08W88,X8.2,0,0,315,6,,100-300,,
3,41780,2011/08/09 07:48,2011/08/09 08:05,2011/08/09 08:08,N14W69,X6.9,0,0,59,0,,25-50,1.822000e+03,
4,2960,2006/12/06 18:29,2006/12/06 18:47,2006/12/06 19:00,S05E57,X6.5,30,1,0,0,,300-800,4.860000e+02,
5,55910,2012/03/07 00:02,2012/03/07 00:24,2012/03/07 00:40,N18E31,X5.4,6,10,296,0,,no,1.976000e+03,
6,99830,2014/02/25 00:39,2014/02/25 00:49,2014/02/25 01:03,S12E82,X4.9,0,0,0,0,,12-25,,20140225_0043
7,3680,2006/12/13 02:14,2006/12/13 02:40,2006/12/13 02:57,S07W22,X3.4,44,1,44,1,,100-300,4.930000e+02,20061213_0247
8,92040,2013/11/05 22:07,2013/11/05 22:12,2013/11/05 22:15,S12E46,X3.3,0,0,0,0,,no,1.311052e+11,
9,83010,2013/05/14 00:00,2013/05/14 01:11,2013/05/14 01:20,N08E77,X3.2,0,0,102,0,,12-25,,20130514_0107


## 2. Análise  exploratória
-------
Antes de realizar a limpeza dos dados, é interessante avaliar a distribuição dos dados. 
Mesmo que não tenha relação a física do Sol, algumas perguntas relacionadas a observação surgiram:  

    a) Há uma época do ano com ocorrência maior evento solar? 
       Já é conhecido o ciclo de 11 anos, mas há um ciclo menor?
    b) Há algum horário em que ocorre um número maior de eventos? Se sim, de qual classe de evento?
    c) Quais eventos são mais frequentes?
    d) Quanto tempo demora do inicio até o pico do evento solar?
    e) Quanto tempo demora para cessar um evento solar?
    

O código a seguir procura responder estas perguntas...


In [5]:
# Formatando colunas para facilitar manipulacao:
dformat = "%Y/%m/%d %H:%M"
catalogo["peakDT"] = catalogo["peak"].apply(lambda x: datetime.strptime(x,dformat))
catalogo["startDT"] = catalogo["start"].apply(lambda x: datetime.strptime(x,dformat))
catalogo["endDT"] = catalogo["end"].apply(lambda x: datetime.strptime(x,dformat))
xevents = catalogo[catalogo['X-ray class'].str.contains('X')]

In [11]:
#Questao a)
# fonte: https://stackoverflow.com/questions/27365467/can-pandas-plot-a-histogram-of-dates
monthQuery = catalogo.groupby(catalogo["peakDT"].dt.month).count()
xMonthQuery = xevents.groupby(xevents["peakDT"].dt.month).count()

#assumindo que os meses estao ordenados:
plt.figure()
plt.bar(calendar.month_name[1:13], monthQuery["peakDT"])
plt.xticks(rotation=45)
plt.title("Solar events per month")

plt.figure()
plt.bar(calendar.month_name[1:13], xMonthQuery["peakDT"])
plt.xticks(rotation=45)
plt.title("X-class events per month")

plt.show()



<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [8]:
#Questao b)
plt.figure()
hourQuery = catalogo.groupby(catalogo["peakDT"].dt.hour).count()
plt.bar(np.arange(len(hourQuery["peakDT"])), hourQuery["peakDT"])
plt.xlabel("Hour")
plt.title("Solar events per hour")
plt.show()


<IPython.core.display.Javascript object>

In [12]:
#Questao c)
plt.figure()
catalogo["generalClass"] = catalogo['X-ray class'].apply(lambda x: x[0])
classQuery = catalogo.groupby(catalogo['generalClass']).count()
classQuery["Event number"]
plt.bar(classQuery.index,classQuery["Event number"])
plt.show()


<IPython.core.display.Javascript object>

In [81]:
#Questao d) e e)
catalogo["time2StartEvent"] =  catalogo["peakDT"] - catalogo["startDT"] 
catalogo["time2EndEvent"] =  catalogo["endDT"] - catalogo["peakDT"] 
print("Tempo para iniciar um evento:")
print(catalogo["time2StartEvent"].describe())
print("\nTempo para finalizar um evento:")
print(catalogo["time2EndEvent"].describe())

def converteMinutos(temp):
    temp = temp.dt.total_seconds()/60
    avg, std = temp.mean(),  temp.std()
    temp = temp[temp<avg+2*std]
    temp = temp[temp>avg-2*std]
    return temp

endingMinutes = converteMinutos(catalogo["time2EndEvent"])
startingMinutes = converteMinutos(catalogo["time2StartEvent"])

if(len(endingMinutes[endingMinutes<0])>0 or len(startingMinutes[startingMinutes<0])>0):
    print("\nCoisas bizarras que nao deviam acontecer (tempo negativo):")
    neg = endingMinutes[endingMinutes<0].index.values.tolist()
    neg = neg + startingMinutes[startingMinutes<0].index.values.tolist()
    print("\tPicos antes do inicio evento: "+str(len(startingMinutes[startingMinutes<0])))
    print("\tPicos após fim do evento: "+str(len(endingMinutes[endingMinutes<0])))
    print("\tTotal: "+str(len(neg))+"\n")
    print(catalogo.iloc[neg])

plt.figure()
plt.hist(endingMinutes,bins = 20, histtype='step',lw=2.5,label="Time to end")
plt.hist(startingMinutes,bins = 20, histtype='step',lw=2.5,label="Time to start")
plt.xlabel("Time (minutes)")
plt.legend()
plt.show()

Tempo para iniciar um evento:
count                     16566
mean     0 days 00:11:12.857660
std      0 days 00:17:55.514304
min           -1 days +23:56:00
25%             0 days 00:04:00
50%             0 days 00:06:00
75%             0 days 00:11:00
max             0 days 10:22:00
Name: time2StartEvent, dtype: object

Tempo para finalizar um evento:
count                     16566
mean     0 days 00:10:43.629119
std      0 days 00:21:33.980309
min           -1 days +22:37:00
25%             0 days 00:04:00
50%             0 days 00:06:00
75%             0 days 00:11:00
max             1 days 00:15:00
Name: time2EndEvent, dtype: object

Coisas bizarras que nao deviam acontecer (tempo negativo):
	Picos antes do inicio evento: 2
	Picos após fim do evento: 17
	Total: 19

       Event number             start              peak               end  \
75           112550  2014/10/02 18:49  2014/10/02 19:14  2014/10/02 19:01   
130          112410  2014/09/28 02:39  2014/09/28 03:19  2014/09

<IPython.core.display.Javascript object>

### Conclusão da análise exploratória

A análise exploratória elucidou algumas dúvidas e gerou outras dúvidas.

Como esperado, não é observado um ciclo na escala de tempo meses e horas (questões 'a' e 'b'). Há, no entanto, uma diferença quando tratamos de explosões da classe X. Porém, a heterogeneidade de ocorrências durante os meses pode ser explicada pelo baixo número de observações desta classe de evento (ver questão 'c').

Em relação ao tempo de ocorrência (questões 'd' e 'e'), tanto a inicio, quanto a finalização de um evento demora em média 10 minutos. Porém, um dado estranho foi observado. Há 2 ocorrências onde o pico do inicio do evento, e 17 ocorrência em que o pico do evento ocorre após o fim do próprio evento. Uma análise mais detalhada com alguma técnica de classificação do período de explosões, como o módulo 'hek' da biblioteca sunpy. Felizmente, nenhum dos casos de falha pertencem a classe X. 

--------


## 2.1 Limpeza
-------

Trataremos de séries temporais de explosões da classe X. Muita informação não é util para a análise, e portanto será descartada.  

In [6]:
tidy = catalogo[['start','peak', 'end','X-ray class']] 
tidy = tidy.rename(columns={"X-ray class":"class"})
tidy = tidy[tidy['class'].str.contains('X')]
tidy

Unnamed: 0,start,peak,end,class
0,2017/09/06 11:53,2017/09/06 12:02,2017/09/06 12:10,X9.3
1,2006/12/05 10:18,2006/12/05 10:35,2006/12/05 10:45,X9.0
2,2017/09/10 15:35,2017/09/10 16:06,2017/09/10 16:31,X8.2
3,2011/08/09 07:48,2011/08/09 08:05,2011/08/09 08:08,X6.9
4,2006/12/06 18:29,2006/12/06 18:47,2006/12/06 19:00,X6.5
5,2012/03/07 00:02,2012/03/07 00:24,2012/03/07 00:40,X5.4
6,2014/02/25 00:39,2014/02/25 00:49,2014/02/25 01:03,X4.9
7,2006/12/13 02:14,2006/12/13 02:40,2006/12/13 02:57,X3.4
8,2013/11/05 22:07,2013/11/05 22:12,2013/11/05 22:15,X3.3
9,2013/05/14 00:00,2013/05/14 01:11,2013/05/14 01:20,X3.2


---------------------------

# Definição do problema

Prever a ocorrência de explosões solares é um desafio. De forma geral é analisado um conjunto de dados que avalia diversas informações de imagens, séries temporais e ocorrência de eventos. Um exemplo disto é mostrado por 

Outra abordagem é a previsão do evento através da análise de um conjunto de séries temporais medidas. Tipicamente utiliza-se um classificador com memória de curto prazo (Short-term memory), um exemplo de uso desta abordagem é mostrado por [Liu, et. al(2019)](https://arxiv.org/pdf/1905.07095.pdf). Esta abordagem é eficiente, alcançando ~93% de acurácia.

Os artigos citados apresentam análise de eventos extremos das classes C e M. Infelizmente, a abordagem descrita não pode ser aplicada para detectar eventos da classe X, pois estes eventos são raros. É dificil avaliar o desempenho de um classificador quando há poucos casos. Portanto, proponho neste trabalho uma terceira abordagem, que aumenta o conjunto de dados disponível ao classificador. 

Definido o conjunto de dados, reescrevemos o problema de previsão conforme os seguintes passos: 
1. Selecionar a série temporal $T_{b}$ anterior ao evento.
2. Dividir a série $T_{b}$ em pedaços.
3. Associar cada pedaço da série a uma distância temporal do evento $D_t$.
4. Realizar medidas associadas ao pedaço de série temporal (Entropia, DFA, Espectro de Singularidade, GSA, ...).
5. Treinar um classificador para prever a distância temporal do evento, dado um pedaço de série temporal.
6. Utilizar inferência Bayesiana, ou um classificador com memória curta, para prever em que momento (e se) ocorrerá o evento. 

In [7]:
#Item 1: Selecionar a serie temporal anterior ao evento...
def getTimeSeriesData(elem):
    t = TimeRange([elem["start"], elem["end"]])
    # Soft and Hard X ray data fetch:
    res = Fido.search(a.Time(t), a.Instrument('XRS'))
    files = Fido.fetch(res)
    ts = TimeSeries(files)
    
    pre = ts.data[:elem["start"]]
    start = ts.data[elem["start"]:elem["peak"]]
    end = ts.data[elem["peak"]:elem["end"]]
    pos = ts.data[elem["end"]:]
    return pre, start, end, pos

#apenas para testar a funcao.   
pre, start, end, pos = getTimeSeriesData(tidy.loc[3])
plt.figure()
plt.semilogy(pre)
plt.xticks(rotation=45)
plt.show()

HBox(children=(IntProgress(value=0, description='Files Downloaded', max=1, style=ProgressStyle(description_wid…




  source=self)
  return cls.__new__(cls, value)
  source=self)
  return dispatch(args[0].__class__)(*args, **kw)
  return dispatch(args[0].__class__)(*args, **kw)


<IPython.core.display.Javascript object>