<a href="https://colab.research.google.com/github/Raquel223/Ciclo-Diurno-Relampagos/blob/main/organizar_dado_dist%C3%A2ncia_SPLMA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Organização do dado e cálculo da distância do centro da rede de detecção de relâmpagos SPLMA e a coordenada de cada relâmpago**
---
- **OBJETIVO:** Organizar o dado bruto e filtrar os relâmpagos que ocorrem dentro do raio de 100 km do centro da SPLMA, pois é a área de melhor eficiência de detecção da rede.  

---

**Dados utilizados**: Os dados de relâmpagos que foram utilizados nesse código foram obtidos da rede SPLMA, através da campanha CHUVA-Vale do Paraíba. Neste exemplo foram utilizados dados do mês de novembro.


---



- **METODOLOGIA:** Nessa aula realizaremos os seguintes procedimentos:

    1.   **Importação** das biblotecas
    2.   Montagem do **drive online**
    3.   **Abrir e extrair** o arquivo .tar
    4.   **Organizar** o dado
    5.   **Cálculo** da distância
    6.   **Filtro** da distância
    7.   **Salvar** a tabela 
    
---

**OBSERVAÇÕES IMPORTANTES**: 
1. Fazer mudanças, veja em: **### >>> MUDANÇAS AQUI <<< ###**
    - 1. Caminho do seu drive 

---
- **Realizado por:** Raquel Gonçalves Pereira e Enrique V. Mattos - 25/08/2021


# **Importação das bibliotecas**

In [None]:
import pandas as pd
import  tarfile
import os
import geopy.distance

# **Montagem do drive online**

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


# **### >>> MUDANÇAS AQUI <<< ###**:
- Insira o **caminho + nome** do arquivo

In [None]:
filename = '/content/drive/MyDrive/GitHub/SPLMA/2011-11_pasta1_v01.tar.gz'

dir = os.path.dirname(filename)

# **Abrindo o arquivo .tar**

In [None]:
tar = tarfile.open(filename)
tar.getnames()
tar.extractall()

# **Organizando os arquivos**

In [None]:
lista=[]
for file in tar.getnames():
  df = pd.read_csv(file, delimiter='\s+')  

  #Renomear as colunas de todos os arquivos. Pois cada arquivo tem um nome diferente
  #DEIXAR O NOMES DAS COLUNAS PADRÃO PARA TODOS OS ARQUIVOS
  df.columns = ['area_km','duracao_s','comprimento_km','ano','mes','dia','hor','min','seg','lat','lon','alt']
  
  #Descobrir o número de fontes de cada arquivo
  fontes = df.shape[0]

  #pegar somente a primeira linha de cada arquivo
  primeira_linha= df.head(1)  

  #inserir uma coluna para cada arquivo 
  primeira_linha.insert(loc=12,column ='Fontes', value = fontes)  #adicionei a coluna fontes no final de cada linha

  lista.append(primeira_linha)
todos_arquivos = pd.concat((lista), ignore_index = True)
display(todos_arquivos)

Unnamed: 0,area_km,duracao_s,comprimento_km,ano,mes,dia,hor,min,seg,lat,lon,alt,Fontes
0,2.389883,1.267841,1.545925,2011,11,7,0,46,50.386097,-23.6247,-46.3459,27633.1,11
1,5.196619,0.229767,2.279609,2011,11,7,16,36,43.922367,-22.8802,-46.3755,9681.3,11
2,6.797915,0.166712,2.607281,2011,11,7,16,38,27.305513,-22.7185,-46.3115,10006.4,12
3,5.695647,0.115368,2.386555,2011,11,7,16,38,46.134247,-22.8755,-46.3814,8750.8,11
4,7.411715,0.147567,2.722446,2011,11,7,16,40,59.367619,-22.9242,-46.4206,9829.5,23
...,...,...,...,...,...,...,...,...,...,...,...,...,...
44341,3.020073,0.012270,1.737836,2011,11,30,23,18,11.191648,-23.2013,-47.0092,5005.3,13
44342,89.681677,0.265630,9.470041,2011,11,30,23,18,11.204673,-23.1692,-47.0745,11935.6,85
44343,81.630280,0.434883,9.034948,2011,11,30,23,22,2.565965,-23.2002,-46.9981,7771.5,91
44344,71.166130,0.189468,8.436002,2011,11,30,23,22,2.754198,-23.2481,-47.0704,6615.5,33


# **Cálculo da distância do centro da rede SPLMA e coordenada de cada relâmpago**

In [None]:
dist = []
for i in todos_arquivos.itertuples():
   coords_1 = (-23.5489740,-46.6388100)   #coordenadas do centro da rede SPLMA
   coords_2 = (i.lat, i.lon)              #coordenadas de cada relâmpago
   dist.append(geopy.distance.distance(coords_1, coords_2).km)     #cálculo da distância
todos_arquivos['distancia'] = dist  #criada uma coluna chamada "distancia" para inserir os valores da distancia do centro da rede e de cada relâmpago
todos_arquivos

Unnamed: 0,area_km,duracao_s,comprimento_km,ano,mes,dia,hor,min,seg,lat,lon,alt,Fontes,distancia
0,2.389883,1.267841,1.545925,2011,11,7,0,46,50.386097,-23.6247,-46.3459,27633.1,11,31.052506
1,5.196619,0.229767,2.279609,2011,11,7,16,36,43.922367,-22.8802,-46.3755,9681.3,11,78.816246
2,6.797915,0.166712,2.607281,2011,11,7,16,38,27.305513,-22.7185,-46.3115,10006.4,12,97.890587
3,5.695647,0.115368,2.386555,2011,11,7,16,38,46.134247,-22.8755,-46.3814,8750.8,11,79.102506
4,7.411715,0.147567,2.722446,2011,11,7,16,40,59.367619,-22.9242,-46.4206,9829.5,23,72.706691
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
44341,3.020073,0.012270,1.737836,2011,11,30,23,18,11.191648,-23.2013,-47.0092,5005.3,13,54.005125
44342,89.681677,0.265630,9.470041,2011,11,30,23,18,11.204673,-23.1692,-47.0745,11935.6,85,61.266736
44343,81.630280,0.434883,9.034948,2011,11,30,23,22,2.565965,-23.2002,-46.9981,7771.5,91,53.303870
44344,71.166130,0.189468,8.436002,2011,11,30,23,22,2.754198,-23.2481,-47.0704,6615.5,33,55.286636


# **Filtro para pegar somente os relâmpagos em que a distância é igual ou menor que 100 km**

In [None]:
final = todos_arquivos[todos_arquivos['distancia'] <= 100]
final

Unnamed: 0,area_km,duracao_s,comprimento_km,ano,mes,dia,hor,min,seg,lat,lon,alt,Fontes,distancia
0,2.389883,1.267841,1.545925,2011,11,7,0,46,50.386097,-23.6247,-46.3459,27633.1,11,31.052506
1,5.196619,0.229767,2.279609,2011,11,7,16,36,43.922367,-22.8802,-46.3755,9681.3,11,78.816246
2,6.797915,0.166712,2.607281,2011,11,7,16,38,27.305513,-22.7185,-46.3115,10006.4,12,97.890587
3,5.695647,0.115368,2.386555,2011,11,7,16,38,46.134247,-22.8755,-46.3814,8750.8,11,79.102506
4,7.411715,0.147567,2.722446,2011,11,7,16,40,59.367619,-22.9242,-46.4206,9829.5,23,72.706691
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
44340,208.143931,0.217644,14.427194,2011,11,30,23,16,54.045250,-23.2029,-47.0165,6982.9,188,54.405896
44341,3.020073,0.012270,1.737836,2011,11,30,23,18,11.191648,-23.2013,-47.0092,5005.3,13,54.005125
44342,89.681677,0.265630,9.470041,2011,11,30,23,18,11.204673,-23.1692,-47.0745,11935.6,85,61.266736
44343,81.630280,0.434883,9.034948,2011,11,30,23,22,2.565965,-23.2002,-46.9981,7771.5,91,53.303870


# **Salvar a tabela**

In [None]:
#salvar "tabela" em um txt novembro
final.to_csv(f'{dir}/Novembro_100km.csv', index = True, header=True) 