# Resolução da questão 1

### Instalando bibliotecas necessárias

In [33]:
! pip install pandas
! pip install matplotlib
! pip install numpy
! pip install requests
! pip install requests-futures
! pip install tqdm


## 1 - Obtendo a lista de estações automáticas e salvando em um dataframe

In [1]:
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
##
#from gevent import monkey
#monkey.patch_all(thread=False)
##
import requests
import json
from datetime import timedelta

from concurrent.futures import as_completed
from requests_futures.sessions import FuturesSession
from concurrent.futures import ProcessPoolExecutor
from concurrent.futures import as_completed
from tqdm import tqdm



In [2]:
dados_lista = requests.get('https://apitempo.inmet.gov.br/estacoes/T').json() #obtendo os dados
print(type(dados_lista)) # os dados vem em formato de lista
print(len(dados_lista)) # com 605 itens

<class 'list'>
605


In [3]:
dados_lista[0] #podemos observar então que cada elemento da lista contém um dicionário com as informações sobre uma das estações automáticas

{'CD_OSCAR': '0-2000-0-86765',
 'DC_NOME': 'ABROLHOS',
 'FL_CAPITAL': 'N',
 'DT_FIM_OPERACAO': None,
 'CD_SITUACAO': 'Pane',
 'TP_ESTACAO': 'Automatica',
 'VL_LATITUDE': '-17.96305555',
 'CD_WSI': '0-76-0-2906907000000408',
 'CD_DISTRITO': ' 04',
 'VL_ALTITUDE': '20.93',
 'SG_ESTADO': 'BA',
 'SG_ENTIDADE': 'INMET',
 'CD_ESTACAO': 'A422',
 'VL_LONGITUDE': '-38.70333333',
 'DT_INICIO_OPERACAO': '2008-07-20T21:00:00.000-03:00'}

In [4]:
lista = pd.DataFrame(dados_lista)  #Dataframe com a lista das estações automáticas
lista.head()

Unnamed: 0,CD_OSCAR,DC_NOME,FL_CAPITAL,DT_FIM_OPERACAO,CD_SITUACAO,TP_ESTACAO,VL_LATITUDE,CD_WSI,CD_DISTRITO,VL_ALTITUDE,SG_ESTADO,SG_ENTIDADE,CD_ESTACAO,VL_LONGITUDE,DT_INICIO_OPERACAO
0,0-2000-0-86765,ABROLHOS,N,,Pane,Automatica,-17.96305555,0-76-0-2906907000000408,4,20.93,BA,INMET,A422,-38.70333333,2008-07-20T21:00:00.000-03:00
1,0-2000-0-81755,ACARAU,N,,Pane,Automatica,-3.1211111,0-76-0-2300200000000446,3,67.15,CE,INMET,A360,-40.08722221,2009-04-21T21:00:00.000-03:00
2,0-2000-0-86827,AFONSO CLAUDIO,,,Pane,Automatica,-20.10416666,0-76-0-3200102000000478,6,507.48,ES,INMET,A657,-41.10694444,2011-09-23T21:00:00.000-03:00
3,0-2000-0-86686,AGUA BOA,N,,Pane,Automatica,-14.01638888,0-76-0-5100201000000157,9,440.0,MT,INMET,A908,-52.21166666,2006-12-15T21:00:00.000-03:00
4,0-2000-0-86812,AGUA CLARA,N,,Operante,Automatica,-20.44444444,0-76-0-5000203000000463,7,323.63,MS,INMET,A756,-52.87583332,2010-08-13T21:00:00.000-03:00


## 2 - Obtendo uma série de 14 dias de dados de uma estação (escolhi a primeira estação da lista) e salvando como dataframe


### 2.1 - Obtendo os dados e colocando em dataframe

In [5]:
estacao = lista['CD_ESTACAO'][0] # codigo da estação
inicio = lista['DT_INICIO_OPERACAO'][0][0:10] # primeiro dia
final = str(pd.to_datetime(lista['DT_INICIO_OPERACAO'][0][0:10])+timedelta(days=13))[0:10] # décimo quarto dia 

dados_estacao = pd.DataFrame(requests.get("https://apitempo.inmet.gov.br/estacao/{}/{}/{}".format(inicio, final, estacao)).json()) #obtendo os dados

### 2.2 - Ajustando as datas
Originalmente os dados vem com uma coluna de dias "DT_MEDICAO" e uma coluna de horas "HR_MEDICAO", optei por transformar a data em apenas uma coluna "time" em um formato de mais fácil manipulação

In [6]:
def converte_tempo(dias,horas):
    horas = ['-'+i[0:2]+':'+i[2::] for i in horas.values.astype('str')]
    return(pd.to_datetime(dias+horas))

dados_estacao['time'] = converte_tempo(dados_estacao['DT_MEDICAO'], dados_estacao['HR_MEDICAO']) #adicionando coluna com a informação da data
dados_estacao = dados_estacao.drop(columns=['DT_MEDICAO', 'HR_MEDICAO']) # excluindo as colunas com os dias e as horas


dados_estacao = dados_estacao.reindex(columns=['DC_NOME','time','VL_LATITUDE','VL_LONGITUDE','CHUVA', 'PRE_INS', 'TEM_SEN', 'PRE_MAX', 'UF',
       'RAD_GLO', 'PTO_INS', 'TEM_MIN', 'UMD_MIN', 'PTO_MAX',
       'VEN_DIR', 'PRE_MIN', 'UMD_MAX', 'VEN_VEL', 'PTO_MIN',
       'TEM_MAX', 'VEN_RAJ', 'TEM_INS', 'UMD_INS', 'CD_ESTACAO']) # apenas reorganizando as colunas para facilitar a vizualização

dados_estacao   # dataframe com os dados de 14 dias da primeira estação da lista

Unnamed: 0,DC_NOME,time,VL_LATITUDE,VL_LONGITUDE,CHUVA,PRE_INS,TEM_SEN,PRE_MAX,UF,RAD_GLO,...,VEN_DIR,PRE_MIN,UMD_MAX,VEN_VEL,PTO_MIN,TEM_MAX,VEN_RAJ,TEM_INS,UMD_INS,CD_ESTACAO
0,ABROLHOS,2008-07-20 00:00:00,-17.96305555,-38.70333333,,,,,BA,,...,,,,,,,,,,A422
1,ABROLHOS,2008-07-20 01:00:00,-17.96305555,-38.70333333,,,,,BA,,...,,,,,,,,,,A422
2,ABROLHOS,2008-07-20 02:00:00,-17.96305555,-38.70333333,,,,,BA,,...,,,,,,,,,,A422
3,ABROLHOS,2008-07-20 03:00:00,-17.96305555,-38.70333333,,,,,BA,,...,,,,,,,,,,A422
4,ABROLHOS,2008-07-20 04:00:00,-17.96305555,-38.70333333,,,,,BA,,...,,,,,,,,,,A422


## 3 - Extras

### 3.1 - Usando requisições assíncronos para coletar dados das 15 primeiras estações da lista

In [43]:
## obtendo todas as urls. Dividi de 5 em 5 anos, pois requests muito grandes acabam sendo negadas

urls = []
for k in np.arange(0,15):
    estacao_k = lista['CD_ESTACAO'][k] # codigo da estação
    inicio_k = lista['DT_INICIO_OPERACAO'][k][0:10] # primeiro dia
    final_k = str(pd.to_datetime("today"))[0:10] 
    
    times = pd.date_range(start=inicio_k,end=final_k,freq = '5Y').strftime('%Y-%m-%d').tolist() #cria lista de intervalos de 5 em 5 anos
    times.append(pd.to_datetime("today").strftime('%Y-%m-%d')) #adiciona o dia atual como última data
    
    for j in np.arange(0,len(times)-1):  
        urls.append("https://apitempo.inmet.gov.br/estacao/{}/{}/{}".format(times[j], times[j+1], estacao_k))  #salva todas as urls de todos os intervalos de todas as estações
        

## fazendo as requests assíncronas e concatenando todos os dados juntos (independentemente de estação)

import time
start_time = time.time()

session = FuturesSession(executor=ThreadPoolExecutor(max_workers=12)) # muitos processos juntos acabam fazendo cair ou recebendo arquivos truncados

futures=[session.get(i) for i in urls]

dados = [] # guarda em em cada posição 1 dataframe com os dados da request em questão
for future in tqdm(as_completed(futures), total = len(urls)):
    dados.append(pd.DataFrame(future.result().json()))
     
print("--- %s seconds ---" % (time.time() - start_time))

dados = pd.concat(dados, axis = 0)   # dados de todas as estações (estão misturados, repetidos e fora de ordem)


100%|██████████| 41/41 [04:33<00:00,  6.66s/it]

--- 274.95896649360657 seconds ---





### 3.2 - Separando os dados de cada estação, limpando e formatando eles.

In [None]:
# adicionando coluna com a informação da data e excluindo as colunas com os dias e as horas separados
dados = converte_tempo(dias,horas):