# Gerando um dataframe filtrando pelo mês de Outubro (início do planejamento e plantio da Soja)
- Filtramos apenas dados semanais desde 2006 até 2021 para o mês de Outubro para cada cidade que possui Estação Meteorológica e unimos todos os DF's de todas as cidades em um só;
- Ao final deste Notebook, foi gerado também as informações de longitude e latitude e o csv foi exportado para trabalhar com a geoestatística posteriormente;
- É possível trocar o mês para gerar o dataset na função `ler_dados_concatenados`
---

In [1]:
import pandas as pd 
import numpy as np
from utils import *

from geopy.geocoders import Nominatim
from geopy.extra.rate_limiter import RateLimiter

In [2]:
geolocator = Nominatim(user_agent="TMGAPP")
geocode = RateLimiter(geolocator.geocode, min_delay_seconds=1)

In [3]:
def ler_dados_concatenados(cidade_selecionada, id_em_selecionado):
    """
    Função para realizar a leitura dos dados concatenados. Também é realizado um tratamento para transformar 
    a coluna de data para seu devido formato. A coluna de horário é removida.
    Todos os dados são transformados em tipo float para poder trabalhar com estatísticas posteriormente.
    Os NA's foram substituídos pela média das colunas, o que não alterou o resultado final (na média) do dataframe.
    """
    df = pd.read_csv(f'data/dados_hist_clima_concatenados/INMET_S_PR_{id_em_selecionado}_{cidade_selecionada}_01-01-2006_A_30-11-2021.CSV', index_col=False, decimal=',')
    df['DATA (YYYY-MM-DD)'] = pd.to_datetime(df['DATA (YYYY-MM-DD)'])
    df.set_index('DATA (YYYY-MM-DD)', inplace=True)
    df.drop(['HORA (UTC)'], axis=1, inplace=True)

    cols = df.iloc[:, :17].columns
    for i in cols:
        df[i] = df[i].astype(str).str.replace(',','.')

    df.iloc[:, :17] = df.iloc[:, :17].astype(float) # Os dados precisam ser do tipo float para poder trabalhar com estatísticas
    df.iloc[:, :17] = df[df.iloc[:, :17] > -5] # Pegando apenas medições de números acima de -5 (A temperatura poderia chegar a ser negativa, por isso o limite)
    df = df.iloc[:, :17].fillna(df.iloc[:, :17].mean())

    # Fazendo média semanal (Weekly)
    df = df.resample('W').mean().round(2)
    df_precip = df.resample('W').sum()
    df['PRECIPITAÇÃO TOTAL, HORÁRIO (mm)'] = df_precip['PRECIPITAÇÃO TOTAL, HORÁRIO (mm)']
    df = df[df['PRECIPITAÇÃO TOTAL, HORÁRIO (mm)'] >= 0] # Utilizando os dados apenas maiores ou iguais a 0

    # Selecionando apenas mês de outubro (10)
    periodo_produtivo = [10] 
    df = df[df.index.map(lambda t: t.month in periodo_produtivo)]

    df['CIDADE'] = f'{cidade_selecionada}, Parana, Brazil'

    return df

# Curitiba
---

In [4]:
df1 = ler_dados_concatenados('CURITIBA', 'A807')

# Ivai
---

In [5]:
df2 = ler_dados_concatenados('IVAI', 'A818')

# Castro
---

In [6]:
df3 = ler_dados_concatenados('CASTRO', 'A819')

  df3 = ler_dados_concatenados('CASTRO', 'A819')


# Mal. Candido Rondon
---

In [7]:
df4 = ler_dados_concatenados('MAL. CANDIDO RONDON', 'A820')

# Joaquim Tavora
---

In [8]:
df5 = ler_dados_concatenados('JOAQUIM TAVORA', 'A821')

# Nova Tebas
---

In [9]:
df6 = ler_dados_concatenados('NOVA TEBAS', 'A822')

  df6 = ler_dados_concatenados('NOVA TEBAS', 'A822')


# Inacio Martins
---

In [10]:
df7 = ler_dados_concatenados('INACIO MARTINS', 'A823')

# Icaraima
---

In [11]:
df8 = ler_dados_concatenados('ICARAIMA', 'A824')

  df8 = ler_dados_concatenados('ICARAIMA', 'A824')


# Maringa
---

In [12]:
df9 = ler_dados_concatenados('MARINGA', 'A835')

# Nova Fatima
---

In [13]:
df10 = ler_dados_concatenados('NOVA FATIMA', 'A842')

  df10 = ler_dados_concatenados('NOVA FATIMA', 'A842')


# Dois Vizinhos
---

In [14]:
df11 = ler_dados_concatenados('DOIS VIZINHOS', 'A843')

  df11 = ler_dados_concatenados('DOIS VIZINHOS', 'A843')


# Foz do Iguaçu
---

In [15]:
df12 = ler_dados_concatenados('FOZ DO IGUACU', 'A846')

# Diamante do Norte
---

In [16]:
df13 = ler_dados_concatenados('DIAMANTE DO NORTE', 'A849')

# Paranapoema
---

In [17]:
df14 = ler_dados_concatenados('PARANAPOEMA', 'A850')

# Planalto
---

In [18]:
df15 = ler_dados_concatenados('PLANALTO', 'A855')

  df15 = ler_dados_concatenados('PLANALTO', 'A855')


# Cidade Gaucha
---

In [19]:
df16 = ler_dados_concatenados('CIDADE GAUCHA', 'A869')

# Japira
---

In [20]:
df17 = ler_dados_concatenados('JAPIRA', 'A871')

# Ventania
---

In [21]:
df18 = ler_dados_concatenados('VENTANIA', 'A872')

# Morretes
---

In [22]:
df19 = ler_dados_concatenados('MORRETES', 'A873')

# Sao Mateus do Sul
---

In [23]:
df20 = ler_dados_concatenados('SAO MATEUS DO SUL', 'A874')

# General Carneiro
---

In [24]:
df21 = ler_dados_concatenados('GENERAL CARNEIRO', 'A875')

# Clevelandia
---

In [25]:
df22 = ler_dados_concatenados('CLEVELANDIA', 'A876')

# Campina da Lagoa
---

In [26]:
df23 = ler_dados_concatenados('CAMPINA DA LAGOA', 'B803')

# Laranjeiras do Sul
---

In [27]:
df24 = ler_dados_concatenados('LARANJEIRAS DO SUL', 'B804')

# Colombo
---

In [28]:
df25 = ler_dados_concatenados('COLOMBO', 'B806')

# Concatenando todas as cidades
---

In [29]:
df_cidades = pd.concat([df1, df2, df3, df4, df5, df6, df7, df8, df9, df10, df11, df12, 
                        df13, df14, df15, df16, df17, df18, df19, df20, df21, df22, df23, df24, df25])

In [30]:
df_cidades.head(10)

Unnamed: 0_level_0,"PRECIPITAÇÃO TOTAL, HORÁRIO (mm)","PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)",PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB),PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB),RADIACAO GLOBAL (KJ/m²),"TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)",TEMPERATURA DO PONTO DE ORVALHO (°C),TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C),TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C),UMIDADE REL. MAX. NA HORA ANT. (AUT) (%),UMIDADE REL. MIN. NA HORA ANT. (AUT) (%),"UMIDADE RELATIVA DO AR, HORARIA (%)","VENTO, DIREÇÃO HORARIA (gr) (° (gr))","VENTO, RAJADA MAXIMA (m/s)","VENTO, VELOCIDADE HORARIA (m/s)",CIDADE
DATA (YYYY-MM-DD),Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
2006-10-01,0.18,916.47,916.71,916.26,981.89,13.98,10.66,14.32,13.63,10.97,10.32,83.51,79.79,81.73,112.24,6.05,2.77,"CURITIBA, Parana, Brazil"
2006-10-08,0.06,911.53,911.82,911.28,1072.84,18.04,14.2,18.6,17.58,14.61,13.82,81.88,76.85,79.47,132.42,5.35,2.33,"CURITIBA, Parana, Brazil"
2006-10-15,0.11,911.87,912.15,911.65,1091.36,18.68,14.81,19.15,18.18,15.22,14.42,82.27,77.6,79.88,103.19,5.22,2.36,"CURITIBA, Parana, Brazil"
2006-10-22,0.07,913.04,913.29,912.82,967.55,15.7,12.25,16.14,15.27,12.64,11.94,83.25,78.95,81.06,105.03,5.87,2.73,"CURITIBA, Parana, Brazil"
2006-10-29,0.0,912.23,912.51,912.01,1428.66,18.79,12.67,19.46,18.12,13.19,12.19,73.39,67.32,70.42,123.96,6.02,2.73,"CURITIBA, Parana, Brazil"
2007-10-07,0.0,914.93,915.21,914.69,1297.45,16.89,11.71,17.48,16.32,12.13,11.31,76.7,71.39,74.08,97.64,6.04,2.79,"CURITIBA, Parana, Brazil"
2007-10-14,0.24,912.0,912.31,911.74,1136.24,19.38,14.19,19.9,18.93,14.61,13.84,77.42,72.71,75.12,128.53,6.33,2.88,"CURITIBA, Parana, Brazil"
2007-10-21,0.21,911.53,911.86,911.24,1091.94,18.37,14.3,18.87,17.88,14.74,13.87,81.79,76.75,79.33,141.21,5.31,2.26,"CURITIBA, Parana, Brazil"
2007-10-28,0.1,913.01,913.33,912.77,969.38,17.83,14.17,18.28,17.4,14.51,13.81,82.98,78.53,80.83,133.75,5.58,2.5,"CURITIBA, Parana, Brazil"
2008-10-05,0.4,911.7,912.09,911.46,1187.18,17.16,13.26,17.73,16.68,13.73,12.76,81.99,76.4,79.61,128.39,6.02,2.48,"CURITIBA, Parana, Brazil"


# Gerando Latitude e Longitude das Cidades
---

In [31]:
lat = pd.Series(df_cidades['CIDADE'].unique().tolist(), index=df_cidades['CIDADE'].unique().tolist()).apply(geocode).apply(lambda location: location.latitude)
long = pd.Series(df_cidades['CIDADE'].unique().tolist(), index=df_cidades['CIDADE'].unique().tolist()).apply(geocode).apply(lambda location: location.longitude)
lat.name = 'LATITUDE'
long.name = 'LONGITUDE'
df_lat = df_cidades.merge(lat, how='left', left_on='CIDADE', right_index=True)
df_lat_long = df_lat.merge(long, how='left', left_on='CIDADE', right_index=True)

In [32]:
df_lat_long.head()

Unnamed: 0_level_0,"PRECIPITAÇÃO TOTAL, HORÁRIO (mm)","PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)",PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB),PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB),RADIACAO GLOBAL (KJ/m²),"TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)",TEMPERATURA DO PONTO DE ORVALHO (°C),TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C),TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C),UMIDADE REL. MAX. NA HORA ANT. (AUT) (%),UMIDADE REL. MIN. NA HORA ANT. (AUT) (%),"UMIDADE RELATIVA DO AR, HORARIA (%)","VENTO, DIREÇÃO HORARIA (gr) (° (gr))","VENTO, RAJADA MAXIMA (m/s)","VENTO, VELOCIDADE HORARIA (m/s)",CIDADE,LATITUDE,LONGITUDE
DATA (YYYY-MM-DD),Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
2006-10-01,0.18,916.47,916.71,916.26,981.89,13.98,10.66,14.32,13.63,10.97,10.32,83.51,79.79,81.73,112.24,6.05,2.77,"CURITIBA, Parana, Brazil",-25.429596,-49.271272
2006-10-08,0.06,911.53,911.82,911.28,1072.84,18.04,14.2,18.6,17.58,14.61,13.82,81.88,76.85,79.47,132.42,5.35,2.33,"CURITIBA, Parana, Brazil",-25.429596,-49.271272
2006-10-15,0.11,911.87,912.15,911.65,1091.36,18.68,14.81,19.15,18.18,15.22,14.42,82.27,77.6,79.88,103.19,5.22,2.36,"CURITIBA, Parana, Brazil",-25.429596,-49.271272
2006-10-22,0.07,913.04,913.29,912.82,967.55,15.7,12.25,16.14,15.27,12.64,11.94,83.25,78.95,81.06,105.03,5.87,2.73,"CURITIBA, Parana, Brazil",-25.429596,-49.271272
2006-10-29,0.0,912.23,912.51,912.01,1428.66,18.79,12.67,19.46,18.12,13.19,12.19,73.39,67.32,70.42,123.96,6.02,2.73,"CURITIBA, Parana, Brazil",-25.429596,-49.271272


In [33]:
df_lat_long.shape

(1458, 20)

In [34]:
df_lat_long.to_csv(f'data/dados_hist_clima_concatenados/INMET_S_PR_MEDIA_OUTUBRO_01-01-2006_A_30-11-2021.CSV') 
# Este dataset será utilizado para plotar variogramas no arquivo '03-Variogramas.ipynb'
# Gerado com médias para o mês de Outubro. Caso precise mudar, alterar essas configurações na função