# INSTRUÇÃO PRÁTICA - IP-P008
## Revisao e consolidaçao do conteúdo de __Pandas__ avançado.
Dados de estações metereologicas de Salvador dos anos de 2003, 2013 e 2023, diponiveis em: [Instituto Nacional de Meteorologia](https://portal.inmet.gov.br/dadoshistoricos). 

### Exercicio 1: Tratando series temporais por tempos
1. Carregando dados utilizando `DatetimeIndex`

In [4]:
import pandas as pd

# carregando os aquivos csv
estacao_ssa_2003 = pd.read_csv('../datasets/estacao_Salvador_2003.CSV', sep=";", header=8, encoding='latin-1')
estacao_ssa_2013 = pd.read_csv('../datasets/estacao_Salvador_2013.CSV', sep=",", header=8, encoding='utf-8')
estacao_ssa_2023 = pd.read_csv('../datasets/estacao_Salvador_2023.CSV', sep=";", header=8, encoding='latin-1')

- Trantando dados

In [5]:
# removendo colunas extraas
estacao_ssa_2003.drop(columns=['Unnamed: 19'], inplace=True)
estacao_ssa_2023.drop(columns=['Unnamed: 19'], inplace=True)

In [6]:
# unificando os dataframes
print("Colunas antes:")
colunas_2003 = estacao_ssa_2003.columns.values.tolist()
colunas_2013 = estacao_ssa_2013.columns.values.tolist()
colunas_2023 = estacao_ssa_2023.columns.values.tolist()

print(colunas_2003)
print(colunas_2013)
print(colunas_2023)

# renomeando colunas diferentes
print("\nColunas diferentes:")
for c_2003, c_2013, c_2023 in zip(colunas_2003, colunas_2013, colunas_2023):
    if c_2003 != c_2013 or c_2003 != c_2023:
        print(f"'{c_2003}' | '{c_2013}' | '{c_2023}'")
        estacao_ssa_2013.rename(columns={c_2013: c_2003}, inplace=True)
        estacao_ssa_2023.rename(columns={c_2023: c_2003}, inplace=True)


# imprimindo colunas depois
print("\nColunas depois:")
colunas_2003 = estacao_ssa_2003.columns.values.tolist()
colunas_2013 = estacao_ssa_2013.columns.values.tolist()
colunas_2023 = estacao_ssa_2023.columns.values.tolist()

print(colunas_2003)
print(colunas_2013)
print(colunas_2023)

Colunas antes:
['DATA (YYYY-MM-DD)', 'HORA (UTC)', 'PRECIPITAÇÃO TOTAL, HORÁRIO (mm)', 'PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)', 'PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB)', 'PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB)', 'RADIACAO GLOBAL (KJ/m²)', 'TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)', 'TEMPERATURA DO PONTO DE ORVALHO (°C)', 'TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C)', 'TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C)', 'TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C)', 'TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C)', 'UMIDADE REL. MAX. NA HORA ANT. (AUT) (%)', 'UMIDADE REL. MIN. NA HORA ANT. (AUT) (%)', 'UMIDADE RELATIVA DO AR, HORARIA (%)', 'VENTO, DIREÇÃO HORARIA (gr) (° (gr))', 'VENTO, RAJADA MAXIMA (m/s)', 'VENTO, VELOCIDADE HORARIA (m/s)']
['DATA (YYYY-MM-DD)', 'HORA (UTC)', 'PRECIPITAÇÃO TOTAL, HORÁRIO (mm)', 'PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)', 'PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB)', 'PRESSÃO ATMOSFERICA MIN. NA H

In [7]:
# tratando hora
print(estacao_ssa_2023['HORA (UTC)'].unique())
mask_utc = estacao_ssa_2023['HORA (UTC)'].str.contains('UTC') 

# trantando dados utc
dados_utc = estacao_ssa_2023.loc[mask_utc, 'HORA (UTC)']
dados_utc = dados_utc.replace(' UTC', '', regex=True) # removendo UTC
dados_utc = dados_utc.str[0:2] + ':00' # pegando apenas a hora

# colocando os dados tratados no dataframe
estacao_ssa_2023.loc[mask_utc, 'HORA (UTC)'] = dados_utc.values
estacao_ssa_2023['HORA (UTC)'].unique()

['0000 UTC' '0100 UTC' '0200 UTC' '0300 UTC' '0400 UTC' '0500 UTC'
 '0600 UTC' '0700 UTC' '0800 UTC' '0900 UTC' '1000 UTC' '1100 UTC'
 '1200 UTC' '1300 UTC' '1400 UTC' '1500 UTC' '1600 UTC' '1700 UTC'
 '1800 UTC' '1900 UTC' '2000 UTC' '2100 UTC' '2200 UTC' '2300 UTC']


array(['00:00', '01:00', '02:00', '03:00', '04:00', '05:00', '06:00',
       '07:00', '08:00', '09:00', '10:00', '11:00', '12:00', '13:00',
       '14:00', '15:00', '16:00', '17:00', '18:00', '19:00', '20:00',
       '21:00', '22:00', '23:00'], dtype=object)

2. Juntando os dois datasets em um só

In [8]:
estacao_ssa = pd.concat([estacao_ssa_2003, estacao_ssa_2013, estacao_ssa_2023], ignore_index=True)

# criando index
index = pd.DatetimeIndex(estacao_ssa['DATA (YYYY-MM-DD)'] + ' ' + estacao_ssa['HORA (UTC)'])

estacao_ssa.index = index
estacao_ssa.drop(columns=['DATA (YYYY-MM-DD)', 'HORA (UTC)'], inplace=True)
estacao_ssa

Unnamed: 0,"PRECIPITAÇÃO TOTAL, HORÁRIO (mm)","PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)",PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB),PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB),RADIACAO GLOBAL (KJ/m²),"TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)",TEMPERATURA DO PONTO DE ORVALHO (°C),TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C),TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C),UMIDADE REL. MAX. NA HORA ANT. (AUT) (%),UMIDADE REL. MIN. NA HORA ANT. (AUT) (%),"UMIDADE RELATIVA DO AR, HORARIA (%)","VENTO, DIREÇÃO HORARIA (gr) (° (gr))","VENTO, RAJADA MAXIMA (m/s)","VENTO, VELOCIDADE HORARIA (m/s)"
2003-01-01 00:00:00,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999.0,-9999.0,-9999.0,-9999.0,-9999,-9999
2003-01-01 01:00:00,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999.0,-9999.0,-9999.0,-9999.0,-9999,-9999
2003-01-01 02:00:00,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999.0,-9999.0,-9999.0,-9999.0,-9999,-9999
2003-01-01 03:00:00,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999.0,-9999.0,-9999.0,-9999.0,-9999,-9999
2003-01-01 04:00:00,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999.0,-9999.0,-9999.0,-9999.0,-9999,-9999
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2023-12-31 19:00:00,0,10046,10051,10046,16413,299,219,309,297,231,216,64.0,61.0,62.0,106.0,64,12
2023-12-31 20:00:00,0,10048,10048,10045,6448,284,219,299,284,226,218,69.0,62.0,68.0,91.0,57,16
2023-12-31 21:00:00,0,1005,10051,10048,1487,273,223,284,273,224,218,74.0,68.0,74.0,80.0,49,13
2023-12-31 22:00:00,0,10053,10053,10049,,27,223,273,27,223,221,75.0,73.0,75.0,65.0,43,1


- Tratando dados

In [9]:
# agrupando parametros
# criando multiindex para as colunas
nivel_1 = ['precipitacao'] + ['pressao']*3 + ['radiacao'] + ['temperatura']*6 + ['umidade']*3 + ['velocidade do vento']*3
nivel_2 = colunas_2003[2:]

# definindo multiindex para as colunas
index_col = pd.MultiIndex.from_arrays([nivel_1, nivel_2], names=['medicao', 'tipo'])

estacao_ssa.columns = index_col
estacao_ssa

medicao,precipitacao,pressao,pressao,pressao,radiacao,temperatura,temperatura,temperatura,temperatura,temperatura,temperatura,umidade,umidade,umidade,velocidade do vento,velocidade do vento,velocidade do vento
tipo,"PRECIPITAÇÃO TOTAL, HORÁRIO (mm)","PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)",PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB),PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB),RADIACAO GLOBAL (KJ/m²),"TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)",TEMPERATURA DO PONTO DE ORVALHO (°C),TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C),TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C),UMIDADE REL. MAX. NA HORA ANT. (AUT) (%),UMIDADE REL. MIN. NA HORA ANT. (AUT) (%),"UMIDADE RELATIVA DO AR, HORARIA (%)","VENTO, DIREÇÃO HORARIA (gr) (° (gr))","VENTO, RAJADA MAXIMA (m/s)","VENTO, VELOCIDADE HORARIA (m/s)"
2003-01-01 00:00:00,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999.0,-9999.0,-9999.0,-9999.0,-9999,-9999
2003-01-01 01:00:00,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999.0,-9999.0,-9999.0,-9999.0,-9999,-9999
2003-01-01 02:00:00,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999.0,-9999.0,-9999.0,-9999.0,-9999,-9999
2003-01-01 03:00:00,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999.0,-9999.0,-9999.0,-9999.0,-9999,-9999
2003-01-01 04:00:00,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999,-9999.0,-9999.0,-9999.0,-9999.0,-9999,-9999
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2023-12-31 19:00:00,0,10046,10051,10046,16413,299,219,309,297,231,216,64.0,61.0,62.0,106.0,64,12
2023-12-31 20:00:00,0,10048,10048,10045,6448,284,219,299,284,226,218,69.0,62.0,68.0,91.0,57,16
2023-12-31 21:00:00,0,1005,10051,10048,1487,273,223,284,273,224,218,74.0,68.0,74.0,80.0,49,13
2023-12-31 22:00:00,0,10053,10053,10049,,27,223,273,27,223,221,75.0,73.0,75.0,65.0,43,1


In [10]:
import numpy as np
# substituindo valores -9999 por NaN
estacao_ssa.replace(['-9999', -9999, -9999.0, '-9999.0'], value= np.nan, inplace=True)

estacao_ssa

medicao,precipitacao,pressao,pressao,pressao,radiacao,temperatura,temperatura,temperatura,temperatura,temperatura,temperatura,umidade,umidade,umidade,velocidade do vento,velocidade do vento,velocidade do vento
tipo,"PRECIPITAÇÃO TOTAL, HORÁRIO (mm)","PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)",PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB),PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB),RADIACAO GLOBAL (KJ/m²),"TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)",TEMPERATURA DO PONTO DE ORVALHO (°C),TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C),TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C),UMIDADE REL. MAX. NA HORA ANT. (AUT) (%),UMIDADE REL. MIN. NA HORA ANT. (AUT) (%),"UMIDADE RELATIVA DO AR, HORARIA (%)","VENTO, DIREÇÃO HORARIA (gr) (° (gr))","VENTO, RAJADA MAXIMA (m/s)","VENTO, VELOCIDADE HORARIA (m/s)"
2003-01-01 00:00:00,,,,,,,,,,,,,,,,,
2003-01-01 01:00:00,,,,,,,,,,,,,,,,,
2003-01-01 02:00:00,,,,,,,,,,,,,,,,,
2003-01-01 03:00:00,,,,,,,,,,,,,,,,,
2003-01-01 04:00:00,,,,,,,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2023-12-31 19:00:00,0,10046,10051,10046,16413,299,219,309,297,231,216,64.0,61.0,62.0,106.0,64,12
2023-12-31 20:00:00,0,10048,10048,10045,6448,284,219,299,284,226,218,69.0,62.0,68.0,91.0,57,16
2023-12-31 21:00:00,0,1005,10051,10048,1487,273,223,284,273,224,218,74.0,68.0,74.0,80.0,49,13
2023-12-31 22:00:00,0,10053,10053,10049,,27,223,273,27,223,221,75.0,73.0,75.0,65.0,43,1


In [11]:
# tratando precipitacao
print(estacao_ssa['precipitacao']['PRECIPITAÇÃO TOTAL, HORÁRIO (mm)'].unique())

# substiduindo valores , por .
estacao_ssa.loc[:, ('precipitacao', 'PRECIPITAÇÃO TOTAL, HORÁRIO (mm)')].replace(',', '.', regex=True, inplace=True)

# convertendo para float
estacao_ssa['precipitacao'] = estacao_ssa['precipitacao'].astype('float64')

# preenchendo valores NaN com valor anteriores
estacao_ssa.loc[:, ('precipitacao', 'PRECIPITAÇÃO TOTAL, HORÁRIO (mm)')].bfill(inplace=True)

[nan '0' ',2' '6' ',4' '4,8' '6,4' '1,4' '2,4' '1' ',6' '3' '21,8' '2,2'
 '6,8' ',8' '2,6' '4,6' '3,4' '8,4' '1,2' '1,8' '15,8' '12,4' '13,8' '4'
 '10,2' '2' '7,6' '1,6' '3,6' '3,2' '3,8' '4,2' '5,2' '5,8' '10,6' '6,2'
 '5,6' '9,6' '18,4' '7,4' '18' '16,2' '2,8' '5' '11,6' '10,4' '14,4' '52'
 '19' '24,4' '13' '21,6' '12,8' '17,6' '18,2' '11,8' '9' '9,4' '8,8' '22'
 '7,8' '8' '10' '11,2' '5,4' '12,2' '14,6' '7' '4,4' '12' '6,6' '15,2'
 '9,2' '13,2' '29,4' '7,2' '13,6' '0,8' '0,2' '0,4' '0,6' '9,8' '32,4'
 '20,6' '8,6' '16,6' '23,8' '14,2' '32,8' '12,6' '13,4' '11' '17' '15,6'
 '20,4' '17,2' '44,4' '16' '25' '16,8' '14' '8,2' '31,6' '24,2' '22,4'
 '16,4' '27,6' '38,4']


In [12]:
# tratando temperaturas
print(np.unique(estacao_ssa['temperatura'].values.astype('str')))
colunas = estacao_ssa['temperatura'].columns.values.tolist()

# substiduindo valores , por .
for coluna in colunas:
    estacao_ssa.loc[:, ('temperatura', coluna)].replace(',', '.', regex=True, inplace=True)

# convertendo para float
estacao_ssa['temperatura'] = estacao_ssa['temperatura'].astype('float64')

# preenchendo valores NaN com valor anteriores
for coluna in colunas:
    estacao_ssa.loc[:, ('temperatura', coluna)].bfill(inplace=True)

['-1,8' '13,6' '14,2' '14,4' '14,6' '14,7' '14,8' '14,9' '15' '15,1'
 '15,2' '15,3' '15,4' '15,5' '15,6' '15,7' '15,8' '15,9' '16' '16,1'
 '16,2' '16,3' '16,4' '16,5' '16,6' '16,7' '16,8' '16,9' '17' '17,1'
 '17,2' '17,3' '17,4' '17,5' '17,6' '17,7' '17,8' '17,9' '18' '18,1'
 '18,2' '18,3' '18,4' '18,5' '18,6' '18,7' '18,8' '18,9' '19' '19,1'
 '19,2' '19,3' '19,4' '19,5' '19,6' '19,7' '19,8' '19,9' '20' '20,1'
 '20,2' '20,3' '20,4' '20,5' '20,6' '20,7' '20,8' '20,9' '21' '21,1'
 '21,2' '21,3' '21,4' '21,5' '21,6' '21,7' '21,8' '21,9' '22' '22,1'
 '22,2' '22,3' '22,4' '22,5' '22,6' '22,7' '22,8' '22,9' '23' '23,1'
 '23,2' '23,3' '23,4' '23,5' '23,6' '23,7' '23,8' '23,9' '24' '24,1'
 '24,2' '24,3' '24,4' '24,5' '24,6' '24,7' '24,8' '24,9' '25' '25,1'
 '25,2' '25,3' '25,4' '25,5' '25,6' '25,7' '25,8' '25,9' '26' '26,1'
 '26,2' '26,3' '26,4' '26,5' '26,6' '26,7' '26,8' '26,9' '27' '27,1'
 '27,2' '27,3' '27,4' '27,5' '27,6' '27,7' '27,8' '27,9' '28' '28,1'
 '28,2' '28,3' '28,4' '28,5' '28,6

3. Analizando dataframes
- Analisando as colunas relacionadas a precipitações e temperaturas.

In [13]:
precipitacao_temp_ano = estacao_ssa[['precipitacao', 'temperatura']].resample('Y').agg(['min', 'mean', 'max']).dropna()
precipitacao_temp_ano.set_index(precipitacao_temp_ano.index.year, inplace=True)
precipitacao_temp_ano

medicao,precipitacao,precipitacao,precipitacao,temperatura,temperatura,temperatura,temperatura,temperatura,temperatura,temperatura,temperatura,temperatura,temperatura,temperatura,temperatura,temperatura,temperatura,temperatura,temperatura,temperatura,temperatura
tipo,"PRECIPITAÇÃO TOTAL, HORÁRIO (mm)","PRECIPITAÇÃO TOTAL, HORÁRIO (mm)","PRECIPITAÇÃO TOTAL, HORÁRIO (mm)","TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)","TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)","TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)",TEMPERATURA DO PONTO DE ORVALHO (°C),TEMPERATURA DO PONTO DE ORVALHO (°C),TEMPERATURA DO PONTO DE ORVALHO (°C),TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C),TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C),TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C),TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C),TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C),TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C)
Unnamed: 0_level_2,min,mean,max,min,mean,max,min,mean,max,min,...,max,min,mean,max,min,mean,max,min,mean,max
2003,0.0,0.23242,52.0,20.3,25.889817,39.7,14.7,21.504703,26.6,20.7,...,43.3,20.2,25.426838,33.0,15.3,22.000183,26.7,13.6,21.115331,24.7
2013,0.0,0.201233,52.0,19.5,25.677763,34.1,17.4,21.659897,26.0,20.1,...,34.6,19.3,25.195856,32.5,18.0,22.09887,26.8,-1.8,21.15008,24.5
2023,0.0,0.174703,38.4,20.5,26.03492,33.8,15.2,21.874703,26.2,20.7,...,34.1,20.5,25.558002,32.4,16.2,22.332648,27.4,14.8,21.419315,25.1


   - Comparando dados para o mes de Janeiro. 

In [15]:
dados_janeiro = estacao_ssa.loc[estacao_ssa.index.month == 1]
precipitacao_temp_ano = dados_janeiro[['precipitacao', 'temperatura']].groupby(dados_janeiro.index.year).aggregate(['min', 'mean', 'max'])
precipitacao_temp_ano

medicao,precipitacao,precipitacao,precipitacao,temperatura,temperatura,temperatura,temperatura,temperatura,temperatura,temperatura,temperatura,temperatura,temperatura,temperatura,temperatura,temperatura,temperatura,temperatura,temperatura,temperatura,temperatura
tipo,"PRECIPITAÇÃO TOTAL, HORÁRIO (mm)","PRECIPITAÇÃO TOTAL, HORÁRIO (mm)","PRECIPITAÇÃO TOTAL, HORÁRIO (mm)","TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)","TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)","TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)",TEMPERATURA DO PONTO DE ORVALHO (°C),TEMPERATURA DO PONTO DE ORVALHO (°C),TEMPERATURA DO PONTO DE ORVALHO (°C),TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C),TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C),TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C),TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C),TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C),TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C)
Unnamed: 0_level_2,min,mean,max,min,mean,max,min,mean,max,min,...,max,min,mean,max,min,mean,max,min,mean,max
2003,0.0,0.000269,0.2,23.7,28.145296,32.0,20.3,22.398253,23.7,23.8,...,32.9,23.7,27.526882,31.6,21.5,23.119489,24.1,19.7,22.151747,23.6
2013,0.0,0.05,5.8,23.2,27.310215,34.1,18.2,22.230376,25.3,23.4,...,34.6,23.1,26.771909,32.3,20.0,22.676747,25.5,17.6,21.788441,24.3
2023,0.0,0.167742,31.6,22.3,26.763038,31.5,20.0,22.569892,26.2,22.7,...,31.7,22.1,26.267608,30.7,20.7,23.051747,27.0,19.1,22.094355,24.3


- Comparando as informações sobre temperatura e precipitações medias em cada uma das estações dos três anos. 

In [19]:
estacoes = {1: "verao", 2: "verao", 3:'verao', 
            4:'outono', 5:'outono', 6:'outono', 
            7:'inverno', 8:'inverno', 9:'inverno', 
            10:'primavera', 11:'primavera', 12:'primavera'}

precipitao_temp_estacao = estacao_ssa[['precipitacao', 'temperatura']].groupby(estacao_ssa.index.month).mean().groupby(estacoes).mean()
precipitao_temp_estacao

medicao,precipitacao,temperatura,temperatura,temperatura,temperatura,temperatura,temperatura
tipo,"PRECIPITAÇÃO TOTAL, HORÁRIO (mm)","TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)",TEMPERATURA DO PONTO DE ORVALHO (°C),TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C),TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C)
inverno,0.159919,24.199249,20.38525,24.700257,23.782862,20.805871,19.856201
outono,0.384871,25.577373,22.158879,26.046526,25.120698,22.618508,21.727805
primavera,0.147288,26.349559,21.689456,26.855194,25.867377,22.138339,21.272075
verao,0.117352,27.380827,22.503655,27.916836,26.838725,23.034294,22.076521


- Comparando informações sobre temperatura e precipitações medias para o dia 28 de setembro  em cada um dos intervalos do dia dos três anos.

In [31]:
# criando diciionario para mapear as horas
horario = {'00:00': 'madrugada', '01:00': 'madrugada', '02:00': 'madrugada', '03:00': 'madrugada', '04:00': 'madrugada', '05:00': 'madrugada',
           '06:00': 'manha', '07:00': 'manha', '08:00': 'manha', '09:00': 'manha', '10:00': 'manha', '11:00': 'manha', '12:00': 'manha',
           '13:00': 'tarde', '14:00': 'tarde', '15:00': 'tarde', '16:00': 'tarde', '17:00': 'tarde', '18:00': 'tarde',
           '19:00': 'noite', '20:00': 'noite', '21:00': 'noite', '22:00': 'noite', '23:00': 'noite'}

horario = estacao_ssa.index.hour.map(horario)

# pegando os dados de 28 de setembro
mask_estacao_ssa_28_09 = estacao_ssa.index.day == 28 & estacao_ssa.index.month == 9
print(mask_estacao_ssa_28_09)

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

### Exercicio 2: Utilizando eval() e query()
1. Comparação de desempenho