# Exercício de Casa 🏠 

Utilizar a tabela de dados do clima de seu estado, manipule os dados de acordo com as instruções abaixo:

    - calcular a média da temperatura da amostra
    - retirar nulos da coluna 'RADIACAO GLOBAL (Kj/m2)'
    - copiar o dataframe reduzindo para 3 colunas (a sua escolha) e 1000 linhas (aleatórias)
    - Bônus: normalizar coluna (qualquer uma)
    - Bônus II: pesquisar sobre outras formas de processamento de dados além das vistas em sala de aula

In [207]:
import pandas as pd
import numpy as np
df = pd.read_csv('SALVADOR_2023.csv', delimiter=';', skiprows=8, encoding='latin1')

In [208]:
# calcular a média da temperatura da amostra

df_temperatura = df['TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)']
df_temperatura = pd.to_numeric(df_temperatura, errors='coerce')
df_temperatura = df_temperatura.replace(np.nan,0)

df_temperatura_media = round(df_temperatura.mean(),2)
df_temperatura_moda = round(df_temperatura.mode(),2)
df_temperatura_mediana = round(df_temperatura.median(),2)
df_temperatura_std = round(df_temperatura.std(),2)
df_temperatura_max = round(df_temperatura.max(),2)
df_temperatura_min = round(df_temperatura.min(),2)

print(f'média da temperatura ar - bulbo seco: {df_temperatura_media}')
print(f'moda da temperatura ar - bulbo seco: {df_temperatura_moda}')
print(f'mediana da temperatura ar - bulbo seco: {df_temperatura_mediana}')
print(f'desvio padrao da temperatura ar - bulbo seco: {df_temperatura_std}')
print(f'máx temperatura ar - bulbo seco: {df_temperatura_max}')
print(f'min temperatura ar - bulbo seco: {df_temperatura_min}')

média da temperatura ar - bulbo seco: 2.75
moda da temperatura ar - bulbo seco: 0    0.0
Name: TEMPERATURA DO AR - BULBO SECO, HORARIA (°C), dtype: float64
mediana da temperatura ar - bulbo seco: 0.0
desvio padrao da temperatura ar - bulbo seco: 8.05
máx temperatura ar - bulbo seco: 33.0
min temperatura ar - bulbo seco: 0.0


In [209]:
# retirar nulos da coluna 'RADIACAO GLOBAL (Kj/m2)'

df_radiacao = df['RADIACAO GLOBAL (Kj/m²)']

print(f'Qtd de nulos na coluna radiacao: {df_radiacao.isnull().sum()}') 

df_radiacao_sem_null = df_radiacao.dropna()

print(f'Qtd de nulos após remoção de nulos: {df_radiacao_sem_null.isnull().sum()}') 

Qtd de nulos na coluna radiacao: 4025
Qtd de nulos após remoção de nulos: 0


In [210]:
# copiar o dataframe reduzindo para 3 colunas (a sua escolha) e 1000 linhas (aleatórias)

df_amostra_1000 = df[['PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)','TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C)','UMIDADE REL. MAX. NA HORA ANT. (AUT) (%)']].sample(1000)
df_amostra_1000


Unnamed: 0,"PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)",TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C),UMIDADE REL. MAX. NA HORA ANT. (AUT) (%)
3562,10097,242,93.0
7361,10046,313,72.0
4840,10154,282,68.0
6753,10107,252,82.0
3782,10138,243,94.0
...,...,...,...
4683,10091,244,90.0
8704,10063,327,56.0
5303,10142,242,77.0
2801,10066,256,93.0


In [211]:
# copiar o dataframe reduzindo para 3 colunas (a sua escolha) e 1000 linhas (aleatórias)
# testando quantidade de linhas da amostra
df_amostra_1000.shape

(1000, 3)

In [212]:
#Bônus: normalizar coluna (qualquer uma)
# Para não esquecer o conceito de normalizacao = Normalizacao é o processo de ajustar os valores das colunas para um mesmo intervalo, geralmente entre 0 e 1

df_umidade = df['UMIDADE REL. MAX. NA HORA ANT. (AUT) (%)']
df_umidade.fillna(0)
df_umidade = pd.to_numeric(df_umidade)
df_normalizacao = (df_umidade - df_umidade.mean()) / df_umidade.std()
df_normalizacao

0      -0.297159
1      -0.297159
2      -0.187429
3      -0.077699
4       0.909875
          ...   
8755   -1.833385
8756   -1.284733
8757   -0.736081
8758   -0.626350
8759   -0.187429
Name: UMIDADE REL. MAX. NA HORA ANT. (AUT) (%), Length: 8760, dtype: float64

In [213]:
# Bônus II: pesquisar sobre outras formas de processamento de dados além das vistas em sala de aula

df.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8760 entries, 0 to 8759
Data columns (total 20 columns):
 #   Column                                                 Non-Null Count  Dtype  
---  ------                                                 --------------  -----  
 0   Data                                                   8760 non-null   object 
 1   Hora UTC                                               8760 non-null   object 
 2   PRECIPITAÇÃO TOTAL, HORÁRIO (mm)                       8756 non-null   object 
 3   PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)  8756 non-null   object 
 4   PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB)        8756 non-null   object 
 5   PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB)       8756 non-null   object 
 6   RADIACAO GLOBAL (Kj/m²)                                4735 non-null   object 
 7   TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)           8756 non-null   object 
 8   TEMPERATURA DO PONTO DE ORVALHO (°C)            

In [214]:
# Bônus II: pesquisar sobre outras formas de processamento de dados além das vistas em sala de aula
# index 3829 = 93.0

#loc retorna o valor do indice dado como parametro
df_umidade.loc[3829]


np.float64(93.0)

In [215]:
# Bônus II: pesquisar sobre outras formas de processamento de dados além das vistas em sala de aula
df_max_temp = pd.to_numeric(df['TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C)'],errors='coerce') # dados invalidos serao transformados em NaN retornando float
df_maxima_maior_25 = (df_max_temp > 25).sum()
df_maxima_maior_25

np.int64(535)

In [216]:
# Bônus II: pesquisar sobre outras formas de processamento de dados além das vistas em sala de aula
df_max_temp_zero = (df_max_temp == 0).sum()
df_max_temp_zero

np.int64(0)

In [219]:
# Bônus II: pesquisar sobre outras formas de processamento de dados além das vistas em sala de aula

df_radiacao = pd.to_numeric(df['RADIACAO GLOBAL (Kj/m²)'],errors='coerce')
df_radiacao.fillna(0)
df_radiacao_media = df_radiacao.mean()
df['RADIACAO GLOBAL (Kj/m²)'].fillna(df_radiacao_media,inplace=True) #False = returns a copy of the object
#If inplace = True, do operation inplace and return None.

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['RADIACAO GLOBAL (Kj/m²)'].fillna(df_radiacao_media,inplace=True) #False = returns a copy of the object


In [220]:
df

Unnamed: 0,Data,Hora UTC,"PRECIPITAÇÃO TOTAL, HORÁRIO (mm)","PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)",PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB),PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB),RADIACAO GLOBAL (Kj/m²),"TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)",TEMPERATURA DO PONTO DE ORVALHO (°C),TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C),TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C),UMIDADE REL. MAX. NA HORA ANT. (AUT) (%),UMIDADE REL. MIN. NA HORA ANT. (AUT) (%),"UMIDADE RELATIVA DO AR, HORARIA (%)","VENTO, DIREÇÃO HORARIA (gr) (° (gr))","VENTO, RAJADA MAXIMA (m/s)","VENTO, VELOCIDADE HORARIA (m/s)",Unnamed: 19
0,2023/01/01,0000 UTC,0,10092,10092,10088,1414.321962,262,218,263,261,22,217,78.0,77.0,77.0,77.0,47,13,
1,2023/01/01,0100 UTC,0,10094,10094,10092,1414.321962,261,22,263,26,22,218,78.0,76.0,78.0,90.0,47,1,
2,2023/01/01,0200 UTC,0,10091,10094,10091,1414.321962,26,22,263,26,223,22,79.0,78.0,79.0,79.0,5,",9",
3,2023/01/01,0300 UTC,0,10085,10091,10085,1414.321962,258,219,26,256,221,218,80.0,79.0,79.0,84.0,48,1,
4,2023/01/01,0400 UTC,34,10081,10085,10081,1414.321962,237,217,258,237,221,216,89.0,79.0,89.0,52.0,46,14,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8755,2023/12/31,1900 UTC,0,10046,10051,10046,16413,299,219,309,297,231,216,64.0,61.0,62.0,106.0,64,12,
8756,2023/12/31,2000 UTC,0,10048,10048,10045,6448,284,219,299,284,226,218,69.0,62.0,68.0,91.0,57,16,
8757,2023/12/31,2100 UTC,0,1005,10051,10048,1487,273,223,284,273,224,218,74.0,68.0,74.0,80.0,49,13,
8758,2023/12/31,2200 UTC,0,10053,10053,10049,1414.321962,27,223,273,27,223,221,75.0,73.0,75.0,65.0,43,1,
