# Exercício de Casa 🏠 

Utilizar a tabela de dados do clima de seu estado, manipule os dados de acordo com as instruções abaixo:

    - calcular a média da temperatura da amostra
    - retirar nulos da coluna 'RADIACAO GLOBAL (Kj/m2)'
    - copiar o dataframe reduzindo para 3 colunas (a sua escolha) e 1000 linhas (aleatórias)
    - Bônus: normalizar coluna (qualquer uma)
    - Bônus II: pesquisar sobre outras formas de processamento de dados além das vistas em sala de aula

In [78]:
import pandas as pd
import numpy as np
df = pd.read_csv('SALVADOR_2023.csv', delimiter=';', skiprows=8, encoding='latin1')

In [79]:
# calcular a média da temperatura da amostra

df_temperatura = df['TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)']
df_temperatura = pd.to_numeric(df_temperatura, errors='coerce')
df_temperatura = df_temperatura.replace(np.nan,0)

df_temperatura_media = round(df_temperatura.mean(),2)
df_temperatura_moda = round(df_temperatura.mode(),2)
df_temperatura_mediana = round(df_temperatura.median(),2)
df_temperatura_std = round(df_temperatura.std(),2)
df_temperatura_max = round(df_temperatura.max(),2)
df_temperatura_min = round(df_temperatura.min(),2)

print(f'média da temperatura ar - bulbo seco: {df_temperatura_media}')
print(f'moda da temperatura ar - bulbo seco: {df_temperatura_moda}')
print(f'mediana da temperatura ar - bulbo seco: {df_temperatura_mediana}')
print(f'desvio padrao da temperatura ar - bulbo seco: {df_temperatura_std}')
print(f'máx temperatura ar - bulbo seco: {df_temperatura_max}')
print(f'min temperatura ar - bulbo seco: {df_temperatura_min}')

média da temperatura ar - bulbo seco: 2.75
moda da temperatura ar - bulbo seco: 0    0.0
Name: TEMPERATURA DO AR - BULBO SECO, HORARIA (°C), dtype: float64
mediana da temperatura ar - bulbo seco: 0.0
desvio padrao da temperatura ar - bulbo seco: 8.05
máx temperatura ar - bulbo seco: 33.0
min temperatura ar - bulbo seco: 0.0


In [91]:
# retirar nulos da coluna 'RADIACAO GLOBAL (Kj/m2)'

df_radiacao = df['RADIACAO GLOBAL (Kj/m²)']

print(f'Qtd de nulos na coluna radiacao: {df_radiacao.isnull().sum()}') 

df_radiacao_sem_null = df_radiacao.dropna()

print(f'Qtd de nulos após remoção de nulos: {df_radiacao_sem_null.isnull().sum()}') 

Qtd de nulos na coluna radiacao: 4025
Qtd de nulos após remoção de nulos: 0


In [105]:
# copiar o dataframe reduzindo para 3 colunas (a sua escolha) e 1000 linhas (aleatórias)

df_amostra_1000 = df[['PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)','TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C)','UMIDADE REL. MAX. NA HORA ANT. (AUT) (%)']].sample(1000)
df_amostra_1000


Unnamed: 0,"PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)",TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C),UMIDADE REL. MAX. NA HORA ANT. (AUT) (%)
165,10071,272,80.0
1761,10068,245,84.0
4831,10147,223,91.0
8416,10058,321,55.0
706,1007,268,76.0
...,...,...,...
3829,1013,265,93.0
4916,10133,257,76.0
2384,1007,251,88.0
6344,10099,234,86.0


In [106]:
# copiar o dataframe reduzindo para 3 colunas (a sua escolha) e 1000 linhas (aleatórias)
# testando quantidade de linhas da amostra
df_amostra_1000.shape

(1000, 3)

In [114]:
#Bônus: normalizar coluna (qualquer uma)
# Para não esquecer o conceito de normalizacao = Normalizacao é o processo de ajustar os valores das colunas para um mesmo intervalo, geralmente entre 0 e 1

df_umidade = df['UMIDADE REL. MAX. NA HORA ANT. (AUT) (%)']
df_umidade.fillna(0)
df_umidade = pd.to_numeric(df_umidade)
df_normalizacao = (df_umidade - df_umidade.mean()) / df_umidade.std()
df_normalizacao

0      -0.297159
1      -0.297159
2      -0.187429
3      -0.077699
4       0.909875
          ...   
8755   -1.833385
8756   -1.284733
8757   -0.736081
8758   -0.626350
8759   -0.187429
Name: UMIDADE REL. MAX. NA HORA ANT. (AUT) (%), Length: 8760, dtype: float64

In [118]:
# Bônus II: pesquisar sobre outras formas de processamento de dados além das vistas em sala de aula

df.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8760 entries, 0 to 8759
Data columns (total 20 columns):
 #   Column                                                 Non-Null Count  Dtype  
---  ------                                                 --------------  -----  
 0   Data                                                   8760 non-null   object 
 1   Hora UTC                                               8760 non-null   object 
 2   PRECIPITAÇÃO TOTAL, HORÁRIO (mm)                       8756 non-null   object 
 3   PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)  8756 non-null   object 
 4   PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB)        8756 non-null   object 
 5   PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB)       8756 non-null   object 
 6   RADIACAO GLOBAL (Kj/m²)                                4735 non-null   object 
 7   TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)           8756 non-null   object 
 8   TEMPERATURA DO PONTO DE ORVALHO (°C)            

In [119]:
# Bônus II: pesquisar sobre outras formas de processamento de dados além das vistas em sala de aula
# index 3829 = 93.0

#loc retorna o valor do indice dado como parametro
df_umidade.loc[3829]


np.float64(93.0)

In [133]:
# Bônus II: pesquisar sobre outras formas de processamento de dados além das vistas em sala de aula
df_max_temp = pd.to_numeric(df['TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C)'],errors='coerce') # dados invalidos serao transformados em NaN retornando float
df_maxima_maior_25 = (df_max_temp > 25).sum()
df_maxima_maior_25

np.int64(535)

In [134]:
# Bônus II: pesquisar sobre outras formas de processamento de dados além das vistas em sala de aula
df_max_temp_zero = (df_max_temp == 0).sum()
df_max_temp_zero

np.int64(0)

In [153]:
# Bônus II: pesquisar sobre outras formas de processamento de dados além das vistas em sala de aula

df_radiacao = pd.to_numeric(df['RADIACAO GLOBAL (Kj/m²)'],errors='coerce')
df_radiacao.fillna(0)
df_radiacao_media = df_radiacao.mean()
df['RADIACAO GLOBAL (Kj/m²)'].fillna(df_radiacao_media, inplace=False)

0       1414.321962
1       1414.321962
2       1414.321962
3       1414.321962
4       1414.321962
           ...     
8755         1641,3
8756          644,8
8757          148,7
8758    1414.321962
8759    1414.321962
Name: RADIACAO GLOBAL (Kj/m²), Length: 8760, dtype: object